안녕하세요. 고수님 문의 사항이 있어 글 올립니다.
1. 장비명 : DELL Poweredge XE8545
2. OS : Ubuntu 22.04.5 LTS (GNU/Linux 6.8.0-48-generic x86_64)
3. GPU : 4X A100 80GB SXM4 GPU
4. 드라이브 버전 : 565.57.01 / CUDA Version : 12.7
현재 장비 사용중인 GPU의 전력은 275W로 사용중이고 전력 리미트는 최저 100W( TDP)에서 최대 275W (TDP)책정되어 있습니다.(4개 모두 동일함)
해당 GPU 확인 결과 최대 사용 가능한 전력은 500W(TDP)인데 어떻게 해야지 해당 전력을 사용할수 있는지요?
nvidia-smi --query-gpu=name,power.draw,power.limit --format=csv 명령어 입력 후
sudo nvidia-smi -pl 300W로 새 전력 값을 넣었습니다. (테스트로 값을 입력함)
전력 리미트가 되어 있어
Provided power limit 300.00W is not a valid power limit which should be between 100.00W and 275.W for GPU
00000000:01.00.0 Terminatin early due to privious errors. 라는 메시지가 뜹니다.
전력 리미트를 풀수 있는 명령어가 있는지요?
아니면 드라이브 버전 때문에 전력(TDP)가 제한되어 있는지요?
최대치 500W 까지는 사용할 수 있는지 고수님께 문의 드립니다.
추 신 : 만약 전력 리미트를 풀고 400W~500W를 사용한다면 GPU 발열에 문제가 생길수 있는지도 같이 문의 드립니다.
추가적으로 델 동영상을 찾아 보니 IDRAC9에서
Power Cap Policy 정책이 저희 서버에서는 나오지 않는데
바이오스 버전 때문에 그런것인지요?
현재 사용중인 서버의 바이오스 버전은 2.11.3 입니다.
현재 저희 서버 상태 입니다.
동영상 버전에는
해당 내용과 같이 나오는데 펌웨어 문제인지 조언 부탁 드립나다.
제가 생각하기에는
파워는 2400W x 4 라서 최대 스팩이다.. (인터넷으로 해당 모델 리뷰글은 본 결과)
Nvidia 에서 나온 스팩에서는 TDP는 해당 모델이 400W 인지라 각 GPU당 400W 이상 전기를 공급해 줄 수 있어야 한다..
TDP는 최대 전력 사용량이 아니다.. 실제로 CPU든 GPU든 TDP 최대 상태로 돌리게 되면 실제 전력 사용량은 더 크다..
시스템은 DELL 이고 아마도 GPU도 DELL 파츠로 봐야 하는데 (다른데서 낱개로 구해와서 짜집기 한다면 어찌될지 모르지만 아마 기술지원도 거부될지도)
모라모라해도 제조사가 해당 서버는 재일 잘 알기에 제조사의 기술지원이 재일 확실하다라고 생각합니다..
아마도 펌웨어 구성이나 셋팅 아니면 몇가지 전용파츠가 없는 그런 문제일 확률이 큽니다..
펌웨어와 바이오스는 최신이 좋다고는 하지만 최신이라고 꼭 버그가 없다라고는 단정하지 못하며 보통 안정화된 재일 많이 사용되는 버젼이 있기에
그것이 어떤 버젼인지 기술지원쪽에 확인해보시기 바랍니다..
파워 모듈 하나가 2400W 이기에 재대로 테스트 되려면 대략 벽에서 나오는 독립적인 콘센트 2개 구멍 중에 하나씩만 꼽아서 총 콘센트 단자 4개가 필요합니다..
즉 테스트 환경이 저 서버를 확실하게 돌리지 못하는 환경일 수도 있습니다..
현재 파워의 서버 상태 화면은 2400 x2 + 2400 x 2 상태(2+2)로 4800W로 셋팅되어 있는 것으로 보여지며
만일 다른 셋팅이 있다면 2400 x3 + 2400 상태(3+1)로 총 7200W 로 셋팅이 가능할지 모르겠습니다..
일단 SXM4 를 개조한 카드는 OEM 이라고 판매를 하고들 있는데 NVIDIA 에서 공식적으로 만들지 않은 모델 입니다.
SXM4 방식의 카드를 다 뜯어서 PCIe 로 중국에서 임의 개조된 모델이라고 보면 됩니다.
그럼으로 개조 할 때 어떻게 했는지에 따라 동작이 다르게도 될 수도 있습니다.
오리지날 A100 80G SXM4 는 최대 400W 전력을 사용하며, 오리지날 A100 80G PCIe 는 최대 300W 전력을 사용합니다.
푸는게 어렵지는 않은데 제조사에서 왜 제한을 걸었는지 생각해 보세요