A100 80GB SXM4 GPU W(와트) 문의 드립니다.

한중일   
   조회 1150   추천 0    

http://GPU (44)

안녕하세요. 고수님 문의 사항이 있어 글 올립니다. 

1. 장비명 : DELL Poweredge XE8545

2. OS : Ubuntu 22.04.5 LTS (GNU/Linux 6.8.0-48-generic x86_64)

3. GPU : 4X A100 80GB SXM4 GPU

4. 드라이브 버전 : 565.57.01 / CUDA Version : 12.7

현재 장비 사용중인 GPU의 전력은 275W로 사용중이고  전력 리미트는 최저 100W( TDP)에서 최대 275W (TDP)책정되어 있습니다.(4개 모두 동일함)





해당 GPU 확인 결과 최대 사용 가능한 전력은 500W(TDP)인데 어떻게 해야지 해당 전력을 사용할수 있는지요?

 

nvidia-smi --query-gpu=name,power.draw,power.limit --format=csv 명령어 입력 후 

sudo nvidia-smi -pl 300W로 새 전력 값을 넣었습니다. (테스트로 값을 입력함)





전력 리미트가 되어 있어

Provided power limit 300.00W is not a valid power limit which should be between 100.00W and 275.W for GPU

00000000:01.00.0 Terminatin early due to privious errors. 라는 메시지가 뜹니다. 

전력 리미트를 풀수 있는 명령어가 있는지요?

아니면 드라이브 버전 때문에 전력(TDP)가 제한되어 있는지요?


최대치 500W 까지는 사용할 수 있는지 고수님께 문의 드립니다. 


추 신 : 만약 전력 리미트를 풀고 400W~500W를 사용한다면 GPU 발열에 문제가 생길수 있는지도 같이 문의 드립니다. 


추가적으로 델 동영상을 찾아 보니 IDRAC9에서 

Power Cap Policy 정책이 저희 서버에서는 나오지 않는데 

바이오스 버전 때문에 그런것인지요?


현재 사용중인 서버의 바이오스 버전은 2.11.3 입니다.  

현재 저희 서버 상태 입니다. 




동영상 버전에는 

해당 내용과 같이 나오는데 펌웨어 문제인지 조언 부탁 드립나다. 






짧은글 일수록 신중하게.
병철 2024-11
파워서플라이 구성이 어떻게 되나요? 토카막이 장착되어 있나요?
한중일 2024-11
파워서플라이는 2400W * 4EA 장착 되어습니다.
병철 2024-11
실온은 몇도인가요? DL380 G10 테스트하시는거 보니까 심상치 않던데.
한중일 2024-11
IDC에서 운영중이고 IDC는 대략적으로 24~25도로 운영되고 있습니다.
병철 2024-11
서버가 느끼기엔 아닌가봐요..
한중일 2024-11
실온 문제로 gpu TDP가 제한 될 수 있나요?
     
병철 2024-11
아뇨 그냥 농담해봤습니다. 죄송합니다.
박문형 2024-11
만일 문제되는 서버가 DELL 쪽의 기술지원을 받을수 있다면 기술지원을 받아보세요..


제가 생각하기에는

파워는 2400W x 4 라서 최대 스팩이다.. (인터넷으로 해당 모델 리뷰글은 본 결과)

Nvidia 에서 나온 스팩에서는 TDP는 해당 모델이 400W 인지라 각 GPU당 400W 이상 전기를 공급해 줄 수 있어야 한다..

TDP는 최대 전력 사용량이 아니다.. 실제로 CPU든 GPU든 TDP 최대 상태로 돌리게 되면 실제 전력 사용량은 더 크다..



시스템은 DELL 이고 아마도 GPU도 DELL 파츠로 봐야 하는데 (다른데서 낱개로 구해와서 짜집기 한다면 어찌될지 모르지만 아마 기술지원도 거부될지도)

모라모라해도 제조사가 해당 서버는 재일 잘 알기에 제조사의 기술지원이 재일 확실하다라고 생각합니다..

아마도 펌웨어 구성이나 셋팅 아니면 몇가지 전용파츠가 없는 그런 문제일 확률이 큽니다..

펌웨어와 바이오스는 최신이 좋다고는 하지만 최신이라고 꼭 버그가 없다라고는 단정하지 못하며 보통 안정화된 재일 많이 사용되는 버젼이 있기에

그것이 어떤 버젼인지 기술지원쪽에 확인해보시기 바랍니다..
     
박문형 2024-11
그 외

파워 모듈 하나가 2400W 이기에 재대로 테스트 되려면 대략 벽에서 나오는 독립적인 콘센트 2개 구멍 중에 하나씩만 꼽아서 총 콘센트 단자 4개가 필요합니다..

즉 테스트 환경이 저 서버를 확실하게 돌리지 못하는 환경일 수도 있습니다..


현재 파워의 서버 상태 화면은 2400 x2 + 2400 x 2 상태(2+2)로 4800W로 셋팅되어 있는 것으로 보여지며

만일 다른 셋팅이 있다면 2400 x3 + 2400 상태(3+1)로 총 7200W 로 셋팅이 가능할지 모르겠습니다..
SXM4 방식의 A100 80G 를 PCIe 로 개조한 카드를 사용하고 계신것 같네요.
일단 SXM4 를 개조한 카드는 OEM 이라고 판매를 하고들 있는데 NVIDIA 에서 공식적으로 만들지 않은 모델 입니다.
SXM4 방식의 카드를 다 뜯어서 PCIe 로 중국에서 임의 개조된 모델이라고 보면 됩니다.
그럼으로 개조 할 때 어떻게 했는지에 따라 동작이 다르게도 될 수도 있습니다.
오리지날 A100 80G SXM4 는 최대 400W 전력을 사용하며, 오리지날 A100 80G PCIe 는 최대 300W 전력을 사용합니다.
epowergate 2024-11
전력 리미트를 풀수 있는 명령어가 있는지요?

푸는게 어렵지는 않은데 제조사에서 왜 제한을 걸었는지 생각해 보세요


QnA
제목Page 51/5724
2015-12   1765460   백메가
2014-05   5240013   정은준1
2024-11   870   오퍼레잇
2024-11   1151   한중일
2024-11   1010   핑크젤리
2024-11   878   맨홀홍
2024-11   647   술이
2024-11   883   장동건2014
2024-11   904   shis0902
2024-11   647   Sakura24
2024-11   879   아마데우쓰
2024-11   990   오성기
2024-11   868   ikaros7
2024-11   925   미우지시언
2024-11   888   hyunsa
2024-11   701   stones
2024-11   1103   군인1
2024-11   899   항공모함
2024-11   952   꼬소
2024-11   1282   헥사코어
2024-11   975   무쏘뿔처럼
2024-11   1082   무쏘뿔처럼