Titan RTX에 대한 고찰

tpp52   
   조회 8799   추천 1    

최근 8-way Titan RTX 서버를 구입한 경험을 공유하고 싶어 이렇게 글을 남깁니다.

운용중 생긴 문제로는 1) 극심한 쓸로트링으로 일부 GPU는 사용불가 상태에 빠졌고, 2) NCCL에 필요한 Peer-to-peer가 정상작동하지 않았습니다.

1)번의 경우 GPU의 위치를 바꾸어 보니 정상작동하던 녀석(쿨링이 유리한 위치에 있었습니다)들도 쿨링이 불리한 위치에 가면 쓸로트링이 걸리고 사용불가하던 녀석들도 위치를 바꾸면 정상작동하는걸 보니 카드불량 문제는 아닌것으로 보입니다. 확실한 근거는 없지만 ... 눈으로 보았을때? 기존 Titan 시리즈와 쿨링방식이 상이하여 랙에 장착하는것 자체가 불리한것으로 개인적으로 추측합니다. 

2)번의 경우 분명 보드 펌웨어는 PCI-E를 통한 P2P를 지원하나 RTX에서만 안되는것으로 보아 ... 개인적인 추측은 드라이버에서 막은게 아닌가 싶습니다. P2P란 GPU간 데이터 통신을 말하는 말이고 단일 Neural Net을 멀티 GPU에서 돌릴때 gradient 및 기타 정보공유 등에 필요한 기능입니다. P2P는 NVLink방식 (Power CPU를 지원하는 서버에서 태생적으로 지원하고 데탑에서 카드 2개에 한해 NVLink Bridge로 구현 가능한 기능입니다), PCI-E 컨트롤러를 통한 방식, CPU를 통한 방식 3가지로 나누는데 대역폭의 비율은 대략 10:2:1입니다. 해외 블로그를 뒤져보면 멀티 GPU환경에서  처리속도차이는 100% : 90-95%: 85-90% 정도입니다. 어쨋든 RTX는 현재로선 가능 효율이 낮은 방식으로만 가능하다 입니다. 물론 2개만 사용한다면 NVLink도 가능해서 상관없지만요. 문제는 3개이상일 경우 보통 PCI-E를 통한 P2P가 불가능하다 보니 ... 다행히 실사용시 큰 차이 나지는 않지만 뭔가 손해본 느낌입니다. 

쓸로트링을 보여주는 그래프입니다.8개 차트는 각 GPU를 대표하고 x축은 시간(초), y축은 클럭(MHz)입니다. GPU에 각각 80%로드를 주고 측정했습니다. 1번과 3번에서 300Mhz (최저클럭)으로 내려가 사용불가상태에 빠진것을 확인할수 있고 두 카드는 서버에서 가장 불리한 위치인 구석에 놓인 위치와 가장 중간에 샌드위치로 끼운 녀석입니다. 6,8번도 쓸로트링이 있지만 기본클럭을 대부분 시간대에서 유지합니다. 2번,5번은 쓸로트링이 없이 풀 부스트클럭으로 작동하는데 통풍구가 바로 옆에 뚫려있어 그렇습니다. 

위 그림처럼 일반적으로 GPU뒤쪽은 보통 이렇게 뚤려있고 보시면 저기 방열판이 뒤면과 수직된 상태라 바람이 통과하기 용이합니다.

그러나 RTX는 ...

이런식으로 구멍이 ... 짜증나게 나있고 ... 내부 방열판이 뒤면과 평행으로!!! 되어 있어 바람이 통과하기 굉장히 불리합니다!!!

대신 바람은 저 그림 기준으로 왼쪽으로 통과하여 케이스 내부에서 처리하게 되어 있습니다. 그러나 이것을 랙서버에 수직으로 꽂을 경우 ...

저 왼쪽은 바로 랙 상판에 막혀 있습니다!!! 방열이 되는게 이상하죠!

결론은 ******는 ㄱㅅㄲ입니다. 


TRUE 2019-02
*비밀글입니다
     
tpp52 2019-02
고맙지만 방향을 바꿀수 없을뿐더러 근본적인 발열부터 문제가 되고 있는 상황입니다 .. 에효
          
TRUE 2019-02
서버랙에 설치되어 방향 전환이 어려운 경우 같네요.
               
tpp52 2019-02
맞습니다 ㅠ
박문형 2019-02
에구 고생이 많으십니다..

대략 이 시스템일텐데 슈마에서는  테슬라 그리드 같은 것만 보증하고 있군요..

https://www.supermicro.com/products/system/4U/4029/SYS-4029GP-TRT2.cfm

https://www.supermicro.com/support/resources/gpu/

슈마 본사에서 Titan RTX를 테스트 하고 개런티 하느냐가 문제가 되겠네요..

제 생각에는 가능하다면 GPU를 다른 것으로 바꾸는게 답인 듯합니다..

열축적는 누구도 못 견딥니다..
     
tpp52 2019-02
당연히 GPU작동 문제에 대해선 개런티가 불가능합니다. 이건 RTX뿐만 아니라 모든 Titan 시리즈도 똑같습니다.
GPU는 다음세대 24GB가 나오면 몰라도 바꾸는건 있을수 없는 일입니다. V100 32GB 버전이면 모를까 ... 그러면 돈이 4배가 필요하죠 ... GPU가격만 1억입니다 ...
그리고 임시방편으로 해결은 보았기에 좀 더 근본적인 해결법을 찾는중입니다...
          
박문형 2019-02
그나마 다행입니다..
TRUE 2019-02
*비밀글입니다
     
tpp52 2019-02
음 AS가 안될뿐더러 ... 물이 새면 ... 보드가 수평인 구조라 ...
          
TRUE 2019-02
위험하네요. ㅠㅠ
박문형 2019-02
https://www.tyan.com/doc/support_lists/GPU/TYAN_GPU_Supporting_Lists

요건 일종의 경쟁업체인 TYAN의 GPU 검증 리스트 입니다..

슈마보다는 내용이 디테일 합니다..

문제는 부하 걸면 80-90도인거 더 큰 문제네요.. 뜨끈뜨끈하겠습니다..
     
tpp52 2019-02
역시 Tesla 뿐이고 온도가 40도를 넘어가지 않네요 ... 예전에 K40을 쓸때도 60도 언저리였던거 같습니다.

지금은 풀로드시 85도 정도로 맥시멈클럭 가능하게 만들었습니다만 ... 더 좋은 쿨링을 위해 커스텀 케이스 상판에 추가 팬 장착을 생각하고 있습니다 ...
박문형 2019-02
GPU 부분만 뚜껑 따고 이런게 국내 재대로 있을지 모르지만

https://www.rackmountsolutions.net/ft900ha1bk-1u-fan-tray-9-fans/

요런거 구하셔서 강한 바람을 마구 넣는수 밖에 없어 보입니다..

그 외 CPU쿨러는 히트 씽크 말고 액티브 쿨러로 바꾸는 것도 나쁘지 않습니다..
     
TRUE 2019-02
900 CFM
정말 시원하겠습니다.
TRUE 2019-02
*비밀글입니다
박문형 2019-02
지금 사용하시는 케이스는 GPU 전용이지만 샤시 자체가 하나의 큰 덕트 역활을 한다고 보셔도 됩니다..

그 외 찬바람이 GPU코어까지 재대로 못닿는 구조적인 문제가 재일 크고요..
TRUE 2019-02
*비밀글입니다
     
tpp52 2019-02
감사합니다, 달수 있는지는 모르겠네요
박문형 2019-02
https://www.asrockrack.com/general/productdetail.asp?Model=3U8G%2b/C621#Specifications

이 회사 제품이 좀 많이 투박하지만 열문제는 조금 덜할 듯합니다..

모양만 그런 것이고 호환성이나 그런건 저 사이트에서는 잘 안나와 있습니다..
     
tpp52 2019-02
크고 아름다운 테슬라들이 보이는군요 ... 간격이 넓어 좋네요
JuneKang 2019-02
정말 고생 많이하셨네요...
경험에서 얻은 솔루션 공유해 주셔서 감사합니다.
     
tpp52 2019-02
마루타가 되었습니다 ..
파운더스 에디션을 블로우 포기할때부터 이런일생갈줄알았습니다
특히나 최고위급 제품일수록 특수용도로
 4way 6way쓰시는 분들이많은데 발열을 어찌감당할려고 이렇게만들었다나 싶었거든요~
수냉아니고서는 분명히 문제생길소지가 다분했죠~
     
tpp52 2019-02
엔비디아는 그런용도로 쓰라고 만든게 아니다로 일관하고 있습니다.
개인 웍스 작업 용도라고 합니다.
          
JuneKang 2019-02
공식적으로... 그런 답변을 했다면...강제 쿨링을 유저가 고민하는 수밖에 없군요...
NVIDIA입장에서는 GV100을 쓰라...고 얘기하고 싶겠지만, 괴씸하네요.
               
tpp52 2019-02
예전엔 그래도 Titan시리즈는 Tesla에 비해 16bit 부동소수점 연산도 block되고 RAM도 1/2 내지 1/3이어서 tesla가 확실한 매리트가 있었는데 ...
Titan RTX는 ... FP16, TensorCore, 24GB나 되는 전대미문의 램으로 출시되는걸 보고 의아하긴 했습니다 ... 왜 저러지 하고 ... 그랬더니 역시나
제온프로 2019-02
후방에 120mm 팬을 4개 설치 하셔서 돌려 주세요.. 2000~3000rpm 정도..... 상시로 돌려 주세요...
팬도 두꺼운 팬 38mm 된 놈으로요... 1A 이상으로요..


8개를 모두 수냉으로 하면 좋겟지만.. 구조상 할 수도 없으시고..

일단 후방 120mm 설치 하셔서 사정없이 열을 빼주세요..
에어컨 켜 주시고요...

일단은 저 상태로는 돌릴 수가 없습니다..

RTX 2080 Ti 가 망작이 되더니 350만원이나 되는 Titan RTX도 망작의 기운이 도는군요...

방열 만이 살길이군요.
Centigrade 2019-03
랙 케이스 상단 따고 쓰면 되긴 합니다. ASUS GPU 서버 중에 저런 놈 때문에 나온 별도 상판도 있었죠 3U 랙인데 커버 바꾸면 4U가 됩니다
색작업자 2019-05
결국 rtx 케이스를 사제로 바꾸는 것이 방법일 것 같군요. 사제 케이스가 어떤 것이 있는지 찾아봐야겠습니다.
xeonpt 2019-06
실내온도가 25도 넘지않게 해주시면 될텐데 , idc센터 실내적정온도 표준을 따라주시는게 렉형 케이스에 어울릴듯합니다.
jang 05-05
좋은 글입니다. 저는 딥러닝은 아니고 랜더링을 목적으로 메모리 많은 gpu를 찾다보니 rtx titan이 가성비가 좋은데 역시나 쿨러의 문제가 걸려서 어떻게해야하나 고민이 큽니다. 다른글을 보니 8way rtx titan을 구성해서 나온 문제점을 절실히 공감하고 이걸 어떻게 해결해야하나 방법을 찾고있는중입니다. 쿼드로는 가격대비 성능이 도저히 엄두가 안나고 그나마 타이탄인데...이넘들이 쿨러를 저모양으로 만들어놔서 혹시 어떤식 GPU온도를 잡았는지 알수 있을까요?
수냉을 안하고 그래픽카드 개조를 최소화하고 해결할수 있는 방법이라고는 백플레이트 제거하고 쿨러흡기를 그나마 유격을 만들어주는게 한계일것 같고 아니면 상부에 별도의 쿨러를 달아서 직접 바람을 불어주는 방법밖이 저의 한계인것같습니다.
전용 8way나10way 서버를 포기하고 2way 데탑식으로 여러개를 10g로 연결할까도 생각해보긴했는데...가격면에서는 이게 어찌보면 더 싸게 먹힐거같기도....
고민이 깊어지네요 하 ㅜㅜ

현재는 1080ti와 타이탄 xp로 구성된 8way서버를 4개 운영중인데 힘드네요




제목Page 5/9
2015-12   13818   백메가
2014-05   3024119   정은준1
2019-05   2905   JW마르니
2019-03   3801   시오훅이
2019-03   4120   불량사장
2019-03   3645   영가설
2019-03   6071   영가설
2019-02   4882   인천이승현
2019-02   3906   백만스물하나
2019-02   8800   tpp52
2019-02   4647   FC서울
2019-02   4186   tpp52
2019-01   3642   페르세우스
2019-01   8470   nmnn787
2019-01   3578   Tu7885
2019-01   2939   tyler
2019-01   3547   청개구리03
2019-01   5616   판타지스타
2019-01   2483   김진관
2018-11   3954   TooDockLab
2018-11   4393   엠브리오
2018-11   3146   백만스물하나