딥러닝 머신에 수냉쿨러? 이게 과연... 정답일까요?

   조회 3860   추천 0    

오늘 사내 연구팀 팀장왈

딥러닝 머신 하나더 뽑아달라! 그래서 돈달라고 하니까 사장님이 견적 뽑아서 넣으라고..


일단.. 메인보드 이런건.. 그냥 기존대로 쓰면될것이고

대당 8대 장착이니..


뭐이래저래 견적이야 제가 스스로 뽑고 계산을 해봤으나


GPU 에 수냉 블럭 달아서 수냉으로 하자면서...

아니.. 서버실 에어컨 빵빵하게 돌아가는대.. 구지...


10대 전부다.. 수냉 달려면 케이스 부터 커스텀 해야하는대...

과연.. 딥러닝 머신에 수냉이 필요 있을까요?


내일 아침에 사장님과 한판 해야해서..

제 머리론 도무지 수냉이 필요없다 라고 생각되는대..

하여튼.. 연구원들 마인드를 이해할수 없어... 물어봅니다..

짧은글 일수록 신중하게.
Sikieiki 2022-03
수냉 터지면 개박살날텐데 책임지실 수 있으시다면 하라 하시죠...허허허
     
등짝과지갑 2022-03
안터지게 작업하면 되긴한대... 8대 x 10 어후.. 머머리 될거같아서.. 겁이납니다.. 아 맞다 나 이미 대머리지..
          
Sikieiki 2022-03
100%안터지게는 말 할수가 없습니다
철로만들어진 공압튜브나 기타 장비들도 세월에 못이기고 터지는데....
10초만에 뚜껑열고 작업할 거리에 있는게 아니면 공냉이 답입니다....
박문형 2022-03
보통 수냉이 냉각능력이 더 좋다라고 생각하고 수냉을 하면 조용해집니다..

그러나 당해본 사람은 잘 압니다..

수냉 돌리다가 국물새서 푸지직 빠지직

그리고 진짜 수냉이 그리 좋다라고 한다면 왜 엔비디아는 수냉을 채택하지 않았을까요??

GPU 모델이 무엇인지 모르겠지만 8way 정도되면 PCIe 방식 말고 SXM 방식인가요?? NV-Link 쓴 것  그것이 재일 낫다라고 생각합니다..

PCIe 방식이 아예 나쁜 것은 아니지만 GPU 전원 코드 조립이 잘못되면 불 납니다.. (저는 실제 불났다는 소문을 들어서 )

소비자는 자연스럽게 불났으니까 AS해달라고 하지만 본래 불난 것은 AS가 안됩니다..

그리고 엔비디아가 만든 SXM 방식 소켓 과 NV-Link 는 PCIe 방식보다 퍼포먼스가 더 좋습니다..

불날 걱정도 적어지고 (내부 전원케이블을 안쓰니) 전기만 더 크게 먹일수 있으면 PCIe 보다 더 높은 모델의 GPU도 붙일수 있습니다..

https://www.nvidia.com/ko-kr/data-center/a100/
     
등짝과지갑 2022-03
예전 직장에서 엔지니어가 불낸거 봤습니다 직접 제앞에서.. -_-;;
화력이 아주 그냥...
          
박문형 2022-03
GPU 다 터지면 대략 몇천만원에서 억단위죠??

수리도 안됩니다..

엔비디아 코리아 들고 가서 검증해달라고 하면 우리는 그런 것 못하고 태웠으니 느희 잘못이다 라고 하지요..

그런데 불난 것은 어느 제조사나 AS 수리가 불가능합니다..
     
병철 2022-03
그렇게나 좋아하시는 NVIDIA 오리지널 머신 중 하나인 DGX Station은 수냉 방식을 채택하고 있습니다. 여건에 따라 다른 거죠.
          
박문형 2022-03
그런가요??

그러면 그거 쓰면 되겠네요..
               
병철 2022-03
적절한 솔루션을 추천하는 것도 능력이라고 생각합니다. SXM 타입 GPU가 8-Way씩 장착되는 서버 가격은 저보다 더 잘 아시겠죠?..
     
dateno1 2022-04
수냉이 제대로하면 냉각 효율이나 관리면에서 횔씬 낫습니다

심지어는 데이터 센터의 서버군을 통으로 수냉으로 하는곳도 늘어나는중입니다 (각 서버의 주요 부분을 수냉으로 냉각후 중앙 집중식으로 냉각 관리)
박문형 2022-03
서류 만들어서 수냉 쓰다가 문제 생기면 너가 다 책임진다 라고 하시고 도장 받으세요..

함부로 도장 못 찍을 겁니다..

https://www.youtube.com/watch?v=sl61lHwo3YE
     
등짝과지갑 2022-03
음.. 보고서 만들어야겠군요..
저도 솔직히 좀 겁이 납니다..
제가 혼자쓸거면 뻘짓이라도 해보겠는대
이거 한대면.. 차한대값인대.. -_-;;
이 팀장놈 내일 좀 갈궈야 할듯..
아니 생각을 해도 수냉이라니..
이래서.. 문과들은.. 하튼.. 보고서 작성하러갑니다..
          
박문형 2022-03
아니면 느그들 하고 싶은대로 해주겠지만 문제 생기면 나는 빠진다라고 서류 만들어 보세요..

국물 샜다가 전산실 통째로 불나고 폭파되는 꼴 보고 싶은지..

그것보다 장비 들여 오면 전력 문제 해결이 쉽지 않겠네요..
맣맣 2022-03
예전 ibm에서 서버쪽에 수냉한다고 하는거 본적있습니다만 어떻게 됐는지는 모르겠네요
진짜 강한 풍량이 필요한 상황이시라면 시로코팬을 설치해서 강제로 뽑아내거나 넣어주는 방법도 있습니다
물론 소음은 그근처에서 대화가 불가능할정도가 되겠지만요
제대로된 수냉아니고 그냥 피팅꽂고 그런거라면 피하라고 말씀드리고 싶습니다 괜히 서버에 공랭이 들어가는게 아닙니다
고장시에 교체도 힘들고 가격도 비싸고 위험도도 너무커요
     
dateno1 2022-04
터지는 위험보다 열을 뺼 자리가 없는게 더 큽니다

보통 서버 1~2U인데, 이런 케이스에 라디에이터 다는건 공간상 문제가 됩니다

심지어는 타워형 서버나 웤스테이션조차 배선이나 공간 문제로 잘 안 채택됩니다 (수냉인데 라디에이터가 통으로 붙어있어서 통으로 올리는 괴랄한 구조를 택한 경우도 있습니다)

결국 서버에서 수냉을 할려면 전용으로 커스터마이징된 케이스랑 히트파이프를 쓰고, 다시 이걸 렉단위로 중앙 집중으로 모아서 외부로 열을 뺴는식으로 가야합니다 (렉단위로 주문 생산 안 하는한 이런식으로 가능할리 만무하니 안 나오는겁니다)



추신 : 참고로 타워에 시퓨 수냉하는 경우는 꽤 있어서 주문 (올해만 10대정도) 들어옵니다 (애도 터지면 구조상 그래픽 끔살 확정인데 3090같은거 넣어서 납품했습니다)
          
맣맣 2022-04
전에 ibm뉴스에서 본거는 구리파이프로 연결되어 중앙에서 쿨링하더라구요
50도 정도의 온도를 유지한다고 했었습니다 라디에이터는 건물외부로 빼구요
               
dateno1 2022-04
서버를 수냉으로 할려면 그렇게 해야하는데, 1대씩 팔면 못하잔아요

그러니 도입율이 저조해지죠
                    
맣맣 2022-04
그거도 그거지만 만약 고장이 있을경우 교체가 힘들다는것도 이유일 수 있습니다
쿨링팬일 경우 그냥 모듈 사다가 갈아끼우면 몇분만에 끝나는데 수냉일 경우 굉장히 힘들죠
ibm의 경우 idc전체에 배관공사를 다 하고 랙까지 배관이 다 가있더라구요
                         
dateno1 2022-04
사실 저런거면 렉 통쨰로 세트로 1대의 솔루션입니다
박문형 2022-03
https://www.youtube.com/watch?v=4Np1HnWiHb4

요게 슈퍼마이크로에서 개발중인 듯합니다만 국물통이 더 큽니다..

https://www.youtube.com/c/ServeTheHomeVideo/videos?view=0&sort=dd&shelf_id=0

ServeTheHome

이 사이트 유튜브 꾸준하고 홈페이지 잘되어 있고 서버쪽 뉴스가 빨라서 좋아 합니다..
병철 2022-03
보드 뭐 쓰시는데요? GPU 8장 장착이 고려 된 보드인가요? 그런 보드 아니면 PCIe 슬롯이 다닥다닥 붙어 있는 보드로 조립 하는게 보통일텐데.. 8장 다는 거면 블럭 붙여서 커스텀 수냉 하는 방법 외에 방법이 있나요? 블럭 달면 보통 1슬롯으로 떨어지니까요.
     
등짝과지갑 2022-03
일단 보고서 작성해서 드랍시키고 저는 빠져야죠..
저는 다른팀 관리하기도 벅차서 흑흑
          
병철 2022-03
커스텀 수냉은 얼마나 사용자가 관심을 가지고 관리하냐에 따라 달린 것 같습니다. 솔직히 직접 조립한게 아니면 유지보수는 구매 업체에 맞겨도 되니까요.
다양한 업체에서 납품된 커스텀 수냉 조립 GPU 시스템을 보고, 들어본 경험으로는 사용자의 관심도에 따라 오래 쓰느냐 터트려먹느냐가 갈리는듯 합니다.
GPU 온도가 몇도인지 팬은 잘 도는지도 모르고 쓰는 곳이 많더군요. 그리고 관리 여건이 안 되는 건 드랍하시는게 맞죠.
페선생 2022-03
단호하게  모르는건 지시하지 마라 하세요 문제생기면 100퍼 덤테기 씌웁니다
커스텀 수냉은 터졌을때를 무조건 고려해야 합니다.
문제발생시 풀 시스템 교체 제깍 해주는 밴더사 제품으로 가던지 수냉을 포기하던지 둘중 하나 선택하셔야 할거같습니다.

8WAY 딥러닝 시스템에 자작이나 조립업체에서 작업한 커스텀수냉은 말도 안되는 이야기입니다.
수냉 구성이 문제가 아니라, 문제 생기면 누가 책임지나요? 무료로 A/S가 될 가능성도 별로 없겠지만 여튼 A/S된다고 해도 그 기간동안 공백은 어떻게 처리할건가요?
자기PC처럼 붙어서 관리해줄 인력이 있나요? 이런거 다 고려하다보면 결국 답이 없는 이야기입니다.

참고로 중소 벤더중에 풀 커스텀 수냉으로 딥러닝 장비 납품하는데가 좀 있고, 문제(누수)생기면 장비채로 1:1 교환도 되는걸로 알고있습니다.
비용은 꽤 비싸더군요.

덤으로 요새 새로 구축되는 대기업?IDC의 경우 수냉을 위한 배관이 이미 매립되어 있는 경우가 많습니다.
다만, 그렇다고 커수를 탑재한 장비를 올리는건 아니고, 밴더사 장비가 아예 데이터센터용으로 수냉 탑재해서 납품됩니다. (인텔, 델, 등등... 여러군데서 다 수냉 납품합니다)
카드형 시스템은 아직 없는거같고 A100 V100 같은 녀석들에 수냉 탑재되서 나오구요... 그냥 요런 녀석들도 있다고...

요약 : 돈을 많이 쓰시면 해결됩니다^^ 선택은 사장님의 몫이겠네요.
     
등짝과지갑 2022-03
기존 장비들은 제가 항상 붙어서 관리하다보니.. 여태 탈이 없었습니다
수냉은.. 개인적인 장비 면에서나 해봤지 실사용으로 운영은 별로 해본적이 없어서..
그래서 여기다 문의를 굴려본건대
역시나 저의 생각과 일치하여.. 현제로선 보고서 작성하고
저는 탈출 하려고 합니다
안그래도 장비 관리한다고 잠도 제대로 못자는대...
수냉 시스템까지 덤탱이 쓰면 어후.. 피가더 말라 버릴듯..
제 개인 장비는 수냉으로 4웨이로 운영중입니다
2년 사용했으나 문제는 없었으나 관리소홀 되면 그냥 요단강 갈거 같습니다..
특히나 서버실에 넣었다가 작살나면 다른것까지 다 말아먹을테니..
제온프로 2022-04
굳이 수랭 하실 필요는 없습니다.
수냉이기 때문에 발생되는 문제가 또 있어서. 3~4년 이상 운영해야 할 서버에는
하지 않습니다.

에어컨 관리만 잘 하시면 될겁니다.

에어컨의 고장 /  사내 정전 / 관리자의 실수 등..
이런 문제가 자주 발생하는 편이며.. 서버에 치명적입니다.
이에 UPS 병용 운영으로 커버 하세요..
Myrdal 2022-04
알아두셔야 할것이 몇가지 있습니다.

1. 수냉은 비용상 절대 저렴하지 않습니다.

4way ~ 8way GPU 라면 커스텀수냉 혹은 제조사 완제품 수냉인데, 커스텀수냉이 상대적으로 완제품 수냉보다 저렴하지만 구성 비용 생각하면 절대 저렴하지 않습니다.
또한 꾸준히 유지보수비용 (인력or외주) 역시 만만치 않게 들어갑니다.

2. 공냉 시스템 대비 하이 리스크 로우 리턴 에 해당됩니다.

공냉 시스템에서 GPU 온도를 80도 이하로 유지할 수 있다면 수냉 시스템 대비하여 손해보는 성능은 0에 가깝습니다.
또한 시스템 쿨링을 잘 신경쓴다면 24도 수준의 실내(서버실x) 에서도 풀로드 80도 이하로 유지하는게 가능합니다. (4way 등 멀티GPU 기준)
이경우 수냉시스템에서 얻는 잇점은 오직 상대적 저소음, 혹은 1slot GPU 라는 두가지 옵션정도만 유용한듯합니다.

커스텀 수냉이라면 무조건 말리시는게 좋을듯 합니다.


QnA
제목Page 4225/5703
2014-05   5118036   정은준1
2015-12   1653608   백메가
2017-09   3786   막울었어요
2018-08   3786   욕심쟁e
2016-08   3786   지니보이
2017-08   3786   씨형
2023-10   3786   Uinx
2014-06   3786   원상현
2018-08   3786   epowergate
2022-01   3786   쓰레기단장
2014-11   3785   시나브로
2017-03   3785   서정욱
2015-11   3785   김대평
2018-10   3785   하양까망
2016-09   3785   허허허허
2016-02   3785   회로쟁이
2015-02   3785   황진우
2017-07   3785   stone92김경민
2013-12   3785   NiteFlite9
2023-10   3785   건약
2017-10   3785   섭이님
2015-06   3785   성민박