딥러닝 서버 다운에 대한 조언을 부탁드립니다.

   조회 1538   추천 0    

안녕하세요. 

개인용 딥러닝 서버를 구축하여 사용중에 서버가 비주기적으로 reboot이 되는 현상이 지속적으로 발생하여.. 혼자 해결점을 찾아보았지만 여기 선배분들께도 조언을 구하고자 대뜸 문의글을 남깁니다. 부디 조그마한 도움이라도 부탁드립니다.


먼저 서버 스팩은 다음과 같습니다.

OS: 우분투 18.04 sever

Cpu: i9-9820x

메인보드: msi x299 토마호크

Ram: 삼성 ddr4 16g 2ea

Vga: 

- gigabyte 2080ti 터보포스(블로워타입) 2ea

Zotac 1080ti blower 1ea (총 3way)

저장장치: 

- ssd(sata) 1ea 

- ssd(nvme) 1ea

- hdd 1ea

파워: 시소닉 1300 골드 모듈러타입

쿨링: 

- cpu 수냉쿨러(쿨러마스터 240L)

- 시스템팬 8ea 


증상으로는, 3개 gpu에 거의 풀로드로 실험을 돌리게되면, 항상 일정하진 않지만 경험적으로 12시간 안에 서버가 재부팅이 걸립니다. 

하지만, syslog 등을 참고했을때 어떤 이유로 서버가 죽었는지 명확한 error 로그는 찾아보기 힘들었습니다.


개인적으로 예상되는 바로는 파워의 용량문제로 보이는데

(3개 gpu 각각의 로드를 줄이거나, 2개 gpu 조합으로만 실행했을때 정상실행)

궁금한점은 2080ti와 1080ti의 소비전력이 300w 안쪽으로 알고 있는데.. 만약 맞다면 제 시스템의 파워용량이 많이 부족하다고 볼 수 있을까요?


인터넷의 다양한 조립글을 참고했을 대 1600w 파워로 4way 환경을 많이들 구축하는 것 같아, 1300정도면 충분할 줄 알았던 것이 오산이 였을까요?


아니면, 다른 문제를 의심해봐야할까요?


참고로, 소프트웨어적인 문제는 다양한 방면으로 검증을 해보았기에 일단 배제하고 있습니다.


선배님들께서 조언을 주시면 감사히 참고하겠습니다.

감사합니다.

이원기
박문형 08-11
그런 듯합니다..

정격 1300W파워라도 모두 비디오카드로 가는 것은 아니니까요...

그 외는 메모리인데 혹시 메모리 테스트 프로그램으로 재일 가혹한 셋팅으로 테스트 해서 최소 5번이상 10번 이상 돌려서 패스 했나요??

NVME는 혹시 뜨거워져서 트로틀 걸리거나 셧다운 되지 않나요??

GPU 서버 4way 이상급은 대략 파워를 2000와트 대로 사용하는 듯합니다..

문제는 조립 파워는 2000와트 대가 거의 없습니다..
     
감사합니다. 메모리는 테스트 프로그램으로 검증해봤고 저 역시 메모리 문제 일 수도 있겠다는 생각에
삼성 고객센터에 맡겨 진단도 해봤으나 이상 무 였습니다.

그렇다면, 흔히 조립pc 포스팅을 하는 여러 네이버블로그 글들에서 2080ti 4way 조립시 커세어 1600i 제품을 많이 사용하는걸 보았는데, 이 구성 역시도 파워가 턱걸이 수준일 수 있겠네요?
          
권짱 08-30
4개 기준 1600w- 1700w 면 됩니다. 전용 장비 제조사도 1600w(1+1) 파워가 공급되며, 저희도 ATX 1700W로 제안합니다.  꼭 문제 해결하시고, 후기 듣고 싶습니다.
파워가 턱걸이입니다
과부하시는 더 먹습니다.
     
감사해요. 우선 파워를 새로 구매했으니 교체 후 지켜봐야할 거 같아요. 감사합니다
세슘 08-11
남는 파워 있다면 글픽 한두개 전원만 다른걸로 연결해보고
학습시키는건 어떨까요
추가 파워에 24핀잭 끝부분에 무언가 쇠붙이같은거 꼽아두면
전원공급시 그냥바로전기들어왔던걸로 기억하는데
아니면 이름이기억은 안나는데 첫번째파워 켜지면 같이켜지는게 있습니다
     
네 정말로 파워 이슈라면 추가로 서브 전원을 구성하는 방법도 고민 중입니다. 감사드려요
박문형 08-11
https://www.supermicro.com/en/products/system/4U/7048/SYS-7048GR-TR.cfm

어지보면 이런 검증된 시스템이 재일 속 편합니다..
제온프로 09-14
파워 부족입니다...

정확하게 12V를 계산하여 보세요..

총 1300W 는 의미가 없습니다..

12V를  각 280W 씩 정확하게 줄수 있는지에 대한 확신이 있어야 합니다...
그리고 열이 난걸 또 정확하게 다 빼 줄수가 있어야 합니다...

Dell T7910은 1300W 80plus 파워를 사용하지만...... RTX 2080 Ti 3장을 못 돌립니다.. 2장만 가능..

4장 돌리는데 1600W로 돌린다고요.. ..    모험입니다..  파워 스팩을 봐야 하겠지만 .. 3~4년 돌리기에 가능할지...
제온프로 09-14
그리고 CPU도 잘못 선택 하셨네요..

상기 CPU는 지원 할 수 있는 PCI Lane 이 40 Lanes 이군요...

GPU 3장이면.. 48 Lanes 이 필요하고요...
다른 장치 전혀 설치 하지 않아도.. Lanes 수가 모자랍니다..

올바른 설계가 아니군요... 돌아는 갈겁니다..




제목Page 1/7
2014-05   2882158   정은준1
2014-04   2585058   회원K
11-12   263   tpp52
11-12   454   tpp52
11-11   268   경기북
10-29   564   존쓴즈로션
10-23   698   MS77
10-21   396   MikroTik이진
10-10   885   leeplay
10-09   801   iyah4888
09-30   973   KIMS99
09-22   844   MikroTik이진
09-19   1341   공돌
09-18   1506   자연
09-02   1158   백만스물하나
08-18   2059   딥린이
08-11   2520   비와서코털…
08-11   1539   긍정공돌이
08-09   1678   오월의행복
07-29   2697   deepdi
07-29   1613   워터보이
07-20   2132   김지철