서버 멈춤 현상

Ibory   
   조회 5522   추천 0    

 안녕하세요..최근에 GPU서버를 조립후 돌려봤습니다. 문제는 계속 서버가 멈추는 현상이 있네요...ㅠ몇시간~며칠뒤에 서버가 멈춰서 뭐가 문제인지도 모르겠습니다 ㅠㅠ


Os: 우분투 20.04 lts

메모리: ddr4 2400t 32gb *24개 장착

Ssd 480gb*2 , 7.68tb

Gpu: rtx 3090*4개 장착

파워 1600w*4

Cpu E5-2690v4*2

https://www.supermicro.com/en/products/system/4U/4028/SYS-4028GR-TR.cfm

사용중인 서버입니다


문제를 영 모르겠네요 ㅠㅠ 도와주신다면...감사합니다

..
짧은글 일수록 신중하게.
박문형 2021-09
GPU가 서버에 어떤 순서로 꼽혀 있나요??

구매한 곳이나 해당 슈마 수입원 AS센터에서는 모라고 하나요??

https://www.supermicro.com/support/resources/OS/OS_Certification_Intel.cfm?MProduct_Name=SYS%2D4028GR%2DTR

해당서버는 래드햇 밖에 호환성 검증이 안된 것으로 보여집니다..

메모리 24개는 다 같은 회사 같은 모델인가요??
     
Ibory 2021-09
넵...삼성 메모리로 했습니더
     
Ibory 2021-09
Gpu인식은 됩니다...문제는 몇시간 ~ 며칠 지나면 서버가 그냥 멈추더라고요
          
박문형 2021-09
서버가 그냥 멈추는 원인은 여러가지가 있을수 있고 밝혀지지 않으면 풀지 못합니다..
박문형 2021-09
https://www.supermicro.com/support/resources/OS/C612_X10_list4.cfm

보드만 놓고 보면 우분투 14 /15 버젼 정도에서 SATA /SAS 환경에서만 호환성이 검증되어 있습니다..

구매한 곳에 기술지원 해달라고 하세요..

구매한 곳에서 어디 AS센터로 연락해라 하면 거기 연락해서 기술지원 받으세요..
epowergate 2021-09
이 제품은 사용자가 조립하는 제품이 아니고
RTX3090이 검증된 장비도 아닙니다.
이것 만으로도 잘못될 수 있는 원인이 너무나 많습니다.
우선 서버내부 온도가 25C 이하를 유지하는지 부터 확인해 보세요
     
Ibory 2021-09
30~40도 정도입니다
박문형 2021-09
Gpu: rtx 3090*4개  ==> 어느 회사 제품인가요??
     
Ibory 2021-09
갤럭시입니다
박문형 2021-09
첨부 사진에서 2번 GPU는 펜이 죽은 것(에러났음)으로 나오네요..
     
Ibory 2021-09
네..ㅠㅠㅠ
박문형 2021-09
첨부 사진에서 GPU-Util 이 GPU에 들어가는 부하인 듯한데 4개 다 100% 부하는 주지 못하시나요??
     
Ibory 2021-09
해당 부분 확인후 댓글 달겠습니다
박문형 2021-09
GPU 100% 부하 주다가

GPU가 못 버티고 고장나거나 심하면 타거나

시스템이 못버티고 뻗거나 심하면 죽어버리거나

할 수 있으니 조심해야 합니다..

우선 10이나 20% 4개 다 부하를 주게 해보고 견디면 조금씩 부하를 늘려보세요.. (시간 마니 걸립니다..)

그리고 전기를 무지 먹고 열도 무지나기 때문에 사용하시는 곳 전기가 모자르면 전원 차단기 내려갈 수도 있습니다..



GPU 시스템은 계산 시작하면 모든 GPU가 풀로 돌아가면서 동작하고 그런 식으로 몇 달씩 돌려도 뻗지 말아야 합니다..

구축하는데 돈 좀 들었을텐데 고장나거나 타버리면 답이 안나옵니다.. (보통 타버리면 수리 거부 당합니다..)
김경철 2021-09
일단 저 ERR 로 표시되는 GPU부터 교환해야 할것 같습니다.
저게 가끔씩 멈추는 원인이 될수 있습니다.

로드 걸린상태로 돌아갈때 ipmitool sdr 명령으로 각종 센서 상황 살펴보시기 바라고,
그때의 GPU 온도하고 팬 돌아가는 % 확인해야 할 필요 있어 보입니다.

갤럭시 어떤 모델인지 모르겠으나 공기가 뒷쪽으로 배출되는 블로워 타입이 갤럭시에 있던가요?

굳이 350W로 써야 할 이유가 있는것이 아니라면 280W나 250W로 돌리시는거 추천합니다.

저도 전에 처음 3090 사서 350W로 풀 로드 걸어서 며칠 돌리니까 저렇게 ERR!이라고 나오고,
해당 GPU관련 설정 해보려고 하니까 자꾸 멈추고, 리부팅하니까 인식 되다말다하고... 그러더군요.
교환받고나서는 겁나서 그냥 250W로만 돌리고 있습니다.
     
Ibory 2021-09
갤럭시 rtx 3090 블로워 타입 있더라구요... err경우 재부팅 하니깐 사라졌습니다
     
Ibory 2021-09
다른 서버들도 갑자기 서버 멈추느 경우가 있더라고요...저 1대 서버만 그런게 아니라..
          
박문형 2021-09
혹시 리눅스 로그분석은 가능하신가요??

아니면 BMC 로그 캡춰 가능하신가요??
               
Ibory 2021-09
잠시만요...혹시 이게 ssd랑도 관련이 있을까요?
삼성 ssd해서 문제된 경험이 있다고 해서...인텔  ssd로 한다면...
                    
박문형 2021-09
SATA SSD라면 속도가 문제가 될수 있지만 그외에는 별 문제는 없을텐데요..

왜 문제가 되었는지 아시나요??

NVME M.2 U.2라면 레이드 보드에서 묶을때 인텔 것만 쓸수 밖에 없지만 지금 사용하는 시스템에서는 관계 없을텐데요..
                         
Ibory 2021-09
헉...pm 883 480gb *2
7.68tb 씁니다...sata니깐 상관은 없을거 같네요 ㅠㅠ
진짜 뭐가 문제인지 모르겠네요
                         
박문형 2021-09
https://www.intel.com/content/dam/support/us/en/documents/memory-and-storage/ssd-software/Intel_VROC_Supported_Configs_7_5.pdf

이거 이야기입니다만 스케일러블 CPU 부터 적용이 됩니다..

삼성 기업용 SSD면 벤더서버에서도 마니 사용됩니다..
감자 2021-09
cpu 사양은 어떻게 되나요?
     
Ibory 2021-09
E5-2690V4*2입니다
박문형 2021-09
제가 보는 문제점

시스템과 OS가 호환이 안된다 : 제조사에서 호환된다는 자료가 없다..  사용자가 검증해야 한다..

시스템과 3090 호환성이 없다 : 본래 쿼드로 같은 GPU 용도로 제작된 시스템이다..  사용자가 검증해야 한다..

시스템이 3090 GPU 전기 먹는 양을 견디지 못한다 : V100 검증되었는데 이게 250W인가 300W가 최대일 것이다 .. 제조사가 검증해줘야 한다..

BIOS와 BMC가 최신인지 아니면 검증된 것인지 모르는 상태이다..


그 외

메모리가 진짜 문제가 없는지 모른다.. (불량메모리도 있을수 있다..)


우선 시스템 멈추는 문제를 잡을려면 어디엔가 있을 에러메세지를 찾아야 합니다..

OS에서 부팅로그나 그런데 에러가 나타날수 있고
서버보드 BMC에서 에러가 나타날수도 있습니다..

대략 5~10대쯤 굴리시는 듯한데 한 두푼도 아니고 이거 판 슈마 총판이나 구매한 곳은 무슨 말 없나요??

각개전투로 부품만 구입해서 본인이 다 구축하셨다면 본인이 다 풀수 밖에 없습니다..
     
Ibory 2021-09
헉..알겠습니다 ㅜㅜ 일단 답변을 해주셔서 너무 감사합니다!
     
Ibory 2021-09
6대중 2대는 안멈추고 잘되는데 4대가 말썽이네요...
박문형 2021-09
일단 시스템 1대만 놓고

#1 : BIOS와 BMC 를 최신으로 업데이트 한다..

#2 : BMC 에 들어가서 에러로그를 확인하고 로그를 다 지운다..

#3 : https://www.memtest86.com/ 리눅스 베이스 메모리 테스트 프로그램을 다중코어 상태로 장시간(몇일) 돌려서 메모리와 CPU에 문제가 있는지 확인한다..

      메모리 용량도 다 뜨는지 확인한다.. 너무 많은 램은 프로그램이 못 따라가서 다 채크를 못할수도 있다..
 
      메모리 에러가 난다면 BMC 에러로그를 확인하고 불량메모리를 교체하던지 청소를 하던지 해서 문제를 없앤다..

#4 : https://www.netlib.org/benchmark/hpl/

      하이 퍼포먼스 린팩을 리눅스에 설치하여 장시간 돌려본다..
 
      이 프로그램은 CPU와 메모리에 100% 부하를 주고 메모리를 계속 여러번 테스트한다.. 스탑 명령어를 주어야 멈춘다..

      시스템이 불안하면 이 프로그램 돌리다가 시스템이 고장날 수 있기에 조심해야 한다.. 시스템이 뜨끈뜨끈해진다..

      안정도 확인을 위해 몇일 돌려본다


이 정도 테스트 해서 패스 하면 시스템의 CPU와 메모리는 문제가 없다라고 할 수 있습니다..
     
Ibory 2021-09
감사합니다!! 한번 시도 해보겠습니다. GPU가 문제라면... 슬플거 같네요.ㅠㅠㅠ
     
Ibory 2021-09
Gpu사용량 늘리면서 해봤는데...서버가 멈추는거 같습니다.
이정도면...발열로 인해서 발생이 되는걸까요?
제온프로 2021-09
GPU 3번 (4개중) 은 죽은 것 같습니다..

죽은놈은 일딴 빼 보세요...

윈도우 이벤트로그에 보면 답이 있을 겁니다..
     
Ibory 2021-09
재부팅 하니깐 다시 정상적으로 잡히더라구요...그래도 저 gpu가 문제일까요?
마스코트 2021-09
우선은 다른 OS에서 HW 스트레스 테스트를 하셔서 문제가 있는지 확인하여 HW상태가 정상인지 확인 해보셔야 할 듯 하고
OS 상의 로그 메세지 또는 서버에서 제공되는 로그 메세지 기록을 확인 해보셔야 할 듯 합니다

아니시면 hw 상태를 최소부팅(1P 최소메모리) 상태로 만들고
작업을 해보셔서 접근해보셔도 될 듯 합니다

현재의 문제가 hw 아니면 sw 문제인지 원인부터 찾아봐야 할 듯 합니다
     
Ibory 2021-09
IPMI에서...로그 확인해봤습니다.1대는 메모리 문제여서 교체 했구요...나머지 서버가 멈출때 로그는 안뜨네요...발열로 인해서 멈춘다면 로그에 안뜰까요?
          
마스코트 2021-09
시스템이 멈추면 로그는 못남길수 있다고 봅니다

Cpu 1P,
최소메모리
장착 GPU는 모두 제거
그래도 멈추시는 한번 보시고 그래도 멈춘다고하면
Cpu다른 나머지 cpu를 장착해보시고 해보시면 어떠실지?

지금 상황으로는 장애에대란 원인이 뚜렷하게 나와있지 않기때문에
저라면 무엇때문에 멈춘다는 원인을 하나하나 검증 해볼거 같네요
 동일한 서버가 더 있으신듯 한데  동일한서보는 문제가 없다면 비교를 해보셔야 합니다
               
Ibory 2021-09
6대중 2대는 몀춤적이 없교...4대가 문제네요..흠..
Ibory 2021-09
아무런 작업을 안해도 서버가 멈추네요
공백2 2023-11
해당 현상 조치 되었나요 ?
이후 내용이 궁금합니다!
     
저도 궁금합니다!


QnA
제목Page 3023/5718
2014-05   5212660   정은준1
2015-12   1743931   백메가
2008-07   5518   정영철
2017-05   5518   성민박
2007-06   5518   김윤술
2008-01   5518   오세윤
2015-02   5518   online9
2018-06   5519   꿈꾸는베빈야
2016-03   5519   준바이
2006-11   5519   김창윤(k)
2005-09   5519   홍현철
2015-09   5519   철이님
2016-07   5519   김건우
2018-11   5519   박중석
2007-01   5519   정태수
2009-08   5519   임종열
2006-01   5519   노정래
2007-12   5520   이정찬
2009-03   5520   김주용s
2007-11   5520   조대헌
2012-05   5520   봉삼이2
2007-01   5520   최창현