HP DL380p Gen9 서버 다운 현상

앙크   
   조회 5075   추천 0    

안녕하세요.

오랫만에 질문 올립니다.

서버 한 대가 구동중에 부하도 적은 상황에서 자주 다운되는 현상이 발생합니다.

1. HP DL380p Gen9

2. Xeon 2699v3 * 2 CPU

3. Samsung DDR4 2133P(HP Part LRDIMM) 32GB Memory * 4 

4. Intel P3700 2TB u.2 

5. OS : Xcp-ng 

6. 구동되는 VM 1개(Windows 2019 Standard.), 로드 없음


위의 환경에서 2~3일에 한 번씩 다운이 발생합니다. 


다운되었을 경우 증상은 다음과 같습니다.

1. Fan 풀로드 작동

2. 콘솔로 접속 시 Xcp-ng의 shell prompt가 떠있고, 엔터 시 다음줄로 이동은 되나 모든 명령어에 반응 없음

3. 재부팅 후 정상동작


어떤 부분들이 의심스러운지 조언 부탁 드립니다.


고맙습니다.


ipmi sel list


Rolling stone has no moss.
짧은글 일수록 신중하게.
박문형 2020-09
4. Intel P3700 2TB u.2 : ==> HP 정품 파츠인가요??

2. Xeon 2699v3 * 2 CPU : ==> 사용 HP 서버에 동작 검증이 되었나요??
     
앙크 2020-09
조언 고맙습니다.

4. Intel P3700 2TB u.2 : ==> HP 정품 파츠인가요??
  -> 넵. HPE Part 입니다.

2. Xeon 2699v3 * 2 CPU : ==> 사용 HP 서버에 동작 검증이 되었나요??
  -> QuickSpecs 문서에 지원하는 Processor에는 E5-2699v3이 리스트에 있습니다. 다른 검증이 필요할까요?
  -> HP DL380 gen9 (2.5" 8Bay) 에서는 동일 상황에서(VM 1개 동작) 다운은 없는 상태입니다.
박문형 2020-09
2. Xeon 2699v3 * 2 CPU : ==> 사용 HP 서버에 동작 검증이 되었나요??
  -> QuickSpecs 문서에 지원하는 Processor에는 E5-2699v3이 리스트에 있습니다. 다른 검증이 필요할까요? ==> 다른 검증 필요 없습니다..
  -> HP DL380 gen9 (2.5" 8Bay) 에서는 동일 상황에서(VM 1개 동작) 다운은 없는 상태입니다.



시스템을 장시간 다운시키거나 서비스를 하지 않아도 된다면 리눅스 베이스의 메모리테스트 프로그램으로 장기간 메모리테스트를 해보시던지

전체시스템에 부하를 줄수 있는 번인 프로그램으로 장기간 돌려서 에러가 나오는지 확인해보세요..


시스템의 IPMI 로그에서 에러메세지는 있으신가요??
     
앙크 2020-09
메모리 테스트는 진행해보겠습니다.
(OS 재설치는 어려움이 있어서, USB로 Linux 부팅하는 방향으로 알아보겠습니다.)

IPMI 로그에서는 최근 이벤트는 안보이는 상황입니다.
(본문에 스크린샷 첨부)
          
박문형 2020-09
본문 스크린 샷에서는 4월때 파워 모듈이 하나 죽어서 문제가 되었던 듯합니다..

그 후에는 어찌되었는지는 잘 모르겠군요..

로그가 더 생성 안되었으니 파워는 둘 다 잘 동작한다고 봐야겠죠..

메모리 테스트 프로그램은

https://www.memtest86.com/

이거 받아서 USB에 생성시키면 됩니다..
epowergate 2020-09
ILO Log 보시는게 제일 빠릅니다.
CPU  (heatsink) 쪽 문제로 보이긴 하지만...
     
앙크 2020-09
iLO 포트는 연결되어 있지 않은 상황입니다.
연결하여 접속해 로그 확인해 보겠습니다.
고맙습니다!!
1. ilo 초기화
2.ilo 업데이트 및 bios 업데이트
3. 파워 바꾸기(전원케이블도 포함)
4. 메모리 바꾸기
5. cpu 접점 청소
4. os 설치 (os 다시 설치가 어려우면 다른 SSD 꼽고 새로 설치하여 test)

보통 이정도면 ..(너무 다 적었네요 적고보니) ...
     
앙크 2020-09
문제에 대한 접근 방법을 이해할 수 있는 답변이었습니다.

고맙습니다. 하나씩 차근차근 시도해 보겠습니다.
제온프로 2020-09
아마도 XCP-NG에서 에러가 발행 한 것 같습니다..
메모리를 보니..

LRDIMM 32GB Memory * 4개 이군요...
이 사양이 맞는 지 모르겠네요...

Load Reduced DIMM 인데.. 이게 일반 서버에서 원할 할지..
주로 블레이드 서버나 Quad CPU 시스템에서 많이 사용하는 메모리 인데요..

Bank / Rank 계산법이 맞는지 ...
메모리 확인좀 해 보세요....

그리고 E5-2699 V3는 High Performance Heatsink를 요구하는데.. 혹시 잘 적용되었는지요??

그리고 ILO 들어가셔서 시스템 온도도 확인하세요...

예전에 P840i 가 열이 나서 자꾸 따운 된적이 있었습니다...
     
앙크 2020-09
메모리는 생각도 못해봤는데, 다른 아이로 변경해 봐야겠네요.

히트싱크는 일반모델입니다. (고성능 히트싱크로 변경해야 하겠네요.)

CPU 온도 문제로 예상되는 상황이네요.

친절한 댓글 고맙습니다.
김황중 2020-09
이거 뻔해요
해당 서버 cto로 위 구성하신것 아닐꺼구요
드래곤볼이 의심됩니다

일단 스펙시트 너무 믿지 마시고요
스펙시트 보실꺼면 note 부분도 정확히 잘 이해 하셔야 합니다

위 사양처럼 구성시 cto 찍는 hpe 셀러들도 못 찍는 사람 많아요
파트 구성이 않맞아서 오더 않되죠

그런데 드래곤 볼이면 당연히...!!!

만일 CTO 찍은건데 문제 생기거면
구입처에 해결하라고 던져주시면
현재는 구입후 3개월 당연히 지났겠지만
3개월 이내인경우는
저라면 DoA 판정해 버립니다


결국 결론은 서버가 2.3일이라도 런닝을 해주는것이 다행인것이고
이 책임은 위처럼 제한한 셀러나 구매자가 책임지면 됩니다

제가 항상 말하듯 용자이신분이 위처럼 구성한것일꺼에요

PS. 쓴소리만 해서 너무 죄송합니다...ㅠㅠ
옵션파트중 손댈부분이 쫌 되다보니
전 파트가 확인 가능한 CTO 사양서나 견적내용을 추가로 올려주시면
수정할 파트 남기겠습니다

근데 문제는 Gen9 단종이라 알려드려도 파트 구하기가 미션일수도 있습니다...^^;;
     
앙크 2020-09
넵. 파트별로 재구성한 서버입니다.

개발환경에서 VM으로 부하 테스트 할 용도로 설치한 3대 중 1대 입니다.
(운영환경은 총판에서 가이드 받고 Configuration To Order 들어갔던 아이라 큰 문제는 없습니다.)

동일한 구성으로 동일한 랙에서 1개 서버만 다운되는게 의문인 상황이였습니다.

한번 더 생각해보게 되는 조언이었습니다.

고맙습니다.


QnA
제목Page 2435/5708
2015-12   1677975   백메가
2014-05   5143831   정은준1
2022-01   4860   drama
2008-10   4860   송지훈
2016-09   4860   행아범
2014-11   4860   뭄바이
2006-07   4860   윤호용
2007-03   4860   강동오
2015-04   4860   정진환
2017-11   4861   DDAYs
2014-08   4861   파리대왕
2016-03   4861   신우섭
2016-01   4861   윤준형
2017-04   4861   맑은여름
2007-01   4861   서수봉
2014-10   4861   DOSS
2008-09   4861   박진국
2019-10   4861   Noname1
2016-09   4861   컴박
2017-12   4861   몬스터큐
2017-04   4861   빠시온
2017-11   4861   김대원