HP DL120 G7 - 뭐가 문제일까요?

회원K   
   조회 6843   추천 0    

3일동안 4번 죽었습니다.


같은 랙에 더 심한 부하가 걸리는 HP DL120 G7이 4대 더 있으니,

IDC 랙의 쿨링이 문제는 아닙니다.


나와 있는 로그로 봤을 때...


CPU 부근에 있는 쿨링팬의 문제?

==> 부팅 로그를 보면 쿨링팬은 모두 정상 입니다.


보드의 온도센서 문제?

==> 설마...


무엇일까요?



콘솔에서 나오는 메시지 입니다.

Broadcast message from root@kcolo122-76 (Wed Apr  9 15:09:31 2014):

A System Reboot has been requested by the management processor in 60 seconds.

Broadcast message from root@kcolo122-76 (Wed Apr  9 15:09:31 2014):

The system shutdown has been cancelled by the management processor.


hpsum으로 추출한 로그

1365 Repaired       00:17  04/09/2014 00:17  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1366 Information    00:17  04/09/2014 00:58  04/09/2014 0005
LOG: Automatic Operating System Shutdown Due to Overheat Aborted

1367 Repaired       00:33  04/09/2014 00:33  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)

1368 Repaired       00:33  04/09/2014 00:33  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1369 Repaired       00:34  04/09/2014 00:34  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 77C)

1370 Repaired       00:34  04/09/2014 00:34  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1371 Repaired       00:36  04/09/2014 00:36  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 40C)

1372 Repaired       00:36  04/09/2014 00:36  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1373 Repaired       00:58  04/09/2014 00:58  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)

1374 Repaired       00:58  04/09/2014 00:58  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1375 Repaired       01:10  04/09/2014 01:10  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 60C)

1376 Repaired       01:10  04/09/2014 01:10  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1377 Information    01:10  04/09/2014 01:27  04/09/2014 0002
LOG: Automatic Operating System Shutdown Due to Overheat Aborted

1378 Repaired       01:27  04/09/2014 01:27  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 77C)

1379 Repaired       01:27  04/09/2014 01:27  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1380 Repaired       03:01  04/09/2014 03:01  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)

1381 Repaired       03:01  04/09/2014 03:01  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1382 Information    03:01  04/09/2014 03:57  04/09/2014 0008
LOG: Automatic Operating System Shutdown Due to Overheat Aborted

1383 Repaired       03:16  04/09/2014 03:16  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)

1384 Repaired       03:16  04/09/2014 03:16  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1385 Repaired       03:21  04/09/2014 03:21  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)

1386 Repaired       03:21  04/09/2014 03:21  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1387 Repaired       03:21  04/09/2014 03:21  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 80C)

1388 Repaired       03:21  04/09/2014 03:21  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1389 Repaired       03:36  04/09/2014 03:36  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)

1390 Repaired       03:36  04/09/2014 03:36  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1391 Repaired       03:40  04/09/2014 03:40  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 78C)

1392 Repaired       03:40  04/09/2014 03:40  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1393 Repaired       03:51  04/09/2014 03:52  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 78C)

1394 Repaired       03:51  04/09/2014 03:52  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1395 Repaired       03:56  04/09/2014 03:57  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)

1396 Repaired       03:56  04/09/2014 03:57  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1397 Repaired       05:32  04/09/2014 05:32  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 77C)

1398 Repaired       05:32  04/09/2014 05:33  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

1399 Information    05:32  04/09/2014 05:35  04/09/2014 0002
LOG: Automatic Operating System Shutdown Due to Overheat Aborted

1400 Repaired       05:35  04/09/2014 05:35  04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 77C)

1401 Repaired       05:35  04/09/2014 05:35  04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition

- to be continue -
짧은글 일수록 신중하게.
이선규 2014-04
fan이나 cpu서멀구리스 체크해보세요.
     
회원K 2014-04
브랜드고 유지보수 계약중인 장비라서, 내일 보드교체 하기로 했습니다.
온도가 아래위로 맘대로 바뀌고 있습니다.
박문형 2014-04
HP의 고질적인 펌웨어 문제가 아닐까 짐작해봅니다.

로그상으로 보면 Temp2 센서에 걸리는 씨퓨나 메모리나 그런게 문제가 있다는 것으로 보여집니다.

그러나 실물보고 하나하나 해봐야 되는데 만만한 일은 아니죠.
     
회원K 2014-04
firmware는 최근 버젼입니다.

1년동안 멀쩡하다가 지난주에 IDC에 가서 얼굴보고 왔더니 갑자기 그러네요.
주인이 오랜만에 와서 반갑다고 재롱떠는거도 아니고...
박문형 2014-04
혹시 마이너스의 손 ???
     
회원K 2014-04
아무래도... 제가 다녀간 후에, 장비가 고장 났습니다.
1년동안 아무런 문제도 없다가요.
노리 2014-04
iml상 쿨링 문제입니다.

즉.....
온도센서 문제일 확률이 제일 높고요.

혹시 사제 ssd 들어가 있는애는 아닐까 생각해 봅니다.
사제 ssd는 온도센서에서 온도 체크 못해서 쿨러가 풀로드로 돌다가 재부팅되죠.
이는 버그가 아닌 서드파트의 사용이 문제인 것입니다.

두번째는... 온도센서 고장입니다.
메인보드 교체가 답이고요.

마지막으로 총체적인 임시 해결책은 위의 경우가 맞다면..
진짜 온도가 올라간것이 아니라는 가정이나 위의 문제로 꺼지는 것이 확실!!!하다면
ASR을 디져블 시키시면 됩니다.

하지만 이럴경우 위의 경우가 아니였다면
서버에 불이날수도 있으므로 샌중하셔야 합니다.

ASR은 검색해보시면 아실수 있을것이고
현재 로그는 ASR이 작동되어 재부팅 된것입니다.


SSD 호환정보는 일전에 제가 쪽지로 드렸으니 알고 계시리라 생각합니다.
SSD를 HP에서 안정적으로 쓰시고 싶으시다면
벤더 정품 사용을 추천드립니다.
(과부하 서버가 아니라면 굳이 정품까진.....)
     
회원K 2014-04
사제 삼성 840pro SSD가 들어 있지만, P410 밑에 있습니다.
온도와는 무관하고,
어차피 P410 밑에 들어가는거라, 정품이나 사제나...

온도센서 교체로 판단되어, 메인보드 AS를 진행하기로 했습니다.
온도가 순간적으로 몇십도씩 오르 내리는 것은 센서 불량인거죠.
          
노리 2014-04
p410은 hp 레이드 카드입니다.
즉 hp서버와는 실시간 통신하며 이 레이드 카드는 서버 로그에도 남습니다.

이 통신으로 인하여 하드 온도를 식히기 위한 온도센서가 동작되어
디스크 후면 팬의 속도가 좌우 되는 것이고요.

디스크 후면 팬...
즉 cpu전면 팬은 cpu 온도를 식히기 위한 팬이 아님도 참고하시면 좋을듯......

이것이 바로 hp 펌웨어의 힘 아닐까 싶네요.
물론 서드파트에도 hp펌웨어를 언즐수 있는 능력자분이 계신다면
하드웨어 문제는 어느정도 스스로 해결하실수 있을 것이고요.

참고로....... 메인보드 내장형에도 p410이 붙어 있는 애들 많습니다.....


QnA
제목Page 1589/5723
2015-12   1756326   백메가
2014-05   5229479   정은준1
2004-12   6847   손재훈
2012-02   6846   2CPU최주희
2013-04   6846   브로콜리
2004-09   6846   권준오
2015-01   6846   서울사람
2004-12   6846   박종대
2007-04   6846   서성일
2008-10   6846   배정한
2010-11   6846   방o효o문
2016-12   6846   스풀
2015-06   6845   병맛폰
2004-09   6845   최창현
2004-10   6845   권재범
2009-11   6845   폰쥬
2005-01   6845   남철우
2004-11   6845   김동민
2017-11   6845   장동건2014
2013-04   6845   TeaRoom
2011-06   6845   데이비드
2005-01   6844   하승협