3일동안 4번 죽었습니다.
같은 랙에 더 심한 부하가 걸리는 HP DL120 G7이 4대 더 있으니,
IDC 랙의 쿨링이 문제는 아닙니다.
나와 있는 로그로 봤을 때...
CPU 부근에 있는 쿨링팬의 문제?
==> 부팅 로그를 보면 쿨링팬은 모두 정상 입니다.
보드의 온도센서 문제?
==> 설마...
무엇일까요?
콘솔에서 나오는 메시지 입니다.
Broadcast message from root@kcolo122-76 (Wed Apr 9 15:09:31 2014):
A System Reboot has been requested by the management processor in 60 seconds.
Broadcast message from root@kcolo122-76 (Wed Apr 9 15:09:31 2014):
The system shutdown has been cancelled by the management processor.
hpsum으로 추출한 로그
1365 Repaired 00:17 04/09/2014 00:17 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1366 Information 00:17 04/09/2014 00:58 04/09/2014 0005
LOG: Automatic Operating System Shutdown Due to Overheat Aborted
1367 Repaired 00:33 04/09/2014 00:33 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)
1368 Repaired 00:33 04/09/2014 00:33 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1369 Repaired 00:34 04/09/2014 00:34 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 77C)
1370 Repaired 00:34 04/09/2014 00:34 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1371 Repaired 00:36 04/09/2014 00:36 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 40C)
1372 Repaired 00:36 04/09/2014 00:36 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1373 Repaired 00:58 04/09/2014 00:58 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)
1374 Repaired 00:58 04/09/2014 00:58 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1375 Repaired 01:10 04/09/2014 01:10 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 60C)
1376 Repaired 01:10 04/09/2014 01:10 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1377 Information 01:10 04/09/2014 01:27 04/09/2014 0002
LOG: Automatic Operating System Shutdown Due to Overheat Aborted
1378 Repaired 01:27 04/09/2014 01:27 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 77C)
1379 Repaired 01:27 04/09/2014 01:27 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1380 Repaired 03:01 04/09/2014 03:01 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)
1381 Repaired 03:01 04/09/2014 03:01 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1382 Information 03:01 04/09/2014 03:57 04/09/2014 0008
LOG: Automatic Operating System Shutdown Due to Overheat Aborted
1383 Repaired 03:16 04/09/2014 03:16 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)
1384 Repaired 03:16 04/09/2014 03:16 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1385 Repaired 03:21 04/09/2014 03:21 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)
1386 Repaired 03:21 04/09/2014 03:21 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1387 Repaired 03:21 04/09/2014 03:21 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 80C)
1388 Repaired 03:21 04/09/2014 03:21 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1389 Repaired 03:36 04/09/2014 03:36 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)
1390 Repaired 03:36 04/09/2014 03:36 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1391 Repaired 03:40 04/09/2014 03:40 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 78C)
1392 Repaired 03:40 04/09/2014 03:40 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1393 Repaired 03:51 04/09/2014 03:52 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 78C)
1394 Repaired 03:51 04/09/2014 03:52 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1395 Repaired 03:56 04/09/2014 03:57 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 79C)
1396 Repaired 03:56 04/09/2014 03:57 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1397 Repaired 05:32 04/09/2014 05:32 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 77C)
1398 Repaired 05:32 04/09/2014 05:33 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
1399 Information 05:32 04/09/2014 05:35 04/09/2014 0002
LOG: Automatic Operating System Shutdown Due to Overheat Aborted
1400 Repaired 05:35 04/09/2014 05:35 04/09/2014 0001
LOG: System Overheating (Temperature Sensor 2, Location CPU, Temperature 77C)
1401 Repaired 05:35 04/09/2014 05:35 04/09/2014 0001
LOG: Automatic Operating System Shutdown Initiated Due to Overheat Condition
온도가 아래위로 맘대로 바뀌고 있습니다.
로그상으로 보면 Temp2 센서에 걸리는 씨퓨나 메모리나 그런게 문제가 있다는 것으로 보여집니다.
그러나 실물보고 하나하나 해봐야 되는데 만만한 일은 아니죠.
1년동안 멀쩡하다가 지난주에 IDC에 가서 얼굴보고 왔더니 갑자기 그러네요.
주인이 오랜만에 와서 반갑다고 재롱떠는거도 아니고...
1년동안 아무런 문제도 없다가요.
즉.....
온도센서 문제일 확률이 제일 높고요.
혹시 사제 ssd 들어가 있는애는 아닐까 생각해 봅니다.
사제 ssd는 온도센서에서 온도 체크 못해서 쿨러가 풀로드로 돌다가 재부팅되죠.
이는 버그가 아닌 서드파트의 사용이 문제인 것입니다.
두번째는... 온도센서 고장입니다.
메인보드 교체가 답이고요.
마지막으로 총체적인 임시 해결책은 위의 경우가 맞다면..
진짜 온도가 올라간것이 아니라는 가정이나 위의 문제로 꺼지는 것이 확실!!!하다면
ASR을 디져블 시키시면 됩니다.
하지만 이럴경우 위의 경우가 아니였다면
서버에 불이날수도 있으므로 샌중하셔야 합니다.
ASR은 검색해보시면 아실수 있을것이고
현재 로그는 ASR이 작동되어 재부팅 된것입니다.
SSD 호환정보는 일전에 제가 쪽지로 드렸으니 알고 계시리라 생각합니다.
SSD를 HP에서 안정적으로 쓰시고 싶으시다면
벤더 정품 사용을 추천드립니다.
(과부하 서버가 아니라면 굳이 정품까진.....)
온도와는 무관하고,
어차피 P410 밑에 들어가는거라, 정품이나 사제나...
온도센서 교체로 판단되어, 메인보드 AS를 진행하기로 했습니다.
온도가 순간적으로 몇십도씩 오르 내리는 것은 센서 불량인거죠.
즉 hp서버와는 실시간 통신하며 이 레이드 카드는 서버 로그에도 남습니다.
이 통신으로 인하여 하드 온도를 식히기 위한 온도센서가 동작되어
디스크 후면 팬의 속도가 좌우 되는 것이고요.
디스크 후면 팬...
즉 cpu전면 팬은 cpu 온도를 식히기 위한 팬이 아님도 참고하시면 좋을듯......
이것이 바로 hp 펌웨어의 힘 아닐까 싶네요.
물론 서드파트에도 hp펌웨어를 언즐수 있는 능력자분이 계신다면
하드웨어 문제는 어느정도 스스로 해결하실수 있을 것이고요.
참고로....... 메인보드 내장형에도 p410이 붙어 있는 애들 많습니다.....