HPE DL360 G10 서버를 최근 납품했습니다.
디스크 Bay 2번에 Disk(SSD) 가 갑자기 Failed 되었습니다.
그래서 어제 신규 파트를 받아서 교체 했고 rebuild 가 진행되었습니다.
그런데 또 Failed 가 됩니다.
그래서 이번에는 뺐다가 다시 꼽아봤습니다. 이번에는 Rebuild 이 OK가 됐는데,
오늘 오전에 또
Slot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to predictive failure
가 되면서 떨어져 버립니다.
문제는 신규 재고 파트가 없어서 바로 조치가 안되는 상황입니다.......... 울고 싶습니다.
Slot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to predictive failure
이게 정확히 어떤 상황이고 저 메시지가 의미 하는게 디스크 장애에 대한 의미가 맞습니까?
이러면,,, 진짜 에러인데... ㅠ_ㅠ
내일 납품 검수 해야 하는데..... 돌아버리겠습니다..
166 | Critical | Drive Array | Slot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to Failed | 05/12/2022 11:39:19 | 1 | Hardware |
167 | Caution | Drive Array | Slot 0 Storage - Volume 1 status changed to degraded | 05/12/2022 11:39:19 | 1 | Hardware |
168 | Informational | UEFI | 1787-Slot 0 Drive Array Operating in Interim Recovery (Degraded) Mode. Failed drive(s): Port: 1I, box:1, bay: 2 (SATA) Action: Use a configuration utility to identify and troubleshoot errors or find drives to replace. | 05/13/2022 05:35:48 | 1 | Administration |
169 | Caution | UEFI | 1784-Slot 0 Drive Array - Drive Failure. The following disk drive(s) should be replaced: Port: 1I, box:1, bay: 2 (SATA) Action: Reseat cables and drive. Replace defective cables, drives, or both. | 05/13/2022 05:35:48 | 1 | Hardware |
170 | Repaired | Network | HPE Eth 10Gb 2p 535T Adptr Connectivity status changed to OK for adapter in slot 2, port 1 | 05/13/2022 05:37:03 | 1 | Hardware |
171 | Repaired | Network | HP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 1 | 05/13/2022 05:37:03 | 1 | Hardware |
172 | Repaired | Network | HP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 2 | 05/13/2022 05:37:03 | 1 | Hardware |
173 | Repaired | Network | HP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 3 | 05/13/2022 05:37:03 | 1 | Hardware |
174 | Repaired | Network | HP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 4 | 05/13/2022 05:37:03 | 1 | Hardware |
175 | Critical | Drive Array | Slot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to Failed | 05/13/2022 05:37:22 | 1 | Hardware |
176 | Caution | Drive Array | Slot 0 Storage - Volume 1 status changed to degraded | 05/13/2022 05:37:22 | 1 | Hardware |
177 | Repaired | Drive Array | Slot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to Ok | 05/16/2022 04:09:23 | 1 | Hardware |
178 | Repaired | Drive Array | Slot 0 Smart Array - SSD Wear Status Level Ok: Port 1I Box 1 Bay 2 | 05/16/2022 04:09:23 | 1 | Hardware |
179 | Caution | Drive Array | Slot 0 Storage - Volume 1 status changed to readyForRebuild | 05/16/2022 04:09:23 | 1 | Hardware |
180 | Caution | Drive Array | Slot 0 Storage - Volume 1 status changed to rebuilding | 05/16/2022 04:10:23 | 1 | Hardware |
181 | Critical | Drive Array | Slot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to Failed | 05/16/2022 04:30:53 | 1 | Hardware |
182 | Caution | Drive Array | Slot 0 Storage - Volume 1 status changed to degraded | 05/16/2022 04:30:53 | 1 | Hardware |
183 | Caution | Drive Array | Slot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to predictive failure | 05/16/2022 06:49:53 | 1 | Hardware |
184 | Caution | Drive Array | Slot 0 Smart Array - SSD Wear Status Level Ok: Port 1I Box 1 Bay 2 | 05/16/2022 06:49:53 | 1 | Hardware |
185 | Caution | Drive Array | Slot 0 Storage - Volume 1 status changed to readyForRebuild | 05/16/2022 06:49:53 | 1 | Hardware |
186 | Caution | Drive Array | Slot 0 Storage - Volume 1 status changed to rebuilding | 05/16/2022 06:50:53 | 1 | Hardware |
187 | Repaired | Drive Array | Slot 0 Storage - Volume 1 status changed to ok | 05/16/2022 07:15:53 | 1 | Hardware |
188 | Repaired | Network | HPE Ethernet 10Gb 2-Port 535T Adapter #2 Connectivity status changed to OK for adapter in slot 2, port 2 | 05/17/2022 01:52:10 | 1 | Hardware |
189 | Repaired | Network | HPE Eth 10Gb 2p 535T Adptr Connectivity status changed to OK for adapter in slot 2, port 1 | 05/17/2022 02:09:28 | 1 | Hardware |
190 | Repaired | Network | HPE Eth 10Gb 2p 535T Adptr Connectivity status changed to OK for adapter in slot 2, port 2 | 05/17/2022 02:09:28 | 1 | Hardware |
191 | Repaired | Network | HP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 1 | 05/17/2022 02:09:28 | 1 | Hardware |
192 | Repaired | Network | HP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 2 | 05/17/2022 02:09:28 | 1 | Hardware |
193 | Repaired | Network | HP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 3 | 05/17/2022 02:09:28 | 1 | Hardware |
194 | Repaired | Network | HP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 4 | 05/17/2022 02:09:28 | 1 | Hardware |
195 | Caution | Drive Array | Slot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to predictive failure | 05/17/2022 02:09:44 | 1 | Hardware |
제가 생각하기는 그 디스크 슬롯 /백플레인/ 레이드로가는 SAS 케이블 중에 몬가 불량 같은 문제가 있을 듯합니다..
불량 SSD 다른 빈 디스크 슬롯에 꼽고 초기화 해보면 아마 살아 날 듯하네요.. (이건 시간 낭비니까 나중에)
Slot 0 Storage - Drive at Port 1 I Box 1 Bay 2 status changed to predictive failure
슬롯 0 스토리지 - 드라이브는 포트 1 : 박스 1에 있는 베이 2의 상태는 불량으로 바뀔 것이라고 예측(예견)된다..
베이 2는 디스크일 듯하고 BOX1 은 아마 핫스압 케이지일 겁니다..
현재 새 디스크만 기다리는 상태라면 잘 될지 안될지 모르겠지만
우선 서버 끄고 디스크 분리
핫스압 백플레인 / SAS 케이블 / 레이드 카드 들의 데이터 흘러가는 커넥터를 다 분리하고 접점 불량이나 커넥터 깨진 곳 없나 확인하고
다시 하나하나 차근차근 확실히 조립
그리고 다시 시스템 빌딩해보세요..
가끔 흔치 않게 케이블이나 백플레인 커넥터 불량 /접점 불량 같은 것들이 사람 애먹이는 경우가 있습니다..
AHS 로그 분석 리포트 달라고 하세요
그래도 다행으로 보이는 건
":predictive failure:"는 저장미디어 (SSD) 로그기 때문에 다른쪽 문제는 아닐것으로 보입니다.
제가 지금 현장에 없어서... (거기는 마음대로 들어도 못가요 ㅠ_ㅠ)
아마도~~~~~ 답변이 어떻게 올지 기대가 됩니다만,,,,
일단은 해당 디스크 분리 해서 완전 초기화 시킨후 다시 장착 하여 "검수" 를 통과 하고 난 후 에러가 올라오면 HPE 엔지니어 부르는게 나음
쓸데 없이 분해 조립 했다가 "승인되지 않은 엔지니어가 분해 조립해서 워런티 거절" 되는 상황 만들지 말고
신품 벤더 서버 분해는 파트만 받아서 해당 파트만 교체할 경우에 할 수 있는거지
아무때나 분해 조립 했다가 핀 손상을 발견 하더라도 덤탱이 쓸 수 있으니..
(절대 분해 조립하라고 한 사람이 책임져 주지 않음)
저 역시 납품/검수 후에 AHS 로그를 센터에 보내서 문제되는 부분을 교체받을 듯 합니다.
내부에 데이터도 보존을 해야 하는 상황이라........ ㅋ.
밀고 새로 구성할 수 있는 시스템이 아닙니다.
일정 온도가 올라가면 에러율이 높아진다...
일단 컨트롤러와 백플레이인을 의심해 보시죠.
일단 펌웨어부터 조져 보세요.
최근의 문제가 있던 DL360 G10 검사 결과 iLO와 Intelligent Provisioning이 망가져서 복구 못한 서버가..
4대중 3대 였으며 이결과 Gen10 역시 Gen9과 대동 소위하다..
서버 오래 돌릴려면.. ILO와 IP 플레쉬 죽는 것에 대비해야 하며, 3년 넘은 서버는
끄지 않기를 권고하며,
에러로 부팅 못하는 상황을 대비 해야 하고.
서버이중화를 심각하게 고려해야 합니다.
이에 비하여 R640은 그에 대한 대비가 되어 있어..
역시 서버는 Dell이 명가 입니다.
서버를 설치할 때, SPP로 펌웨어를 모두 끌어 올려 놓았고, 교체한 디스크 이외에는 아마 펌웨어, 드라이버가 최신 일 겁니다.
...................
제 느낌에서는 터가 안 좋은 듯,, 합니다 ㅋ
다시 레이드 구성해 볼 필요가 있습니다.
SAS 케이블 체결 상태 확인 과
백플레이인 체결 상태 확인도 필요합니다.
2번 베이도 확인 필요합니다.
좀 돌다가 온도팽창과 진동이나 온도에 대해서
에러가 있을 수도 있고..
검수는 2~3일 연장 하는 방법도 고려해야 하고.
=> HP 저 한테.. 왜이래요.. ㅠ_ㅠ
너무 공감합니다..
한 두번 당해 본게 아닙니다..
저한테 왜 이런 고난을.. 4Kn는 왜 지원 않하는지..
같은 LSI 칩을 쓰고도 지원 않하는 기능이 있지를 않나..