아,,, 이런 경우는 어떻게 이해해야 할런지요. (Feat. 저 한테.. 왜이래요.. ㅠ_ㅠ)

   조회 3159   추천 0    

HPE DL360 G10 서버를 최근 납품했습니다.


디스크 Bay 2번에 Disk(SSD) 가 갑자기 Failed 되었습니다.


그래서 어제 신규 파트를 받아서 교체 했고 rebuild 가 진행되었습니다.


그런데 또 Failed 가 됩니다.


그래서 이번에는 뺐다가 다시 꼽아봤습니다. 이번에는 Rebuild 이 OK가 됐는데,


오늘 오전에 또 


Slot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to predictive failure


가 되면서 떨어져 버립니다.


문제는 신규 재고 파트가 없어서 바로 조치가 안되는 상황입니다.......... 울고 싶습니다.


Slot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to predictive failure


이게 정확히 어떤 상황이고 저 메시지가 의미 하는게 디스크 장애에 대한 의미가 맞습니까? 




이러면,,, 진짜 에러인데... ㅠ_ㅠ 


내일 납품 검수 해야 하는데..... 돌아버리겠습니다..




166CriticalDrive ArraySlot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to Failed05/12/2022 11:39:191Hardware
167CautionDrive ArraySlot 0 Storage - Volume 1 status changed to degraded05/12/2022 11:39:191Hardware
168InformationalUEFI1787-Slot 0 Drive Array  Operating in Interim Recovery (Degraded) Mode.  Failed drive(s):
Port: 1I, box:1, bay: 2 (SATA)
 Action: Use a configuration utility to identify and troubleshoot errors or find drives to replace.
05/13/2022 05:35:481Administration
169CautionUEFI1784-Slot 0 Drive Array - Drive Failure. The following disk drive(s) should be replaced:
Port: 1I, box:1, bay: 2 (SATA)
 Action:  Reseat cables and drive. Replace defective cables, drives, or both.
05/13/2022 05:35:481Hardware
170RepairedNetworkHPE Eth 10Gb 2p 535T Adptr Connectivity status changed to OK for adapter in slot 2, port 105/13/2022 05:37:031Hardware
171RepairedNetworkHP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 105/13/2022 05:37:031Hardware
172RepairedNetworkHP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 205/13/2022 05:37:031Hardware
173RepairedNetworkHP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 305/13/2022 05:37:031Hardware
174RepairedNetworkHP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 405/13/2022 05:37:031Hardware
175CriticalDrive ArraySlot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to Failed05/13/2022 05:37:221Hardware
176CautionDrive ArraySlot 0 Storage - Volume 1 status changed to degraded05/13/2022 05:37:221Hardware
177RepairedDrive ArraySlot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to Ok05/16/2022 04:09:231Hardware
178RepairedDrive ArraySlot 0 Smart Array - SSD Wear Status Level Ok: Port 1I Box 1 Bay 205/16/2022 04:09:231Hardware
179CautionDrive ArraySlot 0 Storage - Volume 1 status changed to readyForRebuild05/16/2022 04:09:231Hardware
180CautionDrive ArraySlot 0 Storage - Volume 1 status changed to rebuilding05/16/2022 04:10:231Hardware
181CriticalDrive ArraySlot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to Failed05/16/2022 04:30:531Hardware
182CautionDrive ArraySlot 0 Storage - Volume 1 status changed to degraded05/16/2022 04:30:531Hardware
183CautionDrive ArraySlot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to predictive failure05/16/2022 06:49:531Hardware
184CautionDrive ArraySlot 0 Smart Array - SSD Wear Status Level Ok: Port 1I Box 1 Bay 205/16/2022 06:49:531Hardware
185CautionDrive ArraySlot 0 Storage - Volume 1 status changed to readyForRebuild05/16/2022 06:49:531Hardware
186CautionDrive ArraySlot 0 Storage - Volume 1 status changed to rebuilding05/16/2022 06:50:531Hardware
187RepairedDrive ArraySlot 0 Storage - Volume 1 status changed to ok05/16/2022 07:15:531Hardware
188RepairedNetworkHPE Ethernet 10Gb 2-Port 535T Adapter #2 Connectivity status changed to OK for adapter in slot 2, port 205/17/2022 01:52:101Hardware
189RepairedNetworkHPE Eth 10Gb 2p 535T Adptr Connectivity status changed to OK for adapter in slot 2, port 105/17/2022 02:09:281Hardware
190RepairedNetworkHPE Eth 10Gb 2p 535T Adptr Connectivity status changed to OK for adapter in slot 2, port 205/17/2022 02:09:281Hardware
191RepairedNetworkHP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 105/17/2022 02:09:281Hardware
192RepairedNetworkHP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 205/17/2022 02:09:281Hardware
193RepairedNetworkHP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 305/17/2022 02:09:281Hardware
194RepairedNetworkHP Ethernet 1Gb 4-port 366FLR Adapter Connectivity status changed to OK for adapter in slot 0, port 405/17/2022 02:09:281Hardware
195CautionDrive ArraySlot 0 Storage - Drive at Port 1I Box 1 Bay 2 status changed to predictive failure05/17/2022 02:09:441Hardware
짧은글 일수록 신중하게.
박문형 2022-05
HP 서비스센터(기술지원센터)에서는 모라고 이야기 하나요??

제가 생각하기는 그 디스크 슬롯 /백플레인/ 레이드로가는 SAS 케이블 중에 몬가 불량 같은 문제가 있을 듯합니다..

불량 SSD 다른 빈 디스크 슬롯에 꼽고 초기화 해보면 아마 살아 날 듯하네요.. (이건 시간 낭비니까 나중에)
     
시도니 2022-05
새 디스크만 요청된 상황입니다. 백플레인하고 레이드카드까지 문제라면.. 좀 심각해지네요.
박문형 2022-05
얼굴마담 하시느라 수고+고생하십니다..


Slot 0 Storage - Drive at Port 1    I    Box 1 Bay 2 status changed to predictive failure

슬롯 0 스토리지 - 드라이브는 포트 1  :  박스 1에 있는 베이 2의 상태는 불량으로 바뀔 것이라고 예측(예견)된다..

베이 2는 디스크일 듯하고 BOX1 은 아마 핫스압 케이지일 겁니다..




현재 새 디스크만 기다리는 상태라면  잘 될지 안될지 모르겠지만

우선 서버 끄고  디스크 분리

핫스압 백플레인 / SAS 케이블 / 레이드 카드 들의 데이터 흘러가는 커넥터를 다 분리하고 접점 불량이나 커넥터 깨진 곳 없나 확인하고

다시 하나하나 차근차근 확실히 조립

그리고 다시 시스템 빌딩해보세요..

가끔 흔치 않게 케이블이나 백플레인 커넥터 불량 /접점 불량 같은 것들이 사람 애먹이는 경우가 있습니다..
epowergate 2022-05
서비스 어떤거 사셨나요?
AHS 로그 분석 리포트 달라고 하세요
그래도 다행으로 보이는 건
":predictive failure:"는 저장미디어 (SSD) 로그기 때문에 다른쪽 문제는 아닐것으로 보입니다.
     
시도니 2022-05
AHS log 따서 HPE 로 내일 보내려고 합니다.

제가 지금 현장에 없어서... (거기는 마음대로 들어도 못가요 ㅠ_ㅠ)

아마도~~~~~ 답변이 어떻게 올지 기대가 됩니다만,,,,
HP Gen9 에서 부터 띄우는 "좀있음 이녀석 죽을 수 있음"" 이라는 경고 임
일단은 해당 디스크 분리 해서 완전 초기화 시킨후 다시 장착 하여 "검수" 를 통과 하고 난 후 에러가 올라오면 HPE 엔지니어 부르는게 나음
쓸데 없이 분해 조립 했다가 "승인되지 않은 엔지니어가 분해 조립해서 워런티 거절" 되는 상황 만들지 말고
신품 벤더 서버 분해는 파트만 받아서 해당 파트만 교체할 경우에 할 수 있는거지
아무때나 분해 조립 했다가 핀 손상을 발견 하더라도 덤탱이 쓸 수 있으니..
(절대 분해 조립하라고 한 사람이 책임져 주지 않음)
     
시도니 2022-05
HPE 엔지니어를 부르는 방향으로 하는게 저도 나을 것 같습니다.
카프카 2022-05
다른 박스쪽으로 디스크를 둘 다 보내서 노멀 상태가 되는지 확인해보시지요.
저 역시 납품/검수 후에 AHS 로그를 센터에 보내서 문제되는 부분을 교체받을 듯 합니다.
     
시도니 2022-05
안됩니다. 지금 서비스 돌고 있는 시스템이고,,

내부에 데이터도 보존을 해야 하는 상황이라........ ㅋ.

밀고 새로 구성할 수 있는 시스템이 아닙니다.
제온프로 2022-05
3번의 반복은 Drive 문제가 아닌 것 같습니다.

일정 온도가 올라가면 에러율이 높아진다...

일단 컨트롤러와  백플레이인을 의심해 보시죠.
일단 펌웨어부터 조져 보세요.

최근의 문제가 있던 DL360 G10 검사 결과 iLO와 Intelligent Provisioning이 망가져서 복구 못한 서버가..

4대중 3대 였으며 이결과 Gen10 역시 Gen9과 대동 소위하다..

서버 오래 돌릴려면.. ILO와 IP 플레쉬 죽는 것에 대비해야 하며, 3년 넘은 서버는
끄지 않기를 권고하며,
에러로 부팅 못하는 상황을 대비 해야 하고.
서버이중화를 심각하게 고려해야 합니다.
이에 비하여 R640은 그에 대한 대비가 되어 있어..

역시 서버는 Dell이 명가 입니다.
     
시도니 2022-05
제 생각도 같습니다.

서버를 설치할 때, SPP로 펌웨어를 모두 끌어 올려 놓았고,  교체한 디스크 이외에는 아마 펌웨어, 드라이버가 최신 일 겁니다.

...................

제 느낌에서는 터가 안 좋은 듯,, 합니다 ㅋ
제온프로 2022-05
레이드 초기화 하고 하드 다른 베이와 바꿔서..
다시 레이드 구성해 볼 필요가 있습니다.

SAS 케이블 체결 상태 확인 과
백플레이인 체결 상태 확인도 필요합니다.
2번 베이도 확인 필요합니다.

좀 돌다가 온도팽창과 진동이나 온도에 대해서
에러가 있을 수도 있고..

검수는 2~3일 연장 하는 방법도 고려해야 하고.

=> HP 저 한테.. 왜이래요.. ㅠ_ㅠ
너무 공감합니다..

한 두번 당해 본게 아닙니다..
저한테 왜 이런 고난을.. 4Kn는 왜 지원 않하는지..
같은 LSI 칩을 쓰고도 지원 않하는 기능이 있지를 않나..


QnA
제목Page 558/5731
2014-05   5267830   정은준1
2015-12   1792846   백메가
2018-03   8808   김준유
2010-05   8594   블루모션
2022-01   2768   Smilesanta
2023-08   1591   EYESSHOT
2020-08   4073   송상병
2013-06   10671   이상영
2018-03   3730   슬루프
2020-08   5521   2CPUI김세훈
2014-11   5343   Midabo
2014-11   3932   Won낙연
2018-04   3727   MnkRed
2022-01   1730   청춘
2023-09   2036   pumkin
2014-11   4438   오홍식
2017-01   6513   이대범
2010-07   7413   검은콩
2018-04   5774   별혼
2017-02   5456   메이
2020-08   2699   inquisitive
2022-02   2664   풀로드시스템