하드디스크 장애

소푸   
   조회 9283   추천 0    

리눅스 서버를 운영중인데

일주일에 한번씩 하드디스크 2개가 동시에 배드 에러가 납니다.

kernel: sd 1:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK

Feb  4 13:53:59 localhost kernel: sd 1:0:1:0: [sdd] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb  4 13:53:59 localhost kernel: sd 1:0:1:0: [sdd] CDB: Read(10): 28 00 6b 25 f8 b0 00 00 08 00
Feb  4 13:53:59 localhost kernel: sd 1:0:1:0: [sdd] Unhandled error code

그런데 서버를 재시작하면 언제 그랬냐는듯이 멀쩡합니다.
마운트 접속 모두 이상없고 fsck로 검사해도 멀쩡합니다.

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   171   169   021    Pre-fail  Always       -       4433
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       34
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   084   084   000    Old_age   Always       -       11721
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       33
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       30
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       3
194 Temperature_Celsius     0x0022   105   091   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       1

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       456
  3 Spin_Up_Time            0x0027   219   170   021    Pre-fail  Always       -       2025
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       98
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   001   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   075   075   000    Old_age   Always       -       18943
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       93
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       64
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       33
194 Temperature_Celsius     0x0022   104   092   000    Old_age   Always       -       43
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       6
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       1


하드 건강상태 정보는 위와 같습니다.
모델은 둘다 웬디 블랙 1TB모델입니다.
전체 총 6개의 하드가 연결되어 있으며 에너맥스 550w 파워에
CPU는 Q6600, 메모리 8G이고 IDC에 입고되어 있습니다.

거의 한달에 걸쳐서 일주일에 한번씩 에러나고
재시작하면 멀쩡해지는 과정을 반복하고 있습니다.
전원이 부족한건지 내부가 더워서 그런건지 SATA케이블이 낡아서 그런건지

참고로 다른 하드들은 아무런 에러없이 멀쩡이 서비스 되고 있습니다.
살펴보시고 조언 부탁드립니다.

감사합니다.

160923_freeboard_2011_1a5736bf40fe58dec1
짧은글 일수록 신중하게.
박문형 2014-02
파워부터 바꿔보세요.
     
소푸 2014-02
파워가 문제일수도 있겠군요.
파워 -> SATA 케이블 -> 컨트롤러 순으로 점검해보셔야겠네요.

쉬운 방법으로 케이블 -> 파워 -> 컨트롤러 순으로 점검해보시는것도 좋습니다.
     
소푸 2014-02
케이블 부터 새걸로 교체해 보겠습니다.
말짱황 2014-02
케이블 불량에 한표 던저 봅니다... 하하하
     
소푸 2014-02
케이블 부터 새걸로 교체 해보겠습니다... 제발
배준석 2014-02
페리티를 못맞추네요 모....하나가 그러면 하드 바닥 기판 문제나 케이블 문제일 수 있지만 이건 메인 컨트롤러문제네요.
실례지만 이거 어떻게 어떻게 해서 사용하면 나중에 SQL 데이터같은거 깨지면 엔지니어링 업체에 돈 아무리 줘도 복구도 못합니다
파일 살려도 더미가 되니까요.
메모리를 포함한 보드, 혹은 기기 자체를 바꾸셔야됩니다.
     
소푸 2014-02
시스템 구축자체가 7년이 지났고 365일 계속 켜놓는 서버이기 때문에
이미 교체시기가 한참 지났는지 모르겠습니다.

하드디스크 온도가 40-50도라 쿨러교체 및 케이블 교체를 시도해보고
안되면 시스템 전체 교체를 고려해 보겠습니다.
          
배준석 2014-02
좋은 기종이라는 가정 하에서도 7년이면 바꾸시는게 좋아보입니다. 보통 실험실에서 가끔 쓰는것도 5년정도면 교체하니까요
7년이면 칩처항이나 세라믹콘덴서들같이 체크가 힘든 부품들 열화도 무시 못합니다.
암튼 뭐 별 이상 아니면 좋겠네요. 잘 해결되시기 바랍니다.


QnA
제목Page 3293/5730
2014-05   5265429   정은준1
2015-12   1790404   백메가
2016-09   4887   성민박
2018-12   4194   무아
2012-04   14226   머라카는데
2020-02   2518   etor
2021-06   4846   껑껑이
2021-06   2781   전직P연구원
2012-05   5817   13579
2020-02   8214   버팔로윙
2012-06   5917   영원한혁신
2016-09   4898   pocketoy
2019-01   6672   통통9
2016-09   6125   건전지
2021-07   3801   Sakura24
2024-11   1134   NaHS
2009-04   5822   김재식
2015-09   3714   겨울나무
2020-03   3564   김동자맨
2020-03   4542   다온
2016-09   4349   지비지비정글
2014-05   8652   VSPress