hdsentinel / smartctl 내용 질문입니다

구차니   
   조회 275   추천 0    

 예전에 알려주신 hdsentinel을 받아서(free/linux 64bit) 실행하는데 별다른 메시지를 얻지 못했습니다

# ./hdsentinel-017-x64 -verbose

Hard Disk Sentinel for LINUX console 0.17x64.8556 (c) 2017 ****@**********.com

Start with -r [reportfile] to save data to report, -h for help


Examining hard disk configuration ...

 Disk device: /dev/sda

 Disk device: /dev/sdb


HDD Device  0: /dev/sda

HDD Model ID : Samsung SSD 850 EVO 500GB

HDD Serial No: --

HDD Revision : EMT02B6Q

HDD Size     : 476940 MB

Interface    : LSI  RAID #0/0 [8-0]

Temperature  : 27 °C

Highest Temp.: 46 °C

Health       : 100 %

Performance  : 100 %

Power on time: 998 days, 6 hours

Est. lifetime: more than 826 days

Total written: 4.08 TB

  The status of the solid state disk is PERFECT. Problematic or weak sectors were not found.

    No actions needed.


HDD Device  1: /dev/sda

HDD Model ID : Samsung SSD 850 EVO 500GB

HDD Serial No: --

HDD Revision : EMT02B6Q

HDD Size     : 476940 MB

Interface    : LSI  RAID #0/1 [8-0]

Temperature  : 30 °C

Highest Temp.: 47 °C

Health       : 100 %

Performance  : 100 %

Power on time: 998 days, 6 hours

Est. lifetime: more than 826 days

Total written: 4.06 TB

  The status of the solid state disk is PERFECT. Problematic or weak sectors were not found.

    No actions needed.


HDD Device  2:

HDD Model ID : DELL    PERC H730 Mini

HDD Serial No: ?

HDD Revision : 4.27

HDD Size     : 4576255 MB

Interface    : SCSI

Temperature  : Unknown °C

Highest Temp.: Unknown °C

Health       : Unknown %

Performance  : Unknown %

Power on time:

Est. lifetime:


그래서

smartctl로 옵션을 줘서 하니 개별로 나오는데, 다른 하드들은 0이나 1 정도 인데 얘만 유독 높게 잡히네요.

검색을 해봐도 해당 에러에 대한 내용이 자세히 나온걸 발견하지 못했는데

매체가 아닌 에러니까.. 복구가능한 에러라서 무시해도 되는걸지 아니면 하드교체를 염두에 두어야 할지 궁금합니다.

# smartctl -a /dev/sda -d megaraid,04

smartctl 6.5 2016-05-07 r4318 [x86_64-linux-3.10.0-957.5.1.el7.x86_64] (local build)

Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org


=== START OF INFORMATION SECTION ===

Vendor:               SEAGATE

Product:              ST1200MM0088

Revision:             TT31

Compliance:           SPC-4

User Capacity:        1,200,243,695,616 bytes [1.20 TB]

Logical block size:   512 bytes

Formatted with type 2 protection

LU is fully provisioned

Rotation Rate:        10000 rpm

Form Factor:          2.5 inches

Logical Unit id:      0x5000c50084fb0aa3

Serial number:        --

Device type:          disk

Transport protocol:   SAS (SPL-3)

Local Time is:        Fri Mar 15 10:37:02 2019 KST

SMART support is:     Available - device has SMART capability.

SMART support is:     Enabled

Temperature Warning:  Disabled or Not Supported


=== START OF READ SMART DATA SECTION ===

SMART Health Status: OK


Current Drive Temperature:     30 C

Drive Trip Temperature:        60 C


Manufactured in week 04 of year 2016

Specified cycle count over device lifetime:  10000

Accumulated start-stop cycles:  33

Specified load-unload count over device lifetime:  300000

Accumulated load-unload cycles:  1778

Elements in grown defect list: 0


Vendor (Seagate) cache information

  Blocks sent to initiator = 3091726124

  Blocks received from initiator = 2959663898

  Blocks read from cache and sent to initiator = 2584128793

  Number of read and write commands whose size <= segment size = 48148692

  Number of read and write commands whose size > segment size = 17875


Vendor (Seagate/Hitachi) factory information

  number of hours powered up = 21516.63

  number of minutes until next internal SMART test = 19


Error counter log:

           Errors Corrected by           Total   Correction     Gigabytes    Total

               ECC          rereads/    errors   algorithm      processed    uncorrected

           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors

read:   149275407        0         0  149275407          0       6859.375           0

write:         0        0         1         1          1      10498.622           0

verify: 2881634149        1         0  2881634150          1     139918.217           0


Non-medium error count:      731


No self-tests have been logged


그리고 다른 서버에 물렸던 하드 2개는 SMART 정보가

SMART Self-test log

Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]

     Description                              number   (hours)

# 1  Background short  Completed                  80       6                 - [-   -    -]

# 2  Background short  Completed                  80       5                 - [-   -    -]

# 3  Reserved(7)       Completed                  64       5                 - [-   -    -]

# 4  Background short  Completed                  80       3                 - [-   -    -]


Long (extended) Self Test duration: 7630 seconds [127.2 minutes]

위와 같이 뜨는데 나머지 하드는 뜨질 않네요.. patrol 설정과는 별개로 DELL PERC H710P mini 쪽에 

smart long test를 설정 가능한 부분이 있는지 질문 드립니다.

짧은글 일수록 신중하게.
박문형 03-15
삼성 850 EVO는 잘 모르겠지만 델파츠라기 보다 리테일 SSD를 꼽은 것 같습니다만 당장 큰 문제 없으니 쓰시면 될 듯하고요..

시게이트 1.2TB 짜리는 에러가 카운트가 되신다고 했는데

보통 ECC /re-write /re-command 같은 것에서 에러가 나면 SSD 디바이스 자체보다 케이블링에 문제가 있을수 있습니다..

케이블이나 백플레인에 문제가 있어 신호가 재대로 못가고 자꾸 재신호를 보내서 동작한다는 이야기입니다..

에러 카운트 되는 SSD를 같은 시스템의 다른 디스크베이나 다른 시스템에 꼽아서 다시 채크해보세요..

서버는 운영중이고 데이터를 백업하는 것은 쉽지 않지만 채크는 해보셔야 할 듯합니다..
     
구차니 03-15
삼성 850 EVO는 SATA방식으로 델 파츠도 아니고 그냥 일반용 SSD 500GB 입니다.
일단은 값이 증가하는지 좀 지켜봐야 겠네요.
다른 시스템에 달려있던 하드들이라, 다른 시스템에서 누적된 값일수도 있을테니까요.

매번 리플 감사드립니다.
     
구차니 03-15
점심먹고 와서 확인해보니
사용자도 거의 없는 삼바 스토리지용인데도 불구하고 그새 2 올랐네요
Non-medium error count:      733


현재 백플레인이나 케이블 문제로 생각을 하고 대처를 강구해야 할 상황인듯 합니다.
매번 조언 해주셔서 감사합니다.
박문형 03-15
문제의 SSD도 AS 받으세요..
     
구차니 03-15
SSD는 0,1번 에 RAID1로 구성되어 있고 아직까지 이상징후는 없습니다.
SAS 10k 1.2T 2,3,4,5,6,7 번에 RAID6이고 이녀석중에 4번이 좀 불안불안하네요.
박문형 03-15
그러시면 문제가 생겼을때 즉각 대처하도록 SAS 1.2TB 하드 1개 정도는 예비 하드로 구비하도록 하세요..

뻔한 이야기이지만 데이터가 재일 중요하기에 백업만이 살길입니다..

레이드가 신이 만든 장치는 아니기에 사람이 만들었기에 언젠가는 고장이 납니다..


디스크 1개만 고장날수도
디스크 여러개가 한꺼번에 고장날수도
레이드 카드가 고장날수도
서버 전체가 작살날 수도 있습니다..
     
구차니 03-15
전기세 절감할겸 R730 서버 하나에 전부 몰아넣어서(부하가 없는 서비스들 뿐이라) SAS는 3개 이상 확보해놨습니다

디스크 1개만 고장날수도
디스크 여러개가 한꺼번에 고장날수도
>> RAID6에 6개 HDD니까 설마.. 라는 느낌으로 버티려고 합니다.

레이드 카드가 고장날수도
서버 전체가 작살날 수도 있습니다..
>> 남은 R730이 적출수술을 당하면 됩니다.....

백업정책은 또 어떻게 세워야 하나 고민중입니다.
전체백업으로 2개 하드에다가 따로따로 매일매일 백업을 하면 속편할거 같은데 말이죠.




QnA
제목Page 5/4354
2015-12   11173   백메가
2014-05   2709182   정은준1
03-15   381   osthek83
03-15   218   김영기
03-15   444   김준유
03-15   278   G1G2
03-15   246  
03-15   395   맑은여름
03-15   271   G1G2
03-15   266   산골농부
03-15   254   서울사람
03-15   510   김민석salsal
03-15   276   구차니
03-15   564   준바이
03-15   425   이선규
03-15   228   유현종
03-15   503   더벅머리
03-14   327   설영수
03-14   334   캔위드
03-14   365   비올라
03-14   308   김건우
03-14   251   LINKINPARK