raid 구성 hdd 중 문제있는 hdd를 찾는 방법이 어떤게 있을까요 ?

캔위드   
   조회 5333   추천 0    

http://2cpu.co.kr/QnA/634243 에서 이어집니다.


이후 ssd 4개로 다양한 테스트 진행 후 컨트롤러와 케이블에는 아무 문제가 없다고 결론을 내렸습니다.

그렇다면 raid 5를 구성하는 hdd 8개중에 하나 또는 그 이상의 hdd의 중간쯤 부터 배드섹터 등이 생겼다라고밖에 생각할 수가 없는데요.

문제는 제가 선택할 수 있는 체크 메뉴가

Verify 또는 Build/Verify with fix 두개밖에 없어서 Build/Verify with fix 를 선택했고 현재 1% 진행중인데요.




문제는 이건 이미 어제밤 부터 오늘 정오까지 한번 해봤다는 겁니다.

이상은 없는걸로 100% 까지 진행되었는데


실제로는 이상이 있는 상황입니다.

4T 8개로 RAID 5 하나로 잡아놨고 앞에 2T 와 나머지 2개로 파티션 나눴는데 앞에 2T는 정상 작동하지만

나머지 본체부분이 엄청 반응이 늦다가 I/O 에러를 내뿜습니다..

컨트롤러와 케이블 테스트에서 이상이 없었기 때문에 HDD 문제... 하지만 앞에 2T를 정상 작동하니깐

문제중에서도 하나 또는 두개 정도의 HDD중 어느 부분에서인가 배드섹터가 있을것으로 의심하고 있습니다.


어떻게 찾을 수 있을까요 ?


또한. 여태 보지 못했던 두가지 부분이 영 제 마음을 무겁게 하고 있습니다.

Additional DetailsInitialized with Build/Clear

Failed stripes                           : Yes

이 두가지가 의미하는게 무었일까요 ?


관련 정보를 알고 계신분들께 도움을 부탁드립니다.

감사합니다.

짧은글 일수록 신중하게.
김현린 2018-02
디스크 정보 보기 보시면 디스크 시리얼 번호가 나옵니다.
그걸로 찾을수 있을것 같네요
     
캔위드 2018-02
여태까지의 증상과 테스트를 종합해서 논리적으로 생각해 보면 HDD들 중에 한개 이상에 문제가 있는게 확실합니다.
그러나 RAID 카드는 어디에 무엇이 문제인지 알려주지 않고 있습니다.

단지
Additional DetailsInitialized with Build/Clear
Failed stripes                          : Yes
라는 특이사항만 있어요.
          
김현린 2018-02
스프라이트에 문제가 있다는데요..
디스크 문제라기보다는 레이드에 문제가 있다고 보는게 맞아보입니다.
               
캔위드 2018-02
그래서 기존 hdd를 전부 뽑아내고
ssd 4개를 connector 0이랑 1에 각각 붙여서 다양한 테스트를 해봤지만 문제없이 정상 작동 합니다..
                    
김현린 2018-02
레이드 카드의 문제가 아닌 레이드 어레이의 논리적으로 문제가 있다는거 였습니다.
지금 돌아가는 작업이 있나요?
하단에 테스크에 있었던거 같은데..
                         
캔위드 2018-02
본문에도 있는 내용이지만
나름 문제있는 디스크를 찾아보기 위해서
논리디스크에 대해서 Build/Verify with fix 를 실행한 상태입니다.
                    
김현린 2018-02
어제 돌고있던것은 끝난건가요?
                         
캔위드 2018-02
넵 리빌딩 100% ( 초반에 신규 하드로 교체 )
그 이후 지가 자동으로 Build/Verify with fix 하길래 또 100% 기다렸지만

Additional DetailsInitialized with Build/Clear
Failed stripes                          : Yes

상태 변화 없고
문제도 그대로 입니다.
                    
김현린 2018-02
리빌딩 돌고있는중에 디스크 교체하셧다구요...?
raid5 아닌가요?
                         
캔위드 2018-02
넵 재부팅 하니깐 삐~ 소리 나면서 리빌딩 하길래 고장인거 같아서 빼고 새하드 넣었습니다.
1년전에도 동일한 상황이 발생했었고 이후 문제없이 잘 사용해 왔으며 기존 HDD는 A/S받았습니다.
당시에 리빌딩 2% 정도 진행중이였으며 새 하드 넣으니깐 0%부터 다시 시작하더라고요.
이번에도 마찬가지였습니다만 차이점이 있다면
당시에는
Additional DetailsInitialized with Build/Clear
Failed stripes                          : Yes
이런게 없었습니다.

참고로 당시에 게시물 입니다.
http://www.2cpu.co.kr/4raid/3612

당시 게시물 보면 그때는
Additional details                      : Quick initialized
Failed stripes                          : No
으로 이상이 없었습니다....
                    
김현린 2018-02
음음?
고장난 디스크가 표시되고 있었나요?
고장난놈이 있는데 리빌딩할것같진 않은데...
                         
캔위드 2018-02
제대로 맛이가면 failed라고 뜨겠지만
운영도중 io에 문제가 발생했던 디스크도 부저음이 울렸다가 리빌딩 하는것 같더라고요
그런 경우 그냥 과감하게 신규 하드로 교체해 왔습니다

이번 경우는 리빌딩 이전에 교체시도 이전에
위에 저 이상한 상황이 발생했고
파티션 접근도 안되는 상황이였습니다
                    
김현린 2018-02
음 이상하군요.. 디스크 페일이 없는데 리빌딩이 들어간다라..
그런데 교체하는 디스크는 어떤기준으로 교체해 주셧나요?
fail로 나온 디스크가 없는데..
저도 어쩌다보니 심문 하는거같게 되었네요 하하;;
어떤 상황인지 정확히 인지가 안되는 상황이여서요..
디스크 fail 없이
부저음 후 리빌딩 들어갔다.
리빌딩 중 디스크 교체를 해주었다..(어떤 디스크를 바꾸신건지)
그후 문제가 커졌다..
이건가요?
                         
캔위드 2018-02
디스크중에 리빌딩 하는 디스크를 빼고 새걸로 넣어줬습니다.
문제가 발생한건 리빌딩중 디스크를 교체해서 발생한게 아니고요.
케이스와 파워 교체 후 문제가 발생했으며
처음에는 bios 셋팅 변경으로 문제 해결을 시도했습니다.
이것저것 해도 안되니깐 제일 마지막으로 리빌딩중인 디스크를 교체했습니다만 나아진건 없습니다.

Additional DetailsInitialized with Build/Clear
Failed stripes                          : Yes
의 상황은 디스크 교체전 부터.
파워랑 pc케이스 교체하자마자 처음부터 계속 발생한 상황입니다.
파티션 접근이 안되는 것도 마찬가지고요.
리빌딩 디스크 교체하기 전부터의 상황들입니다.
                    
김현린 2018-02
리빌딩이 어레이에 대해서 하는게 아니고 디스크 하나에대해서 리빌딩이 들어갔나요?
이런 경우도 있군요..
                         
캔위드 2018-02
넵. 디스크 하나에 대해서 들어갔습니다.
asr-71605는 그렇더라고요..

http://www.2cpu.co.kr/4raid/3612
그러고 보니 딱 1년전 작년 초에도 비슷한 상황이였고요
그때는 2번째 커넥터 2번째 디스크가 문제였고 교체후 문제없이 지금까지 잘 써왔습니다.
당시에도 리빌딩 하는 디스크를 새걸로 교체 했고요
해당 디스크는 a/s보내서 새걸로 교체 받았습니다.

지금 새로 꼽은건 그 교체받은 디스크입니다.
                    
김현린 2018-02
저도 71605 사용중입니다.
만약 제가 아는 리빌딩은.. 디스크에 하는게 아닌 어레이에 하는것인데
이상황에서 디스크 교체하면 어레이 깨져도 이상하지 않은 상황입니다..
                         
캔위드 2018-02
디스크 교체 전에 이미 파티션 접근이 안되는 상황이였습니다.
왜그런가 하고 보니깐 1년전 상황과는 다르게
Additional DetailsInitialized with Build/Clear
Failed stripes                          : Yes
이라고 나오고 있었고요
당연히 어레이에서도 리빌딩 중이라고 나오고
작년에 상황 보시면
http://www.2cpu.co.kr/4raid/3612
보시면 어느 디스크를 리빌딩 중인지도 나옵니다.

물론 그대로 냅둬도 되지만
멀쩡하게 잘 돌아가던 시스템이 디스크 하나만 리빌딩 하니깐
뭔가 그 디스크에 문제가 있었을꺼라 생각하고 교체했던 것이고요.
                    
김현린 2018-02
명령어로 디스크리빌딩을 확인 가능하군요..
그런데 페러티 비트라는게 여기저기 뿜빠이 되어있어서...
교체해도 되나..?
싶네요 ㄷㄷ;;
                         
캔위드 2018-02
상황을 봤을때 다른 디스크들은 전부 멀쩡해 보였고
디스크 하나만 리빌딩이니깐 이넘이 뭔가 상태가 안좋아서 이러나보다.....라고 생각할 수 밖에요.

지금 생각해 보면 asm에서 리빌딩 작업을 강제로 멈추고나서 ( 가능한가요 ? ) 교체를 할껄 그랬나 싶습니다.
                    
김현린 2018-02
멈추는것도 가능은 합니다.
그런데 리빌딩을 그냥 기다리는게 맞아보이네요..
                         
캔위드 2018-02
교체를 해도 어떤넘이 리빌딩 하나 지켜봤다가 다 끝나면 하는게 좋겠군요.
이후로는 그렇게 해보겠습니다.
감사합니다^^
김현린 2018-02
그런데 지금 보면 디스크 자체는 이상 없는것으로 나오네요..
디스크 하나하나 눌러보시면서 어볼트 커맨드 라던가 스마트 정보 한번 봐보세요
     
캔위드 2018-02
아답텍 스토리지메지녀에서 하나하나 클릭해서 스마트정보 포함해서 꼼꼼하게 살펴봤습니다만
HDD 중에 무언가 조금이라도 이상이 보이는건 없습니다.

하지만 결과적으로는 HDD중에 한개이상에 문제가 있는게 확실한 상황입니다.
이선호 2018-02
ASM에 접속이 가능하시다면 전체 로그를 한번 뽑아보시길 바랍니다.
1차적으로 살펴보는 방법은 디스크 하나하나 눌러서 Abort Cmd나 Medium err 있는지 보는것입니다.

그리고 볼륨은 문제가 없는데 Windows 상에서만 에러가 발생하는 경우라면, 의외로 chkdsk /f 정도로 해결되는 경우가 굉장히 많습니다.
     
캔위드 2018-02
ASM이 스토리지매니저 말씀하시는건가요 ? 본문의 켑춰를 보셨듯 잘 접속 됩니다.
로그는 어떻게 뽑나요 ?
arcconf getlogs 로는 딱히 나오는게 없습니다.

애초에 드라이브 접근자체가 안되서 chkdsk /f  먹힐까 모르겠습니다만 한번 시도는 해보겠습니다.
          
이선호 2018-02
MSM상 좌측메뉴 중 ACCDESK를 누른 후 System 항목에서 Archieve 메뉴가 있을겁니다. 여기서 로그 전체를 받을 수 있습니다.
               
캔위드 2018-02
로그 받았습니다.
http://www.2cpu.co.kr/PDS/12230

제가 대충 살펴보니 이렇게 엄청 많네요.. ㅠㅠㅠㅠㅠㅠㅠㅠ
02/25/18 20:13:13.625065: CT_R5Strategy:RAID5 Read Error.Bad Stripe encountered on block number -94365696
02/25/18 20:13:19.649474: CT_R5Strategy:RAID5 Read Error.Bad Stripe encountered on block number -94368768
02/25/18 20:13:23.661578: CT_R5Strategy:RAID5 Read Error.Bad Stripe encountered on block number -94368768
02/25/18 20:13:23.662166: CT_R5Strategy:RAID5 Read Error.Bad Stripe encountered on block number -94368256
02/25/18 20:13:23.662670: CT_R5Strategy:RAID5 Read Error.Bad Stripe encountered on block number -94367744
02/25/18 20:13:23.663231: CT_R5Strategy:RAID5 Read Error.Bad Stripe encountered on block number -94367232
02/25/18 20:13:23.663745: CT_R5Strategy:RAID5 Read Error.Bad Stripe encountered on block number -94366720
02/25/18 20:13:23.664277: CT_R5Strategy:RAID5 Read Error.Bad Stripe encountered on block number -94366208
02/25/18 20:13:23.664831: CT_R5Strategy:RAID5 Read Error.Bad Stripe encountered on block number -94365696
02/25/18 20:13:29.715838: CT_R5Strategy:RAID5 Read Error.Bad Stripe encountered on block number -94368768
02/25/18 20:13:33.727775: CT_R5Strategy:RAID5 Read Error.Bad Stripe encountered on block number -94368768
간장게장 2018-02
우선 failed 디스크 찾기
제일 좋은 것은 raid manager 소프트웨어에서 failed disk라고 표시된 disk에 마우스를 가져다 놓고 locate를 시킵니다. 그러면 그 failed disk의 LED가 깜박깜박 합니다. 그러면 그 놈을 빼고 새 디스크로 교체하면 됩니다. 그런데 이렇게 하려면 backplane이 지원을 해 줘야 합니다. 서버 케이스에 달린 bay들은 대부분 다 그런 기능을 지원합니다.
LED로 locate 시킬 수 없는 경우(backplane이 지원하지 않는 경우, 데스크탑 등)에는 무척 주의해야 합니다. disk0, disk1, disk2,...라고 표시된 것이 어느 것인지 헷갈릴 수가 있고 엉뚱한 디스크를 교체하면 완전히 조지는 경우가 생길 수 있습니다. disk 번호 같은 것은 바뀔 수도 있거든요. 가능하면 failed disk의 시리얼 번호를 적어 놓았다가 shutdown을 시킨 후에 디스크 꺼내서 확실히 그 disk가 맞는지 확인하고 교체하는 것이 좋습니다. 처음부터 미리 bay에 안에 든 디스크의 시리얼 번호를 적어 놓거나.
리빌드할 때 조지는 경우 중에서 많은 비율이 엉똥한 디스크를 교체하는 경우임.

지금 저 화면에 보이는 것에는 failed disk가 없습니다. 모두 optimal. failed disk가 없으니 찾을 수가 없죠.

Failed stripes는 stripe 중에 하나 이상이 문제가 생겼다는 말입니다. 그 부분은 복구가 불가능합니다. 그런데 그게 어느 파일 하나만 문제 생긴 것이라면 그래도 다행인데 문제가 훨씬 커진 것일 수도 있습니다.

처음 상태가 궁금합니다. disk 8개 raid 5라고 하셨고 리빌딩 중임을 알고 문제 있는 디스크를 교체했다고 하셨는데요. hot spare가 있는 상태였나요?
     
캔위드 2018-02
failed disk 라고 표시되는 디스크가 없습니다.
디스크 하나하나 클릭해서 smart를 포함한 모든 정보를 꼼꼼하게 살펴봐도 이상있다고 하는 디스크가 없습니다.

심지어 앞자르기한 2T 용량은 정상 사용이 가능합니다.
하지만 25T 분량의 메인 파티션이 접근하려고 하면 대략 5분정도 i/o랙이 걸리다가 오류를 뿜어냅니다.
정황상 bad 섹터등이 있는 디스크가 하나이상 있는 상황으로 보고 있습니다.
     
간장게장 2018-02
지금 현재는 failed disk가 없는 상태인데요.
처음 상태가 궁금합니다. disk 8개 raid 5라고 하셨고 리빌딩 중임을 알고 문제 있는 디스크를 교체했다고 하셨는데요. hot spare가 있는 상태였나요?
          
캔위드 2018-02
없는 상태였습니다.

문제는 리빙딩 도중에도
Additional DetailsInitialized with Build/Clear
Failed stripes                          : Yes
는 동일한 상황이였습니다.

failed disk가 없는 상태가 정말 맞다면.. (아닌거 같은데...)
레이드 카드를 바꿔봐야겠군요.
          
간장게장 2018-02
failed disk가 없는 상태에서도 failed stripes가 있는 경우가 있습니다. 그 경우에도 리빌딩을 합니다. 정상적인 과정입니다. 그 과정에서 리빌딩이 끝날 때까지 놓아 두셨어야 했을 것 같습니다만...

failed disk가 없는 상태였는데, 디스크를 교체했다고 하시지 않으셨나요?(무슨 피의자 심문하는 것 같습니다만 ㅋ) 문제가 발생한 시나리오를 생각해 보려고 질문하는 것입니다.
               
캔위드 2018-02
(심문이든 뭐든 해결만 되면 정말 감사하겠습니다ㅠㅠ)
당연히 리빌딩 하라고 100%될때까지 그냥 뒀습니다.
아! 리빙딩 한다고 할때 리빙딩 하는 디스크를 예비 HDD (새거)로 교체했습니다.
이후 리빌딩 완료 되었고 자동으로  Build/Verify with fix 도 하길래 역시 100% 될때까지 기다렸습니다만

Additional DetailsInitialized with Build/Clear
Failed stripes                          : Yes

이 두가지 값에는 전혀 변화가 없으며
문제는 전혀 해결되지 않습니다.
               
간장게장 2018-02
"아! 리빙딩 한다고 할때 리빙딩 하는 디스크를 예비 HDD (새거)로 교체했습니다."

raid5에서 리빌딩은 어느 한개의 디스크를 리빌딩하는 것이 아니라 전체를 리빌딩하는 것입니다. 패리티가 여러 디스크에 흩어져 있기 때문에. 리빌딩하는 디스크 하나를 어떻게 지목하여 교체를 하신 것인지가 의문이네요.

디스크 하나가 failed 상태였다면 그것을 빼내고 교체하는 것이 당연합니다. 디스크 하나가 fail인 상태는 아니고 failed stripes가 있어서 (부분)리빌딩 중이었다면, 디스크 교체가 아니라 끝날 때까지 기다리는 것이 맞다고 생각합니다만...
                    
캔위드 2018-02
예전에 동일한 상황이 있었씁니다.

참고로 당시에 게시물 입니다.
http://www.2cpu.co.kr/4raid/3612

당시 게시물 보면 그때는
Additional details                      : Quick initialized
Failed stripes                          : No
으로 이상이 없었습니다....


이번에는 리빌딩 한다고 해서 처음부터 무조건 교체한건 아니였고요
처음부터
Additional DetailsInitialized with Build/Clear
Failed stripes                          : Yes
상황이였으며 디스크 교체보다 BIOS 조정등을 먼저 시도해 봤었습니다.
그러는 과정에서 리빌딩은 지난번과 다르게 4~5%까지 진행되었고요

교체를 시도한 가장 큰 이유가 E드라이브 (25T)에 접근이 되지 않아서였습니다.
               
간장게장 2018-02
raid5에서 disk 하나가 fail이면
hot spare가 있는 경우 --> 리빌딩(물론 자동 리빌딩으로 세팅된 경우)
hor spare가 없는 경우 --> 리빌딩 할 수 없음. 고장난 디스크를 교체해 주어야 리빌딩 가능

disk가 fail인 것이 아니라 stripes(블럭)중에 잘못된 것이 있는 경우
hot spare 없어도 그 부분을 리빌딩함.
                    
캔위드 2018-02
그럼 지금 Build/Verify with fix 는 의미가 없겠군요.
그럼 뭐 지금 raid는 망한걸로 치고
애초에 Failed stripes 가 왜 발생했을까요 ?

다 초기화 하고 새로 잡고 쓰려고 해도
왜 이리 됐는지 찜찜해서 난감하네요.
일단은 raid카드를 lsi 9260으로 바꿔볼 생각입니다만

제 느낌에는 hdd중에 문제있는넘이 한개이상 있는것 같은데 그것을 찾을 방법이 묘연합니다.
                         
김현린 2018-02
smart 정보나 어볼트 커맨드 없으면 디스크에 이상은 없다고 봐도 됩니다..
낮은 확률로 있긴 합니다만..
뭔가 문제가 있으면 어볼트 커맨드는 나와요..
                         
캔위드 2018-02
디스크에 문제가 없으면
멀쩡하던게 왜 갑자기 Failed stripes 가 떴을까요 ?

아니, 이유야 어떻든 간에....
문제는 앞으로는 발생하지 않았으면 하는 마음이 있는데
차라리 디스크가 문제이고 그것을 교체해서 쓴다. 이러면 깔끔한데

참으로 난감하네요.
일단 레이드카드는 lsi 9260으로 갈아타볼 생각입니다.
                         
김현린 2018-02
레이드 카드 교체해보시는것도 좋지요..
다른 제품 써보는것도 좋으니까요.
저는 데이터 마이그레이션하기 힘들어서 못할것 같네요 하하
                         
캔위드 2018-02
휴....
아무리 구글링을 해봐도
Failed stripes를 해결할 방법이 보이질 않습니다.

거기에 어떤 디스크가 문제인지 알수도 없고요
디스크 8개를 전부 교체하는 방법도 있겠지만
그래봐야 이번과 같은 상황이 앞으로는 발생하지 않는다고 장담할 수가 없는 문제니까요.

논리적으로 앞뒤 잘 생각해 보면 아답텍하고의 이별이 가장 합리적인 선택으로 생각될 수 밖에 없는 상황입니다.
김현린 2018-02
저도 RAID Consistency Check 이 옵션이 꺼져있네요.
해당 날짜마다 정합성 검사(브리핑)을 해주는 옵션인듯 한데..
저는 1달마다 브리핑/픽스를 돌게 테스크 걸어놔서 의미가 없겠군요 ㅎㅎ
제 화면을 보고나서 조큼 추가 설명 드리자면 위 그림에서
Additional Details Initialized with Build/Clear
이부분은 처음에 레이드 구성할때 이니셜라이징을 어떻게 했느냐 부분인듯 합니다.
저도 같은 화면으로 나오구요.
퀵 이니셜로하면 퀵으로 나왔던거 같습니다.
그리고 당연히 아시겠지만..
레이드 카드 교체를 하신다면 데이터 마이그레이션이 가장 문제가 됩니다.
아답텍레이드 카드를 꼿아서 기존 어레이를 유지한체로 신규 레이드 카드와 신규 디스크 어레이 둘을 동시에 붙여 놔야
데이터 이전이 가능하죠..
저는 4TB X8 raid5 구성인데..
LSI로 가고싶어도 같은 디스크 구하는것도 일이고(돈이..) 그걸또 주렁주렁 달아서 복붙하는게 쉽지가 않네요..
딱히 아답텍에 아직까지는 불만이 없어서 그냥 살고있습니다 ㅎㅎ


QnA
제목Page 1737/5731
2015-12   1793757   백메가
2014-05   5268752   정은준1
2012-05   16208   김건우
2024-10   1266   김제연
2009-03   6189   방o효o문
2012-06   4912   오성기
2017-10   3761   EPKO
2019-01   3458   Nikon
2020-03   21366   지니컴I영진
2023-02   2206   린드버그
2009-03   6992   정은준1
2019-01   3498   online9
2024-11   1254   화란
2015-09   7344   초박이
2016-09   4787   무아
2014-05   6832   여주이상돈
2016-09   4380   흥마
2017-10   3880   고기
2014-05   9279   esca
2020-03   4316   거니스트
2016-09   4619   전설속의미…
2024-12   1084   백수가꿈