레이드카드 과부하에 따라 시스템 전체가 다운될수 있나요?(centOS+Adaptec)

   조회 5305   추천 0    

 centOS 6.7 + Adaptec 8805 조합이 시스템이 요새 자꾸 말썽입니다.

 

1 : centOS 6.5 + 내장 SATA = 1년 넘게 이상없이 작동

2 : centOS 6.6 + 내장 SATA / 보드+CPU 변경 = 2달가량 이상없이 작동

3. : centOS 6.6 + Adaptec8805 = 셋팅 1일만에 부트하드(SSD) 문제 발생 / 커널패닉

4 : centOS 6.7 + Adaptec 8805 = 셋팅 2일만에 서버다운 ( 확인불가 / 원격접속 불가 )


최근 격은 내용입니다.

요약하자면 그냥저냥 보드 내장 SATA에 하드 물려서 구동했던 시스템이 수개월간 훌륭하게 작동되었으나,

최근 하드 증설 및 데이터 안정성을 목적으로 Raid 5를 8805로 구축한 이후, 지속적인 서버다운이 발생되고 있습니다.


최근 2차례 사례의 공통점은, 아답텍에 물려있는 Raid 5 볼륨에 집중적인 하드 엑세스가 발생할 경우입니다.

이글 작성 30분전에 다운되버린 서버는 다운 직전까지 다양한 서비스들을 수행하다, 원격으로 고용량 데이터 복사를 시작한 이후 10분안에 다운되버렸습니다.


작은 회사들이 그렇듯이, 서버관리자가 따로 없고, 유지보수따윈 고려도 안하고 그냥 가장 비슷한 놈으로 매칭시키는 구조이기에..

의지와 상관없이 리눅스는 구글신이 없으면 관리도 못하는 제가 관리자가 되어 버렸습니다.


주말이고, 전화기는 살포시 꺼버렸지만.... 다운된걸 알고 있는 상태에서 영 불안합니다.


저 서버 왜저러는 걸까요... 보드를 웍보드 쓰던갈 던져줬더니 저러는건가..;;;


1. 본인이 하드 파티션 구성 및 포맷, 마운트를 개떡같이 해서 이러는걸까요?

 - GPT+ext4+UUID 했습니다. 용량은 18TB입니다.


2. 아답텍 저아이 열받으면, 그냥 뻣나요?

 - 마지막 다운 되실때 약 59도 였습니다. (액티브 쿨링+슈마케이스+순구리 방열판 조합임에도 저 온도를 보여주네요)


3. 아답텍과 슈마, centOS 얘네들 변태조합인가요...?

 - 밴더웍사면, 정답인거 알고 있습니다. 그래서 메인서버는 HP 입니다. 얘는 웍용으로 사용되던 부품을 서버로 넘겨서, 스트리밍 및 연산용으로

  만든것인데, 영 뭔가 처음부터 속썩이네요..


4. 케이블 불량이 이런문제를 초래하기도 하나요?

  - 사용중인 케이블은 adaptec 정품 케이블 minSAS HD 입니다. 해당케이블로 웍에서는 수개월간 문제없이 사용했습니다.

   

5. centOS 7로 넘어가면 뭔가 해결이 될까요?

  - 사용중이 서비스가 특별한것은 없고, 셋팅값도 거의 디폴트 수준이기에 원인을 못찾으면 다시 밀 각오도 되있습니다.

   원인도 모르니 언제 또 속썩일지 몰르니.;;


PS:1 이유는 모르겠는데, 정황상 하드 마운트 파티션 그쪽인거 같기도 하고... 뭔가 버벅거려 응답이 늦으면 리눅스가 그냥 뻣는건지...

PS:2 IPMI이란 기능을 이럴때 써먹는건가요? 아오 토요일밤에 다시 회사가보려니 너무너무너무너무너무 귀찮네요...



스샷 추가 : 파워케이블 배열 수정 및 재부팅후 장애 발생 상황


짧은글 일수록 신중하게.
나우마크 2016-04
SSD 연결은 인텔 내장이 가장 안정적이고
벤치값도 가장 잘 나옵니다.
인텔 내장으로 연결하고 OS 설치하시길.

RAID 5 구동시 뻗는다면,
일단 온도 관리가 의심스럽습니다.
헌데 59도면 문제 없는 온도입니다.
액티브 쿨링 했다고 하니 이상합니다.

케이블 불량이면
aborted command 등으로
아답텍 관리 프로그램에서 살펴볼 수 있습니다.
물론 로그에도 남습니다.


불량이 아니라는 전제 하에,
드라이버도 의심이 갑니다.
리눅스에서도 커널 패닉은 드라이버 이상에서도 발생했던 기억이 있습니다.
헌데 이건 한 10년도 전인 오래전이라...
제스퍼즈 2016-04
서버앞에 와보니
ic2 ic2-0: sendbytes : MAK bailout.
라고 화면을 예쁘게 덮고 있네요.
레아드 구성하드들은 엑세스 점멸들이 번쩍이며..

구글링해봤더니 장황한 설명들이..;;

레이드카드 드라이버 문제일까요?

Os는 ssd에 설치후 따로 인텔 내장 사타포트에 연결되었습니다
파워가 딸리는듯 보입니다..
     
제스퍼즈 2016-04
답변감사합니다.

920W 파워가 달린 SC835TQ-R920B 샷시인데, 파워가 부족할까요...
SATA 하드 4개 / SAS 15K 하드 4개 / SSD 1개 / RAID카드 / 외부파워도 안먹는 그래픽 / CPU 1개 구성입니다.

혹시, 문득 드는 생각인데, 선정리가 편하려고 SATA하드 4개가 물린 백플레인 뒤쪽에 2개의 파워핀이 있는데 한개의 파워선으로 모두 결속했습니다.
그게 이유가 될수도 있을까요?

파워에서 구형 하드 파워잭 전선이 3개가 나와있는데, 지금 문제가 되는 Raid5 구성 하드들이 몰려있는 핫스왑 백플레인에 한개 전선으로 2개 포트를 연결해놨습니다. 글쓰면서도 왠지 이렇게 해놓으면 안될듯한 쌔한 느낌이 들긴 합니다.
          
elkiselee 2016-04
출근 하시면 레이드 카드 로그를 올려줘보세요

파워커넥터도 좋은방법이 아닌것 같네요
               
제스퍼즈 2016-04
지금 회사 왔답니다. ㅎ;;
로그 뒤적거려볼라는데 또 다운되버렸네요..  로그 찾아서 올려보겠습니다.
제스퍼즈 2016-04
해당화면에서 컨트롤 C 로 나가니 명렴프롬프트 뜨고 모든 서비스가 동작합니다... 하.. 뭐 이런 ;;
재부팅후 로그를 뒤져봐야겠습니다.
     
나우마크 2016-04
아시다 시피,
파워 커넥터를 한개 전선으로 2개 포트 연결은 좋은 방법은 아닙니다.
이 부분을 교체해보시고,

일단 댓글로 보면 드라이버가 문제같습니다.
안되면 소스 드라이버 가지고 커널 컴파일...
          
제스퍼즈 2016-04
답변 감사합니다. 회원분들의 조언을 받아 실시간으로 수정중입니다. ㅎ;

우선 파워 케이블은 개별로 변경 구성하였고,  시스템 뚜껑 닫고 렉 밀어넣는데 딱 맞게 또 오류가 떳습니다.

BUG:unable to handle kernel NULL pointer determine at (NULL)

이 뜨고 아래로 쭉 뜨네요.. 아까와는 다른 메세지들인지.. 이상태로 냅두면 또 저렇게 되는건지... 일단 현재 상태에서 모든 서비스는 죽어버렸습니다.
(외부접속 불가능) (핑은 또 받네요.. -_-;)

옆 윈도우 컴퓨터에서 글쓰는데 혼자 갑자기 재부팅하네요... 관련스샷을 첨부해보겠습니다. (댓글은 이미지를 어찌 넣지..;;)
시도니 2016-04
혹시 해당 드라이버의 Support Matrix 는 정확히 확인해보셨습니까?

실제로, HP H/W 를 취급하는 저희는 RHEL 6.x 출시 초기에 드라이버 지원사항때문에 상당히 고생했습니다.

동작이 되는 것과, 안정적으로 동작이 되는 것은 별개의 문제입니다.

아답텍이 인터페이스카드로 유명한 만큼 지원에 대해서 인색하게 굴 것 같지는 않습니다만,

저희 경험을 이야기 하면 그랬습니다..

개인적으로,

그래서 LINUX 가 참 못쓸 것이지요...... 문제가 생겨도 찾기도 힘들고 지원받기도 힘든,,
     
제스퍼즈 2016-04
아답텍 홈페이지에서 centos 6.6 버전으로 된것을 다운받았습니다.
드라이버 설치는 장애 이후에 하였습니다. ( =  장애시에는 아무런 드라이버 설치도 없었습니다. / 따로 설치하지 않아도, 정상적으로 보이는 작동을 확이하였기에,,)

불과 3년 전만 해도 리눅스는 이름만 들어본 OS였는데,
공부한답시고, 회사 회선에 미니멀 리눅스를 깔고 이리저리 건들면서 발을 들이게 되었습니다.

명령어 옵션 외우기도 힘들고, 뭐 하나 하려면 구글링을 수십분해야 해서 불편함이..;;

문제가 생기면, 내공이 부족한 유저들은 로그파일 위치 찾기도 힘들고, 열어봐도 이게 뭔소린지 해독하는지도 오래걸리고...
이래저래.. 딸래미 예쁜구두 사주려면, 닥치고 회사에서 시키는데로 해야 할듯하여 팔자에도 없는 리눅스를 만지고 있네여..ㅎ;

늦은시각 답변 감사합니다.
시피유가 두개 이면 서로 바꾸어 설치해보세요..
CPU0 을 CPU1에 넣고 CPU1 를 CPU0 에 설치 해보세요..
그리고 메세지 다시 확인 해보세요.
     
제스퍼즈 2016-04
CPU는 한개만 꼽혀있습니다.
아답텍 홈페이지에서 제공되는 centos 6.6 버전의 드라이버를 설치하고, 하드간 복사 및 스트리밍 서비스 과부하 유도 등
이리저리 서버를 괴롭히는데, 아직까진 살아있습니다.

시간도 늦고 졸리고 토요일밤에 이게 뭐하는 짓인가 싶어, 귀가후 모니터링 중입니다.

번외 질문이긴 합니다. 리눅스를 자세히 알지 못해서 기초적인 궁금증이 생겼습니다. 커널 버전은 최신안정화 버전이 장땡인가요?

언제나 답변 감사합니다.
          
최신버전을 유지하는것이 성능면에서는 좋다고 봅니다.
          
NGC 2016-04
성능향상의 목적보다는.. 성능향상을 해서 나오는 마이너 업데이트 버전도 있긴하지만
커널업의 목적은 보안, 안정성 향상의 목적이 더 큽니다.

제가 볼때는 레이드카드의 펌웨어도 확인을 하시는게 좋을것 같습니다.
나우마크 2016-04
7 / 8 시리즈는 문제가 거의 픽스되어서 안정화 단계에 이르렀다고 이야기하는 제품입니다.
윈도우 에서 돌려보면 정확할 것 같은데...

리눅스 이런 문제가 참 골치아픕니다.
박문형 2016-04
저희도 겪었는데

리눅스 드라이버 씨디에 있는 것은 다운이 되고  아답텍에서 나온 드라이버를 사용하니 문제가 해결되었습니다..

참조하시기 바랍니다..
     
제스퍼즈 2016-04
언제나 답변감사합니다.

비슷하네요. 리눅스에 있는거로 했을때(아답텍 홈피꺼 안깐상태)에서는 계속 저런 에러를 뿜더니,
어제 아답텍 공식 홈페이지에 올라온 드라이버로 변경하니, 아직까지 과도한 부하에도 잘 살아있습니다.


QnA
제목Page 2934/5718
2015-12   1740724   백메가
2014-05   5209025   정은준1
2016-11   5307   컴박
2005-11   5307   이관호
2014-12   5307   장동건2014
2007-07   5307   박준용
2016-10   5306  
2016-08   5306   엠브리오
2006-08   5306   김건우
2007-06   5306   김지성
2005-11   5306   정진원
2017-11   5306   올때메로나
2007-06   5306   최창현
2008-11   5306   조재현
2016-04   5306   제스퍼즈
2017-03   5306   퍼런곰
2023-06   5306   Caig
2021-06   5306   bangCH
2006-03   5306   남성룡
2014-02   5306   luciddream
2009-06   5306   손석우
2017-02   5306   알파고