리눅스 재부팅 현상 질문드립니다

   조회 4663   추천 0    

안녕하십니까??

I7-4770 5대로 계산용 서버를 돌리고 있습니다.
파워는 잘만 zm 500 le 입니다.

구성은 하드디스크 없이 마스터 컴퓨터가 tftp로 부팅이미지 주고 프로그램은
스캐줄러 이용해서 MPI로 돌리고 있습니다.

여태까지 잘 돌리고 있었는데 최근에 와서 계산용 서버들이 소리없이 재부팅 됩니다.
더 이상한건 한놈만 죽는게 아니고 여러대가 번갈아 죽습니다.
왜 죽을까 고민을 해봤는데요.

첫째 계속 풀로드 사용하기 때문에 온도가 높아져서 꺼진다.
 -> 케이스 벗기고 에어콘 풀로 돌려서 서버실 온도를 25도 근처로 맞춰도 꺼집니다.

둘째 돌리는 프로그램이 이상하다.
 -> 제가 보기에는 별 이상한점이 없습니다만 프로그램이 꼬여서 재부팅까지 가는지 의문입니다.

셋째 파워가 이상하다.
 -> 의심가긴 한데요 산지 2년정도 된것 같은데 안죽다가 지금 여러대가 번갈이가며 죽는거 보니 아닌것 같기도 합니다.

넷째 랜선/허브가 문제다.
 -> 마스터랑 노드들이 공유폴더를 이용하는데요 위 문제만으로 재부팅이 되는지 모르겠습니다.

다섯째 케이스 단자랑 쇼트문제
 -> 이러면 처음부터 문제가 생기지 않았을까요?

문제점을 못찾으면 다 확인해 볼꺼지만 우선순위를 정한다면 어떤게 있을까요??
하드디스크 없이 사용하기때문에 (공유폴더 제외) 죽으면서 뿜는 로그도 확인 못하는 상태입니다.
짧은글 일수록 신중하게.
stone92 2015-06
diskless로 사용하시나 보군요..
일단 저라면 로그서버를 만들고 각 서버들의 로그를 모두 로그 서버에 저장하게 한 다음 로그분석을 시도해보겠습다.
부팅이미지가 동일할테니 커널때문은 아닐듯 하구요..
일단 로그를 보는 수 밖에 없을것 같습니다.
박문형 2015-06
메모리 불량 등

한대한대 HPL 돌려서 씨퓨랑 메모리 검사를 해보세요..
전체가 랜덤하니 전원을 확인해보세요 최근에 다른 장비를 더물렸다던가..

두꺼비집 안내려가도 전력이 부족하여 그럴수도있으니 몇대는 다른 콘센트로~~
푸른늑대 2015-06
리눅스 장비라면 rsyslog 설정하셔서.. 죽는 시점의 로그를 확인해 보시거나.
프로그램 꼬여서 죽는 경우도 종종 보긴 했습니다만...(nfs 환경에서는 많이 발생했었던걸로 기억합니다.)
우선은 로그를 우선 확인하시고 다음 단계로 하나씩 체크해 보시는게 좋을거 같습니다.
김제연 2015-06
전 네트워크쪽 문제인것 같습니다 diskless 는 네트워크 불안정하면 답 안나오는것 같습니다
김동수P 2015-06
보통 저런경우 허브가 문제입니다.
순간적으로 네트웍 단절되면서 죽는 문제로 보입니다.


QnA
제목Page 2785/5727
2015-12   1776436   백메가
2014-05   5251434   정은준1
2015-06   5983   ITES
2015-06   3953   insert
2015-06   4063   천안정성훈
2015-06   5231   유호준
2015-06   3997   네버썸머
2015-06   4509   전설속의미…
2015-06   8311   전설속의미…
2015-06   7900   김준영86
2015-06   5009   가빠로구나
2015-06   5511   송주환
2015-06   4378   병따개님
2015-06   3686   nightly
2015-06   3554   이천풍
2015-06   3728   이엘
2015-06   4347   윈도우10
2015-06   4173   조병철
2015-06   3551   윈도우10
2015-06   4072   테돌아이
2015-06   10035   김호성
2015-06   4383   이갑부