리눅스 재부팅 현상 질문드립니다

   조회 4649   추천 0    

안녕하십니까??

I7-4770 5대로 계산용 서버를 돌리고 있습니다.
파워는 잘만 zm 500 le 입니다.

구성은 하드디스크 없이 마스터 컴퓨터가 tftp로 부팅이미지 주고 프로그램은
스캐줄러 이용해서 MPI로 돌리고 있습니다.

여태까지 잘 돌리고 있었는데 최근에 와서 계산용 서버들이 소리없이 재부팅 됩니다.
더 이상한건 한놈만 죽는게 아니고 여러대가 번갈아 죽습니다.
왜 죽을까 고민을 해봤는데요.

첫째 계속 풀로드 사용하기 때문에 온도가 높아져서 꺼진다.
 -> 케이스 벗기고 에어콘 풀로 돌려서 서버실 온도를 25도 근처로 맞춰도 꺼집니다.

둘째 돌리는 프로그램이 이상하다.
 -> 제가 보기에는 별 이상한점이 없습니다만 프로그램이 꼬여서 재부팅까지 가는지 의문입니다.

셋째 파워가 이상하다.
 -> 의심가긴 한데요 산지 2년정도 된것 같은데 안죽다가 지금 여러대가 번갈이가며 죽는거 보니 아닌것 같기도 합니다.

넷째 랜선/허브가 문제다.
 -> 마스터랑 노드들이 공유폴더를 이용하는데요 위 문제만으로 재부팅이 되는지 모르겠습니다.

다섯째 케이스 단자랑 쇼트문제
 -> 이러면 처음부터 문제가 생기지 않았을까요?

문제점을 못찾으면 다 확인해 볼꺼지만 우선순위를 정한다면 어떤게 있을까요??
하드디스크 없이 사용하기때문에 (공유폴더 제외) 죽으면서 뿜는 로그도 확인 못하는 상태입니다.
짧은글 일수록 신중하게.
stone92 2015-06
diskless로 사용하시나 보군요..
일단 저라면 로그서버를 만들고 각 서버들의 로그를 모두 로그 서버에 저장하게 한 다음 로그분석을 시도해보겠습다.
부팅이미지가 동일할테니 커널때문은 아닐듯 하구요..
일단 로그를 보는 수 밖에 없을것 같습니다.
박문형 2015-06
메모리 불량 등

한대한대 HPL 돌려서 씨퓨랑 메모리 검사를 해보세요..
전체가 랜덤하니 전원을 확인해보세요 최근에 다른 장비를 더물렸다던가..

두꺼비집 안내려가도 전력이 부족하여 그럴수도있으니 몇대는 다른 콘센트로~~
푸른늑대 2015-06
리눅스 장비라면 rsyslog 설정하셔서.. 죽는 시점의 로그를 확인해 보시거나.
프로그램 꼬여서 죽는 경우도 종종 보긴 했습니다만...(nfs 환경에서는 많이 발생했었던걸로 기억합니다.)
우선은 로그를 우선 확인하시고 다음 단계로 하나씩 체크해 보시는게 좋을거 같습니다.
김제연 2015-06
전 네트워크쪽 문제인것 같습니다 diskless 는 네트워크 불안정하면 답 안나오는것 같습니다
김동수P 2015-06
보통 저런경우 허브가 문제입니다.
순간적으로 네트웍 단절되면서 죽는 문제로 보입니다.


QnA
제목Page 2785/5724
2015-12   1763591   백메가
2014-05   5237872   정은준1
2017-02   4515   뽀뽀중
2018-05   3690   kimjang
2022-03   2204   까치산개꿀탱
2018-05   3712   임종열
2020-09   3605   죠슈아
2013-08   5978   서미
2023-11   3374   이매망량2
2020-10   4579   술이
2010-11   8944   정은준1
2020-10   5005   만사오케이
2013-09   8987   2CPU최주희
2015-01   4010   꿀홍삼
2017-03   4487   이태욱
2016-03   4433   DoWoo
2022-04   2546   김형준1
2010-12   9092   아름다운노을
2015-01   5238   윤성옥
2022-04   1739   피버꾸
2013-09   5759   해피버그
2022-04   2666   김황중