리눅스 재부팅 현상 질문드립니다 (2)

   조회 15717   추천 0    

안녕하십니까??
 
지난번에도 똑같은 질문을 올렸던것 같습니다만
아직 해결되지 않아서 다시 질문드립니다 
마스터 1대 (dhcp + tftp 이용 이미지 전송)
 
<-> 스위치 허브로 연결
 
노드 사양
(6대)
CPU : i7-4770 ( 하이퍼쓰레딩 사용 )
M/B : Gigabyte b85m-d3h
메모리 : 삼성 4gb * 4
파워 : ZM-500le
 
(1대)
CPU : i7-4790 ( 하이퍼쓰레딩 사용 )
M/B : Asus H97m-e
메모리 : 삼성 8gb * 2
파워 : 슈퍼플라워 500W
 
 
사용한 운영체제
Centos 6.5, 6.7
Kernel 2.xx 3.x  4.x 전부 사용해보았음.
(혹여나 메인보드를 지원하지 않을까봐 커널 업데이트 해보았으나 해결x)

구성은 하드디스크 없이 마스터 컴퓨터가 tftp로 부팅이미지 주고 프로그램은
스캐줄러 이용해서 MPI로 돌리고 있습니다.

한 1년간 잘 돌리고 있었는데 최근에 와서 계산용 서버들이 소리없이 재부팅 됩니다. (계속 재부팅 되네요)
더 이상한건 한놈만 죽는게 아니고 여러대가 번갈아 죽습니다.
 
최근에 붙이긴 했는데 우연인지는 모르겠는데 i7-4790 노드 하나는 한번 더 죽은적이 없습니다.

 
프로그램 돌아갈때 (코어 다 사용) 만 죽습니다.
 

첫째 계속 풀로드 사용하기 때문에 온도가 높아져서 꺼진다.
 -> 이건 아닌것 같습니다. 여름이 아니라 요즘 온도도 낮고 팬도 잘 돌아가고 있습니다.

둘째 돌리는 프로그램이 이상하다.
 -> 사용자 말로는 다른 컴퓨터에 돌려서 문제가 없다고 합니다.

셋째 파워가 이상하다.
 -> 파워... 6대 한번 다 교체해 볼까요?? 산지 2-3년 정도 된 것 같습니다

넷째 랜선/허브가 문제다.
 -> 허브랑 랜선 전부 교체해 보았으나 해결되지 않았습니다.

다섯째 케이스 단자랑 쇼트문제
 -> 리셋버튼 빼버렸으니 여전히 그럽니다.
 
 
지난번에 rsyslog 서버를 만들어서 원격으로 로그를 보내버리라는 답도 있었지만
죽을때는 로그도 없이 죽습니다. 그냥 깨끗합니다.
 
노드들의 리눅스 설정에서는 커널패닉시 재부팅하라고 설정 안되어 있습니다.
 
 
프로그램에 문제가 있을까요?? 하드웨어?? 잘 모르겠습니다
 
감사합니다.
짧은글 일수록 신중하게.
박문형 2015-10
혹시나 메모리가 부족해서 리셋되는게 아닐까요??

몇대만 메모리를 풀뱅해보는 것도
     
일단 돌리는 프로그램의 메모리는 총 메모리의 10%도 되지 않습니다.
먼저 메모리를 동적 할당한 후에 계산만 하기 때문에 따로 메모리가 늘어날 여지도 없는 것 같습니다.

아 그리고 멀티탭도 교체 해보았습니다.
박문형 2015-10
보통 리눅스에서 HPL (하이퍼포먼스 린펙)을 돌려서 하루내지 1주일 이상 다운 없이 돌아가면

메모리 씨피유쪽에는 문제가 없습니다.

PC인지라 메모리에서 에러나면 답이 없기에 (서버류는 ECC메모리로 에러 보정을 하지만)
회원K 2015-10
장비의 hw fail 로그도 없다면 (리눅스의 로그말고 장비의 관리자에 남는 로그)
깨끗하게 밀고 재설치를 하셔야 합니다.

델이나 HP는 HW 로그가 남는데, 사용하시는 보드는 모르겠네요.
HW Fail 로그 추출이 가능한지 보드 매뉴얼을 보서야 할 것 같아요.

몇달전 HP 장비가 무한 리부팅을 했는데, 써멀센서 고장이었습니다.
엠브리오 2015-10
컴퓨터 고장의 대부분은 기계적인 부분에서 생깁니다.
HDD 모터라든지 CPU쿨링팬, 파워서플라이 쿨링팬..이라든지,

HDD가 없는 시스템이라면 쿨링팬부터 하나씩 순서대로 점검해 보시기 바랍니다.

그 다음으로 쉽게 고장나는 전자부품은 메인보드 혹은 파워서플라이 콘덴서입니다.
윗부분이 부풀어 올라 배불뚝이가 되는데 부풀어 오르지 않아도 고장인 경우가 꽤 있습니다.
HW fail 로그는 따로 안 남는 것 같습니다. 벤치마크 프로그램으로 부하를 줘서 확인하고
하드웨어 문제는 따로따로 바꿔보면서 테스트 해봐야 될 것 같습니다.

파워서플라이 -> 메인보드 순으로 확인해보겠습니다.
감사합니다.
김제연 2015-10
각 이미지들은 같은 이미지 인가요?아니면 같은 이미지인가요? 그리고 4770과 4790이미지는 같은하드에있나요? 다른하드에있나요?4790 이미지를 복사해서 4770 에 적용시키고 다운되나 관찰해보세요
     
노드들 전부 이미지는 같은 이미지입니다. 하드는 마스터에만 존재합니다. 노드들의 시스템은 동일합니다.
현장이 아니라 정확하게 판단할수는 없지만.. 디스크리스 시스템의 경우 아래와 같은 이유로 발생될수있습니다.

1. 서버쪽 IO중 WriteBack 공간(Temp공간)의 디스크 배드 또는 이상이 있는 경우 발생될수 있습니다.
2. 원인불명의 네트워크 부하로 인한 디스크쓰기지연(읽기지연)에 따른 문제일수도 있습니다.


QnA
제목Page 2675/5729
2015-12   1789947   백메가
2014-05   5264946   정은준1
2010-09   9542   일반유저
2017-02   4396   팬더너굴이
2019-06   3645   s김종화z
2015-01   5909   장동건2014
2023-10   2635   pumkin
2010-10   10239   하승협
2023-10   3937   Rich
2016-03   7400   다니엘헤딩
2020-09   6591   뽕무
2022-03   2108   이영규
2015-01   4105   엘리엇
2015-01   4463   김준유
2016-03   3810   초보IT
2013-08   8361   김건우
2015-01   4093   그사람
2018-05   4442   블루모션
2022-03   2139   JJ시스템
2019-07   4943   한효석
2020-10   2601   comefeel82
2015-01   4317   유재건