안녕하십니까??
지난번에도 똑같은 질문을 올렸던것 같습니다만
아직 해결되지 않아서 다시 질문드립니다
마스터 1대 (dhcp + tftp 이용 이미지 전송)
<-> 스위치 허브로 연결
노드 사양
(6대)
CPU : i7-4770 ( 하이퍼쓰레딩 사용 )
CPU : i7-4770 ( 하이퍼쓰레딩 사용 )
M/B : Gigabyte b85m-d3h
메모리 : 삼성 4gb * 4
파워 : ZM-500le
파워 : ZM-500le
(1대)
CPU : i7-4790 ( 하이퍼쓰레딩 사용 )
M/B : Asus H97m-e
메모리 : 삼성 8gb * 2
파워 : 슈퍼플라워 500W
사용한 운영체제
Centos 6.5, 6.7
Kernel 2.xx 3.x 4.x 전부 사용해보았음.
(혹여나 메인보드를 지원하지 않을까봐 커널 업데이트 해보았으나 해결x)
구성은 하드디스크 없이 마스터 컴퓨터가 tftp로 부팅이미지 주고 프로그램은
스캐줄러 이용해서 MPI로 돌리고 있습니다.
한 1년간 잘 돌리고 있었는데 최근에 와서 계산용 서버들이 소리없이 재부팅 됩니다. (계속 재부팅 되네요)
더 이상한건 한놈만 죽는게 아니고 여러대가 번갈아 죽습니다.
최근에 붙이긴 했는데 우연인지는 모르겠는데 i7-4790 노드 하나는 한번 더 죽은적이 없습니다.
프로그램 돌아갈때 (코어 다 사용) 만 죽습니다.
첫째 계속 풀로드 사용하기 때문에 온도가 높아져서 꺼진다.
-> 이건 아닌것 같습니다. 여름이 아니라 요즘 온도도 낮고 팬도 잘 돌아가고 있습니다.
둘째 돌리는 프로그램이 이상하다.
-> 사용자 말로는 다른 컴퓨터에 돌려서 문제가 없다고 합니다.
셋째 파워가 이상하다.
-> 파워... 6대 한번 다 교체해 볼까요?? 산지 2-3년 정도 된 것 같습니다
넷째 랜선/허브가 문제다.
-> 허브랑 랜선 전부 교체해 보았으나 해결되지 않았습니다.
다섯째 케이스 단자랑 쇼트문제
-> 리셋버튼 빼버렸으니 여전히 그럽니다.
지난번에 rsyslog 서버를 만들어서 원격으로 로그를 보내버리라는 답도 있었지만
죽을때는 로그도 없이 죽습니다. 그냥 깨끗합니다.
노드들의 리눅스 설정에서는 커널패닉시 재부팅하라고 설정 안되어 있습니다.
프로그램에 문제가 있을까요?? 하드웨어?? 잘 모르겠습니다
감사합니다.
몇대만 메모리를 풀뱅해보는 것도
먼저 메모리를 동적 할당한 후에 계산만 하기 때문에 따로 메모리가 늘어날 여지도 없는 것 같습니다.
아 그리고 멀티탭도 교체 해보았습니다.
메모리 씨피유쪽에는 문제가 없습니다.
PC인지라 메모리에서 에러나면 답이 없기에 (서버류는 ECC메모리로 에러 보정을 하지만)
깨끗하게 밀고 재설치를 하셔야 합니다.
델이나 HP는 HW 로그가 남는데, 사용하시는 보드는 모르겠네요.
HW Fail 로그 추출이 가능한지 보드 매뉴얼을 보서야 할 것 같아요.
몇달전 HP 장비가 무한 리부팅을 했는데, 써멀센서 고장이었습니다.
HDD 모터라든지 CPU쿨링팬, 파워서플라이 쿨링팬..이라든지,
HDD가 없는 시스템이라면 쿨링팬부터 하나씩 순서대로 점검해 보시기 바랍니다.
그 다음으로 쉽게 고장나는 전자부품은 메인보드 혹은 파워서플라이 콘덴서입니다.
윗부분이 부풀어 올라 배불뚝이가 되는데 부풀어 오르지 않아도 고장인 경우가 꽤 있습니다.
하드웨어 문제는 따로따로 바꿔보면서 테스트 해봐야 될 것 같습니다.
파워서플라이 -> 메인보드 순으로 확인해보겠습니다.
감사합니다.
1. 서버쪽 IO중 WriteBack 공간(Temp공간)의 디스크 배드 또는 이상이 있는 경우 발생될수 있습니다.
2. 원인불명의 네트워크 부하로 인한 디스크쓰기지연(읽기지연)에 따른 문제일수도 있습니다.