¸®´ª½º ÀçºÎÆà Çö»ó Áú¹®µå¸³´Ï´Ù (2)

   Á¶È¸ 15414   Ãßõ 0    

안녕하십니까??
 
지난번에도 똑같은 질문을 올렸던것 같습니다만
아직 해결되지 않아서 다시 질문드립니다 
마스터 1대 (dhcp + tftp 이용 이미지 전송)
 
<-> 스위치 허브로 연결
 
노드 사양
(6대)
CPU : i7-4770 ( 하이퍼쓰레딩 사용 )
M/B : Gigabyte b85m-d3h
메모리 : 삼성 4gb * 4
파워 : ZM-500le
 
(1대)
CPU : i7-4790 ( 하이퍼쓰레딩 사용 )
M/B : Asus H97m-e
메모리 : 삼성 8gb * 2
파워 : 슈퍼플라워 500W
 
 
사용한 운영체제
Centos 6.5, 6.7
Kernel 2.xx 3.x  4.x 전부 사용해보았음.
(혹여나 메인보드를 지원하지 않을까봐 커널 업데이트 해보았으나 해결x)

구성은 하드디스크 없이 마스터 컴퓨터가 tftp로 부팅이미지 주고 프로그램은
스캐줄러 이용해서 MPI로 돌리고 있습니다.

한 1년간 잘 돌리고 있었는데 최근에 와서 계산용 서버들이 소리없이 재부팅 됩니다. (계속 재부팅 되네요)
더 이상한건 한놈만 죽는게 아니고 여러대가 번갈아 죽습니다.
 
최근에 붙이긴 했는데 우연인지는 모르겠는데 i7-4790 노드 하나는 한번 더 죽은적이 없습니다.

 
프로그램 돌아갈때 (코어 다 사용) 만 죽습니다.
 

첫째 계속 풀로드 사용하기 때문에 온도가 높아져서 꺼진다.
 -> 이건 아닌것 같습니다. 여름이 아니라 요즘 온도도 낮고 팬도 잘 돌아가고 있습니다.

둘째 돌리는 프로그램이 이상하다.
 -> 사용자 말로는 다른 컴퓨터에 돌려서 문제가 없다고 합니다.

셋째 파워가 이상하다.
 -> 파워... 6대 한번 다 교체해 볼까요?? 산지 2-3년 정도 된 것 같습니다

넷째 랜선/허브가 문제다.
 -> 허브랑 랜선 전부 교체해 보았으나 해결되지 않았습니다.

다섯째 케이스 단자랑 쇼트문제
 -> 리셋버튼 빼버렸으니 여전히 그럽니다.
 
 
지난번에 rsyslog 서버를 만들어서 원격으로 로그를 보내버리라는 답도 있었지만
죽을때는 로그도 없이 죽습니다. 그냥 깨끗합니다.
 
노드들의 리눅스 설정에서는 커널패닉시 재부팅하라고 설정 안되어 있습니다.
 
 
프로그램에 문제가 있을까요?? 하드웨어?? 잘 모르겠습니다
 
감사합니다.
ªÀº±Û Àϼö·Ï ½ÅÁßÇÏ°Ô.
¹Ú¹®Çü 2015-10
Ȥ½Ã³ª ¸Þ¸ð¸®°¡ ºÎÁ·Çؼ­ ¸®¼ÂµÇ´Â°Ô ¾Æ´Ò±î¿ä??

¸î´ë¸¸ ¸Þ¸ð¸®¸¦ Ç®¹ðÇغ¸´Â °Íµµ
     
ÀÏ´Ü µ¹¸®´Â ÇÁ·Î±×·¥ÀÇ ¸Þ¸ð¸®´Â ÃÑ ¸Þ¸ð¸®ÀÇ 10%µµ µÇÁö ¾Ê½À´Ï´Ù.
¸ÕÀú ¸Þ¸ð¸®¸¦ µ¿Àû ÇÒ´çÇÑ ÈÄ¿¡ °è»ê¸¸ Çϱ⠶§¹®¿¡ µû·Î ¸Þ¸ð¸®°¡ ´Ã¾î³¯ ¿©Áöµµ ¾ø´Â °Í °°½À´Ï´Ù.

¾Æ ±×¸®°í ¸ÖƼÅǵµ ±³Ã¼ Çغ¸¾Ò½À´Ï´Ù.
¹Ú¹®Çü 2015-10
º¸Åë ¸®´ª½º¿¡¼­ HPL (ÇÏÀÌÆÛÆ÷¸Õ½º ¸°Æå)À» µ¹·Á¼­ ÇÏ·ç³»Áö 1ÁÖÀÏ ÀÌ»ó ´Ù¿î ¾øÀÌ µ¹¾Æ°¡¸é

¸Þ¸ð¸® ¾¾ÇÇÀ¯ÂÊ¿¡´Â ¹®Á¦°¡ ¾ø½À´Ï´Ù.

PCÀÎÁö¶ó ¸Þ¸ð¸®¿¡¼­ ¿¡·¯³ª¸é ´äÀÌ ¾ø±â¿¡ (¼­¹ö·ù´Â ECC¸Þ¸ð¸®·Î ¿¡·¯ º¸Á¤À» ÇÏÁö¸¸)
ȸ¿øK 2015-10
ÀåºñÀÇ hw fail ·Î±×µµ ¾ø´Ù¸é (¸®´ª½ºÀÇ ·Î±×¸»°í ÀåºñÀÇ °ü¸®ÀÚ¿¡ ³²´Â ·Î±×)
±ú²ýÇÏ°Ô ¹Ð°í À缳ġ¸¦ ÇÏ¼Å¾ß ÇÕ´Ï´Ù.

µ¨À̳ª HP´Â HW ·Î±×°¡ ³²´Âµ¥, »ç¿ëÇϽô º¸µå´Â ¸ð¸£°Ú³×¿ä.
HW Fail ·Î±× ÃßÃâÀÌ °¡´ÉÇÑÁö º¸µå ¸Å´º¾óÀ» º¸¼­¾ß ÇÒ °Í °°¾Æ¿ä.

¸î´ÞÀü HP Àåºñ°¡ ¹«ÇÑ ¸®ºÎÆÃÀ» Çߴµ¥, ½á¸Ö¼¾¼­ °íÀåÀ̾ú½À´Ï´Ù.
ÄÄÇ»ÅÍ °íÀåÀÇ ´ëºÎºÐÀº ±â°èÀûÀÎ ºÎºÐ¿¡¼­ »ý±é´Ï´Ù.
HDD ¸ðÅͶóµçÁö CPUÄð¸µÆÒ, ÆÄ¿ö¼­ÇöóÀÌ Äð¸µÆÒ..À̶óµçÁö,

HDD°¡ ¾ø´Â ½Ã½ºÅÛÀ̶ó¸é Äð¸µÆÒºÎÅÍ Çϳª¾¿ ¼ø¼­´ë·Î Á¡°ËÇØ º¸½Ã±â ¹Ù¶ø´Ï´Ù.

±× ´ÙÀ½À¸·Î ½±°Ô °íÀ峪´Â ÀüÀÚºÎÇ°Àº ¸ÞÀκ¸µå ȤÀº ÆÄ¿ö¼­ÇöóÀÌ Äܵ§¼­ÀÔ´Ï´Ù.
À­ºÎºÐÀÌ ºÎÇ®¾î ¿Ã¶ó ¹èºÒ¶ÒÀÌ°¡ µÇ´Âµ¥ ºÎÇ®¾î ¿À¸£Áö ¾Ê¾Æµµ °íÀåÀÎ °æ¿ì°¡ ²Ï ÀÖ½À´Ï´Ù.
HW fail ·Î±×´Â µû·Î ¾È ³²´Â °Í °°½À´Ï´Ù. º¥Ä¡¸¶Å© ÇÁ·Î±×·¥À¸·Î ºÎÇϸ¦ Á༭ È®ÀÎÇÏ°í
Çϵå¿þ¾î ¹®Á¦´Â µû·Îµû·Î ¹Ù²ãº¸¸é¼­ Å×½ºÆ® ÇغÁ¾ß µÉ °Í °°½À´Ï´Ù.

ÆÄ¿ö¼­ÇöóÀÌ -> ¸ÞÀκ¸µå ¼øÀ¸·Î È®ÀÎÇغ¸°Ú½À´Ï´Ù.
°¨»çÇÕ´Ï´Ù.
±èÁ¦¿¬ 2015-10
°¢ À̹ÌÁöµéÀº °°Àº À̹ÌÁö Àΰ¡¿ä?¾Æ´Ï¸é °°Àº À̹ÌÁöÀΰ¡¿ä? ±×¸®°í 4770°ú 4790À̹ÌÁö´Â °°ÀºÇϵ忡ÀÖ³ª¿ä? ´Ù¸¥Çϵ忡ÀÖ³ª¿ä?4790 À̹ÌÁö¸¦ º¹»çÇؼ­ 4770 ¿¡ Àû¿ë½ÃÅ°°í ´Ù¿îµÇ³ª °üÂûÇغ¸¼¼¿ä
     
³ëµåµé ÀüºÎ À̹ÌÁö´Â °°Àº À̹ÌÁöÀÔ´Ï´Ù. Çϵå´Â ¸¶½ºÅÍ¿¡¸¸ Á¸ÀçÇÕ´Ï´Ù. ³ëµåµéÀÇ ½Ã½ºÅÛÀº µ¿ÀÏÇÕ´Ï´Ù.
ÇöÀåÀÌ ¾Æ´Ï¶ó Á¤È®ÇÏ°Ô ÆÇ´ÜÇÒ¼ö´Â ¾øÁö¸¸.. µð½ºÅ©¸®½º ½Ã½ºÅÛÀÇ °æ¿ì ¾Æ·¡¿Í °°Àº ÀÌÀ¯·Î ¹ß»ýµÉ¼öÀÖ½À´Ï´Ù.

1. ¼­¹öÂÊ IOÁß WriteBack °ø°£(Temp°ø°£)ÀÇ µð½ºÅ© ¹èµå ¶Ç´Â ÀÌ»óÀÌ ÀÖ´Â °æ¿ì ¹ß»ýµÉ¼ö ÀÖ½À´Ï´Ù.
2. ¿øÀκҸíÀÇ ³×Æ®¿öÅ© ºÎÇÏ·Î ÀÎÇÑ µð½ºÅ©¾²±âÁö¿¬(ÀбâÁö¿¬)¿¡ µû¸¥ ¹®Á¦Àϼöµµ ÀÖ½À´Ï´Ù.


QnA
Á¦¸ñPage 5551/5684
2014-05   4957462   Á¤ÀºÁØ1
2015-12   1493907   ¹é¸Þ°¡
2011-09   15401   º¸º¸º¸º¸
2012-04   15402   ¸¶ÀÌÄÚÄÚ
2013-10   15402   ȸ¿øK
2010-04   15402   ±è°Ç¿ì
2002-06   15404   ±è±Ç¼ö
2013-05   15408   ±è¹Î¼º
2002-05   15408   ±èµ¿·ü
2010-04   15411   ÀÌÀÌÁ¤ÈÆ
2002-05   15412   ±èÇѱ¸
2019-07   15412   ¿øÁÖ´ÃÇ°
2015-10   15415   Áö³ª°¡´ÂÇàÀÎ
2002-05   15421   ¾ç½Â¿ø
2013-01   15423   º´¸ÀÆù
2011-08   15425   Àü±ÙÇö
2012-11   15428   HEUo±è¿ë¹Î
2014-07   15428   Á¦½ºÆÛÁî
2014-08   15429   klein
2002-05   15431   ½É¼ºÁØ
2002-06   15436   ÀÌ»óÇö
2002-06   15440   ³ëÇö¼®