¸Þ¸ð¸® Correctable ECC ¿À·ù¿Í ¸®´ª½º ½Ã½ºÅÛ ¸ØÃã Çö»ó

   Á¶È¸ 4422   Ãßõ 0    

 안녕하십니까

메모리 Correctable ECC 에러로 인한 리눅스 시스템 멈춤 현상으로 질문 드립니다.


오늘 아침에 일어나 리눅스가 설치된(Debian, Kernel 5.4 버젼) 제 서버가 멈추어 있는것을 확인하였습니다.

키보드 Numlock 키에 불이 들어오지 않는 등 반응을 하지 않는 상태라 전원 버튼을 눌러 시스템을 리셋 하였습니다.

부팅 뒤 리눅스 syslog를 확인해보니 특정 시각 이후로 시스템이 멈추었다는것을 알 수 있었고,

IPMI Event Log를 보고나서, syslog가 끊긴 시각과의 Time Stamp 대조를 통하여 

Correctable ECC 에러가 발생한 후 시스템이 멈추었다는것을 알 수 있었습니다.

시스템이 멈추게 된 원인은 syslog에 남아있지 않아, Correctable ECC 에러 발생 뒤 커널에 문제가 생긴듯 합니다.


이후로 아침에 한 번 더 같은일이 일어나(Correctable ECC 에러 발생 뒤 시스템 멈춤)

Correctable ECC 에러가 발생한 후에 시스템이 멈춘다는것을 확실히 확인하였습니다.


제 질문들은 다음과 같습니다.


1) 제가 알기로는, "Correctable" ECC 오류가 발생하면, 하드웨어가 커널에 그 사실을 통보하고,

오류 발생 횟수가 많이 누적되지 않는 이상 시스템은 계속 동작하는것으로 알고 있습니다.

그러나 끊어진 syslog, 반응하지 않는 시스템 등으로 보았을 때, Correctable ECC 오류 발생 후 리눅스 커널이

hang 상태가 된 것 같습니다. 이유가 궁금합니다.


2) 다른 모든 부품들은 그대로이지만, 제가 최근에 메인보드를 교체하였습니다.

이전에는 ECC에러를 겪어본 적이 없어 드는 생각인데

"Correctable ECC 오류" 이벤트가 메인보드 결함으로도 발생할 수 있나요?

아니면 "Correctable ECC 오류" 이벤트 로그로부터, 특정 슬롯의 메모리(CPU1 DIMMA1)가 문제라는것을 확신할 수 있을까요?

오늘 memtest를 돌려볼 예정인데, 문제의 원인이 되는 하드웨어를 최대한 정확히 찾고 싶습니다.


감사합니다.

ªÀº±Û Àϼö·Ï ½ÅÁßÇÏ°Ô.
ÃÖ±Ù¿¡ Àúµµ °ÝÀº ¿¡·¯ °°³×¿ä..
Micron ¸Þ¸ð¸® ¿´´Âµ¥.. µµÀúÈ÷ ´Û¾Æµµ ´Û¾Æµµ ¼öÁ¤ÀÌ ¾ÊµÇ¾î..
±³Ã¼ Çß½À´Ï´Ù...
dateno1 2021-03
1. ECC ¹«Àû ¾Æ´Õ´Ï´Ù

2. º¸µåÀÏ ¼ö µµ ÀÖ°í, ·¥ÀÏ ¼ö µµ ÀÖ°í, ½ÃÇ»ÀÏ ¼ö µµ ÀÖ½À´Ï´Ù (½ÃÇ»-º¸µå-·¥ ÀÌ·¸°Ô Á÷°áµÇ´Ï±î¿ä)
     
¹Ú°æ¿ø 2021-03
Memtest µÎ ¹ø Çغôµ¥
µÎ ¹ø ´Ù moving inversions test Áß Gen_Prot CPU ÀÎÅÍ·´Æ®·Î ÁßÁöµÇ³×¿ä...
ÇÑ ¹øÀº 38G - 40G ¹üÀ§¿¡¼­, ±× ´ÙÀ½Àº 46G - 48G ¹üÀ§¿¡¼­ ¶ß´Â±º¿ä.
IPMI¿¡´Â ¾Æ¹«°Íµµ ±â·ÏµÇÁö ¾Ê³×¿ä
½´¸¶¼­¹ö 4G 8°³ Ç®¹ðÀ¸·Î ¾²´Ù°¡ ÀÏÁÖÀÏ¿¡ Çѵιø¾¿ BMC·Î±×¿¡ ÄÚ·ºÅÍºí¿¡·¯°¡ ¶°¼­ ¼öÁ¤µÇ´Â°Å´Ï±î Çϸ鼭 ¹«½ÃÇߴµ¥ 2¹øÀÇ ÇÁ¸®Â¡, ÇàÀ» °Þ°í ³ª¼­ ·Î±×¸¦ º¸¸é¼­ ¹®Á¦°¡ °¡Àå ºó¹øÇÑ ½½·ÔÀ» Á¦°Å ÈÄ ¸ðµç »óȲÀÌ ¾ø¾îÁ³½À´Ï´Ù. ÀÌÈÄ 8G 4°³·Î ¹Ù²ã¼­ ¿ë·®µµ º¹±¸Çß°í ´õ ÀÌ»óÀº ±×·± ¹®Á¦´Â º» ÀûÀÌ ¾ø³×¿ä.
¹®Á¦°¡ Áö¼ÓµÉ ¶§ CPU û¼Ò+±³Ã¼, ¸Þ¸ð¸® û¼Ò+±³Ã¼·Î´Â ¹®Á¦°¡ »ç¶óÁöÁö ¾Ê¾Ò´Âµ¥ °á±¹ º¸µåÀÇ ½½·ÔÀÌ ¹®Á¦¿´´ø °Í °°³×¿ä.
°æÇè´ãÀ̾ú½À´Ï´Ù.
¹Ú¹®Çü 2021-03
ºÒ·® ¸Þ¸ð¸® ¸ðµâºÎÅÍ È®½ÇÈ÷ ã¾Æ³» º¸¼¼¿ä..

¿Ö ±×·±Áö ¾Ë°í ½ÍÀ¸¸é Á¦Á¶»ç¿¡ ºÐ¼® ÀÇ·ÚÇØ º¸¼¼¿ä..

ºÐ¼® ºñ¿ëÀÌ µû·Î û±¸µÉ ¼ö ÀÖ°í ¿øÇÏ´Â ´äÀÌ ¾È ³ª¿Ã¼öµµ ÀÖ½À´Ï´Ù..

±×¸®°í ã¾Æ³»±âµµ Èûµé°í Àß ¾ø´Â °ÍÀÌÁö¸¸ IPMI Æß¿þ¾î ¹ö±×ÀÏ ¼öµµ ÀÖ½À´Ï´Ù..


QnA
Á¦¸ñPage 2447/5682
2014-05   4951907   Á¤ÀºÁØ1
2015-12   1488502   ¹é¸Þ°¡
2015-05   6675   Çöºñ´Ï
2011-10   5199   À±¿µµ·
2018-10   4853   ±è°Ç¿ì
2011-10   6002   »ðÁú¸Å´Ï¾Æ
2022-10   1837   ertos21
2011-10   6989   ¹æoÈ¿o¹®
2019-12   3601   song05
2014-02   10170   ¼­¿ïI±èµ¿¼ö
2015-06   3507   °Ü¿ï³ª¹«
2019-12   6049   È­¶õ
2018-10   6230   ÇÏÁ¤±¸
2018-10   4815   turtlmac
2021-03   4423   newretrowave
2015-06   3396   ±èÀ¯Áß
2016-07   4940   ´ÃÆĶõ
2015-06   4226   °ËÀº¹Ù¶÷
2016-07   3661   ¼¼»ó¾ß±×
2011-12   5292   MikroTikÀÌÁø
2015-06   3925   À©µµ¿ì10
06-28   1559   Q8300