160;안녕Ȣ16;세요. 1068;1204;에 Dell 서버1032; 메모리 Error/196; 1064;해 1656;문 글1012; 올/160;었lj16;데요.
iDrac에서lj16; 1204;ǥ12; OK/196; 나왔1648;만 OS /196;그 상에서 Hardware Error section_type : memory error 0156;생Ȣ16;였습니다.160;
dmidecode type17 1008; 출/141; .104;나 201008; 출/141; .104;1648; 않아 1221;확한 슬ǘ15;에 대한 판별1060; 불가능Ȣ16;였1004;나
OS log에 나온 ,152; 토대/196;160;
A 슬ǘ15;에 대한 메모리 교체 후 /196;그 0120; 0156;생.160;
한 달 후 B슬ǘ15;에 대한 Error/196;그 0156;생(다른 addr1452;소1648;) 교체 후 /196;그 0120; 0156;생.
또 다시 한 달 후 C슬ǘ15;에 대한 memory error가 0156;생Ȣ16;여
엔1648;니Ǻ12; 파견 0143; Dell TSR log ǥ16;석1012; 맡긴 결과 모든 메모리에 대해 1221;상1060;라고 판별 .104;었습니다.
1. OS Log에서lj16; Error, TSR log에서lj16; 1221;상1060;라고 나올 수가 1080;나요? 160;(현1116; 메1064;보드 교체 0143; C슬ǘ15;에 대한 메모리 교체 예1221; 1473;)
2. dmidecode 20 1060; 1312;회 .104;1648; 않lj16; ,172; smbios버1204;1060; 안 맞아서 그러lj16; ,163; 같1008;데 physical address를 확1064; 할 수 1080;lj16; 다른 0169;법1060; 1080;1012;까요?
(서비스 1473;1064; 서버/196; 1064;해 다운 타1076;1012; 길,172; 가1256;갈 수 가 없습니다.)
감사합니다.
¸Þ¸ð¸®¿¡¼ Error°¡ ¹ß»ýÇߴµ¥ ECC µîÀ¸·Î Correct µÇ¾ú±â ¶§¹®¿¡ TSR¿¡¼´Â ºÒ·®À¸·Î º¸ÀÌÁö ¾Ê´Â°Ì´Ï´Ù
It has been corrected by h/w and requres no further action.
°íÃÄÁ³À¸´Ï, Ưº°È÷ ÇØ¾ß ÇÒ ÀÏÀÌ ¾ø´Ù´Â À̾߱â
¿ì¸®°¡ »ç´Â ȯ°æÀº ¹æ»ç¼±ÀÌ ¿Ô´Ù °¬´Ù Çϴ ȯ°æÀÔ´Ï´Ù. ¿ìÁÖ¿¡¼µµ ³¯¾Æ¿À°í ±×°ÍÀÌ ´Ù¸¥ ¹°Ã¼¸¦ ¶§·Á¼ ±× ¹°Ã¼¿¡¼ 2Â÷ÀûÀ¸·Î ³ª¿À´Â °Íµµ ÀÖ°í, º®¿¡¼µµ ³ª¿À°í À½½Ä¿¡µµ µé¾î ÀÖ°í ¿ì¸® ¸ö¿¡¼µµ ³ª¿É´Ï´Ù. ÀÌ·± ¹æ»ç¼±ÀÌ Áö³ª°¡´Ù °Çµå·Á¼ ¿¡·¯°¡ ¹ß»ýÇϱ⵵ ÇÕ´Ï´Ù(0 ÀÌ 1·Î ¹Ù²î°Å³ª 1 ÀÌ 0À¸·Î ¹Ù²î°Å³ª). Çϵå¿þ¾î¿¡¼ ¹ß»ýÇÑ ¿¡·¯À̱â´Â ÇÏÁö¸¸ Çϵå¿þ¾î °íÀåÀº ¾Æ´Õ´Ï´Ù. ÀÌ·± °ÍÀ» ±³Á¤Çϱâ À§ÇØ ECC¸¦ ä¿ëÇÕ´Ï´Ù. ±³Á¤ÇÏ°í ±×³É Áö³ª°©´Ï´Ù. ´ÙÀ½ ¹ø¿¡ ±× ÀÚ¸®¿¡¼ ¶Ç ¿¡·¯°¡ ¹ß»ýÇÏ´Â °ÍÀº ¾Æ´Õ´Ï´Ù.
ȯ°æÀÌ ¹Ù²îÁö ¾Ê´Â ÇÑ RAM ¸ðµâÀ̳ª ¸ÞÀκ¸µå¸¦ ¹Ù²Û´Ù°í ÇÏ¿© Àú·¯ÇÑ ¿¡·¯¸¦ ¸·À» ¼ö´Â ¾ø½À´Ï´Ù. ¾ÕÀ¸·Îµµ ¶Ç ¹ß»ýÇÒ °ÍÀÌ°í ¶Ç ±³Á¤ÇÏ°í Áö³ª°¥ °Ì´Ï´Ù.
https://www.memtest86.com/
ÀÌ°Ô ¾È¿¡ ÀÓº£µðµå ¸®´ª½º °°Àº °ÍÀÌ ºÎÆÃÇÏ¸é¼ Å×½ºÆ® ÇÏ´Â ÇÁ·Î±×·¥ÀÔ´Ï´Ù..
¸Þ¸ð¸® Å×½ºÆ®´Â ¸Þ¸ð¸® ¿ë·®¿¡ µû¶ó ½Ã°£ÀÌ ¸¹ÀÌ °É¸®°í Çѹø ¸Þ¸ð¸® Å×½ºÆ® Åë°ú Çß´Ù°í Çؼ ¸ø ¹Ï´Â °æ¿ìµµ Àֱ⿡ ¸î¹ø¾¿ °è¼Ó
Å×½ºÆ® ÇÏ´Â °æ¿ìµµ ÀÖ½À´Ï´Ù.. (¸î¹Ú ¸îÀÏ Å×½ºÆ® ÇÕ´Ï´Ù..)
±× ¿Ü ¸®´ª½º¸¦ ¼³Ä¡ÇÏ°í HPL(ÇÏÀÌ ÆÛÆ÷¸Õ½º ¸°ÆÑ) À» ¼³Ä¡Çؼ µ¹·Áº¸´Â ¹æ¹ýÀÌ ÀÖ½À´Ï´Ù..
HPLÀ» µ¹¸®¸é CPU¿Í ¸Þ¸ð¸®¿¡ 100% ºÎÇϸ¦ ÁÖ°í °è¼Ó µ¹¾Æ°©´Ï´Ù..
HPL °°Àº ÇÁ·Î±×·¥Àº °è¼Ó ºÎÇϸ¦ Áֱ⿡ ÀÌ°ÍÀ» ¸ø ¹öƼ´Â ½Ã½ºÅÛÀº °íÀåÀÌ ³¯ ¼ö ÀÖ½À´Ï´Ù..
À ºÐµé²²¼ ¿ì¼± Å« ¹®Á¦°¡ ¾ø´Ù°í ÇϼÌÀ¸´Ï Á» ÁöÄÑ º¸¼Ì´Ù°¡ °è¼Ó ¹®Á¦°¡ ÅÍÁö¸é ±× ¶§ ÀüüÀûÀ¸·Î ½Ã°£³»¼ Å×½ºÆ®¸¦ ÇϽôø
½Ã½ºÅÛÀ» Åë°·Î ±³È¯ÇϽôø ÇØ¾ß ÇÒ µíÇÕ´Ï´Ù.
Correctable Error°¡ detect µÇ´Â ¸ÞÄ¿´ÏÁò¿¡´Â µÎ Á¾·ù°¡ ÀÖ½À´Ï´Ù.
1. OS¿¡¼ ¸Þ¸ð¸® ¾×¼¼½º¸¦ ½ÃµµÇßÀ» ¶§ ¿¡·¯°¡ ¹ß°ßµÇ´Â °æ¿ì
2. CPU°¡ memory scrubbingÀ» ÇÒ ¶§ ¿¡·¯°¡ ¹ß°ßµÇ´Â °æ¿ì
1¹øÀº OS ¼öÁØ¿¡¼ ¿¡·¯°¡ °¨Áö/Á¤Á¤µÇ´Â °æ¿ìÀ̸ç, 2¹øÀº ¼¹ö Ç÷§Æû ¼öÁØ¿¡¼ ¿¡·¯°¡ °¨Áö/Á¤Á¤µÇ´Â °æ¿ìÀÔ´Ï´Ù.
ÇÏÁö¸¸ Çö¿ë ½Ã½ºÅÛ¿¡¼´Â ¼¹ö Ç÷§Æû°ú OS »çÀÌ¿¡ ¿À·ù °¨Áö/Á¤Á¤ ½ÅÈ£¸¦ Àü´ÞÇÒ ¼ö Àִ ǥÁØ ÀÎÅÍÆäÀ̽º°¡ Á¸ÀçÇÏÁö ¾Ê½À´Ï´Ù.
¾ö¹ÐÈ÷ ¸»Çϸé LinuxÀÇ EDAC°¡ ±×·¯ÇÑ ÀÎÅÍÆäÀ̽º¸¦ Á¦°øÇϱä ÇÏÁö¸¸, ±¸Çöü°¡ Ç÷§Æû ÀÇÁ¸ÀûÀ̱⠶§¹®¿¡ ¸ðµç ¸Þ½ÃÁö°¡ Àü´ÞµÉ °ÍÀÓÀ» º¸ÀåÇÏÁö ¾Ê½À´Ï´Ù.
½ÉÁö¾î OS->½Ã½ºÅÛÀ¸·Î ¸®Æ÷Æ® ÇÏ´Â ÀÎÅÍÆäÀ̽º´Â ¾ø½À´Ï´Ù.
¶§¹®¿¡ ¸ðµç ¸Þ¸ð¸® ¿¡·¯°¡ OS/½Ã½ºÅÛ ·Î±×¿¡ µ¿½Ã¿¡ ³²À» °ÍÀ̶ó°í ±â´ëÇؼ´Â ¾È µË´Ï´Ù.
OS¿¡¸¸ ¿¡·¯ Á¤Á¤ ·Î±×°¡ ÀÖ°í, ½Ã½ºÅÛ¿¡´Â ¿¡·¯ Á¤Á¤ ·Î±×°¡ ¾ø´Â °ÍÀº Á¤»óÀûÀÎ µ¿ÀÛÀÔ´Ï´Ù.
°³ÀÎÀûÀ¸·Î´Â Ç÷§Æû ·Î±×¿¡´Â correctable error°¡ ÂïÈ÷°í, OS ·Î±×¿¡´Â uncorrectable error°¡ ÂïÈù °æ¿ìµµ ºÃ½À´Ï´Ù.
-> ³× ±×·² ¼ö ÀÖ½À´Ï´Ù. ¸®´ª½º »ó edac¸ðµâÀÌ È°¼ºÈ µÇ¾îÀÖ´Ù¸é EDAC¿¡¼ ¸ÕÀú °¡Á®¿À¹Ç·Î
ESM/BMC/IPMI/iDRAC ·Î±×¿¡¼ ¸Þ¸ð¸® ¶Ç´Â CPU ¿À·ù¸¦ ¹ß°ßÇÏÁö ¸øÇÒ ¼öµµ ÀÖ½À´Ï´Ù.
º¥´õ ±Ç°í »çÇ×Àº edac ºñÈ°¼ºÈ ÀÔ´Ï´Ù.
https://www.dell.com/support/kbdoc/ko-kr/000177028/edac-errors-in-messages-log-in-redhat-enterprise-linux-rhel-and-poweredge