안녕하세요. 일전에 Dell 서버의 메모리 Error로 인해 질문 글을 올렸었는데요.
iDrac에서는 전부 OK로 나왔지만 OS 로그 상에서 Hardware Error section_type : memory error 발생하였습니다.
dmidecode type17 은 출력 되나 20은 출력 되지 않아 정확한 슬롯에 대한 판별이 불가능하였으나
OS log에 나온 걸 토대로
A 슬롯에 대한 메모리 교체 후 로그 미 발생.
한 달 후 B슬롯에 대한 Error로그 발생(다른 addr주소지) 교체 후 로그 미 발생.
또 다시 한 달 후 C슬롯에 대한 memory error가 발생하여
엔지니어 파견 및 Dell TSR log 분석을 맡긴 결과 모든 메모리에 대해 정상이라고 판별 되었습니다.
1. OS Log에서는 Error, TSR log에서는 정상이라고 나올 수가 있나요? (현재 메인보드 교체 및 C슬롯에 대한 메모리 교체 예정 중)
2. dmidecode 20 이 조회 되지 않는 게 smbios버전이 안 맞아서 그러는 것 같은데 physical address를 확인 할 수 있는 다른 방법이 있을까요?
(서비스 중인 서버로 인해 다운 타임을 길게 가져갈 수 가 없습니다.)
감사합니다.
¸Þ¸ð¸®¿¡¼ Error°¡ ¹ß»ýÇߴµ¥ ECC µîÀ¸·Î Correct µÇ¾ú±â ¶§¹®¿¡ TSR¿¡¼´Â ºÒ·®À¸·Î º¸ÀÌÁö ¾Ê´Â°Ì´Ï´Ù
It has been corrected by h/w and requres no further action.
°íÃÄÁ³À¸´Ï, Ưº°È÷ ÇØ¾ß ÇÒ ÀÏÀÌ ¾ø´Ù´Â À̾߱â
¿ì¸®°¡ »ç´Â ȯ°æÀº ¹æ»ç¼±ÀÌ ¿Ô´Ù °¬´Ù Çϴ ȯ°æÀÔ´Ï´Ù. ¿ìÁÖ¿¡¼µµ ³¯¾Æ¿À°í ±×°ÍÀÌ ´Ù¸¥ ¹°Ã¼¸¦ ¶§·Á¼ ±× ¹°Ã¼¿¡¼ 2Â÷ÀûÀ¸·Î ³ª¿À´Â °Íµµ ÀÖ°í, º®¿¡¼µµ ³ª¿À°í À½½Ä¿¡µµ µé¾î ÀÖ°í ¿ì¸® ¸ö¿¡¼µµ ³ª¿É´Ï´Ù. ÀÌ·± ¹æ»ç¼±ÀÌ Áö³ª°¡´Ù °Çµå·Á¼ ¿¡·¯°¡ ¹ß»ýÇϱ⵵ ÇÕ´Ï´Ù(0 ÀÌ 1·Î ¹Ù²î°Å³ª 1 ÀÌ 0À¸·Î ¹Ù²î°Å³ª). Çϵå¿þ¾î¿¡¼ ¹ß»ýÇÑ ¿¡·¯À̱â´Â ÇÏÁö¸¸ Çϵå¿þ¾î °íÀåÀº ¾Æ´Õ´Ï´Ù. ÀÌ·± °ÍÀ» ±³Á¤Çϱâ À§ÇØ ECC¸¦ ä¿ëÇÕ´Ï´Ù. ±³Á¤ÇÏ°í ±×³É Áö³ª°©´Ï´Ù. ´ÙÀ½ ¹ø¿¡ ±× ÀÚ¸®¿¡¼ ¶Ç ¿¡·¯°¡ ¹ß»ýÇÏ´Â °ÍÀº ¾Æ´Õ´Ï´Ù.
ȯ°æÀÌ ¹Ù²îÁö ¾Ê´Â ÇÑ RAM ¸ðµâÀ̳ª ¸ÞÀκ¸µå¸¦ ¹Ù²Û´Ù°í ÇÏ¿© Àú·¯ÇÑ ¿¡·¯¸¦ ¸·À» ¼ö´Â ¾ø½À´Ï´Ù. ¾ÕÀ¸·Îµµ ¶Ç ¹ß»ýÇÒ °ÍÀÌ°í ¶Ç ±³Á¤ÇÏ°í Áö³ª°¥ °Ì´Ï´Ù.
https://www.memtest86.com/
ÀÌ°Ô ¾È¿¡ ÀÓº£µðµå ¸®´ª½º °°Àº °ÍÀÌ ºÎÆÃÇÏ¸é¼ Å×½ºÆ® ÇÏ´Â ÇÁ·Î±×·¥ÀÔ´Ï´Ù..
¸Þ¸ð¸® Å×½ºÆ®´Â ¸Þ¸ð¸® ¿ë·®¿¡ µû¶ó ½Ã°£ÀÌ ¸¹ÀÌ °É¸®°í Çѹø ¸Þ¸ð¸® Å×½ºÆ® Åë°ú Çß´Ù°í Çؼ ¸ø ¹Ï´Â °æ¿ìµµ Àֱ⿡ ¸î¹ø¾¿ °è¼Ó
Å×½ºÆ® ÇÏ´Â °æ¿ìµµ ÀÖ½À´Ï´Ù.. (¸î¹Ú ¸îÀÏ Å×½ºÆ® ÇÕ´Ï´Ù..)
±× ¿Ü ¸®´ª½º¸¦ ¼³Ä¡ÇÏ°í HPL(ÇÏÀÌ ÆÛÆ÷¸Õ½º ¸°ÆÑ) À» ¼³Ä¡Çؼ µ¹·Áº¸´Â ¹æ¹ýÀÌ ÀÖ½À´Ï´Ù..
HPLÀ» µ¹¸®¸é CPU¿Í ¸Þ¸ð¸®¿¡ 100% ºÎÇϸ¦ ÁÖ°í °è¼Ó µ¹¾Æ°©´Ï´Ù..
HPL °°Àº ÇÁ·Î±×·¥Àº °è¼Ó ºÎÇϸ¦ Áֱ⿡ ÀÌ°ÍÀ» ¸ø ¹öƼ´Â ½Ã½ºÅÛÀº °íÀåÀÌ ³¯ ¼ö ÀÖ½À´Ï´Ù..
À ºÐµé²²¼ ¿ì¼± Å« ¹®Á¦°¡ ¾ø´Ù°í ÇϼÌÀ¸´Ï Á» ÁöÄÑ º¸¼Ì´Ù°¡ °è¼Ó ¹®Á¦°¡ ÅÍÁö¸é ±× ¶§ ÀüüÀûÀ¸·Î ½Ã°£³»¼ Å×½ºÆ®¸¦ ÇϽôø
½Ã½ºÅÛÀ» Åë°·Î ±³È¯ÇϽôø ÇØ¾ß ÇÒ µíÇÕ´Ï´Ù.
Correctable Error°¡ detect µÇ´Â ¸ÞÄ¿´ÏÁò¿¡´Â µÎ Á¾·ù°¡ ÀÖ½À´Ï´Ù.
1. OS¿¡¼ ¸Þ¸ð¸® ¾×¼¼½º¸¦ ½ÃµµÇßÀ» ¶§ ¿¡·¯°¡ ¹ß°ßµÇ´Â °æ¿ì
2. CPU°¡ memory scrubbingÀ» ÇÒ ¶§ ¿¡·¯°¡ ¹ß°ßµÇ´Â °æ¿ì
1¹øÀº OS ¼öÁØ¿¡¼ ¿¡·¯°¡ °¨Áö/Á¤Á¤µÇ´Â °æ¿ìÀ̸ç, 2¹øÀº ¼¹ö Ç÷§Æû ¼öÁØ¿¡¼ ¿¡·¯°¡ °¨Áö/Á¤Á¤µÇ´Â °æ¿ìÀÔ´Ï´Ù.
ÇÏÁö¸¸ Çö¿ë ½Ã½ºÅÛ¿¡¼´Â ¼¹ö Ç÷§Æû°ú OS »çÀÌ¿¡ ¿À·ù °¨Áö/Á¤Á¤ ½ÅÈ£¸¦ Àü´ÞÇÒ ¼ö Àִ ǥÁØ ÀÎÅÍÆäÀ̽º°¡ Á¸ÀçÇÏÁö ¾Ê½À´Ï´Ù.
¾ö¹ÐÈ÷ ¸»Çϸé LinuxÀÇ EDAC°¡ ±×·¯ÇÑ ÀÎÅÍÆäÀ̽º¸¦ Á¦°øÇϱä ÇÏÁö¸¸, ±¸Çöü°¡ Ç÷§Æû ÀÇÁ¸ÀûÀ̱⠶§¹®¿¡ ¸ðµç ¸Þ½ÃÁö°¡ Àü´ÞµÉ °ÍÀÓÀ» º¸ÀåÇÏÁö ¾Ê½À´Ï´Ù.
½ÉÁö¾î OS->½Ã½ºÅÛÀ¸·Î ¸®Æ÷Æ® ÇÏ´Â ÀÎÅÍÆäÀ̽º´Â ¾ø½À´Ï´Ù.
¶§¹®¿¡ ¸ðµç ¸Þ¸ð¸® ¿¡·¯°¡ OS/½Ã½ºÅÛ ·Î±×¿¡ µ¿½Ã¿¡ ³²À» °ÍÀ̶ó°í ±â´ëÇؼ´Â ¾È µË´Ï´Ù.
OS¿¡¸¸ ¿¡·¯ Á¤Á¤ ·Î±×°¡ ÀÖ°í, ½Ã½ºÅÛ¿¡´Â ¿¡·¯ Á¤Á¤ ·Î±×°¡ ¾ø´Â °ÍÀº Á¤»óÀûÀÎ µ¿ÀÛÀÔ´Ï´Ù.
°³ÀÎÀûÀ¸·Î´Â Ç÷§Æû ·Î±×¿¡´Â correctable error°¡ ÂïÈ÷°í, OS ·Î±×¿¡´Â uncorrectable error°¡ ÂïÈù °æ¿ìµµ ºÃ½À´Ï´Ù.
-> ³× ±×·² ¼ö ÀÖ½À´Ï´Ù. ¸®´ª½º »ó edac¸ðµâÀÌ È°¼ºÈ µÇ¾îÀÖ´Ù¸é EDAC¿¡¼ ¸ÕÀú °¡Á®¿À¹Ç·Î
ESM/BMC/IPMI/iDRAC ·Î±×¿¡¼ ¸Þ¸ð¸® ¶Ç´Â CPU ¿À·ù¸¦ ¹ß°ßÇÏÁö ¸øÇÒ ¼öµµ ÀÖ½À´Ï´Ù.
º¥´õ ±Ç°í »çÇ×Àº edac ºñÈ°¼ºÈ ÀÔ´Ï´Ù.
https://www.dell.com/support/kbdoc/ko-kr/000177028/edac-errors-in-messages-log-in-redhat-enterprise-linux-rhel-and-poweredge