안녕하세요 대기업 k@에 dell서버를 납품하고 있습니다.
발단은... dell 서버 r740 r640 을 이곳에 납풉하고있습니다.
case. 만약 납품한 서버에서 memory 장애가 난경우
Q1.) 해당 장비 isuue 가 Multi-bit error 인가?
yes↙ ↘no
A) dell고객센터를 통해 접수 Q2.) 해당 장비 isuue 가 Correctable error 인가?
(TSRlog 첨부)
case1↙ ↘case2 ↘yes
Dell에서 특이사항 없이 Dell에서 Bios버전을 업그레이드 권장 A) dell고객센터를 통해 접수 (TSRlog첨부)
memory교체 해준다 및 isuue memory 탈부착 시도 권장
case3↙ ↘case4 ↘case2
또 같은위치에 memory isuue가 권장방법을 다 시도후에도 동일한 Dell에서 Bios버전을 업그레이드 권장
생겼다면 메인보드 교체 권장 memory isuue가 또 발생했다면 및 isuue memory 탈부착 시도 권장
Dell에서 memory 교체 해준다 case4↙
권장방법 다 시도 후에도 동일한 memory
isuue가 또 발생했다면 Dell에서 memory 교체 해준다
위사항 isuue 발생한 경우 대부분 case2, case4 로 흘러갑니다. (dell 입장 기준)
근데 현실은 dell 권장 방법처럼 할수가 없네요.
K@입장에서는 운영중인 서버를 총 2번 리부팅하게 되니깐요 (덤으로 야간작업도 2번!!)
그래서 그런지 사무실 사내 memory로 그냥 울며 겨자먹기로? 교체해주고 있습니다.
서론이 길었는데... 결론은 이런식으로 사내 memory로 손해보면서 계속 교체해주고 있습니다.
장애난 memory( Correctable, Multi-bit)를 사내 사무실에 장착하고 모니터링 해봐도 동일하게
장애가 발생하질 않더군요... 동일하게 장애가 나야 신규 memory로 맞교환이라도 할텐데 ㅠ...
그래서 질문이 이겁니다.
R640 R740
사용OS : Centos6버전 , 7버전
서버 OS상에서 memory 부하를 일으킬수 있는 명령어가 있을까요?(서비스가 돌아가는 환경처럼 구성 필요)
동일하게 memory issue가 떠야 하는데 여태까지 단 한번도 일어난적이 없네요.
ps. Correctable, Multi-bit로 손해보며 쌓인 메모리가 20개 넘네요 ㅋㅋㅋ
´Ü¼ø ºÎÇÏ ¸ñÀûÀ̸é Intel Memory Latency Checker¸¦ »ç¿ëÇÏ½Ã¸é µË´Ï´Ù. (intel.com/content/www/us/en/developer/articles/tool/intelr-memory-latency-checker.html)
+ ½ºÆ®·¹½º Å×½ºÆ®·Î´Â stress-ng¸¦ »ç¿ëÇϼŵµ µË´Ï´Ù.
Multi-bitÀº AS ´ë»óÀÔ´Ï´Ù.
º¸Åë DELLÀº TSR ·Î±× ¹ÝÃâÇÏ°í È®ÀÎµÇ¸é ±³Ã¼ ÇØÁִ°ɷΠ¾Ë°í Àִµ¥ °í°´»ç¸¶´Ù ´Ù¸¥°¡ º¾´Ï´Ù.
±×¸®°í Á¦Á¶»ç (DELLµî)¿¡¼ Memory°¡ ºÒ·®ÀÌ ¹ß»ýÇß´Ù°í Çؼ "Å»ºÎÂø" Çغ¸¶ó°í ÇÏÁö ¾Ê½À´Ï´Ù. ¸¸¾à ±×·¨´Ù¸é ´ã´ç ¿£Áö´Ï¾î°¡ ¹º°¡ À߸øÇÏ°í ÀÖ´Â °Ì´Ï´Ù.
±×¸®°í k@¶ó¸é Àü´ã ¿£Áö´Ï¾î°¡ ÀÖÁö ¾Ê³ª¿ä?
Ãß°¡ºñ¿ëÀÌ µé±â´Â Support¸¦ ±¸ÀÔÇϽǶ§ Àü´ã¿£Áö´Ï¾î¸¦ Æ÷ÇÔÇÏ´Â »óÇ°À» ±¸¸ÅÇϽøé ÀÌ·± Á¾·ùÀÇ AS´Â ¸ðµÎ Àü´ã ¿£Áö´Ï¾î°¡ ó¸®ÇØ ÁÝ´Ï´Ù.
ÀÌ·Â °ü¸® Æ÷ÇÔÇؼ¿ä.
¹°·Ð »çÀÌÆ®¸¶´Ù ´Ù¸¦ ¼ö´Â ÀÖ°Ú½À´Ï´Ù
[¹®ÀÇ ³»¿ë]
- DIMM#A4 Multi-bit memory error ¹ß»ý
- ÇöÀç »ç¿ë ÁßÀÎ BIOS Æß¿þ¾î ¹öÀüÀº 1.5.4 ¹öÀüÀ¸·Î ¸¹ÀÌ ³·Àº ¹öÀüÀ» »ç¿ë ÁßÀÎ °ÍÀ¸·Î È®ÀÎÇÏ¿´½À´Ï´Ù.
- BIOS 2.7.X ÀÌ»óÀÇ Æß¿þ¾î ¹öÀü¿¡¼´ÂMEM0001 À̺¥Æ® ¹ß»ý ½Ã, ¸Þ¸ð¸® ÀçÀåÂø ¹× RebootÀ» ÅëÇÑ Self-healing(ÀÚ°¡ Ä¡·á) ±â´ÉÀÌ Ãß°¡µÇ¾ú½À´Ï´Ù.
- µû¶ó¼, Self-healing ±â´ÉÀÌ Ãß°¡µÈ ÃֽŠBIOS Æß¿þ¾î ¹öÀüÀ¸·Î ¾÷µ¥ÀÌÆ®¸¦ ±Ç°íµå¸®¸ç, ÀÌÈÄ ÇØ´ç DIMM#A4 ¸Þ¸ð¸® ÀçÀåÂø ¹× RebootÀ» ÅëÇÑ Self-healing(ÀÚ°¡ Ä¡·á)ÀÌ ¼öÇàµÉ ¼ö ÀÖµµ·Ï ÁøÇàÀ» ±Ç°íµå¸³´Ï´Ù.
- ÇØ´ç ÀÛ¾÷ ÀÌÈÄ Self-healing¿¡ ½ÇÆеǾú´Ù´Â À̺¥Æ®(MEM0805)°¡ ¹ß»ýÇϰųª, µ¿ÀÏ ¸Þ¸ð¸®¿¡¼ À̽´°¡ Áö¼ÓµÈ´Ù¸é ÇØ´ç ¸Þ¸ð¸® ±³Ã¼°¡ ÇÊ¿äÇÕ´Ï´Ù.
µû¶ó¼, iDRAC,BIOS Æß¿þ¾î ¹öÀüÀ¸·Î ¾÷µ¥ÀÌÆ® ¹× DIMM#A4 ¸Þ¸ð¸® ÀçÀåÂø ÀÛ¾÷À» ±Ç°í ÇÏ°íÀÖÀ½
´ëÃæ 8ÇÒÀº ÀÌ·±½ÄÀ¸·Î Dell ±â¼úÁö¿ø ÆÀ¿¡°Ô ¸ÞÀϴ亯ÀÌ ¿É´Ï´Ù. ³°¨ÇÏÁÒ ¤»¤»¤»
°í°´ÀÌ ¾Æ´ÂüÇϸé Áö³×°¡ ¼ºñ½ºÇØ¾ßµÉ ºÎºÐÀ» °í°´¿¡°Ô Àü°¡½ÃÅ°´Ï
³ª´Â ¸ð¸£¼â... ±×³É ¾ÊµÇ¶ó°íÇϸé
ÇØ´ç º¥´õ ¿£Áö´Ï¾î°¡ ¿Í¼ ó¸®ÇØÁÖ°í °©´Ï´Ù... ¶ó°í...
¼±ÅÃÀº °í°´ ¸òÀÌÁÒ
https://www.memtest86.com/
±× ¿Ü HPL À̶õ ÇÁ·Î±×·¥µµ »ç¿ëÀÌ °¡´ÉÇÕ´Ï´Ù..
¸®´ª½º¿¡ ÄÄÆÄÀÏÇؼ µ¹¸®´Âµ¥ ½ÇÇàµÇ¸é ¸ØÃ߶ó°í ¸í·ÉÀ» ÁÙ¶§±îÁö´Â ¸Þ¸ð¸®¿Í CPU¸¦ °è¼Ó ºÎÇϸ¦ ÁÖ¾î¼ °¥±Á´Ï´Ù..
https://icl.utk.edu/hpl/index.html