안녕하세요 대기업 k@에 dell서버를 납품하고 있습니다.
발단은... dell 서버 r740 r640 을 이곳에 납풉하고있습니다.
case. 만약 납품한 서버에서 memory 장애가 난경우
Q1.) 해당 장비 isuue 가 Multi-bit error 인가?
yes↙ ↘no
A) dell고객센터를 통해 접수 Q2.) 해당 장비 isuue 가 Correctable error 인가?
(TSRlog 첨부)
case1↙ ↘case2 ↘yes
Dell에서 특이사항 없이 Dell에서 Bios버전을 업그레이드 권장 A) dell고객센터를 통해 접수 (TSRlog첨부)
memory교체 해준다 및 isuue memory 탈부착 시도 권장
case3↙ ↘case4 ↘case2
또 같은위치에 memory isuue가 권장방법을 다 시도후에도 동일한 Dell에서 Bios버전을 업그레이드 권장
생겼다면 메인보드 교체 권장 memory isuue가 또 발생했다면 및 isuue memory 탈부착 시도 권장
Dell에서 memory 교체 해준다 case4↙
권장방법 다 시도 후에도 동일한 memory
isuue가 또 발생했다면 Dell에서 memory 교체 해준다
위사항 isuue 발생한 경우 대부분 case2, case4 로 흘러갑니다. (dell 입장 기준)
근데 현실은 dell 권장 방법처럼 할수가 없네요.
K@입장에서는 운영중인 서버를 총 2번 리부팅하게 되니깐요 (덤으로 야간작업도 2번!!)
그래서 그런지 사무실 사내 memory로 그냥 울며 겨자먹기로? 교체해주고 있습니다.
서론이 길었는데... 결론은 이런식으로 사내 memory로 손해보면서 계속 교체해주고 있습니다.
장애난 memory( Correctable, Multi-bit)를 사내 사무실에 장착하고 모니터링 해봐도 동일하게
장애가 발생하질 않더군요... 동일하게 장애가 나야 신규 memory로 맞교환이라도 할텐데 ㅠ...
그래서 질문이 이겁니다.
R640 R740
사용OS : Centos6버전 , 7버전
서버 OS상에서 memory 부하를 일으킬수 있는 명령어가 있을까요?(서비스가 돌아가는 환경처럼 구성 필요)
동일하게 memory issue가 떠야 하는데 여태까지 단 한번도 일어난적이 없네요.
ps. Correctable, Multi-bit로 손해보며 쌓인 메모리가 20개 넘네요 ㅋㅋㅋ
단순 부하 목적이면 Intel Memory Latency Checker를 사용하시면 됩니다. (intel.com/content/www/us/en/developer/articles/tool/intelr-memory-latency-checker.html)
+ 스트레스 테스트로는 stress-ng를 사용하셔도 됩니다.
Multi-bit은 AS 대상입니다.
보통 DELL은 TSR 로그 반출하고 확인되면 교체 해주는걸로 알고 있는데 고객사마다 다른가 봅니다.
그리고 제조사 (DELL등)에서 Memory가 불량이 발생했다고 해서 "탈부착" 해보라고 하지 않습니다. 만약 그랬다면 담당 엔지니어가 뭔가 잘못하고 있는 겁니다.
그리고 k@라면 전담 엔지니어가 있지 않나요?
추가비용이 들기는 Support를 구입하실때 전담엔지니어를 포함하는 상품을 구매하시면 이런 종류의 AS는 모두 전담 엔지니어가 처리해 줍니다.
이력 관리 포함해서요.
물론 사이트마다 다를 수는 있겠습니다
[문의 내용]
- DIMM#A4 Multi-bit memory error 발생
- 현재 사용 중인 BIOS 펌웨어 버전은 1.5.4 버전으로 많이 낮은 버전을 사용 중인 것으로 확인하였습니다.
- BIOS 2.7.X 이상의 펌웨어 버전에서는MEM0001 이벤트 발생 시, 메모리 재장착 및 Reboot을 통한 Self-healing(자가 치료) 기능이 추가되었습니다.
- 따라서, Self-healing 기능이 추가된 최신 BIOS 펌웨어 버전으로 업데이트를 권고드리며, 이후 해당 DIMM#A4 메모리 재장착 및 Reboot을 통한 Self-healing(자가 치료)이 수행될 수 있도록 진행을 권고드립니다.
- 해당 작업 이후 Self-healing에 실패되었다는 이벤트(MEM0805)가 발생하거나, 동일 메모리에서 이슈가 지속된다면 해당 메모리 교체가 필요합니다.
따라서, iDRAC,BIOS 펌웨어 버전으로 업데이트 및 DIMM#A4 메모리 재장착 작업을 권고 하고있음
대충 8할은 이런식으로 Dell 기술지원 팀에게 메일답변이 옵니다. 난감하죠 ㅋㅋㅋ
고객이 아는체하면 지네가 서비스해야될 부분을 고객에게 전가시키니
나는 모르쇄... 그냥 않되라고하면
해당 벤더 엔지니어가 와서 처리해주고 갑니다... 라고...
선택은 고객 몫이죠
https://www.memtest86.com/
그 외 HPL 이란 프로그램도 사용이 가능합니다..
리눅스에 컴파일해서 돌리는데 실행되면 멈추라고 명령을 줄때까지는 메모리와 CPU를 계속 부하를 주어서 갈굽니다..
https://icl.utk.edu/hpl/index.html