dell 서버 memory 하자 유무 재판별 문의

mjk0401   
   조회 2795   추천 0    

안녕하세요 대기업 k@에 dell서버를 납품하고 있습니다.


 발단은... dell 서버 r740 r640 을 이곳에 납풉하고있습니다.


case. 만약 납품한 서버에서 memory 장애가 난경우 


                                                      Q1.) 해당 장비 isuue 가   Multi-bit error 인가?

 

                                                                   yes↙               ↘no

 

                                          A) dell고객센터를 통해 접수                 Q2.) 해당 장비 isuue 가 Correctable error 인가?

                                                (TSRlog 첨부)

                                      case1↙               ↘case2                                                         ↘yes


                   Dell에서 특이사항 없이             Dell에서 Bios버전을 업그레이드 권장                        A) dell고객센터를 통해 접수 (TSRlog첨부)

                   memory교체 해준다                및 isuue memory 탈부착 시도 권장


                    case3↙                                            ↘case4                                                         ↘case2  

      또 같은위치에 memory isuue가                              권장방법을 다 시도후에도 동일한                    Dell에서 Bios버전을 업그레이드 권장   

     생겼다면 메인보드 교체 권장                                  memory isuue가 또 발생했다면                     및 isuue memory 탈부착 시도 권장        

                                                                       Dell에서 memory 교체 해준다                              case4


                                                                                                          권장방법 다 시도 후에도 동일한 memory 

                                                                                                    isuue가 또 발생했다면 Dell에서 memory 교체 해준다    


위사항 isuue 발생한 경우 대부분 case2, case4 로 흘러갑니다. (dell 입장 기준)

근데 현실은 dell 권장 방법처럼 할수가 없네요.

K@입장에서는 운영중인 서버를 총 2번 리부팅하게 되니깐요 (덤으로 야간작업도 2번!!)

그래서 그런지 사무실 사내 memory로 그냥 울며 겨자먹기로? 교체해주고 있습니다.

서론이 길었는데... 결론은 이런식으로 사내 memory로 손해보면서 계속 교체해주고 있습니다.



장애난 memory( Correctable, Multi-bit)를 사내 사무실에 장착하고 모니터링 해봐도 동일하게

장애가 발생하질 않더군요... 동일하게 장애가 나야 신규 memory로 맞교환이라도 할텐데 ㅠ...

그래서 질문이 이겁니다.


R640 R740

사용OS : Centos6버전 , 7버전

서버 OS상에서 memory 부하를 일으킬수 있는 명령어가 있을까요?(서비스가 돌아가는 환경처럼 구성 필요)

동일하게 memory issue가 떠야 하는데 여태까지 단 한번도 일어난적이 없네요.



ps. Correctable, Multi-bit로 손해보며 쌓인 메모리가 20개 넘네요 ㅋㅋㅋ













알겠습니다.
짧은글 일수록 신중하게.
송주환 2021-11
클라우드 워크로드를 모사할 수 있는 벤치마크로는 X-Mem이 있고 (https://github.com/microsoft/X-Mem)
단순 부하 목적이면 Intel Memory Latency Checker를 사용하시면 됩니다. (intel.com/content/www/us/en/developer/articles/tool/intelr-memory-latency-checker.html)
+ 스트레스 테스트로는 stress-ng를 사용하셔도 됩니다.
epowergate 2021-11
일단 correctable은 AS 대상이 아닐겁니다.  그냥 correct 했다는 메시지 입니다.
Multi-bit은 AS 대상입니다.
보통 DELL은 TSR 로그 반출하고 확인되면 교체 해주는걸로 알고 있는데 고객사마다 다른가 봅니다.
그리고 제조사 (DELL등)에서 Memory가 불량이 발생했다고 해서 "탈부착" 해보라고 하지 않습니다.  만약 그랬다면 담당 엔지니어가 뭔가 잘못하고 있는 겁니다.

그리고 k@라면 전담 엔지니어가 있지 않나요?
추가비용이 들기는 Support를 구입하실때 전담엔지니어를 포함하는 상품을 구매하시면 이런 종류의 AS는 모두 전담 엔지니어가 처리해 줍니다.
이력 관리 포함해서요.
물론 사이트마다 다를 수는 있겠습니다
     
mjk0401 2021-11
대상서버: @@#3 MONI

[문의 내용]
- DIMM#A4 Multi-bit memory error 발생

- 현재 사용 중인 BIOS 펌웨어 버전은 1.5.4 버전으로 많이 낮은 버전을 사용 중인 것으로 확인하였습니다.

- BIOS 2.7.X 이상의 펌웨어 버전에서는MEM0001 이벤트 발생 시, 메모리 재장착 및 Reboot을 통한 Self-healing(자가 치료) 기능이 추가되었습니다.

- 따라서,  Self-healing 기능이 추가된 최신 BIOS 펌웨어 버전으로 업데이트를 권고드리며, 이후 해당 DIMM#A4 메모리 재장착 및 Reboot을 통한 Self-healing(자가 치료)이 수행될 수 있도록 진행을 권고드립니다.

- 해당 작업 이후 Self-healing에 실패되었다는 이벤트(MEM0805)가 발생하거나, 동일 메모리에서 이슈가 지속된다면 해당 메모리 교체가 필요합니다.

따라서, iDRAC,BIOS 펌웨어 버전으로 업데이트 및 DIMM#A4 메모리 재장착 작업을 권고 하고있음

대충 8할은 이런식으로  Dell 기술지원 팀에게 메일답변이 옵니다. 난감하죠 ㅋㅋㅋ
김황중 2021-11
저는 이런경우 앤드단에 이리 얘기합니다

고객이 아는체하면 지네가 서비스해야될 부분을 고객에게 전가시키니
나는 모르쇄...  그냥 않되라고하면
해당 벤더 엔지니어가 와서 처리해주고 갑니다... 라고...

선택은 고객 몫이죠
박문형 2021-11
PC나 조립서버에서는 memtest86 이라는 프로그램이 메모리 테스트용으로 사용됩니다..

https://www.memtest86.com/

그 외 HPL 이란 프로그램도 사용이 가능합니다..

리눅스에 컴파일해서 돌리는데 실행되면 멈추라고 명령을 줄때까지는 메모리와 CPU를 계속 부하를 주어서 갈굽니다..

https://icl.utk.edu/hpl/index.html


QnA
제목Page 717/5723
2014-05   5228195   정은준1
2015-12   1755174   백메가
2020-10   2789   Espial
2023-03   2789   눈부신아침
2021-01   2789   dragoune
2023-10   2789   일이삼
2022-11   2789   Wnahd
2020-02   2789   online9
2023-11   2789   무쏘뿔처럼
2019-07   2789   c4066
2022-12   2789   유낙선
2023-05   2790   장동건2014
2022-07   2790   즐남
2021-09   2790   강한구
2023-09   2790   홍익
2020-06   2790   김효수
2020-07   2790   블루영상
2020-08   2790   백룡
2020-02   2790   hater
2019-09   2790   김영기
2021-01   2790   나나나나나
2018-12   2790   비엘이브