메모리 ecc error

새내기   
   조회 6295   추천 0    

 

ECC 기능이 있는 메모리 사용중에 서버가 리부팅 되었습니다. 로그에는 memory uncorrectable error가 남아있었습니다.

memtest 결과 해당 메모리에서 ECC ERROR가 지속적으로 발생했습니다. ECC기능 때문인지 최종 error 개수는 0개로 나왔습니다.

그럼 서버가 리부팅된 이유는 ECC기능으로 수정할 수 있는 single bit error가 아니라 uncorrectable error(multi bit error)가 발생해서였을까요?

테스트에서 나온 ecc error는 ecc기능으로 인해 스스로 수정해서 서버엔 지장이 없었을 거라고 생각되는데 (memtest에서 최종 error 개수가 0으로 나온 것 처럼)

그리고 메모리쪽 error로 인해 서버가 다운 되거나 리부팅 되는 이유도 궁금합니다!

감사합니다.

짧은글 일수록 신중하게.
박문형 2021-03
메모리 불량으로 보이니 다른 이상없는 메모리로 교체하세요..

그래도 이상이 발생하면 보드나 CPU쪽 문제일 수 있습니다..(여러 개의 메모리 모듈이 불량일수도 있으니 검토/채크 해봐야 합니다..)

어느 제조사 제품인지 모르겠지만 판매자나 제조사에 검증해 달라고 해볼 수는 있는데

(문제가 있어 보이니 정확히 어떤 문제인지 공식적으로 리포트 해달라...)

검증을 제조사가 진행 가능하다면 시간도 마니 걸리고 검증 비용을 달라고 할 수도 있습니다..
박문형 2021-03
추측입니다만

사용하시는 서버에서 메모리 모듈이 달랑 2개 꼽혀 있는데 1개가 불량이 나서 에러 뿌리고 1개 전체 용량이 사용 못하게 되면

서버의 사용 가능한 메모리양은 반으로 줄고 그 정도 되면 아무리 우수한 OS라도 멈추어서고 다운 (프리징) 될 수 있습니다..

메모리 에러 테스트를 무엇으로 하였는지는 모르지만 테스트 하는 프로그램마다 에러가 나오는 것이 다르고

버그도 있을 수 있기에 오래 사용해보고 익숙한 그리고 에러에 대한 설명이 잘되어 있는 프로그램이 좋습니다..
     
새내기 2021-03
답변 항상 감사드립니다! 메모리는 8개 꼽혀있었지만 서비스중이였어서 메모리 1개의 부재가 원인이 됐을 수도 있겠네요. 참고하겠습니다.
제온프로 2021-03
쉽게 말해...

사람이 달려가다가...  막 뛰어가다가.... 자빠진 겁니다...

시스템 다운되는거죠...

일단 메모리 접점을 닦아보시고..
테스트 해 보고.. 계속 에러가 나면...
바꾸세요....


QnA
제목Page 813/5725
2015-12   1768807   백메가
2014-05   5243468   정은준1
2021-03   3269   정선생
2021-03   6577   VSPress
2021-03   4467   차넷컴퓨터
2021-03   3762   앤드유저
2021-03   3318   애월남
2021-03   4044   신은왜
2021-03   2997   삐돌이슬픔이
2021-03   4466   의롭게살리라
2021-03   2817   Psychophysi…
2021-03   4504   Psychophysi…
2021-03   6127   굴다리교
2021-03   6600   의롭게살리라
2021-03   3000   메인보드
2021-03   7305   무쏘뿔처럼
2021-03   6296   새내기
2021-03   5218   연수빵빵이
2021-03   4706   DeepSky
2021-03   3191   네오네모
2021-03   3571   낭만고양이
2021-03   2717   LINKINPARK