메모리 ecc error

새내기   
   조회 6084   추천 0    

 

ECC 기능이 있는 메모리 사용중에 서버가 리부팅 되었습니다. 로그에는 memory uncorrectable error가 남아있었습니다.

memtest 결과 해당 메모리에서 ECC ERROR가 지속적으로 발생했습니다. ECC기능 때문인지 최종 error 개수는 0개로 나왔습니다.

그럼 서버가 리부팅된 이유는 ECC기능으로 수정할 수 있는 single bit error가 아니라 uncorrectable error(multi bit error)가 발생해서였을까요?

테스트에서 나온 ecc error는 ecc기능으로 인해 스스로 수정해서 서버엔 지장이 없었을 거라고 생각되는데 (memtest에서 최종 error 개수가 0으로 나온 것 처럼)

그리고 메모리쪽 error로 인해 서버가 다운 되거나 리부팅 되는 이유도 궁금합니다!

감사합니다.

짧은글 일수록 신중하게.
박문형 2021-03
메모리 불량으로 보이니 다른 이상없는 메모리로 교체하세요..

그래도 이상이 발생하면 보드나 CPU쪽 문제일 수 있습니다..(여러 개의 메모리 모듈이 불량일수도 있으니 검토/채크 해봐야 합니다..)

어느 제조사 제품인지 모르겠지만 판매자나 제조사에 검증해 달라고 해볼 수는 있는데

(문제가 있어 보이니 정확히 어떤 문제인지 공식적으로 리포트 해달라...)

검증을 제조사가 진행 가능하다면 시간도 마니 걸리고 검증 비용을 달라고 할 수도 있습니다..
박문형 2021-03
추측입니다만

사용하시는 서버에서 메모리 모듈이 달랑 2개 꼽혀 있는데 1개가 불량이 나서 에러 뿌리고 1개 전체 용량이 사용 못하게 되면

서버의 사용 가능한 메모리양은 반으로 줄고 그 정도 되면 아무리 우수한 OS라도 멈추어서고 다운 (프리징) 될 수 있습니다..

메모리 에러 테스트를 무엇으로 하였는지는 모르지만 테스트 하는 프로그램마다 에러가 나오는 것이 다르고

버그도 있을 수 있기에 오래 사용해보고 익숙한 그리고 에러에 대한 설명이 잘되어 있는 프로그램이 좋습니다..
     
새내기 2021-03
답변 항상 감사드립니다! 메모리는 8개 꼽혀있었지만 서비스중이였어서 메모리 1개의 부재가 원인이 됐을 수도 있겠네요. 참고하겠습니다.
제온프로 2021-03
쉽게 말해...

사람이 달려가다가...  막 뛰어가다가.... 자빠진 겁니다...

시스템 다운되는거죠...

일단 메모리 접점을 닦아보시고..
테스트 해 보고.. 계속 에러가 나면...
바꾸세요....


QnA
제목Page 812/5724
2014-05   5235774   정은준1
2015-12   1761942   백메가
2021-03   6063   굴다리교
2021-03   6522   의롭게살리라
2021-03   2955   메인보드
2021-03   7225   무쏘뿔처럼
2021-03   6085   새내기
2021-03   5101   연수빵빵이
2021-03   4656   DeepSky
2021-03   3144   네오네모
2021-03   3515   낭만고양이
2021-03   2681   LINKINPARK
2021-03   4567   무쏘뿔처럼
2021-03   4856   iroo
2021-03   3043   keros
2021-03   8099   hyunwoo3480
2021-03   3325   hyunwoo3480
2021-03   4939   가을햇살71
2021-03   3130   FreeBSD
2021-03   3002   이지포토
2021-03   3477   가온누리I강…
2021-03   3330   Psychophysi…