메모리 Correctable ECC 오류와 리눅스 시스템 멈춤 현상

   조회 4930   추천 0    

 안녕하십니까

메모리 Correctable ECC 에러로 인한 리눅스 시스템 멈춤 현상으로 질문 드립니다.


오늘 아침에 일어나 리눅스가 설치된(Debian, Kernel 5.4 버젼) 제 서버가 멈추어 있는것을 확인하였습니다.

키보드 Numlock 키에 불이 들어오지 않는 등 반응을 하지 않는 상태라 전원 버튼을 눌러 시스템을 리셋 하였습니다.

부팅 뒤 리눅스 syslog를 확인해보니 특정 시각 이후로 시스템이 멈추었다는것을 알 수 있었고,

IPMI Event Log를 보고나서, syslog가 끊긴 시각과의 Time Stamp 대조를 통하여 

Correctable ECC 에러가 발생한 후 시스템이 멈추었다는것을 알 수 있었습니다.

시스템이 멈추게 된 원인은 syslog에 남아있지 않아, Correctable ECC 에러 발생 뒤 커널에 문제가 생긴듯 합니다.


이후로 아침에 한 번 더 같은일이 일어나(Correctable ECC 에러 발생 뒤 시스템 멈춤)

Correctable ECC 에러가 발생한 후에 시스템이 멈춘다는것을 확실히 확인하였습니다.


제 질문들은 다음과 같습니다.


1) 제가 알기로는, "Correctable" ECC 오류가 발생하면, 하드웨어가 커널에 그 사실을 통보하고,

오류 발생 횟수가 많이 누적되지 않는 이상 시스템은 계속 동작하는것으로 알고 있습니다.

그러나 끊어진 syslog, 반응하지 않는 시스템 등으로 보았을 때, Correctable ECC 오류 발생 후 리눅스 커널이

hang 상태가 된 것 같습니다. 이유가 궁금합니다.


2) 다른 모든 부품들은 그대로이지만, 제가 최근에 메인보드를 교체하였습니다.

이전에는 ECC에러를 겪어본 적이 없어 드는 생각인데

"Correctable ECC 오류" 이벤트가 메인보드 결함으로도 발생할 수 있나요?

아니면 "Correctable ECC 오류" 이벤트 로그로부터, 특정 슬롯의 메모리(CPU1 DIMMA1)가 문제라는것을 확신할 수 있을까요?

오늘 memtest를 돌려볼 예정인데, 문제의 원인이 되는 하드웨어를 최대한 정확히 찾고 싶습니다.


감사합니다.

짧은글 일수록 신중하게.
제온프로 2021-03
최근에 저도 격은 에러 같네요..
Micron 메모리 였는데.. 도저히 닦아도 닦아도 수정이 않되어..
교체 했습니다...
dateno1 2021-03
1. ECC 무적 아닙니다

2. 보드일 수 도 있고, 램일 수 도 있고, 시퓨일 수 도 있습니다 (시퓨-보드-램 이렇게 직결되니까요)
     
박경원 2021-03
Memtest 두 번 해봤는데
두 번 다 moving inversions test 중 Gen_Prot CPU 인터럽트로 중지되네요...
한 번은 38G - 40G 범위에서, 그 다음은 46G - 48G 범위에서 뜨는군요.
IPMI에는 아무것도 기록되지 않네요
슈마서버 4G 8개 풀뱅으로 쓰다가 일주일에 한두번씩 BMC로그에 코렉터블에러가 떠서 수정되는거니까 하면서 무시했는데 2번의 프리징, 행을 겪고 나서 로그를 보면서 문제가 가장 빈번한 슬롯을 제거 후 모든 상황이 없어졌습니다. 이후 8G 4개로 바꿔서 용량도 복구했고 더 이상은 그런 문제는 본 적이 없네요.
문제가 지속될 때 CPU 청소+교체, 메모리 청소+교체로는 문제가 사라지지 않았는데 결국 보드의 슬롯이 문제였던 것 같네요.
경험담이었습니다.
박문형 2021-03
불량 메모리 모듈부터 확실히 찾아내 보세요..

왜 그런지 알고 싶으면 제조사에 분석 의뢰해 보세요..

분석 비용이 따로 청구될 수 있고 원하는 답이 안 나올수도 있습니다..

그리고 찾아내기도 힘들고 잘 없는 것이지만 IPMI 펌웨어 버그일 수도 있습니다..


QnA
제목Page 2513/5706
2015-12   1666797   백메가
2014-05   5132138   정은준1
2015-09   4846   나파이강승훈
2012-08   4846   김건우
2016-12   4846   jang
2007-06   4846   홍정환
2016-07   4846   보광
2016-10   4846   삐돌이슬픔이
2014-04   4846   최창현
2012-11   4846   백남억
2007-03   4846   김도헌
2020-12   4846   audacity
2016-11   4846   김민성
2006-12   4847   김규원
2006-08   4847   김용수_
2007-09   4847   노하석
2007-06   4847   김대성
2014-07   4847   정재호02
2017-03   4847   박문형
2020-05   4847   Sikieiki
2016-04   4847   정은준1
2018-03   4847   the촌놈