޸ Correctable ECC ý

   ȸ 4519   õ 0    

 안녕하십니까

메모리 Correctable ECC 에러로 인한 리눅스 시스템 멈춤 현상으로 질문 드립니다.


오늘 아침에 일어나 리눅스가 설치된(Debian, Kernel 5.4 버젼) 제 서버가 멈추어 있는것을 확인하였습니다.

키보드 Numlock 키에 불이 들어오지 않는 등 반응을 하지 않는 상태라 전원 버튼을 눌러 시스템을 리셋 하였습니다.

부팅 뒤 리눅스 syslog를 확인해보니 특정 시각 이후로 시스템이 멈추었다는것을 알 수 있었고,

IPMI Event Log를 보고나서, syslog가 끊긴 시각과의 Time Stamp 대조를 통하여 

Correctable ECC 에러가 발생한 후 시스템이 멈추었다는것을 알 수 있었습니다.

시스템이 멈추게 된 원인은 syslog에 남아있지 않아, Correctable ECC 에러 발생 뒤 커널에 문제가 생긴듯 합니다.


이후로 아침에 한 번 더 같은일이 일어나(Correctable ECC 에러 발생 뒤 시스템 멈춤)

Correctable ECC 에러가 발생한 후에 시스템이 멈춘다는것을 확실히 확인하였습니다.


제 질문들은 다음과 같습니다.


1) 제가 알기로는, "Correctable" ECC 오류가 발생하면, 하드웨어가 커널에 그 사실을 통보하고,

오류 발생 횟수가 많이 누적되지 않는 이상 시스템은 계속 동작하는것으로 알고 있습니다.

그러나 끊어진 syslog, 반응하지 않는 시스템 등으로 보았을 때, Correctable ECC 오류 발생 후 리눅스 커널이

hang 상태가 된 것 같습니다. 이유가 궁금합니다.


2) 다른 모든 부품들은 그대로이지만, 제가 최근에 메인보드를 교체하였습니다.

이전에는 ECC에러를 겪어본 적이 없어 드는 생각인데

"Correctable ECC 오류" 이벤트가 메인보드 결함으로도 발생할 수 있나요?

아니면 "Correctable ECC 오류" 이벤트 로그로부터, 특정 슬롯의 메모리(CPU1 DIMMA1)가 문제라는것을 확신할 수 있을까요?

오늘 memtest를 돌려볼 예정인데, 문제의 원인이 되는 하드웨어를 최대한 정확히 찾고 싶습니다.


감사합니다.

ª ϼ ϰ.
2021-03
ֱٿ ׿..
Micron ޸ µ.. ۾Ƶ ۾Ƶ ʵǾ..
ü ߽ϴ...
dateno1 2021-03
1. ECC ƴմϴ

2. ְ, ְ, ǻ ֽϴ (ǻ-- ̷ Ǵϱ)
     
ڰ 2021-03
Memtest غôµ
moving inversions test Gen_Prot CPU ͷƮ dz׿...
38G - 40G , 46G - 48G ߴ±.
IPMI ƹ͵ ϵ ʳ׿
̰ء 2021-03
4G 8 Ǯ ٰ Ͽ ѵι BMCα׿ ڷͺ Ǵ°Ŵϱ ϸ鼭 ߴµ 2 ¡, ް α׸ 鼭 Ȳ ϴ. 8G 4 ٲ㼭 뷮 ߰ ̻ ׷ ׿.
ӵ CPU û+ü, ޸ û+üδ ʾҴµ ᱹ ׿.
̾ϴ.
ڹ 2021-03
ҷ ޸ Ȯ ãƳ ..

׷ ˰ 翡 м Ƿ ..

м û ְ ϴ ü ֽϴ..

׸ ãƳ⵵ IPMI ߿ ֽϴ..


QnA
Page 2302/5687
2015-12   1533843   ް
2014-05   4997998   1
2014-01   4514   ȸK
2016-09   4514  
2015-06   4514  
2017-11   4514   ູϼ
2016-01   4514  
2017-08   4514   ǹ̡
2016-10   4514  
2014-09   4514   Ѷѱ
2019-06   4514   ȣȣ
2015-08   4514   Į
2008-07   4514  
2017-09   4514   paullos
2020-02   4514   ʱ
2016-11   4514   İ
2013-07   4514   wo9abak1
2006-10   4514   ǿ
2015-04   4514  
2014-01   4514   Ȳ
2017-07   4515   ȿ
2015-03   4515   JK