BMC Server Health Event 문의 드립니다.

죠슈아   
   조회 4215   추천 0    

Intel® S2600CP 기종 입니다.

사무실에 옮겨다 놓고 부팅확인 했으땐 없던 메시지가 나옵니다.

퇴근해서 접속해보니  저런게 나왔어요.


그동안 집에서 테스트할때에는 발생하지 않던 것 입니다.

아래 캡쳐에서 처럼 "CATERR" 이 발생 햇는데요 ...

BIOS에서 이것이 발생하면  리셋 할것인가? 선택을 disable 처리 했던 기억입니다.

하지만 "CATERR" 발생 원인을 모릅니다. 이 오류 메시지의 의미는 무엇인가요 ?

어떤 조치를 해야만 하나요?

즉시 셧다운 하고 방법을 찾아야 하나요?  리모트 접속해서 상태를 확인 하면 시스템은 정상으로 보입니다.

3대중 하나만 발생하고 있습니다.  이 메시지가 메모리 관련  오류 메시지인가요?  아니면 온도 과열 ?



조언 부탁 드립니다.


감사 합니다.

초보자 ....
짧은글 일수록 신중하게.
박문형 2022-04
S2600CP CATERR 로 검색하면

Catastrophic Error (CATERR) 이런게 나오는데

대략 CPU에서 에러가 나고 있고 그에 따라 메모리쪽에 ECC 에러나 PCIe 쪽에도 에러가 나는 듯합니다..

메뉴얼까지는 보지 못하였기에 어디를 고쳐야 할 지 잘 모르겠지만

우선 먼지 청소 하고

에러나는 CPU 와 메모리 빼서 각 접점들 (CPU /메모리 /CPU 소켓 /메모리 소켓) 청소하고

시스템 번인 프로그램 돌려서 에러가 더 발생하는지 확인하는 정도가 다일 듯합니다..

그 외에는 동작에 이상이 없는 여유 CPU가 있다면 문제되는 시스템의 CPU를 빼내고 다른 CPU로 바꾸어서 돌려봤을때 에러가 더 발생하나 보는 것입니다..

그렇게 해서 에러 발생이 더 많아지면 CPU보다는 보드나 메모리쪽을 의심해야겠죠..
죠슈아 2022-04
보드는 아주 말끔한 상태인데요.  아주 깨끗하게 청소 되어진 ....
그리고 집에서 한달 이상 동안 메모리 테스트 등등 , 헤비로드 상태에서 온도 변동등 ... 체크하고 아무런 이상증상이 없었는데 ...

한가지 차이점은 집에선 ATEN KVM 으로 PC와 전환 하면서 사용 햇던것인데 ..
회사에 가져다 놓을때 ...  저가의 KVM을 달았더니만 ..
다른 포트를 선택한 상태에서 BMC에서 리부트 이후 해당 기기로 전환하니  화면이 나오지 않는 문제가 있네요.
선택되지 않은 상태에서도 EDID 를 에뮬레이션 해주어야 하는데 ... 이 기능이 제대로 동작 하지 않거나 없거나 ...

KVM을 연결한  상태에서는  더미를 달수도 없는데 ....
CATERR가 발생하는 것을 검색하니 .. 모니터 없이 부팅하거나 ...
부팅 이후에도 모니터 인식이 되지 않으면 발생 된다는 글이 있군요.

CPU/DDR3 가  문제이면 한달이상 집에서 테스트할때 이미 발생 되었어여 하는데 ... 
온도도 리모트로 접근해서 보면 40도 전후라서 ...
인텔 보드 설명이 너무 추상적이어서 .... 
저것 때문에 또 회사에 가야 한다니 ...
KVM을 있는데 또 구입하려면 비용이 이중으로  ...    이래서 차이나 싸구려를  사면 않되는데 ...    매번  낮은 가격 유혹을 이기지 못해서 ~~~....
박문형 2022-04
아마 바이오스나 펌웨어도 최신 상태로 생각됩니다만..

말씀 들어보니 저가 KVM 이 몬가 시스템에 영향을 준다라는 생각밖에 안듭니다..

KVM은 역시나 ATEN 이 표준이네요..
제온프로 2022-04
CATERR = Catastrophic Error

감지되는 에러종류
  - PCI Error registers
  - MSR registers
  - Integrated Memory Controller (iMC) and Integrated i/O(iiO) module registers

이런 에러들 종류이니 힌트 얻어서 검사해 보세요.. KVM과는 관련이 없는 에러 종류입니다.

CPU, 메모리 접점 먼저 잘 닦아 보시죠. PCI도 잘 장책해 보시고..
     
죠슈아 2022-04
네 ..  확신을 갖을 만한 근거는 없구요.
님의 말씀처럼 KVM이 직접적인 원인일까 ? 
의심이 들기는 합니다.

KVM이 좀 이상한 동작을 하니까 .
집에서 리모트 부팅이 불가 하니 교체는 하고나면 좀 더 명확한 결론을 얻을 수 있을텐데요
KVM의 EDID 문제가 있는 것을 확인 했는데 ...  반복 테스트 시간이 부족해서 화면이 나오는 조건으로만 켜놓고 집에 왔는데 ..

CATERR  에러가 EDID 이슈 때문에 발생된다는 많은 글이 있어서  특히 모니터 연결없이 전원이 켜질때 .. Apple pro 기종에서 이 에러 메시지가  나온다고 해서
KVM이 문제 인가 싶은 거죠.
그런데 집에서 한달이상 기간동안  테스트시에는 발생되지 않던 것이라서 ... 

- PCI Error registers  :
          PCIE  카드가 문제 이겠군요. 
          ioMemory PCIE와  NVIDIA VGA 그리고 USB3 확장 카드 ...  하나씩 제거 해보면서 확인 히면 될텐데 .. USB는 빼버리면 되는데 VGA는 또 구입하기가 ㅎㅎ

- Integrated Memory Controller (iMC) and Integrated i/O(iiO) module registers : 
          CPU가 문제 인가요? 
          CPU가 V1이기도 해서 바꿀까 했었는데 ...  V2도 값이 거의 공짜 수준이니 우선 교체 해야겠군요.

- MSR registers  :  ???  이것은 뭘까요?
저의 경우s2600cp보드에서는 CPU불량이있었고
asus z9pe-d16에서는 bios롬 불량으로 CATERR이 났었습니다
     
죠슈아 2022-04
CPU불량 과 bios롬 불량  ... 

bios롬 불량은  설치된 동일 버전 이라도  BIOS update를 해보면 ... 불량 여부를 알수 있을까요?
이 보드에 시피유 장착 테스하기 전에  BIOS update를 했었을땐 이슈가 없었어요.
bios롬 불량이라서 업데이트 실패하면 벽돌이 될 수도 있을텐데 ...  이러면 보드를 버려야 할 상황이 되는 거겠죠?

CPU불량은 .. 테스트 할 방법이  ....
혹시 소켓 접촉불량도 포함되겠죠?
그냥 CPU를 교체 하는 것이 간단할 수도 있지만 .. 소켓 문제이면

DELL 기종은 자가진단이 있어서 해보면 될텐데 ..
인텔보드에서는 어떻게 시피유불량을 확인 할 수 있을까요?
          
예전 인텔 보드의 경우 PCT tool이라는 EFI에서 동작하는 테스트 툴을 제공했었습니다. 이게 S2600CP 보드에도 되는지는 잘 모르겠습니다.
BIOS 롬의 경우 아예 부팅 자체가 안됬으며 ASUS의 경우 CATERR LED가 보드에 있어 CATERR 에러인걸 확인 했었습니다. BMC web에서도 이벤트로그로 확인 했었습니다. 이땐 같은 종류의 롬칩을 사서 라이터기로 롬을 교체 했었습니다.
CPU 불량의 경우 CPU 바닥면을 알콜솜으로 한번 닦아 보세요. 맨손으로 만질경우 손의 기름기 등이 묻었다가 오작동을 일으킬 수도 있습니다.

CPU를 한개씩 꼽아서 테스트 해보는 방법이 있겠지만 인텔 보드의 경우 좀 쓰다가 CATERR이 발생을 했었던것 같습니다.
               
죠슈아 2022-04
S2600CP 보드에서 CPU 불량 이었을때 부팅과  시스템 동작이 어떠했나요? 
어제와 달리  오늘은 ping-test은 되지만 BMC 로 로그인이 되지도 않는군요
하지만 리모트 로그인 상태에서 리눅스 시스템  실행 동작은 문제가 없어 보여요.... 

롬칩과 라이터기를  구입하는것보다 보드를 하나 구입하느 것이 비용이 적게 들것 같군요.,  대충 $80-$90 이니까요.
CPU 불량?  CPU 소켓 불량 ?  ...   
이렇수가 없는데 ...  저 보드와 CPU 장착 하고서  집에서 1년 이상 사용하던것인데 .. 

보드 이던지 , CPU 이던지 ...
제대로만 알면 좋은데  아니게되면 하나씩 하나씩 구입하고 테스트해보구 ... 
이게 제일 워스트인데요. ㅎㅎ

PCT가 S2600JF / S2600WP  보드들을 지원 하는군요. 
https://www.intel.com/content/www/us/en/download/16492/s2600jf-s2600wp-platform-confidence-test-for-uefi.html
좋은 정보 주셔서 감사 합니다.
                    
S2600CP는 BIOS나 BMC 롬을 라이터기로 굽지않는것이 좋습니다.
롬을 떼어내어 구워본적이 있는데 보드가 요단강을 건넙니다.
단순히 롬파일만 입혀서 되는게 아니라 롬 안에 시리얼부터 시작해서 여러가지 정보가 들어있는것 같습니다.
ASUS의 경우 단순 롬라이터기로 구워도 잘 됐었습니다.
인텔은 요상합니다.
박문형 2022-04
S2600 씨리즈 인텔 보드 맨처음 생산 시점 과 EOL 시점을 생각하셔야죠..

대략 나온지 10년 된 보드들이네요..
     
죠슈아 2022-04
그래도 버릴 수는 없으니 ..  ㅎㅎ 
 $100미만으로  시피유와 함께 보드를 교체해야 겠네요.


QnA
제목Page 1457/5710
2015-12   1694150   백메가
2014-05   5159870   정은준1
2016-03   3835   라이언
2016-06   3835   Dominozlol
2014-02   3835   Leo
2015-06   3835   윈도우10
2017-11   3835   나는나입니다
2020-10   3835   audacity
2017-10   3835   카소시스
2018-03   3835   이동원CH
2015-05   3835   윈도우10
2017-04   3835   컴박
2015-12   3835   김병철2
2019-07   3835   옵테론입문
2017-11   3835   나파이강승훈
2021-06   3835   행복하세
2014-08   3836   나파이강승훈
2014-07   3836   김황중
2013-11   3836   딸기대장
2019-10   3836   팬도라
2019-05   3836   그린
2015-09   3836   윈도우10