스레드리퍼 proxmox가 계속 죽습니다

구구구   
   조회 5703   추천 0    

안녕하세요

눈팅만하다가 정말 모르는게 생겨서 조언좀 얻고싶습니다ㅠㅠ

  • 스레드리퍼 PRO 5955WX
  • ASUS PRO WS WRX80E-SAGE SE WIFI
  • SAMSUNG DDR4 64GB * 8

proxmox를 구성했고 ubuntu lxc를 띄워서 열심히 개발을 하고있었습니다.

ubuntu 22.04 - docker.io, podman으로 portainer로 워드프레스를 약 30개정도 돌립니다. 그런 LXC가 2개정도 테스트했습니다.

proxmox만 부팅시킬때는 문제가없는데 ubuntu LXC를 구동시키고 docker container를 실행시키면 약 20~30분정도 또는 몇시간뒤에 아래 오류를 내면서 proxmox가 재부팅되어버립니다.

Feb 25 02:17:01 v4 CRON[35659]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)  
Feb 25 02:17:01 v4 CRON[35660]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)  
Feb 25 02:17:01 v4 CRON[35659]: pam_unix(cron:session): session closed for user root  
Feb 25 02:21:37 v4 kernel: mce: [Hardware Error]: Machine check events logged  
Feb 25 02:21:37 v4 kernel: [Hardware Error]: Corrected error, no action required.  
Feb 25 02:21:37 v4 kernel: [Hardware Error]: CPU:1 (19:8:2) MC1_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd8200000060a0859  
Feb 25 02:21:37 v4 kernel: [Hardware Error]: PPIN: 0x02b68f671f2d007b  
Feb 25 02:21:37 v4 kernel: [Hardware Error]: IPID: 0x000100b000000000, Syndrome: 0x000000005a000586  
Feb 25 02:21:37 v4 kernel: [Hardware Error]: Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error.  
Feb 25 02:21:37 v4 kernel: [Hardware Error]: cache level: L1, mem/io: IO, mem-tx: IRD, part-proc: SRC (no timeout)  
Feb 25 02:24:34 v4 pmxcfs[1191]: [dcdb] notice: data verification successful  
Feb 25 02:31:05 v4 pvedaemon[1316]:  successful auth for user 'root@pam'  
Feb 25 02:46:30 v4 pvedaemon[1317]:  successful auth for user 'root@pam'  
Feb 25 02:52:45 v4 kernel: mce: [Hardware Error]: Machine check events logged  
Feb 25 02:52:45 v4 kernel: [Hardware Error]: Corrected error, no action required.  
Feb 25 02:52:45 v4 kernel: [Hardware Error]: CPU:1 (19:8:2) MC1_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd8200000060a0859  
Feb 25 02:52:45 v4 kernel: [Hardware Error]: PPIN: 0x02b68f671f2d007b  
Feb 25 02:52:45 v4 kernel: [Hardware Error]: IPID: 0x000100b000000000, Syndrome: 0x000000005a000581  
Feb 25 02:52:45 v4 kernel: [Hardware Error]: Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error.  
Feb 25 02:52:45 v4 kernel: [Hardware Error]: cache level: L1, mem/io: IO, mem-tx: IRD, part-proc: SRC (no timeout)
Feb 25 03:03:38 v4 pvedaemon[1315]:  successful auth for user 'root@pam'  
Feb 25 03:10:01 v4 CRON[49309]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)  
Feb 25 03:10:01 v4 CRON[49310]: (root) CMD (test -e /run/systemd/system || SERVICE_MODE=1 /sbin/e2scrub_all -A -r)  
Feb 25 03:10:01 v4 CRON[49309]: pam_unix(cron:session): session closed for user root  
Feb 25 03:17:01 v4 CRON[51083]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)  
Feb 25 03:17:01 v4 CRON[51084]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)  
Feb 25 03:17:01 v4 CRON[51083]: pam_unix(cron:session): session closed for user root  
Feb 25 03:24:34 v4 pmxcfs[1191]: [dcdb] notice: data verification successful  
Feb 25 03:29:04 v4 kernel: mce: [Hardware Error]: Machine check events logged  
Feb 25 03:29:04 v4 kernel: [Hardware Error]: Corrected error, no action required.  
Feb 25 03:29:04 v4 kernel: [Hardware Error]: CPU:1 (19:8:2) MC1_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd8200000060a0859  
Feb 25 03:29:04 v4 kernel: [Hardware Error]: PPIN: 0x02b68f671f2d007b  
Feb 25 03:29:04 v4 kernel: [Hardware Error]: IPID: 0x000100b000000000, Syndrome: 0x000000005a000a98  
Feb 25 03:29:04 v4 kernel: [Hardware Error]: Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error.  
Feb 25 03:29:04 v4 kernel: [Hardware Error]: cache level: L1, mem/io: IO, mem-tx: IRD, part-proc: SRC (no timeout)  
Feb 25 03:29:08 v4 pvedaemon[1317]:  successful auth for user 'root@pam'  
-- Reboot --


위와같이 Reboot하고 proxmox가 재대로 켜지지 않습니다. 그전에 Reboot되는 이유도 모르겠더라구요


Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error.

이 문구가 의심스러워서 열심히 검색을 해보니까 마더보드의 BIOS를 업데이트해서 문제가해결되었다해서 BIOS도 업데이트했습니다.

하지만 동일현상으로 계속 죽어버리더라구요


왜 그럴까요?



---


현재 해결은 안되었지만 OS를 proxmox가아닌 window로 설치하고 살펴보았습니다. 이벤트뷰어로 확인했는데 kernel power 41이라는 오류로 판명했습니다.

이제부터 해결을 해봐야할 것같습니다.

댓글 많이 남겨주셔서 감사합니다.

짧은글 일수록 신중하게.
김제연 2023-02
proxmox 버전은 몇 쓰고 계신건가요? lxc만 안쓰면 문제는 없나요?
     
구구구 2023-02
promxox의 버전은 7.3-3버전을 사용하고있습니다 lxc를 띄우지 않으면 문제는 없습니다
     
구구구 2023-02
nuc11을 7.2-3도 사용할때 아무런 문제가없었는데 버전을 다운그레이드해서도 테스트해봐야겠네요 감사합니다 🙇‍♂️
찬이 2023-02
커널 버전 몇인가요? 커널 업데이트는 해 보셨나요?
     
구구구 2023-02
커널버전은 Linux 5.15.74-1-pve #1 SMP PVE 5.15.74-1 (Mon, 14 Nov 2022 20:17:15 +0100) 이렇게인데 커널업데이트는 안해봤습니다
한번 커널업데이트도 시도해봐야겠네요
          
dateno1 2023-02
공식 커널은 그닥 버전업이 안 빨라요

kernel.org 가서 최신 stable 받으신후
/boot에서 현제 버전 config 복사해서 .config로 넣은후
make oldconfig해서 추가 요소 지정후
make menuconfig으로 빠진게 없나 검토후
make deb-pkg로 패키지로 빌드해서 깔아보세요 (이러면 관리나 삭제가 쉬워서 문제 발생시 롤백도 간단해짐)

기본적으로 유포판은 LTS버전을 쓰는지라 버전이 좀 낮고, 최신 프로세서는 최신 버전이 필요해요 (성능차도 남)
     
구구구 2023-02
커널은 최신이라 업데이트 사항이 없네요

apt update && apt install pve-kernel-5.15
제온프로 2023-02
Feb 25 02:21:37 v4 kernel: [Hardware Error]: Corrected error, no action required. 
Feb 25 02:21:37 v4 kernel: [Hardware Error]: CPU:1 (19:8:2) MC1_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd8200000060a0859 
Feb 25 02:21:37 v4 kernel: [Hardware Error]: PPIN: 0x02b68f671f2d007b 
Feb 25 02:21:37 v4 kernel: [Hardware Error]: IPID: 0x000100b000000000, Syndrome: 0x000000005a000586 
Feb 25 02:21:37 v4 kernel: [Hardware Error]: Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error. 
Feb 25 02:21:37 v4 kernel: [Hardware Error]: cache level: L1, mem/io: IO, mem-tx: IRD, part-proc: SRC (no timeout) 

*/***CPU 연결은 않되고... 수정 및 조치 제안 사항도 없고..
그냥 소프트웨어와 하드웨어가 맞지 않는 것 같습니다.

다만 해 볼 수 있는 것은..
 -- 바이오스 업데이트
 -- 소프트웨어를 다른 버전으로 설치

이런 전가상화 서버에 쓰레드리퍼라... 

인텔 제온플렛폼을 신뢰 하지 않으시는가요 ??
전 세계가 제온플렛폼을 사용하고 있는데요..
좀 납득이 안갑니다.
     
김제연 2023-02
이런 답글도 납득이 안가네요

이미 쓰고있는거에 대한 질문인데 인텔 쓰세요
전가상화가 어디있나요 질문에
     
binaryeast 2023-02
전가상화에서 인텔 빅리틀이 X인 건 써보면 아는데... 요즘 인텔이 옛날 그 인텔은 아니죠. 토발즈도 쓰레드리퍼 쓰는데 저도 납득이 안되네요.
     
구구구 2023-02
댓글감사합니다! 홈서버로 도전해보고싶어서 AMD쪽으로 알아보다 구성해보고 구매해서 테스트해보고있습니다ㅎㅎ

딱히 두개가 문제가있을꺼다 생각하지않아서 AMD를 선택했습니다
binaryeast 2023-02
에러 로그만 보면 L1 캐시 부분의 브랜치 타겟 버퍼(BTB)에서 여러 분기가 동시에 매칭되는 에러라는 거 같은데, CPU 불량 같습니다. 일단 1. CPU/램 접점 청소 후 재장착, BIOS 업데이트 후 동전전지 빼고 리셋 후 cstate, amd-v, fastboot 관련 설정, proxmox 재설치 후 privileged lxc 컨테이너 생성 후 도커 설치해보시고 그래도 유사 증상 발생한다면 CPU 교환받으셔야 할 것 같아요. p.s. 설마 proxmox에 바로 도커 설치하신 건 아니시죠? lxc와 도커 컨테이너가 같은 호스트에 깔리면 안 되는 것으로 알고 있습니다. lxc 안에 도커를 돌리던가, vm을 분리해줘야 하는 것으로 알고 있는데 확인해보세요
     
구구구 2023-02
LXC컨테이너안에 VM을 돌렸습니다! 이게 저런 하드웨어 오류가 없을때도 재부팅이 되더라구요. 알려주신대로 한번 CPU/램 접점 청소 시도보겠습니다.
의심가는 부분이라면 fastboot를 아마도 안하도록 설정했던거같습니다. 다른 것들은 모두 건들지는 않았는데.
ㅜㅜ어렵군요
박문형 2023-02
Feb 25 02:21:37 v4 kernel: mce: [Hardware Error]: Machine check events logged 

=> MCE => 메모리컨트롤러에러 가 아닌가 생각됩니다.. ==> 에러로그 따로 있으시면 알려주세요..

Feb 25 02:21:37 v4 kernel: [Hardware Error]: Corrected error, no action required. 
Feb 25 02:21:37 v4 kernel: [Hardware Error]: CPU:1 (19:8:2) MC1_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd8200000060a0859 
Feb 25 02:21:37 v4 kernel: [Hardware Error]: PPIN: 0x02b68f671f2d007b 
Feb 25 02:21:37 v4 kernel: [Hardware Error]: IPID: 0x000100b000000000, Syndrome: 0x000000005a000586 
Feb 25 02:21:37 v4 kernel: [Hardware Error]: Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error. 
Feb 25 02:21:37 v4 kernel: [Hardware Error]: cache level: L1, mem/io: IO, mem-tx: IRD, part-proc: SRC (no timeout)

==>  cache level: L1, mem/io: IO, mem-tx ==> L1 캐쉬 /메모리 I/O / 메모리 송신  ==> CPU 캐쉬 메모리 와 메모리 콘트롤러 그리고 메모리 모듈쪽
에러가 의심됩니다..


이런 에러로그는 보드 제조사나 OS제조사 쪽의 기술지원쪽에 보내서 로그 분석해 달라고 해야 합니다..
     
구구구 2023-02
다른 의견 감사합니다. 메모리 오류가있다. CPU, 메모리 최신 Reboot되던 현상은 또 이런 로그를 남기더라구요

```
Feb 25 14:46:30 v4 systemd[86368]: Stopped target Main User Target. 
Feb 25 14:46:30 v4 systemd[86368]: Stopped target Basic System. 
Feb 25 14:46:30 v4 systemd[86368]: Stopped target Paths. 
Feb 25 14:46:30 v4 systemd[86368]: Stopped target Sockets. 
Feb 25 14:46:30 v4 systemd[86368]: Stopped target Timers. 
Feb 25 14:46:30 v4 systemd[86368]: dirmngr.socket: Succeeded. 
Feb 25 14:46:30 v4 systemd[86368]: Closed GnuPG network certificate management daemon. 
Feb 25 14:46:30 v4 systemd[86368]: gpg-agent-browser.socket: Succeeded. 
Feb 25 14:46:30 v4 systemd[86368]: Closed GnuPG cryptographic agent and passphrase cache (access for web browsers). 
Feb 25 14:46:30 v4 systemd[86368]: gpg-agent-extra.socket: Succeeded. 
Feb 25 14:46:30 v4 systemd[86368]: Closed GnuPG cryptographic agent and passphrase cache (restricted). 
Feb 25 14:46:30 v4 systemd[86368]: gpg-agent-ssh.socket: Succeeded. 
Feb 25 14:46:30 v4 systemd[86368]: Closed GnuPG cryptographic agent (ssh-agent emulation). 
Feb 25 14:46:30 v4 systemd[86368]: gpg-agent.socket: Succeeded. 
Feb 25 14:46:30 v4 systemd[86368]: Closed GnuPG cryptographic agent and passphrase cache. 
Feb 25 14:46:30 v4 systemd[86368]: Removed slice User Application Slice. 
Feb 25 14:46:30 v4 systemd[86368]: Reached target Shutdown. 
Feb 25 14:46:30 v4 systemd[86368]: systemd-exit.service: Succeeded. 
Feb 25 14:46:30 v4 systemd[86368]: Finished Exit the Session. 
Feb 25 14:46:30 v4 systemd[86368]: Reached target Exit the Session. 
Feb 25 14:46:30 v4 systemd[1]: user@0.service: Succeeded. 
Feb 25 14:46:30 v4 systemd[1]: Stopped User Manager for UID 0. 
Feb 25 14:46:30 v4 systemd[1]: Stopping User Runtime Directory /run/user/0... 
Feb 25 14:46:30 v4 systemd[1]: run-user-0.mount: Succeeded. 
Feb 25 14:46:30 v4 systemd[1]: user-runtime-dir@0.service: Succeeded. 
Feb 25 14:46:30 v4 systemd[1]: Stopped User Runtime Directory /run/user/0. 
Feb 25 14:46:30 v4 systemd[1]: Removed slice User Slice of UID 0. 
Feb 25 14:46:33 v4 pmxcfs[1191]: [dcdb] notice: data verification successful 
-- Reboot --
```

도움 주셔서 감사합니다.
          
박문형 2023-02
https://www.memtest86.com/

시스템 메모리 테스트는 이 프로그램이 어느 정도 유명합니다..

USB에 이미지 설치해서 USB로 부팅한 후 셋팅해서 계속 돌리면 됩니다..

임베디드 리눅스라고 생각하시면 되고 셋팅에 따라 틀리지만 시간을 많이 잡아먹습니다..

구글해보시면 사용설명서 아마 찾을수 있을겁니다..

그 외 메모리와 CPU 테스트 하는 프로그램이 하이퍼포먼스 린팩이라고 있습니다..

https://netlib.org/benchmark/hpl/

리눅스 설치하고 상기 HPL 프로그램을 설치 및 컴파일해서 돌리면 됩니다..

이게 돌아가면 CPU에는 100% 부하를 계속주고 메모리도 계속 100% 부하를 주어서 테스트 합니다..

메모리는 프로그램을 스탑할 때까지 루프 테스팅하는 방식으로 몇 번씩 계속 돌아갑니다..


각 두 프로그램은 메모리 불량이 있는지 알아보기 위해 사용합니다만 시스템이 불안하거나 하면 프로그램이 멈추거나 시스템이 꺼지거나 할 수 있습니다..

부하를 최대로 주기 때문인데 그 때문에 시스템이 망가질 수도 있습니다..


그 외 시스템 버닝 프로그램이 있는데

https://www.passmark.com/products/burnintest/index.php

https://www.ocbase.com/download

System Burn in Test 와 OCCT 두가지 프로그램입니다..

윈도우즈 기반으로 돌아가며 셋팅해서 돌리면 지정된 디바이스에 계속 부하를 100% 씩 주고 돌립니다..

이런 번 인 프로그램들은 부하를 최대로 주기에 시스템이 안정되지 못하면 시스템이 고장날 수 있습니다..

열도 엄청나고 전기도 많이 먹습니다..

이런 식으로 몇가지 프로그램을 장시간 돌려서 이상이 없으면 그 때부터 OS 설치 쪽을 생각해보시면 될 듯합니다..
               
구구구 2023-02
stress-ng를 이용해서 CPU 32코어 90%, 메모리 512GB에서 90%정도로 스트레스 테스트를 하였을때 문제가 없었습니다. 대략 시간은 60분정도 테스트해봤습니다
그래도 뭔가 테스트를 시도해봐서 좋았습니다. 의견감사합니다!
                    
박문형 2023-02
스트레스 테스트 패스 했는데도 계속 저런 문제라고 하면

쓰레드리퍼 시스템과 proxmox가 몬가 호환성이 안 맞는 것이라고 봐야겠네요.. (설치 상에 문제가 없다면)

proxmox 사 쪽에 호환성 테스트 자료가 있을 듯한데 홈페이지 찾아보시던지 직접 proxmox 사에 문의해보심이 좋아 보입니다..

개인적으로 보면 워크스테이션 시스템에 서버 OS를 설치한 꼴이 되는데

보통 그렇게 해도 별일 없이 돌아가는 경우가 많지만 간혹 그렇지 않는 경우가 있고 이것을 사용자가 혼자  풀기는 쉽지 않습니다..

제조사 쪽의 기술지원이 필요해 보입니다..

참 그리고 쓰레드 리퍼 보드 제조사에서는 아마 공식 기술지원은 윈도우즈 안에서만 지원할 것 같네요..

해당 보드 드라이버 지원을 보면 윈도우즈 쪽만 있을 겁니다..

그래도 혹시나 모르니 문의 메일은 넣어봐도 나쁘지 않을 듯합니다..

proxmox 와 threadripper 로 검색해도 옛날  threadripper 시스템만 간혹 보이고  threadripper pro 사용자는 거의 안보이네요..
gmltj 2023-02
구글에서 찾아보니...패리티 에러가 떠서 재부팅이 되는 것인데.... 시피유 불량이 아닐지......
     
구구구 2023-02
제가 뽑기운이 안좋은가봅니다. 한번 확인해보겠습니다. 의견감사합니다!
김제연 2023-02
혹시 메모리 오버가 되있는것 일수도 있습니다 메모리 클럭을 일부러 낮춰서 해보세요

쿨러가 나시식이면. 너무. 꽉조여도 비슷한 증상 나온적이 있습니다
kyile 2023-02
웟분께서 L1이야기를 해주셔서 해당 이슈가 아니겠지만.. 혹시나 해서 남깁니다.
CPU마운트가 잘 안되면 그럴 때가 있었습니다. 갑자기 pci 통신 에러가 난다거나, 메모리 에러가 난다거나 하는데 도저히 찾을 수가 없던 적이 있습니다..
cpu는 다시 끼워봤고? 라고 하셔서 해봤더니 그냥 없던일이 되더라구요. 이후 알아보기론 큰 칩 대비 압력이 각기 달라 벌어진 이슈였던 것 같은데, 정말 간혹 있는 것 같습니다.
구구구 2023-04
여러가지 시도를해봤고 결국

1. 램테스트
2. 메인보드 A/S (이상없음)
3. 파워서플라이 교체
4. CPU A/S (문제 찾음)

kernel 41 오류로 확인했지만
결국 CPU 시스템의 문제였습니다.

댓글 달아주신 모든 분들께 감사합니다.


QnA
제목Page 2837/5710
2014-05   5155764   정은준1
2015-12   1690158   백메가
2021-02   2481   아라야
2024-04   2387   원화채굴
2005-04   6266   김건우
2017-06   3512   컴박
2024-04   1662   정무현
2011-08   32726   노휘래
2014-01   5655   회로쟁이
2008-02   5795   이경동
2018-09   8992   KiMACOMM
2022-09   1422   신우섭
2011-09   9753   뚜뚜김대원
2016-07   4938   DoubleSH
2017-06   4843   comduck
2014-01   35292   회원K
2002-05   17298   김경락
2002-06   15457   김유태
2005-05   5885   송영오
2011-09   6661   스카이
2015-05   5162   김건우
2008-04   5430   남성룡