안녕하세요
눈팅만하다가 정말 모르는게 생겨서 조언좀 얻고싶습니다ㅠㅠ
- 스레드리퍼 PRO 5955WX
- ASUS PRO WS WRX80E-SAGE SE WIFI
- SAMSUNG DDR4 64GB * 8
proxmox를 구성했고 ubuntu lxc를 띄워서 열심히 개발을 하고있었습니다.
ubuntu 22.04 - docker.io, podman으로 portainer로 워드프레스를 약 30개정도 돌립니다. 그런 LXC가 2개정도 테스트했습니다.
proxmox만 부팅시킬때는 문제가없는데 ubuntu LXC를 구동시키고 docker container를 실행시키면 약 20~30분정도 또는 몇시간뒤에 아래 오류를 내면서 proxmox가 재부팅되어버립니다.
Feb 25 02:17:01 v4 CRON[35659]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0) Feb 25 02:17:01 v4 CRON[35660]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Feb 25 02:17:01 v4 CRON[35659]: pam_unix(cron:session): session closed for user root Feb 25 02:21:37 v4 kernel: mce: [Hardware Error]: Machine check events logged Feb 25 02:21:37 v4 kernel: [Hardware Error]: Corrected error, no action required. Feb 25 02:21:37 v4 kernel: [Hardware Error]: CPU:1 (19:8:2) MC1_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd8200000060a0859 Feb 25 02:21:37 v4 kernel: [Hardware Error]: PPIN: 0x02b68f671f2d007b Feb 25 02:21:37 v4 kernel: [Hardware Error]: IPID: 0x000100b000000000, Syndrome: 0x000000005a000586 Feb 25 02:21:37 v4 kernel: [Hardware Error]: Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error. Feb 25 02:21:37 v4 kernel: [Hardware Error]: cache level: L1, mem/io: IO, mem-tx: IRD, part-proc: SRC (no timeout) Feb 25 02:24:34 v4 pmxcfs[1191]: [dcdb] notice: data verification successful Feb 25 02:31:05 v4 pvedaemon[1316]: successful auth for user 'root@pam' Feb 25 02:46:30 v4 pvedaemon[1317]: successful auth for user 'root@pam' Feb 25 02:52:45 v4 kernel: mce: [Hardware Error]: Machine check events logged Feb 25 02:52:45 v4 kernel: [Hardware Error]: Corrected error, no action required. Feb 25 02:52:45 v4 kernel: [Hardware Error]: CPU:1 (19:8:2) MC1_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd8200000060a0859 Feb 25 02:52:45 v4 kernel: [Hardware Error]: PPIN: 0x02b68f671f2d007b Feb 25 02:52:45 v4 kernel: [Hardware Error]: IPID: 0x000100b000000000, Syndrome: 0x000000005a000581 Feb 25 02:52:45 v4 kernel: [Hardware Error]: Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error. Feb 25 02:52:45 v4 kernel: [Hardware Error]: cache level: L1, mem/io: IO, mem-tx: IRD, part-proc: SRC (no timeout) Feb 25 03:03:38 v4 pvedaemon[1315]: successful auth for user 'root@pam' Feb 25 03:10:01 v4 CRON[49309]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0) Feb 25 03:10:01 v4 CRON[49310]: (root) CMD (test -e /run/systemd/system || SERVICE_MODE=1 /sbin/e2scrub_all -A -r) Feb 25 03:10:01 v4 CRON[49309]: pam_unix(cron:session): session closed for user root Feb 25 03:17:01 v4 CRON[51083]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0) Feb 25 03:17:01 v4 CRON[51084]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Feb 25 03:17:01 v4 CRON[51083]: pam_unix(cron:session): session closed for user root Feb 25 03:24:34 v4 pmxcfs[1191]: [dcdb] notice: data verification successful Feb 25 03:29:04 v4 kernel: mce: [Hardware Error]: Machine check events logged Feb 25 03:29:04 v4 kernel: [Hardware Error]: Corrected error, no action required. Feb 25 03:29:04 v4 kernel: [Hardware Error]: CPU:1 (19:8:2) MC1_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd8200000060a0859 Feb 25 03:29:04 v4 kernel: [Hardware Error]: PPIN: 0x02b68f671f2d007b Feb 25 03:29:04 v4 kernel: [Hardware Error]: IPID: 0x000100b000000000, Syndrome: 0x000000005a000a98 Feb 25 03:29:04 v4 kernel: [Hardware Error]: Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error. Feb 25 03:29:04 v4 kernel: [Hardware Error]: cache level: L1, mem/io: IO, mem-tx: IRD, part-proc: SRC (no timeout) Feb 25 03:29:08 v4 pvedaemon[1317]: successful auth for user 'root@pam' -- Reboot --
위와같이 Reboot하고 proxmox가 재대로 켜지지 않습니다. 그전에 Reboot되는 이유도 모르겠더라구요
Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error.
이 문구가 의심스러워서 열심히 검색을 해보니까 마더보드의 BIOS를 업데이트해서 문제가해결되었다해서 BIOS도 업데이트했습니다.
하지만 동일현상으로 계속 죽어버리더라구요
왜 그럴까요?
---
현재 해결은 안되었지만 OS를 proxmox가아닌 window로 설치하고 살펴보았습니다. 이벤트뷰어로 확인했는데 kernel power 41이라는 오류로 판명했습니다.
이제부터 해결을 해봐야할 것같습니다.
댓글 많이 남겨주셔서 감사합니다.
한번 커널업데이트도 시도해봐야겠네요
kernel.org 가서 최신 stable 받으신후
/boot에서 현제 버전 config 복사해서 .config로 넣은후
make oldconfig해서 추가 요소 지정후
make menuconfig으로 빠진게 없나 검토후
make deb-pkg로 패키지로 빌드해서 깔아보세요 (이러면 관리나 삭제가 쉬워서 문제 발생시 롤백도 간단해짐)
기본적으로 유포판은 LTS버전을 쓰는지라 버전이 좀 낮고, 최신 프로세서는 최신 버전이 필요해요 (성능차도 남)
apt update && apt install pve-kernel-5.15
Feb 25 02:21:37 v4 kernel: [Hardware Error]: CPU:1 (19:8:2) MC1_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd8200000060a0859
Feb 25 02:21:37 v4 kernel: [Hardware Error]: PPIN: 0x02b68f671f2d007b
Feb 25 02:21:37 v4 kernel: [Hardware Error]: IPID: 0x000100b000000000, Syndrome: 0x000000005a000586
Feb 25 02:21:37 v4 kernel: [Hardware Error]: Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error.
Feb 25 02:21:37 v4 kernel: [Hardware Error]: cache level: L1, mem/io: IO, mem-tx: IRD, part-proc: SRC (no timeout)
*/***CPU 연결은 않되고... 수정 및 조치 제안 사항도 없고..
그냥 소프트웨어와 하드웨어가 맞지 않는 것 같습니다.
다만 해 볼 수 있는 것은..
-- 바이오스 업데이트
-- 소프트웨어를 다른 버전으로 설치
이런 전가상화 서버에 쓰레드리퍼라...
인텔 제온플렛폼을 신뢰 하지 않으시는가요 ??
전 세계가 제온플렛폼을 사용하고 있는데요..
좀 납득이 안갑니다.
이미 쓰고있는거에 대한 질문인데 인텔 쓰세요
전가상화가 어디있나요 질문에
딱히 두개가 문제가있을꺼다 생각하지않아서 AMD를 선택했습니다
의심가는 부분이라면 fastboot를 아마도 안하도록 설정했던거같습니다. 다른 것들은 모두 건들지는 않았는데.
ㅜㅜ어렵군요
=> MCE => 메모리컨트롤러에러 가 아닌가 생각됩니다.. ==> 에러로그 따로 있으시면 알려주세요..
Feb 25 02:21:37 v4 kernel: [Hardware Error]: Corrected error, no action required.
Feb 25 02:21:37 v4 kernel: [Hardware Error]: CPU:1 (19:8:2) MC1_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd8200000060a0859
Feb 25 02:21:37 v4 kernel: [Hardware Error]: PPIN: 0x02b68f671f2d007b
Feb 25 02:21:37 v4 kernel: [Hardware Error]: IPID: 0x000100b000000000, Syndrome: 0x000000005a000586
Feb 25 02:21:37 v4 kernel: [Hardware Error]: Instruction Fetch Unit Ext. Error Code: 10, L1 BTB Multi-Match Error.
Feb 25 02:21:37 v4 kernel: [Hardware Error]: cache level: L1, mem/io: IO, mem-tx: IRD, part-proc: SRC (no timeout)
==> cache level: L1, mem/io: IO, mem-tx ==> L1 캐쉬 /메모리 I/O / 메모리 송신 ==> CPU 캐쉬 메모리 와 메모리 콘트롤러 그리고 메모리 모듈쪽
에러가 의심됩니다..
이런 에러로그는 보드 제조사나 OS제조사 쪽의 기술지원쪽에 보내서 로그 분석해 달라고 해야 합니다..
```
Feb 25 14:46:30 v4 systemd[86368]: Stopped target Main User Target.
Feb 25 14:46:30 v4 systemd[86368]: Stopped target Basic System.
Feb 25 14:46:30 v4 systemd[86368]: Stopped target Paths.
Feb 25 14:46:30 v4 systemd[86368]: Stopped target Sockets.
Feb 25 14:46:30 v4 systemd[86368]: Stopped target Timers.
Feb 25 14:46:30 v4 systemd[86368]: dirmngr.socket: Succeeded.
Feb 25 14:46:30 v4 systemd[86368]: Closed GnuPG network certificate management daemon.
Feb 25 14:46:30 v4 systemd[86368]: gpg-agent-browser.socket: Succeeded.
Feb 25 14:46:30 v4 systemd[86368]: Closed GnuPG cryptographic agent and passphrase cache (access for web browsers).
Feb 25 14:46:30 v4 systemd[86368]: gpg-agent-extra.socket: Succeeded.
Feb 25 14:46:30 v4 systemd[86368]: Closed GnuPG cryptographic agent and passphrase cache (restricted).
Feb 25 14:46:30 v4 systemd[86368]: gpg-agent-ssh.socket: Succeeded.
Feb 25 14:46:30 v4 systemd[86368]: Closed GnuPG cryptographic agent (ssh-agent emulation).
Feb 25 14:46:30 v4 systemd[86368]: gpg-agent.socket: Succeeded.
Feb 25 14:46:30 v4 systemd[86368]: Closed GnuPG cryptographic agent and passphrase cache.
Feb 25 14:46:30 v4 systemd[86368]: Removed slice User Application Slice.
Feb 25 14:46:30 v4 systemd[86368]: Reached target Shutdown.
Feb 25 14:46:30 v4 systemd[86368]: systemd-exit.service: Succeeded.
Feb 25 14:46:30 v4 systemd[86368]: Finished Exit the Session.
Feb 25 14:46:30 v4 systemd[86368]: Reached target Exit the Session.
Feb 25 14:46:30 v4 systemd[1]: user@0.service: Succeeded.
Feb 25 14:46:30 v4 systemd[1]: Stopped User Manager for UID 0.
Feb 25 14:46:30 v4 systemd[1]: Stopping User Runtime Directory /run/user/0...
Feb 25 14:46:30 v4 systemd[1]: run-user-0.mount: Succeeded.
Feb 25 14:46:30 v4 systemd[1]: user-runtime-dir@0.service: Succeeded.
Feb 25 14:46:30 v4 systemd[1]: Stopped User Runtime Directory /run/user/0.
Feb 25 14:46:30 v4 systemd[1]: Removed slice User Slice of UID 0.
Feb 25 14:46:33 v4 pmxcfs[1191]: [dcdb] notice: data verification successful
-- Reboot --
```
도움 주셔서 감사합니다.
시스템 메모리 테스트는 이 프로그램이 어느 정도 유명합니다..
USB에 이미지 설치해서 USB로 부팅한 후 셋팅해서 계속 돌리면 됩니다..
임베디드 리눅스라고 생각하시면 되고 셋팅에 따라 틀리지만 시간을 많이 잡아먹습니다..
구글해보시면 사용설명서 아마 찾을수 있을겁니다..
그 외 메모리와 CPU 테스트 하는 프로그램이 하이퍼포먼스 린팩이라고 있습니다..
https://netlib.org/benchmark/hpl/
리눅스 설치하고 상기 HPL 프로그램을 설치 및 컴파일해서 돌리면 됩니다..
이게 돌아가면 CPU에는 100% 부하를 계속주고 메모리도 계속 100% 부하를 주어서 테스트 합니다..
메모리는 프로그램을 스탑할 때까지 루프 테스팅하는 방식으로 몇 번씩 계속 돌아갑니다..
각 두 프로그램은 메모리 불량이 있는지 알아보기 위해 사용합니다만 시스템이 불안하거나 하면 프로그램이 멈추거나 시스템이 꺼지거나 할 수 있습니다..
부하를 최대로 주기 때문인데 그 때문에 시스템이 망가질 수도 있습니다..
그 외 시스템 버닝 프로그램이 있는데
https://www.passmark.com/products/burnintest/index.php
https://www.ocbase.com/download
System Burn in Test 와 OCCT 두가지 프로그램입니다..
윈도우즈 기반으로 돌아가며 셋팅해서 돌리면 지정된 디바이스에 계속 부하를 100% 씩 주고 돌립니다..
이런 번 인 프로그램들은 부하를 최대로 주기에 시스템이 안정되지 못하면 시스템이 고장날 수 있습니다..
열도 엄청나고 전기도 많이 먹습니다..
이런 식으로 몇가지 프로그램을 장시간 돌려서 이상이 없으면 그 때부터 OS 설치 쪽을 생각해보시면 될 듯합니다..
그래도 뭔가 테스트를 시도해봐서 좋았습니다. 의견감사합니다!
쓰레드리퍼 시스템과 proxmox가 몬가 호환성이 안 맞는 것이라고 봐야겠네요.. (설치 상에 문제가 없다면)
proxmox 사 쪽에 호환성 테스트 자료가 있을 듯한데 홈페이지 찾아보시던지 직접 proxmox 사에 문의해보심이 좋아 보입니다..
개인적으로 보면 워크스테이션 시스템에 서버 OS를 설치한 꼴이 되는데
보통 그렇게 해도 별일 없이 돌아가는 경우가 많지만 간혹 그렇지 않는 경우가 있고 이것을 사용자가 혼자 풀기는 쉽지 않습니다..
제조사 쪽의 기술지원이 필요해 보입니다..
참 그리고 쓰레드 리퍼 보드 제조사에서는 아마 공식 기술지원은 윈도우즈 안에서만 지원할 것 같네요..
해당 보드 드라이버 지원을 보면 윈도우즈 쪽만 있을 겁니다..
그래도 혹시나 모르니 문의 메일은 넣어봐도 나쁘지 않을 듯합니다..
proxmox 와 threadripper 로 검색해도 옛날 threadripper 시스템만 간혹 보이고 threadripper pro 사용자는 거의 안보이네요..
쿨러가 나시식이면. 너무. 꽉조여도 비슷한 증상 나온적이 있습니다
CPU마운트가 잘 안되면 그럴 때가 있었습니다. 갑자기 pci 통신 에러가 난다거나, 메모리 에러가 난다거나 하는데 도저히 찾을 수가 없던 적이 있습니다..
cpu는 다시 끼워봤고? 라고 하셔서 해봤더니 그냥 없던일이 되더라구요. 이후 알아보기론 큰 칩 대비 압력이 각기 달라 벌어진 이슈였던 것 같은데, 정말 간혹 있는 것 같습니다.
1. 램테스트
2. 메인보드 A/S (이상없음)
3. 파워서플라이 교체
4. CPU A/S (문제 찾음)
kernel 41 오류로 확인했지만
결국 CPU 시스템의 문제였습니다.
댓글 달아주신 모든 분들께 감사합니다.