안녕하세요
이곳이라면 쓰레드리퍼 프로 시스템을 사용하시는분이 꽤 있을듯 하여 질의글을 작성합니다
시스템은 작년 여름에 구축하였는데 여전히 아래 증상으로 고생이네요
현재 쓰레드리퍼 프로를 사용가능한 일반보드는
3종류 정도 되는둣합니더그중 저는 asus사의 wex80e 모델을 사용중입니다
오류가 랜덤하게 발생합니다
보다 자세히는 부팅시 그래픽카드 이상 경고가 발생하고 화면은 먹통이나 기다리면 윈도우 진입이후 화면이 들어옵니다.
이러한 증상은 윈도우에서 재부팅 명령시 높은 확률로 발생되며 파워전원을 모두 차단한뒤 부팅을 시도하면 오류없이 정상 부팅됩니다(가끔 이러한 단계에서도 오류가 발생)
규칙성을 찾아보려고 지속적으로 여러방법을 시도해봐도 이유를 알수가 없네요
asus에 문의해봐도 시스템 전체를 검토해야한다는 원론적인 답변뿐이고..
범인색출을 위해 아래와 같은 노력을 진행하였으나 해결방법 및 원인을 모르겠습니다
1. 외장그래픽을 3가지 변화하며 테스트
2. 내장 그래픽 기능 비활성(스위치/바이오스)
3. 메인보드 신품 재구매 교체
4. 램 소 켓 이동 및 수량 조절
5. 바이오스 초기화 및 버전별 업데이트
6. 파워교체
7. 누드테스트
8. 윈도우 버전변경(10-11)
반년간 알아낸 현상은 내장그래픽을 활성화하고 해당 포트에 작은 모니터 하나 연결해놓으면 오류 발생이 현저하게 줄어듭니다
해당보드가 단순 모니터링 디스플레이용으로 내장그래픽 칩셋을 넣어준것 같은데 해당 기능때문인거 같기도 한데 일관성 없이 오류가 발생하니 원인을 모르겠습니다
윈도우 부팅이후엔 사용에 문제가 없으나
바이오스 설정화면 또는 도스/윈도우 설치단계등의 화면을 볼수가 없어 매우 불편하고 이러한 이슈때문인지 업그레이드 전 피시보다 사양에 대폭상승하였음에도 작업환경에서(soludworks 대규모 어샘블리 편집)오히려 버벅인다는 느낌이 있었습니다
Cpu : threadripper pro 3975wx
Mb : asus wrx80e
Ram : samsung 16g -8채널. (128gb)
Vga : rtx A6000 - 2장(nvlink)
케이스는 Phanteks ENTHOO 719 (BK) 입니다
추가적인 환경정보로는 냉각은 수냉 시스템을 사용중입니다
ㄴ 다른 그래픽카드로 해서 잘되면
그래픽카드와 보드와 궁합이 잘 안맞는듯..
2. 메인보드를 바꿔본다
ㄴ 다른 제조사 메인보드로 해서
잘되면 메인보드가 원인인듯..
3. 보드 내장 vga(혹은 hdmi, dp)와
A600에 더미 플러그를 꼽아둔다.
4. A600 1개를 제거하고 증상이 재현되는지 테스트
위 4가지 정도 의심됩니다.
M4000 / m2000 / gforce 2070 도 테스해보았으나 동일합니다
반대로 RTX A6000모델을 해석용 다른 PC에 꼽아보면 정상적으로 오류없이 작동합니다
알반pc에도 꼽아보고 hp 840에도 꼽아보고 dell 웍스에도 꼽아봤을때도 잘 작동합니다
2. 쓰레드리퍼 프로용 보드는 선택지가 별로 없는데
(엔드유져가 접근가능한 보드는
Asus wrx80e
Supermicro
Gifabyte )
슈마제품은 케이스호환성떄문에, 기가 제품은 방열판 미텁재 및 지원 포트 부족 등으로 시도해보지 못하였습니다
아마 다른 제조사는 이러한 문제는 없을듯 합니다
바이오스 설정화면 또는 도스/윈도우 설치단계등의 화면을 볼수가 없는 것이구요.
이것은 윈도우 진입이후에는 내장 비디오가 아닌 외장 비디오로 전환 되는 이유 입니다.
내장 비디오는 ASMB9-iKVM (BMC Remote Management)를 위한 것 입니다.
다른 PC에서 iKVM 접속해서 리모트 터미널 실행 하면 바이오스 설정화면 또는 도스/윈도우 설치단계등의 화면을 볼수가 있습니다.
파워서플라이는 2장의 그래픽(최소 300W * 2 ) 과 풀뱅크 메모리 (최소 50W) 그리고 시피유(최소 300W )를 고려하면 최소 1000W 이므로
HDD 및 SSD 장착 갯수에 따라서 1600W ~ 2000W 일거라고 추정 합니다.
전원은 당여히 싱글레인 타입 이겠죠? 멀티 레인으로 하면 계산이 좀더 복잡해집니다.
하지만 저라면 2000W을 사용 하겠습니다.
이 보드의 여러 사용 후기들을 보면 대부분의 권장사양으로 파워를 1600W 이상 이니까요.
최소 전력 구성으로 파워 서플라이를 구성한듯 합니다.
터보 기능시까지 고려하고 CPU 전력을 약 2배를 권장 하더군요.
evga사의 1600w는 12V 가 최대 1600W 이지만 HDD 등이 5V, SSD 3V 를 사용하는 갯수 전력을 빼면 12V 파워 용량이 부족해 질수 있습니다.
파워 서플라이를 교체 테스트하기 전에
CPU core 갯수를 BIOS에서 제한 하거나
SMT(Simultaneous Multithreading)를 비활성화 하거나
CPU core CLock 주팟수를 낮게 설정해서
CPU 소비 전력이 1/2 가 되도록 설정해서
이상 증상의 지속 여부를 확인 하면 power-supply 용량 부족에 대한 확신을 갖을 수 있을 것 같습니다.
CPU 소비 전력이 1/2 가 되도록 설정 이후에도 이상 증상이 계속 된다면
추가적으로 VGA 카드를 하나만 장착해서 테스트 해보는 것도 방법이 되겠습니다.
VGA MEMORY ERROR 같은데요..
Furmark test 해 보새요.
Furmark GPU 스트레스 테스트를 켜놓고 퇴근한 적도 있습니다.
다음날까지 오류없이 잘돌고 있었습니다.
또한 VGA (RTX A6000)의 문제라면 다른 VGA(M4000 / Geforce2070)로 테스트했을때는 해당오류가 해소되어야 한다고 생각했으나.
회사에서 보유하고 있는 5종의 VGA를 다 테스트해봐도 동일했습니다.
솔리드웍스 시스템이군요.
저 또한 솔리드웍스 때문에 계속 개고생중입니다. 제 컴퓨터는 아니지만 유지보수 해 주고 있는 시스템이 있는데..
윈도우 업데이트 막아놔도 어찌 열려서 .. 잘 않될아간다 .. 좀 버벅인다.. 다시 설치 하자하여.
윈도우와 솔리드웍스 2018~2022까지 계속 설치 하고 있습니다. 시흥시 정왕동까지 왔다 갔다 하면서.
시스템을 보수적으로 접근 해야 할 것 같습니다.
Asus와 Gigabyte는 대표적으로 Dual Socket 메인보드를 잘 설계 못하는 유명한 회사이니 만큼
바이오스에서 기능들을 제거하고 접근해 보세요.
내장 VGA는 Disable 하고요.
그리고 BIOS에서 A6000에 메모리 대역폭을 충분히 확장 해 주는 옵션이 있을 겁니다.
서버 보드 설계 연수가 짧아서 노하우가 Dell 이나 HP에 비하여 짧습니다.
모든 문제 대응을 해 주기 힘들겁니다.
SuperMicro는 경험이 많은데..
제조사 홈페이지에서 wrx80e 검색하고 호환디바이스 리스트를 보면 비디오카드는 RTX2000 번대까지만 테스트 되어 있습니다..
바이오스를 뒤져 보면 그다지 크게 변화된것은 없고 마이크로코드나 업데이트되었습니다..
BMC도 오디오쪽 조금 손댔을 뿐입니다..
따라서 현재 ASUS 홈페이지에서는 wrx80e 보드는 RTX A6000 과 테스트가 안되었던지 호환성을 개런티하지 못합니다..
보드 수입원쪽에 요청해서 ASUS 본사에 테스트를 의뢰하고 문제를 해결해줄수 있는지 문의해보세요..
문제가 해결되었다면 그 시스템 구성 상태 (무슨 파워 무슨 VGA 무슨 케이스 사용 등등) 를 받아보세요..
우선 시스템이 최신 바이오스라고 생각하고 비디오카드 다 빼고 온보드 VGA로만 OCCT 같은 시스템 부하 주어서 번인 하는 프로그램 오래 돌렸을때
(24시간 이상) 에러메세지 없고 안뻗는다면 일단 시스템은 정상입니다..
VGA 셋팅하고 똑같이 OCCT 의 모든 부하 메뉴를 돌려서 에러메세지나 이상이 없는지 확인해보세요..
그 외 윈도우즈에서 시스템 번인 하는 프로그램은 Burn in the test 라는 프로그램이 있습니다..
무상 버젼있고 유상 버젼이 있습니다..
파워를 다른회사 제품으로 바꿔 보면 좋긴 한데 맞는 파워가 있을지도 의문입니다..
그리고 이 보드는 CPU 8핀이 3개짜리라 좀 골치입니다..
부팅시 그래픽카드 이상 경고는 모니터 화면에서 확인한게 아니라(모니터가 나오질 않으니..)
메인보드에서 LED 상태등(주황(램체크)->빨강(CPU)->힌색(VGA)->녹색(정상부팅))에서 힌색등 점멸후 켜진상태가 유지되며
메인보드 스피커에서 삐~ 삐삐삐 경고음이 발생합니다.
저상황에서는 포스팅화면이 나오질 않고요..(윈도우 진입하면 화면이 들어옵니다.)
on board VGA 셀렉터 on 하시고
Force BIOS 해서 POST 동안 나오는 메시지 확인 하시고
보드 Q-code 에 뭐라고 나오는 가요.
CMOS 클리어 버튼으로 클리어후에,,
설사 그래픽이 안맞는다고 해도 ASPEED 칩을 통한 BIOS POST 화면은 연결된 모니터 화면에 나와야 하는데, 뭔가 설정이,,,
launch CSM : enable
Boot Device control : UEFI & Legacy
primary display : on 혹은 상황에 따라서 off
ASPEED Display Driver 버전업 or 버전 change
예전에 ASUS 서버보드에 RTX 30 GPU 설치할때와 비슷한 증상 이네요.
그래픽 카드 BIOS 로딩, PCI Express 설정단계의 문제 같습니다.
1번 슬롯에서만 테스트 하셨다면 다른 슬롯에도 꼽아보시고
바이오스 셋팅에서 PCI Express GEN1 setting 메뉴를 건들여서 GEN을 낮춰 보세요..
그 외는 VGA 카드에 전원 커넥터는 다 꼽아야 되고요..
그리고 저 보드는 밑에 보호용 판때기가 있어서 그게 조립시 케이스와 누질려서 어딘가 쇼트의 가능성도 보입니다..
어렵지만 케이스 빼고 누드 테스트를 해보심이 좋아 보입니다..
VGA꼽았을때 에러 LED 안나오는 보드로 바꿔 달라고 해보세요..
가지고 계신 비디오카드 중에 저가형 가져 가보셔도 되고요..
보드 AS센터는 보드만 AS하기에 CPU메모리는 보통 안가져 가셔도 됩니다..
안되는 증상 사진과 보드 VGA카드 들고 가서 안된다고 물고 늘어지면 모라도 답은 찾아줄 겁니다..
단 직접 방문해서 처리하는게 좋긴 합니다.. 지방이면 힘들죠..