서버가 Tesla P100 삽입 후 부팅을 거부합니다.

전일장   
   조회 799   추천 0    

해결책들 시도하다가 메인보드가 죽은 것 같기도 합니다.... 슈마 본사에 이메일로 연락했습니다. 도와주신 분들 감사합니다.

[스펙]

X11SRA-RF, Xeon W-2145, 4* 2133P 16GB ECC REG DDR4(삼성), 850W 플래티넘 파워 ,저장매체(U.2 SSD 1개, M.2 SSD 2개, SATA SSD 2개, 3.5 HDD 3개), 인텔 4P NIC 1장, IT MODE 플래시한 H200 1장


원래 Proxmox 노드로 사용하는 시스템입니다. 여기에서 구매한 P100을 넣어보니 부팅 도중에 코드94  PCI Bus Enumeration에서 멈춥니다 (슈마 바이오스 코드 사이트). 이 상태로 30분 이상 지속하는 것 확인하고 BIOS Clear, PCIE슬롯 변경, 추가 파워 연결을 시도했습니다. 

P100 빼면 바로 정상작동합니다. 판매자분께 Nvidia-SMI 캡쳐등 여러가지 사진을 받았고 정상작동 확인 후 구매했습니다. 

지금 1주일 이상 집 올때마다 몇시간씩 인터넷 찾아보고 찾는 해결책들을 계속 반복하고 있는데 안되네요... 찾아볼 것은 다 찾아봤다 싶습니다.. 여기 와서 고수님들께 질문 드립니다. 


무엇이 문제인가요? 


수정1: Above 4G decoding은 켜져 있습니다. 

Per aspera, ad astra
짧은글 일수록 신중하게.
PCIe 슬롯을 바꿔서 테스트해보시죠.
리소스충돌일 가능성도 있습니다.
     
전일장 02-07
모든 PCIE 슬롯에 넣어봤고 다 부팅 안되는 것 확인했습니다.
준컴덕 02-07
바이오스에서 Above 4GB decoding 항목이 비활성화 되어있는지 확인해보시는건 어떨까요?
     
전일장 02-07
Above 4G decoding은 활성화되어 있습니다.
박문형 02-07
POST CODE 94 가 무엇인지 검색해보면

PCI Bus Enumeration 라는 말이 나오고

BAD SATA port 라는 이야기가 있고

https://www.reddit.com/r/gigabyte/comments/na7yhm/error_code_94_aorus_master_x570/

여기서는 M.2 SSD 쪽을 확인합니다..



우선 보드 바이오스를 디폴트 값으로 해두고

보드에 꼽힌 PCIe 카드 다 빼고 ( M.2 /U.2 디바이스들은 연결) 부팅테스트 해보고

그래도 안되면 U.2 /M.2 디바이스까지 빼고 부팅 테스트 해보세요..
     
전일장 02-07
U.2/M.2까지 빼고 GPU만 넣고 해보니 그냥 부팅이 안되네요... 그냥 화면/코드도 안나옵니다.
GPU빼고 다시 부팅해보니 그냥 부팅불가...
CMOS배터리 빼고 기다렸다가 다시 시도해보겠습니다.
isilentwind 02-07
전원케이블이 처음부터 분리된 2개의 케이블로 되어 있는지, (전력부족)
pcie slot 설정을 uefi, legacy로 변경도 해보시고,
다른 카드 다 떼어내고 p100만 붙이고도 해보시고요.(자원부족)
dateno1 02-07
일단 다른컴에 꽃아보시고, 다른 확장카드 좀 줄인다음 해보세요 (특히 VGA, HBA같은 돼지를 줄인후 POST진행되나해보세요)
박문형 02-07
영어가 된다면 슈퍼마이크로 본사쪽에 질문 넣어서 답변을 받아볼 수도 있습니다..

요즘은 개인에게 일일히 답변을 해줄지는 미지수입니다만 FAQ 같은 곳에는 개인 질문도 있는 것 같으니 한번 시도해봐도 될 것입니다..

질문에 답변이 온다면 처음에는 이것저것 물어볼 텐데 글 적는 것도 중요하지만 실물 사진을 첨부해서 확실하게 보여주는 것이 좋다라고 봅니다..



그리고 슈퍼마이크로에 대해서는 옛날부터 슈퍼마이크로 보드 사용하면 다른 부품들도 슈퍼마이크로를 사용해야 정신 건강에 이롭다는 말이 있습니다..

슈퍼마이크로는 보드와 샤시에 대해여 매트릭스식으로 나열하여 베어본이나 완성품 서버 제품을 만들고 각자에 대해 호환성을 보장합니다..


개인적으로는 전문 GPU 카드는 GPU 전용 서버에서만 동작한다라고 생각하고 있고 GPU 전용서버 한 모델이 모든 GPU카드와 호환되지 않습니다..

GPU 전용 서버나 GPU 전용 보드는 그 GPU카드들과 호환되기 위해 바이오스부터 일반 보드들과는 다릅니다..(다른 말로 호환성 테스트 했다라고 봐도 됩니다..)

GPU카드도 쿨링 방식에 따라 액티브와 패시브가 있는데 패시브 카드는 방열 대책을 확실히 세워서 동작시켜야 합니다..

그렇지 않으면 열로 인해 카드가 파손될 수 있습니다..

패시브 카드는 본래 서버제조사에 OEM으로 공급되는 물건이고 보통 그 시스템의 쿨링 시스템을 이용해서 쿨링합니다..
박문형 02-07
     
싸이제이 02-07
전일장님(이전명 토롤좌님)의 질문글로 보입니다.
     
전일장 02-07
저거 제 글입니다..ㅎㅎ
          
박문형 02-07
꼬리가 보이는 듯해서 링크해보았습니다..
죠슈아 02-07
PCI Bus Enumeration은 시스템 부팅 과정에서 PCIe 장치들을 식별하고 구성하는 중요한 절차으로

- 장치 탐색: Root Complex가 시작점이 되어 모든 연결된 PCIe 장치와 브리지를 깊이 우선 알고리즘으로 스캔
- 고유 주소 할당: 각 PCIe 장치에 Bus Number, Device Number, Function Number로 구성된 고유한 주소를 할당
- 구성 정보 접근: 각 장치의 Configuration Space에 접근하여 Device ID, Vendor ID, 기능 등의 정보 획득
- 자원 할당: 장치가 필요로 하는 메모리, I/O 포트, 인터럽트 등의 시스템 자원을 할당
- 장치 초기화: 읽어온 정보를 바탕으로 각 장치를 초기화

으로 설명하는 군요,,

다른 보드에서도 Tesla P100 으로 부팅 실패 사례가 있으며 BIOS가 이를 지원해야 한다고 하고 있지만
구글링 으로 검색된 것들을 모두  믿을수는 없고 ...

BIOS에서 시스템 리소스 변경 가능 것들을 하나씩 변경하면서 해결이 아니더라도
의미있는 변경점이 있는지 시도하면서 아래에 열거한 사항이 Tesla P100 동작 구성과 관련된 것이 있는지 살펴 보는 것이 필요해 보입니다.

판매자는 정상 동작하므로 사용된 마더보드와 BIOS 설정을 문의해서 참고 하시는 것도 필요해 보입니다.

1.
BIOS 설정중
Resizable BAR(Base Address Register) 을 변경 시도 해보세요.

2. Boot Feature
Port 61h Bit-4 Emulation  : Disabled -> Enabled 으로 변경 시도 해보세요.

3. IOAT Configuration
Relaxed Ordering : Disable ->  Enable 으로 변경 시도 해보세요.

4.  PCIe/PCI/PnP Configuration 
SR-IOV Support                  : Disabled <=> Enabled  Toggle
MMCFG Size                      : 256M ->  512M, 1G, 2G
MMIOHBase                        : 56T ->  40T, 24T, 16T, 4T, and 1T
MMIO High Granularity Size  : 256G ->  1024G
Above 4G Decoding              : Disabled -> Enabled
박문형 02-07
https://www.nvidia.com/content/dam/en-zz/Solutions/design-visualization/solutions/resources/documents1/NV-tesla-p100-pcie-PB-08248-001-v01.pdf

P100의 전원 커넥터는 CPU 8핀입니다..

파워에서 마더보드 CPU 8핀 전원으로 들어가는 전원선을 꼽아야 합니다..

무리하게 GPU (VGA) 용 8핀을 꼽으면 P100이 고장날 수 있습니다..

CPU 8핀과 VGA 8핀은 커넥터가 호환이 안되게 만들어져 있고 12V와 그라운드가 정반대입니다.. (약간 다르기는 하지만)

따라서 억지로 꼽으면 해당 부품이 타버리는 불상사가 발생할 수도 있습니다..
     
전일장 02-07
CPU 8핀 꽂았고, 메인보드에 들어가는 8핀이랑은 아예 다른 선입니다.
박문형 02-07
만일 가능하다면 다른 보드나 다른 시스템에 P100을 꼽아서 부팅이라도 재대로 되는지 P100이 인식이라도 하는지 확인해보세요..
제온프로 02-08
P100 의 전원
300W 줘야 합니다.

 300W 전용 전원 케이블 = PCIe 8핀 150W x 2개

에누리 없이 150W 2개 줘야 합니다..  당연히 전용케이블 써야 하고요..

EPS 8핀 150W .. 다이렉트로 꽂으면 전기 모잘라요..


QnA
제목Page 21/5723
2014-05   5234078   정은준1
2015-12   1760474   백메가
02-13   704   전일장
02-13   486   phose
02-13   427   이전이후
02-13   566   Landa
02-12   895   신은왜
02-12   564   김효수
02-12   411   이원재K
02-12   693   디브이
02-12   483   디브이
02-12   490   미담
02-12   306   명랑
02-12   538   장동건2014
02-12   930   집구석
02-12   608   블루영상
02-11   993   미스터20
02-11   752   grzlr
02-11   1112   여수I완스
02-11   588   마스코트
02-11   565   ddabonge
02-11   766   잡식