|
(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (234) |
백메가 |
2015-12 |
1789572 |
25 |
2015-12
1789572
1 백메가
|
|
[필독] 처음 오시는 분을 위한 안내 (737) |
정은준1 |
2014-05 |
5264572 |
0 |
2014-05
5264572
1 정은준1
|
108374 |
도시가스(배관) 관련 질문을 드려두 되는지요? (5) |
insert |
2018-01 |
4678 |
0 |
2018-01
4678
1 insert
|
108373 |
전선 절연테이프 (8) |
뚜뚜김대원 |
2019-03 |
3545 |
0 |
2019-03
3545
1 뚜뚜김대원
|
108372 |
NVS 310 30인치 모니터 연결 (12) |
컴센스 |
2014-09 |
5188 |
0 |
2014-09
5188
1 컴센스
|
108371 |
윈도우 서버 vs 7 , 10 (8) |
여주농민76 |
2016-12 |
5276 |
0 |
2016-12
5276
1 여주농민76
|
108370 |
e5 2670 듀얼을 쓰려면 대체 어떤 보드를? (8) |
쌍cpu |
2016-01 |
9165 |
0 |
2016-01
9165
1 쌍cpu
|
108369 |
이 정도의 업그레이드로 성능의 향상이 있을까요? (14) |
장학엽 |
2010-01 |
7371 |
0 |
2010-01
7371
1 장학엽
|
108368 |
현재 XP를 지원하는 백신이 무엇이 있을까요?? (11) |
박문형 |
2018-02 |
4233 |
0 |
2018-02
4233
1 박문형
|
108367 |
서버견적 문의 입니다 (14) |
케이윌 |
2013-02 |
6208 |
0 |
2013-02
6208
1 케이윌
|
108366 |
델라웨어 우편번호 문제입니다. (5) |
장동건2014 |
2021-11 |
2354 |
0 |
2021-11
2354
1 장동건2014
|
108365 |
벤더가 다른 LTO드라이브사이에 LTFS copy할수있는 툴 |
그린 |
2018-02 |
3700 |
0 |
2018-02
3700
1 그린
|
108364 |
시스템접근제어및 패스워드관리시스템 운영관련 (2) |
리키파울러 |
2019-04 |
2467 |
0 |
2019-04
2467
1 리키파울러
|
108363 |
요즘 atx 파워에 -5v 지원하는 방법 없나요? (7) |
탄져 |
2018-02 |
4275 |
0 |
2018-02
4275
1 탄져
|
108362 |
타이얀 S2567 (7) |
권종일 |
2010-01 |
7375 |
0 |
2010-01
7375
1 권종일
|
108361 |
모니터 빛반사 줄일려면.. (6) |
장동건2014 |
2013-03 |
19006 |
0 |
2013-03
19006
1 장동건2014
|
108360 |
영국 Royal mail 물품 수령 관련 문의 (10) |
조지연 |
2020-06 |
2834 |
0 |
2020-06
2834
1 조지연
|
108359 |
원도우에서 npkcmsvc.exe 에러가 자꾸 뜹니다. (4) |
왕용필 |
2010-01 |
11790 |
0 |
2010-01
11790
1 왕용필
|
108358 |
X9SRL-F 활용... (8) |
안현상 |
2019-04 |
2821 |
0 |
2019-04
2821
1 안현상
|
108357 |
Matrox G200eW 이거 가속해도 느린건가요? (4) |
izegtob |
2016-01 |
4068 |
0 |
2016-01
4068
1 izegtob
|
108356 |
ESXI 에 헤놀6.1 사용 질문합니다 (3) |
전진 |
2019-04 |
3106 |
0 |
2019-04
3106
1 전진
|
108355 |
레이드 구성시 하드디스크가 용량은 같은데 다른 회사제품 써도 되나요? (4) |
송승화 |
2013-03 |
14007 |
0 |
2013-03
14007
1 송승화
|
무책임한 답변일수있지만(GPU테스트용 시스템을 구축해야하는 번거로움이.....) 무언가 문제의 원인을 찾을때는 기본부터 시작해야합니다.
그리고 DGX-1은 SXM 인터페이스라서 개별 GPU 테스트도 불가능하네요 ㅠ
그나마 그네들은 테스트베드를 가지고 있는것이구요..
https://www.bsi.uk.com/gigabyte-g292-z20
블럭다이어그램에서 PCIe Switch 라는 것이 Microsemi 칩셋이라면 그 칩셋이 죽어버린 것이라고 단정할 수 있는데
이것은 제조사에서 수리해주거나 교환해주면 모를까 그렇지 않으면 개인이 수리하기는 힘듭니다..
아마도 정상동작하는 칩셋을 구해 불량 칩셋을 띠어내고 BGA 납땜질 작업하고 다시 테스트 해보는 정도가 다일 것입니다..
NVIDIA DGX-1V 은 NV-LINK 로 연결되어 있는데 GPU 모듈이 다 문제가 없다면 그것과 연결되는 NV-LINK 기판을 정상동작하는 것으로
구해 바꿔 보는 정도일 것입니다.. (만일 NV-LINK 기판이 고장난 경우)
문제는 NVIDIA DGX-1V 의 부품은 비싸기도 하고 구하기 어렵다는 것이겠죠..
업체를 불러도 그 업체가 얼마나 부품을 잘 구하냐 수리를 잘하느냐에 따라 수리를 할수 있다 없다가 결정되며 수리하더라도 실패할 경우가 있습니다..
보통 저런 수리는 수리 실패 하더라도 작업료는 따로 받습니다..
DGX는 이미 구매 업체에서 두손두발 다 들었던 물건이긴 해서 크게 기대하고 있지는 않았습니다... 갑자기 워크로드 빡센걸 돌리는 상황이 생긴거라 혹시나 하는 마음에 켜봤지만 역시나군요.. ㅠㅠ
따라서 GPU를 다 빼고 정상동작하는 것 하나나 두개만 꼽아서 GPU외 베어본이 정상인지 아닌지부터 테스트 해봐야죠..
이런 테스트는 시간이 많이 걸립니다..
그러나 그기간이 끝나버리면 아무것도 안해줍니다..
그 회사의 룰이니까 어쩔수 없지만 (서류대로 한다..) 어찌 보면 상당히 매정합니다..
그리고 안의 부품들이 전용 부품이 많아서 따로 구할 수 있는 경우는 거의 없을정도로 구하기가 힘든 것 같더군요..
#2. 슬롯이 죽는 경우
#3. GPU 가 죽는 경우
셋 중 하나 같은데 어느날 갑자기 2개이상의 GPU 가 죽었다면 #1 확률이 가장 높아보이네요.
김영기님 말씀처럼 GPU 꺼내서 다른 서버/웤에 물려보면 바로 결과 나올듯 합니다.
교체 해야죠.