GPU 서버의 PCIe Switch 인식이 안되는 경우 대응 관련

   조회 2634   추천 0    

연구실에서 사용중인 GPU 서버 두대의 PCIe Switch 자체가 인식이 되지 않아 대응을 어떻게 해야될지 의견을 구하고자 합니다.


문제가 발생한 서버 중 하나는 NVIDIA DGX-1V로 이미 고장난지 2,3년 정도로 꽤 오래되었으며 PCIe Switch 4개가 BMC 상에서 잡히지 않는 상태입니다.


V100 GPU들의 Firmware 등의 정보도 N/A로 뜨면서 대시보드에서 전혀 잡히지 않는 상태이구요.


다른 하나는 GIGABYTE G292-Z20으로 PCIe Switch 4대 중 하나가 인식이 되지 않아 현재 GPU가 6대만 잡히는 상황입니다.


lspci, lshw 등의 명령어로도 장치가 인식이 되지 않는걸로 보아 하드웨어적인 고장으로 생각되지만 DGX-1은 이미 지원이 끝난 상황이며 NVIDIA 구독 서비스도 등록하지 않아 공식적인 지원을 받기 어려운 상황이며 GIGABYTE 서버도 2년 수리 지원이 이제 막 끝난 상황이라 저희가 해볼 수 있는 것은 시도해보고자 합니다.

혹시나 비슷한 상황을 겪어보신 분들이 계시는지, 만약 계신다면 어떤 대응방법을 시도해보셨고 효과를 보셨는지 의견을 주시면 감사하겠습니다.

짧은글 일수록 신중하게.
저라면 일단 개별 GPU가 정상인지부터 확인해보겠습니다.
무책임한 답변일수있지만(GPU테스트용 시스템을 구축해야하는 번거로움이.....) 무언가 문제의 원인을 찾을때는 기본부터 시작해야합니다.
     
달콤한잡초 2023-06
그건 맞습니다만 한창 연구로 바쁜 시기인지라 서버를 랙에서 꺼내고 하고 있을 시간이 없습니다 하하.. 바쁘게 굴러가는 곳인지라 원격으로 해볼 수 있는 것들은 해보고 안되면 업체를 부를 심산입니다.
그리고 DGX-1은 SXM 인터페이스라서 개별 GPU 테스트도 불가능하네요 ㅠ
          
벤더에서도 해주는 것이 결국 개별 GPU 테스트더라구요.
그나마 그네들은 테스트베드를 가지고 있는것이구요..
박문형 2023-06
기가바이트 서버에서

https://www.bsi.uk.com/gigabyte-g292-z20

블럭다이어그램에서 PCIe Switch 라는 것이 Microsemi 칩셋이라면 그 칩셋이 죽어버린 것이라고 단정할 수 있는데

이것은 제조사에서 수리해주거나 교환해주면 모를까 그렇지 않으면 개인이 수리하기는 힘듭니다..

아마도 정상동작하는 칩셋을 구해 불량 칩셋을 띠어내고  BGA 납땜질 작업하고 다시 테스트 해보는 정도가 다일 것입니다..

 NVIDIA DGX-1V 은 NV-LINK 로 연결되어 있는데 GPU 모듈이 다 문제가 없다면 그것과 연결되는 NV-LINK 기판을 정상동작하는 것으로

구해 바꿔 보는 정도일 것입니다.. (만일 NV-LINK 기판이 고장난 경우)

문제는  NVIDIA DGX-1V 의 부품은 비싸기도 하고 구하기 어렵다는 것이겠죠..

업체를 불러도 그 업체가 얼마나 부품을 잘 구하냐 수리를 잘하느냐에 따라 수리를 할수 있다 없다가 결정되며 수리하더라도 실패할 경우가 있습니다..

보통 저런 수리는 수리 실패 하더라도 작업료는 따로 받습니다..
     
달콤한잡초 2023-06
딱 연속되는 ID를 갖는 GPU 2대가 인식이 되지 않고 있어서 말씀하신 Microsemi 칩셋이 죽어버린 것일 가능성이 높습니다. 온보드에 땜질되있는거라면 말씀하신 방법이 그나마 가능한 수리방법이겠군요...

DGX는 이미 구매 업체에서 두손두발 다 들었던 물건이긴 해서 크게 기대하고 있지는 않았습니다... 갑자기 워크로드 빡센걸 돌리는 상황이 생긴거라 혹시나 하는 마음에 켜봤지만 역시나군요.. ㅠㅠ
          
박문형 2023-06
기가바이트 서버는 그 슬롯에 걸린 GPU가 2개 연속으로 고장일수도 있습니다..

따라서 GPU를 다 빼고 정상동작하는 것 하나나 두개만 꼽아서 GPU외 베어본이 정상인지 아닌지부터 테스트 해봐야죠..

이런 테스트는 시간이 많이 걸립니다..
박문형 2023-06
엔비디아 오리지날 서버는 비싸기도 비싸지만 구매후 무상 유지보수기간에는 그럭저럭 지원을 잘해줍니다..

그러나 그기간이 끝나버리면 아무것도 안해줍니다..

그 회사의 룰이니까 어쩔수 없지만 (서류대로 한다..) 어찌 보면 상당히 매정합니다..

그리고 안의 부품들이 전용 부품이 많아서 따로 구할 수 있는 경우는 거의 없을정도로 구하기가 힘든 것 같더군요..
Myrdal 2023-06
#1. PCIe 칩셋이 죽는 경우
#2. 슬롯이 죽는 경우
#3. GPU 가 죽는 경우

셋 중 하나 같은데 어느날 갑자기 2개이상의 GPU 가 죽었다면 #1 확률이 가장 높아보이네요.
김영기님 말씀처럼 GPU 꺼내서 다른 서버/웤에 물려보면 바로 결과 나올듯 합니다.
제온프로 2023-06
해당 파트가 죽은 것 같습니다.

교체 해야죠.
권짱 2023-06
기가바이트 3년 지원 됩니다. 구입일 기준으로 열심히 따지시거나, 해당 파트만 구입하겠다고 하시면 될듯합니다. 판매한 업체별로 무상 /유상의 기준이 있으며, 유상 처리해도 얼마 하지 않을듯 합니다.


QnA
제목Page 311/5729
2015-12   1789572   백메가
2014-05   5264572   정은준1
2018-01   4678   insert
2019-03   3545   뚜뚜김대원
2014-09   5188   컴센스
2016-12   5276   여주농민76
2016-01   9165   쌍cpu
2010-01   7371   장학엽
2018-02   4233   박문형
2013-02   6208   케이윌
2021-11   2354   장동건2014
2018-02   3700   그린
2019-04   2467   리키파울러
2018-02   4275   탄져
2010-01   7375   권종일
2013-03   19006   장동건2014
2020-06   2834   조지연
2010-01   11790   왕용필
2019-04   2821   안현상
2016-01   4068   izegtob
2019-04   3106   전진
2013-03   14007   송승화