연구실에서 사용중인 GPU 서버 두대의 PCIe Switch 자체가 인식이 되지 않아 대응을 어떻게 해야될지 의견을 구하고자 합니다.
문제가 발생한 서버 중 하나는 NVIDIA DGX-1V로 이미 고장난지 2,3년 정도로 꽤 오래되었으며 PCIe Switch 4개가 BMC 상에서 잡히지 않는 상태입니다.
V100 GPU들의 Firmware 등의 정보도 N/A로 뜨면서 대시보드에서 전혀 잡히지 않는 상태이구요.
다른 하나는 GIGABYTE G292-Z20으로 PCIe Switch 4대 중 하나가 인식이 되지 않아 현재 GPU가 6대만 잡히는 상황입니다.
lspci, lshw 등의 명령어로도 장치가 인식이 되지 않는걸로 보아 하드웨어적인 고장으로 생각되지만 DGX-1은 이미 지원이 끝난 상황이며 NVIDIA 구독 서비스도 등록하지 않아 공식적인 지원을 받기 어려운 상황이며 GIGABYTE 서버도 2년 수리 지원이 이제 막 끝난 상황이라 저희가 해볼 수 있는 것은 시도해보고자 합니다.
혹시나 비슷한 상황을 겪어보신 분들이 계시는지, 만약 계신다면 어떤 대응방법을 시도해보셨고 효과를 보셨는지 의견을 주시면 감사하겠습니다.
¹«Ã¥ÀÓÇÑ ´äº¯ÀϼöÀÖÁö¸¸(GPUÅ×½ºÆ®¿ë ½Ã½ºÅÛÀ» ±¸ÃàÇؾßÇÏ´Â ¹ø°Å·Î¿òÀÌ.....) ¹«¾ð°¡ ¹®Á¦ÀÇ ¿øÀÎÀ» ãÀ»¶§´Â ±âº»ºÎÅÍ ½ÃÀÛÇؾßÇÕ´Ï´Ù.
±×¸®°í DGX-1Àº SXM ÀÎÅÍÆäÀ̽º¶ó¼ °³º° GPU Å×½ºÆ®µµ ºÒ°¡´ÉÇÏ³×¿ä ¤Ð
±×³ª¸¶ ±×³×µéÀº Å×½ºÆ®º£µå¸¦ °¡Áö°í Àִ°ÍÀ̱¸¿ä..
https://www.bsi.uk.com/gigabyte-g292-z20
ºí·°´ÙÀ̾î±×·¥¿¡¼ PCIe Switch ¶ó´Â °ÍÀÌ Microsemi Ĩ¼ÂÀ̶ó¸é ±× Ĩ¼ÂÀÌ Á×¾î¹ö¸° °ÍÀ̶ó°í ´ÜÁ¤ÇÒ ¼ö Àִµ¥
ÀÌ°ÍÀº Á¦Á¶»ç¿¡¼ ¼ö¸®ÇØÁְųª ±³È¯ÇØÁÖ¸é ¸ð¸¦±î ±×·¸Áö ¾ÊÀ¸¸é °³ÀÎÀÌ ¼ö¸®Çϱâ´Â Èûµì´Ï´Ù..
¾Æ¸¶µµ Á¤»óµ¿ÀÛÇϴ Ĩ¼ÂÀ» ±¸ÇØ ºÒ·® Ĩ¼ÂÀ» ¶ì¾î³»°í BGA ³³¶«Áú ÀÛ¾÷ÇÏ°í ´Ù½Ã Å×½ºÆ® Çغ¸´Â Á¤µµ°¡ ´ÙÀÏ °ÍÀÔ´Ï´Ù..
NVIDIA DGX-1V Àº NV-LINK ·Î ¿¬°áµÇ¾î Àִµ¥ GPU ¸ðµâÀÌ ´Ù ¹®Á¦°¡ ¾ø´Ù¸é ±×°Í°ú ¿¬°áµÇ´Â NV-LINK ±âÆÇÀ» Á¤»óµ¿ÀÛÇÏ´Â °ÍÀ¸·Î
±¸ÇØ ¹Ù²ã º¸´Â Á¤µµÀÏ °ÍÀÔ´Ï´Ù.. (¸¸ÀÏ NV-LINK ±âÆÇÀÌ °íÀå³ °æ¿ì)
¹®Á¦´Â NVIDIA DGX-1V ÀÇ ºÎÇ°Àº ºñ½Î±âµµ ÇÏ°í ±¸Çϱ⠾î·Æ´Ù´Â °ÍÀÌ°ÚÁÒ..
¾÷ü¸¦ ºÒ·¯µµ ±× ¾÷ü°¡ ¾ó¸¶³ª ºÎÇ°À» Àß ±¸ÇÏ³Ä ¼ö¸®¸¦ ÀßÇÏ´À³Ä¿¡ µû¶ó ¼ö¸®¸¦ ÇÒ¼ö ÀÖ´Ù ¾ø´Ù°¡ °áÁ¤µÇ¸ç ¼ö¸®ÇÏ´õ¶óµµ ½ÇÆÐÇÒ °æ¿ì°¡ ÀÖ½À´Ï´Ù..
º¸Åë Àú·± ¼ö¸®´Â ¼ö¸® ½ÇÆÐ ÇÏ´õ¶óµµ ÀÛ¾÷·á´Â µû·Î ¹Þ½À´Ï´Ù..
DGX´Â ÀÌ¹Ì ±¸¸Å ¾÷ü¿¡¼ µÎ¼ÕµÎ¹ß ´Ù µé¾ú´ø ¹°°ÇÀ̱ä Çؼ Å©°Ô ±â´ëÇÏ°í ÀÖÁö´Â ¾Ê¾Ò½À´Ï´Ù... °©Àڱ⠿öÅ©·Îµå ºý¼¾°É µ¹¸®´Â »óȲÀÌ »ý±ä°Å¶ó Ȥ½Ã³ª ÇÏ´Â ¸¶À½¿¡ ÄѺÃÁö¸¸ ¿ª½Ã³ª±º¿ä.. ¤Ð¤Ð
µû¶ó¼ GPU¸¦ ´Ù »©°í Á¤»óµ¿ÀÛÇÏ´Â °Í Çϳª³ª µÎ°³¸¸ ²Å¾Æ¼ GPU¿Ü º£¾îº»ÀÌ Á¤»óÀÎÁö ¾Æ´ÑÁöºÎÅÍ Å×½ºÆ® ÇغÁ¾ßÁÒ..
ÀÌ·± Å×½ºÆ®´Â ½Ã°£ÀÌ ¸¹ÀÌ °É¸³´Ï´Ù..
±×·¯³ª ±×±â°£ÀÌ ³¡³ª¹ö¸®¸é ¾Æ¹«°Íµµ ¾ÈÇØÁÝ´Ï´Ù..
±× ȸ»çÀÇ ·êÀÌ´Ï±î ¾î¿¼ö ¾øÁö¸¸ (¼·ù´ë·Î ÇÑ´Ù..) ¾îÂî º¸¸é »ó´çÈ÷ ¸ÅÁ¤ÇÕ´Ï´Ù..
±×¸®°í ¾ÈÀÇ ºÎÇ°µéÀÌ Àü¿ë ºÎÇ°ÀÌ ¸¹¾Æ¼ µû·Î ±¸ÇÒ ¼ö ÀÖ´Â °æ¿ì´Â °ÅÀÇ ¾øÀ»Á¤µµ·Î ±¸ÇϱⰡ Èûµç °Í °°´õ±º¿ä..
#2. ½½·ÔÀÌ Á×´Â °æ¿ì
#3. GPU °¡ Á×´Â °æ¿ì
¼Â Áß Çϳª °°Àºµ¥ ¾î´À³¯ °©ÀÚ±â 2°³ÀÌ»óÀÇ GPU °¡ Á×¾ú´Ù¸é #1 È®·üÀÌ °¡Àå ³ô¾Æº¸À̳׿ä.
±è¿µ±â´Ô ¸»¾¸Ã³·³ GPU ²¨³»¼ ´Ù¸¥ ¼¹ö/Ÿp¿¡ ¹°·Áº¸¸é ¹Ù·Î °á°ú ³ª¿Ãµí ÇÕ´Ï´Ù.
±³Ã¼ ÇؾßÁÒ.