GPU ¼­¹öÀÇ PCIe Switch ÀνÄÀÌ ¾ÈµÇ´Â °æ¿ì ´ëÀÀ °ü·Ã

   Á¶È¸ 2250   Ãßõ 0    

연구실에서 사용중인 GPU 서버 두대의 PCIe Switch 자체가 인식이 되지 않아 대응을 어떻게 해야될지 의견을 구하고자 합니다.


문제가 발생한 서버 중 하나는 NVIDIA DGX-1V로 이미 고장난지 2,3년 정도로 꽤 오래되었으며 PCIe Switch 4개가 BMC 상에서 잡히지 않는 상태입니다.


V100 GPU들의 Firmware 등의 정보도 N/A로 뜨면서 대시보드에서 전혀 잡히지 않는 상태이구요.


다른 하나는 GIGABYTE G292-Z20으로 PCIe Switch 4대 중 하나가 인식이 되지 않아 현재 GPU가 6대만 잡히는 상황입니다.


lspci, lshw 등의 명령어로도 장치가 인식이 되지 않는걸로 보아 하드웨어적인 고장으로 생각되지만 DGX-1은 이미 지원이 끝난 상황이며 NVIDIA 구독 서비스도 등록하지 않아 공식적인 지원을 받기 어려운 상황이며 GIGABYTE 서버도 2년 수리 지원이 이제 막 끝난 상황이라 저희가 해볼 수 있는 것은 시도해보고자 합니다.

혹시나 비슷한 상황을 겪어보신 분들이 계시는지, 만약 계신다면 어떤 대응방법을 시도해보셨고 효과를 보셨는지 의견을 주시면 감사하겠습니다.

ªÀº±Û Àϼö·Ï ½ÅÁßÇÏ°Ô.
Àú¶ó¸é ÀÏ´Ü °³º° GPU°¡ Á¤»óÀÎÁöºÎÅÍ È®ÀÎÇغ¸°Ú½À´Ï´Ù.
¹«Ã¥ÀÓÇÑ ´äº¯ÀϼöÀÖÁö¸¸(GPUÅ×½ºÆ®¿ë ½Ã½ºÅÛÀ» ±¸ÃàÇؾßÇÏ´Â ¹ø°Å·Î¿òÀÌ.....) ¹«¾ð°¡ ¹®Á¦ÀÇ ¿øÀÎÀ» ãÀ»¶§´Â ±âº»ºÎÅÍ ½ÃÀÛÇؾßÇÕ´Ï´Ù.
     
±×°Ç ¸Â½À´Ï´Ù¸¸ ÇÑâ ¿¬±¸·Î ¹Ù»Û ½Ã±âÀÎÁö¶ó ¼­¹ö¸¦ ·¢¿¡¼­ ²¨³»°í ÇÏ°í ÀÖÀ» ½Ã°£ÀÌ ¾ø½À´Ï´Ù ÇÏÇÏ.. ¹Ù»Ú°Ô ±¼·¯°¡´Â °÷ÀÎÁö¶ó ¿ø°ÝÀ¸·Î Çغ¼ ¼ö ÀÖ´Â °ÍµéÀº Çغ¸°í ¾ÈµÇ¸é ¾÷ü¸¦ ºÎ¸¦ ½É»êÀÔ´Ï´Ù.
±×¸®°í DGX-1Àº SXM ÀÎÅÍÆäÀ̽º¶ó¼­ °³º° GPU Å×½ºÆ®µµ ºÒ°¡´ÉÇÏ³×¿ä ¤Ð
          
º¥´õ¿¡¼­µµ ÇØÁÖ´Â °ÍÀÌ °á±¹ °³º° GPU Å×½ºÆ®´õ¶ó±¸¿ä.
±×³ª¸¶ ±×³×µéÀº Å×½ºÆ®º£µå¸¦ °¡Áö°í Àִ°ÍÀ̱¸¿ä..
¹Ú¹®Çü 2023-06
±â°¡¹ÙÀÌÆ® ¼­¹ö¿¡¼­

https://www.bsi.uk.com/gigabyte-g292-z20

ºí·°´ÙÀ̾î±×·¥¿¡¼­ PCIe Switch ¶ó´Â °ÍÀÌ Microsemi Ĩ¼ÂÀ̶ó¸é ±× Ĩ¼ÂÀÌ Á×¾î¹ö¸° °ÍÀ̶ó°í ´ÜÁ¤ÇÒ ¼ö Àִµ¥

ÀÌ°ÍÀº Á¦Á¶»ç¿¡¼­ ¼ö¸®ÇØÁְųª ±³È¯ÇØÁÖ¸é ¸ð¸¦±î ±×·¸Áö ¾ÊÀ¸¸é °³ÀÎÀÌ ¼ö¸®Çϱâ´Â Èûµì´Ï´Ù..

¾Æ¸¶µµ Á¤»óµ¿ÀÛÇϴ Ĩ¼ÂÀ» ±¸ÇØ ºÒ·® Ĩ¼ÂÀ» ¶ì¾î³»°í  BGA ³³¶«Áú ÀÛ¾÷ÇÏ°í ´Ù½Ã Å×½ºÆ® Çغ¸´Â Á¤µµ°¡ ´ÙÀÏ °ÍÀÔ´Ï´Ù..

 NVIDIA DGX-1V Àº NV-LINK ·Î ¿¬°áµÇ¾î Àִµ¥ GPU ¸ðµâÀÌ ´Ù ¹®Á¦°¡ ¾ø´Ù¸é ±×°Í°ú ¿¬°áµÇ´Â NV-LINK ±âÆÇÀ» Á¤»óµ¿ÀÛÇÏ´Â °ÍÀ¸·Î

±¸ÇØ ¹Ù²ã º¸´Â Á¤µµÀÏ °ÍÀÔ´Ï´Ù.. (¸¸ÀÏ NV-LINK ±âÆÇÀÌ °íÀå³­ °æ¿ì)

¹®Á¦´Â  NVIDIA DGX-1V ÀÇ ºÎÇ°Àº ºñ½Î±âµµ ÇÏ°í ±¸Çϱ⠾î·Æ´Ù´Â °ÍÀÌ°ÚÁÒ..

¾÷ü¸¦ ºÒ·¯µµ ±× ¾÷ü°¡ ¾ó¸¶³ª ºÎÇ°À» Àß ±¸ÇÏ³Ä ¼ö¸®¸¦ ÀßÇÏ´À³Ä¿¡ µû¶ó ¼ö¸®¸¦ ÇÒ¼ö ÀÖ´Ù ¾ø´Ù°¡ °áÁ¤µÇ¸ç ¼ö¸®ÇÏ´õ¶óµµ ½ÇÆÐÇÒ °æ¿ì°¡ ÀÖ½À´Ï´Ù..

º¸Åë Àú·± ¼ö¸®´Â ¼ö¸® ½ÇÆÐ ÇÏ´õ¶óµµ ÀÛ¾÷·á´Â µû·Î ¹Þ½À´Ï´Ù..
     
µü ¿¬¼ÓµÇ´Â ID¸¦ °®´Â GPU 2´ë°¡ ÀνÄÀÌ µÇÁö ¾Ê°í À־ ¸»¾¸ÇϽŠMicrosemi Ĩ¼ÂÀÌ Á×¾î¹ö¸° °ÍÀÏ °¡´É¼ºÀÌ ³ô½À´Ï´Ù. ¿Âº¸µå¿¡ ¶«ÁúµÇÀִ°Ŷó¸é ¸»¾¸ÇϽŠ¹æ¹ýÀÌ ±×³ª¸¶ °¡´ÉÇÑ ¼ö¸®¹æ¹ýÀÌ°Ú±º¿ä...

DGX´Â ÀÌ¹Ì ±¸¸Å ¾÷ü¿¡¼­ µÎ¼ÕµÎ¹ß ´Ù µé¾ú´ø ¹°°ÇÀ̱ä Çؼ­ Å©°Ô ±â´ëÇÏ°í ÀÖÁö´Â ¾Ê¾Ò½À´Ï´Ù... °©Àڱ⠿öÅ©·Îµå ºý¼¾°É µ¹¸®´Â »óȲÀÌ »ý±ä°Å¶ó Ȥ½Ã³ª ÇÏ´Â ¸¶À½¿¡ ÄѺÃÁö¸¸ ¿ª½Ã³ª±º¿ä.. ¤Ð¤Ð
          
¹Ú¹®Çü 2023-06
±â°¡¹ÙÀÌÆ® ¼­¹ö´Â ±× ½½·Ô¿¡ °É¸° GPU°¡ 2°³ ¿¬¼ÓÀ¸·Î °íÀåÀϼöµµ ÀÖ½À´Ï´Ù..

µû¶ó¼­ GPU¸¦ ´Ù »©°í Á¤»óµ¿ÀÛÇÏ´Â °Í Çϳª³ª µÎ°³¸¸ ²Å¾Æ¼­ GPU¿Ü º£¾îº»ÀÌ Á¤»óÀÎÁö ¾Æ´ÑÁöºÎÅÍ Å×½ºÆ® ÇغÁ¾ßÁÒ..

ÀÌ·± Å×½ºÆ®´Â ½Ã°£ÀÌ ¸¹ÀÌ °É¸³´Ï´Ù..
¹Ú¹®Çü 2023-06
¿£ºñµð¾Æ ¿À¸®Áö³¯ ¼­¹ö´Â ºñ½Î±âµµ ºñ½ÎÁö¸¸ ±¸¸ÅÈÄ ¹«»ó À¯Áöº¸¼ö±â°£¿¡´Â ±×·°Àú·° Áö¿øÀ» ÀßÇØÁÝ´Ï´Ù..

±×·¯³ª ±×±â°£ÀÌ ³¡³ª¹ö¸®¸é ¾Æ¹«°Íµµ ¾ÈÇØÁÝ´Ï´Ù..

±× ȸ»çÀÇ ·êÀÌ´Ï±î ¾î¿¼ö ¾øÁö¸¸ (¼­·ù´ë·Î ÇÑ´Ù..) ¾îÂî º¸¸é »ó´çÈ÷ ¸ÅÁ¤ÇÕ´Ï´Ù..

±×¸®°í ¾ÈÀÇ ºÎÇ°µéÀÌ Àü¿ë ºÎÇ°ÀÌ ¸¹¾Æ¼­ µû·Î ±¸ÇÒ ¼ö ÀÖ´Â °æ¿ì´Â °ÅÀÇ ¾øÀ»Á¤µµ·Î ±¸ÇϱⰡ Èûµç °Í °°´õ±º¿ä..
Myrdal 2023-06
#1. PCIe Ĩ¼ÂÀÌ Á×´Â °æ¿ì
#2. ½½·ÔÀÌ Á×´Â °æ¿ì
#3. GPU °¡ Á×´Â °æ¿ì

¼Â Áß Çϳª °°Àºµ¥ ¾î´À³¯ °©ÀÚ±â 2°³ÀÌ»óÀÇ GPU °¡ Á×¾ú´Ù¸é #1 È®·üÀÌ °¡Àå ³ô¾Æº¸À̳׿ä.
±è¿µ±â´Ô ¸»¾¸Ã³·³ GPU ²¨³»¼­ ´Ù¸¥ ¼­¹ö/Ÿp¿¡ ¹°·Áº¸¸é ¹Ù·Î °á°ú ³ª¿Ãµí ÇÕ´Ï´Ù.
ÇØ´ç ÆÄÆ®°¡ Á×Àº °Í °°½À´Ï´Ù.

±³Ã¼ ÇؾßÁÒ.
±Ç¯ 2023-06
±â°¡¹ÙÀÌÆ® 3³â Áö¿ø µË´Ï´Ù. ±¸ÀÔÀÏ ±âÁØÀ¸·Î ¿­½ÉÈ÷ µûÁö½Ã°Å³ª, ÇØ´ç ÆÄÆ®¸¸ ±¸ÀÔÇÏ°Ú´Ù°í ÇÏ½Ã¸é µÉµíÇÕ´Ï´Ù. ÆǸÅÇÑ ¾÷üº°·Î ¹«»ó /À¯»óÀÇ ±âÁØÀÌ ÀÖÀ¸¸ç, À¯»ó ó¸®Çصµ ¾ó¸¶ ÇÏÁö ¾ÊÀ»µí ÇÕ´Ï´Ù.


QnA
Á¦¸ñPage 270/5696
2015-12   1566195   ¹é¸Þ°¡
2014-05   5029627   Á¤ÀºÁØ1
2022-03   1626   ġŲŸ¿Ã
04-18   1626   ³ª·Î¿Í
2022-08   1626   L2½ºÀ§Ä¡
2022-06   1626   ¼­¿ïl½Â¿ë
2022-02   1626   »ßµ¹À̽½ÇÄÀÌ
03-25   1626   »õ³»±â
2021-10   1626   ¹«¾Æ
2022-03   1626   ÆÄÇÇǪÆä
2021-08   1626   À嵿°Ç2014
03-28   1626   pumkin
2021-09   1626   Á¦ÁÖ±èÀç¹Î
2023-12   1627   ºí·ç¸ð¼Ç
05-08   1627   ¹Ì´ã
2022-02   1627   ±èÁØÀ¯
2023-01   1627   ¸®Å°ÆÄ¿ï·¯
04-15   1627   ¸®Ä«¶ó¹Ù
2022-11   1627   ¿¡½º¿ÀÅõ
05-21   1627   Áú¹®
03-15   1627   ¹Ì´Ï¹Ì
01-12   1627   atozztoa