[Server] Super GPU Box °¡ µåµð¾î ¿Ï¼ºµÇ¾ú½À´Ï´Ù.
https://m.post.naver.com/viewer/postView.naver?volumeNo=37880797&memb¡¦ (609)https://www.TrueAI.kr/ (595)
요새 AI 가 뜨네, GPU 가 부족하네, 중국으로의 수출규제 때문에 용산에 4090 가격이 미쳤네, 전용 데이터 센터를 만드느라 전기가 부족하네 아무튼 전 세계적으로 이쪽 바닥이 난리도 아닙니다. 그래서 저는 2023년 10월에 True AI 라는 신규 법인을 설립하고 기존의 문제점을 어느정도 해결하면서 니치 마켓을 석권하고자 Super GPU Box 의 개발을 시작했고, 최근에 솔루션을 완성했습니다.
일단 사진부터 시작
이게 오늘 설명할 Super GPU Box 의 외관 입니다. 일반적인 42U랙 기준으로 2개 빠짝 붙여놓은 크기 입니다.
앞 커버를 열면 이렇게 생겼죠
양옆은 항온항습기(에어컨)이 한개씩 붙어있습니다. 총 냉방능력은 78000BTU 고 실외기는 따로 한개씩 총 두개 있습니다.
방온항습방음방진랙 답게. 문닫으면 40데시벨 정도의 낮은 스음이 장점입니다. 사무실이나 연구실에 충분히 둘만 하죠.
4U짜리 GPU 확장 케이스가 8대, 그리고 4U짜리 메인 서버가 1대 있습니다.
이 서버와 각 GPU 확장 케이스는 아래처럼 2개의 MCIO 8i 케이블로 연결됩니다.
AMD 제노아나 인텔 스케일러블 4세대 듀얼 프로레서 기반의 서버를 사용하고, 총 16개의 MCIO 8i 포트를 이용해서 MCIO 8i 케이블 2개씩을 서버와 GPU 확장 케이스를 연결합니다.(저는 원래 파트너로서 인텔만 사랑합니다.)
물론 케이스부터 케이블, 컨넥터, 확장용 보드, 고전력 3+1 리던던트 전원공급 장치까지 다 설계해서 만들어 냈습니다. 특히 파워보드는 최대 2700와트 CRPS 4개를 이용해서 그중 3개의 합인 8100와트 까지 사용가능 합니다. 하지만 실제로 필요한 최대전력은 약 5000W 이하로서 충분한 안정성을 지닙니다.
100Lane PCI-e Switch Chip 을 사용해 최대 5개의 PCI-e 4.0 x16 카드 5개를 장착하고 서버로도 동일하게 x16 으로 연결하는 전용 보드도 있습니다.
여기에 각 5개의 일반적인 뚱뚱이 게임용 GPU 를 장착하기 위한 전용 케이스도 제작했습니다. 각 4슬롯 간격이지요.
결과적으로 한대의 서버에서 40개의 GPU 를 모두 인식하고, 머신러닝, 시뮬레이션, 렌더링 등 멀티 GPU 를 이용한 다양한 어플리이션에 이용가능해 집니다.
보기엔 쉬워보이시죠? 이거 만만한 기술이 아닙니다.
일단 메인보드에서 40개의 GPU 인식부터가 안됩니다.
그걸 잘(?) 해결했다고 해도 이번엔 운영체제에서 인식이 안됩니다.
이것도 잘 해결했다고 치고.. 이번엔...쿠다같은 라이브러리들이 잘 될지 보장이 없죠.
이 모든걸 해결해 나간 결과물이죠. 궁금하면 한번 해보세요~ 되나~
기존의 고성능 GPU 서버들과 비교해 볼까요? 아래와 같은 종류의 GPU 서버들은 많이 보셨을 겁니다.
이런 서버들은 기본적으로 최대 연결 가능한 GPU의 수가 제한 됩니다. 공간때문이죠.
2Slot 용 GPU 라 하더라도 최대 10개를 넘기기 어렵습니다. 전력 때문이라도 보통 8개가 최대죠
그럼 성능을 단순 비교해 보겠습니다.
일반적인 머신러닝용 연산으로 비교하면 게임용 RTX4090과 엔터프라이즈용 H100 의 성능은 약 두배가 채 안됩니다.
물론 아키텍쳐가 다르다지만 텐서코어는 같은 세대이고 숫자도 RTX4090이 더 많습니다.
이제 이것을 기준으로 단순 계산해 보면
결론적으로 코어수는 5.6배가 넘고 메모리도 50%가 많아집니다. 예상되는 Overal Performance 는 최소 2~3배 정도 입니다.
물론 머신러닝, 시뮬레이션, 렌더링 등 사용 용도와 설정방식에 따라 실제 성능은 차이가 있을 수 있죠. NVLINK NVSWITCH 기술도 대단하기도 하구요
그럼에도 불구하고 코어수는 무시못합니다. GPU 를 사용하는 이유가 결국은 이 어마무시한 코어수를 이용한 단순 계산 일개미들의 잇점 때문이니까요.
이제 제가 생각하는 두가지 방식의 장단점을 나열해 보겠습니다.
1. 납품 기일 측면에서 H100 장비를 구하는건 오래 걸립니다. 물건을 구하기 쉽지 않죠. 요새 조금 시장이 좋아병瑁嗤통상적으로 몇십주가 걸립니다.
이에비해 Super GPU Box 는 게임용으로 쓰이는 RTX4090 을 사용하여 주문즉시 제작하고 납품하는것이 가능합니다.
2. 도입 비용 측면 에서 양쪽다 5~6억원 정도로 유사합니다. 서버의 사양차이가 있을 뿐이죠.
3. 설치장소 측면에서 H100 같은 엔터프라이즈 제품군은 데이터센터에 설치할 수 있고, 공간도 4U~8U 정도면 됩니다. 냉각을 포함한 전력은 대략 10Kw 이하로 필요합니다.
이에비해 Super GPU Box 에 사용되는 RTX4090 같은 리테일용 제품은 데이터센터에 설치하는 것이 엔비디아의 소프트웨어 라이선스 위반입니다. 드라이버 부터 SDK 등등 모두 데이터센터에 사용하는것을 금하고 있습니다. 하지만 Super GPU Box 는 항온항습방음방진랙 일체형입니다. 따라서 사무실이나 연구실 사내 전산실 등에 설치하는데는 제한이 없습니다. 엔비디아의 라이선스 정책을 보기좋게 빗겨나간거죠. 다만 풀랙 2개정도의 공간이 필요하고 냉각을 포함한 전력도 35KW 정도 필요합니다. H100 8way 에 비해 3배 이상 차이나죠.
4. 고속 스토리지 연결 측면에서 H100 8Way 가 유리합니다. 내장된 PCI-e 레인에 여유가 있으니 충분한 내장 스토리지를 장착하거나 다른 스토리지로 연결할 충분한 대역폭이 남아 있습니다. 이에비해 Super GPU Box 는 내장으로 사용한다면 최대 PCI-e 32Lane 과 기존의 SATA 포트들을 사용할 수 있고, 외장으로 연결시에도 400G 카드 두개 정도 장착이 가능합니다. 최대 800Gbps 인거죠.
이런 한계는 인정할 수 밖에 없습니다. Super GPU Box 는 일종의 Micro GPU Data Center 의 역할을 합니다. 특정한 서비스 런칭을 위해 개발하거나 고속 렌더링, 시뮬레이션을 조직 내부에서 실행하기에 적합한 사이즈입니다. 실제 대규모 서비스를 운영하는 용도로 보기는 어렵습니다. 그에 따른 시장 세그멘테션은 다음과 같습니다.
결과적으로 우리의 목표 시장은 다음과 같이 정해졌습니다.
그리고 추가적으로 우리가 중요하게 생각하는 시장이 있습니다.
군, 정보기관, 경찰, 병원, 공공기관, 검찰, 바이오 회사, 금융기관 등 자체 데이터를 이용한 머신러닝이 필요 하지만 외부에 데이터 노출이 어렵거나 불가능한 모든 프로젝트에 적용 가능하며, 전년도 책정 예산을 초과하는 시장가격 변동에도 안정적인 공급이 가합니다. 이런 특수시장은 항상 존재해 왔습니다.
우리는 이런 특수시장을 공략하기 위해 전세계 최고 레벨의 정보서비스를 각국 정부기관에 제공중인 코그나이트 사와 공신력을 갖춘 사이버안보연구소 의 3자 협약을 통해 특수시장을 개척하고 있습니다.
제품에 대한 문의사항이 있으시면 언제든지 쪽지 주십시요.
¸ÚÁö°Ô ³ª¿Â°Í °°½À´Ï´Ù.
¼ÒÀ½µµ ÀûÀ» °Í °°Àºµ¥¿ä.
¼ö¿ä°¡ ¸¹ÀÌ ÀÖÀ» °Í °°½À´Ï´Ù.
Àúµµ Çù·Â Agency ¸¦ ÇØ¾ß °Ú³×¿ä.
ħ½Çó·³ Á¤¼÷À» ¿ä±¸ÇÏ´Â°Ô ¾Æ´Ñ ÀÌ»ó ÀÏÁ¤ÇÑ ¼öÁØÀÇ ÈÀÌÆ® ³ëÀÌÁî°¡ À¯ÁöµÇ´Â°Ç Å« ¹®Á¦°¡ ¾È µË´Ï´Ù
Ä¿³Î ¸®ºôµåÇؼ ÀνĽÃÄ׳ª¿ä ?^^
º¸Åë Àú·± µÅÁö°°Àº ÀåÄ¡ 40°³³ª ¹°¸®¸é ºÎÆ®ÀÚü°¡ ¾È µÇ¿ä
¾È ¸¸Á®ºÃÀ¸¸é..
´ë´ÜÇÕ´Ï´Ù.
Áö±Ý ºí·¢À£ ³ª¿À´Â°Í º¸¸é GPU¿¡ 4.0 x16À¸·Î ÁË´Ù ½ÃÇ» Á÷°áÇسöµµ ´ë¿ªÆøÀÌ ÃæºÐÇÏÁö ¾Ê´Ù´Â »ý°¢ÀÌ µéÁ¤µµ°Åµç¿ä (PCIeÀÇ ±Ùº»Àû ´ë¿ªÆø ¹®Á¦µµ ÀÖ°í, ±¸Á¶»ó °¢°¢ÀÌ ¸ðµÎ º´¸ñ ¾øÀÌ »óÈ£ ¿¬°áµÉ ¼ö µµ ¾øÀ½)
~400G±îÁö NIC¸¦ ¿¬°á °¡´ÉÇÑ ½ÃÁ¡¿¡¼ Storage´Â Å« ¹®Á¦°¡ ¾Æ´Ï¶ó°í º¾´Ï´Ù (¿Âº¸µå 10±â°¡·Î ÀϹÝÀû Åë½ÅÀ» ó¸®ÇÏ°í, Àú 2°³·Î ¿¬°á (¼¹ö¸¦ »óÈ£ ¿¬°áÇÑ´Ù´Â ¼±ÅÃÁöµµ ÀÖ°ÚÁö¸¸, ´ëºÎºÐÀÇ °æ¿ì 40GPUÁ¤µµ¸é ÃæºÐÇÒ²¨°í, ¹°¸®ÀûÀ¸·Î ·ºÀ» º¹¼ö ¹èÄ¡ÇÒ¸¸Å °ø°£À» È®º¸Çϱ⵵ ÈûµéÁÒ)Çϸé ÃæºÐÇÏ´Ù°í º¾´Ï´Ù)
ÀúÁ¤µµ ¼º´ÉÀ» µ¶¸³Àû ½Ã½ºÅÛÀ¸·Î ¿Ïº®ÇÏ°Ô ¿î¿µÇÒ ¼ö ÀÖ´Ù´Â Å« ÀåÁ¡ÀÌ µÈ´Ù°í º¾´Ï´Ù
¹°·Ð ¿£µðºñ¾Æ GH200 ·¢ ó·³ ÇϳªÀÇ GPU ó·³ ¾²´Â°Ç ¾ÈµÇµµ À¯»çÇÑ È¿°ú´Â ±â´ëÇÒ¼ö ÀÖÁÒ ¸ðµ¨ µ¥ÀÌÅÍ ´Ù ºÐÇÒÇÏ´Ï.
Ãß°¡ÀûÀ¸·Î 100·¹ÀÎ ½ºÀ§Ä¡ ĨÀÌ¶ó ³»ºÎ 5°³´Â x16À¸·Î ¼·Î Åë½ÅÇÏ°í ºÎÁ·ÇÏ´õ¶óµµ ´Ù¸¥ ¼ö°¡ ¾øÁÒ. ¾÷¸µÅ©? µµ x16 ÀÔ´Ï´Ù. x4 °¡ ³²ÁÒ.. »ç½Ç 144·¹ÀÎ ½ºÀ§Ä¡Ä¨µµ ÀÖ½À´Ï´Ù¸¸, 4½½·Ô GPUÀÇ ÇÑ°è·Î ´õÀÌ»ó ºÒÇÊ¿ä Çؼ 100·¹ÀÎÀ» »ç¿ëÇÕ´Ï´Ù. ¾÷¸µÅ©¸¦ ´õ ÁÙ¼öµµ ÀÖÁö¸¸ ¾îÂ÷ÇÇ ¼¹ö ÀÚüÀÇ ·¹Àεµ 80·¹ÀÎ µà¾ó CPU ÇÑ°è°¡ ÀÖ¾î¼ 64·¹Àθ¸ ¾²°í °Ü¿ì ³ª¸ÓÁö 16·¹ÀÎÀÌ ³²´Ùº¸´Ï ŸÇùÇÑ°ÅÁÒ.
±×¸®°í 40°³ÀÇ GPU ¿¡ ´ëÇØ ÃÖ¼Ò °³´ç 2ÄÚ¾î ¸Þ¸ð¸® 20±â°¡¹ÙÀÌÆ®´Â Áà¾ßÇؼ 80ÄÚ¾î 800±â°¡¹ÙÀÌÆ® ÇÊ¿äÇÏ´Ï 48ÄÚ¾î µà¾ó¿¡ 1Å׶ó Á¤µµ ·¥ÀÌ ÃÖ¼Ò ÀÔ´Ï´Ù.
GPU 40°³¶ó´Ï Á¤¸» ´ë´ÜÇÕ´Ï´Ù~^^
NVLink·Î Á¤¸» ºü¸¥ ´ë¿ªÆøÀ¸·Î ¿¬°áÇؼ ¸Þ¸ð¸®°£ Åë½Å¿¡ º´¸ñÀÌ ¾ø³× ¾î¼³×..
¸á¶ó³ì½º NVLink ½ºÀ§Ä¡ ±îÁö Çشٰ¡ ³ëµå³¢¸®µµ NVLink·Î ¹°í..
¹°·Ð °¡°ÝÀº... ¾î¾ï ¼Ò¸® ³ª¿ÀÁÒ..
Àú´ë·Î¶ó¸é PCI 5.0 8¹è¼Ó Á¤µµ°¡ ÇÑ°è ÀÌ°Ú±º¿ä.
Èì..
±Ùµ¥ DGX ´Â ¹°°ÇÀÌ ºÎÁ·Çѵ¥´Ù°¡.. µ·ÀÖ´Ù°í »ì¼ö Àִ°͵µ ¾Æ´Ï°í ÃÖ½ÅÀº ´õÇÏÁÒ..
¾ï? ¤¾¤¾ NVSwitch ¶ó´Â ´Ü¾î°¡ µé¾î°¡´Â¼ø°¡ ¼ö½Ê¾ïÀÔ´Ï´Ù.
¹¹ °¡°ÝÀ̶ó´Âµ¥ ÀÖ¾î¼ »ÏÁ·ÇÑ ¼ö°¡ ¾øÀ¸´Ï ¹¶ÅöÇÑ ¼ö¸¦ Á¦¾ÈÇÏ´Â °ÅÁÒ.
±×³ª¸¶µµ ¿£ºñµð¾Æ¿¡¼ ¸¸µç AI/µ¥ÀÌÅͼ¾ÅÍ¿ë GPU Á¦Ç°±ºÀº ±¸Çϱ⵵ ¾î·Á¿ö¼ ±¸¼ºÇϴµ¥ ½Ã°£ÀÌ ¿À·¡°É¸°´Ù°í µé¾ú½À´Ï´Ù.
AI¹®¿ÜÇÑÀÎ Á¦°¡ º¸´õ¶óµµ Á߼ұԸ𠱸¼º¿¡¼´Â ±¸Çϱ⠾î·Á¿î H100 º¸´Ù´Â º»¹®Ã³·³ ±×³ª¸¶ ±¸Çϱ⠽¬¿î RTX ½Ã¸®Á ´õ ³Ö¾î¼ ±¸¼ºÇϴ°ÍÀÌ
¿ÀÈ÷·Á ´õ ³ª¾Æ º¸Àδٴ »ý°¢ÀÌ µì´Ï´Ù.
¤¾¤¾ ºÒ³ª°Ú½À´Ï´Ù. À¢¸¸ÇÑ »ç¹«½ÇÀ̸é Àü±â°ø»çºÎÅÍ ÇØ¾ß ÇÏÁö ¾ÊÀ»±î ½Í³×¿ä.
ÀÌ°Å ±º»ç¹«±âÂÊÀ¸·Î´Â ¸ø¾²·Á³ª¿ä?
ÀÌÁö½º°°Àº ÇÔÁ¤ÀüÅõü°è¿¡ Àû¿ëÇϰųª ¿¡À̻緹ÀÌ´õ¿¡ ºÙ¿©¼ ÇØ»óµµÇâ»ó, ³ëÀÌÁîÁ¦°Å¿¡ ÁÁÀ»°Í°°Àºµ¥¿ä.
Áú¹®Àº 40°³ÀÇ GPU°¡ ¸ÞÀÎ º¸µå Çϳª¿¡ ¿¬°áµÇ´Âµ¥ scalability°¡ Á¦ÀÏ ¹®Á¦ÀÏ °Í °°½À´Ï´Ù. Á¦°¡ RTX3080 4°³¸¦(PCIE 4.0) Resnet50 º¥Ä¡½Ã GPU1°³ ´ëºñ 3.25¹è ¼º´ÉÀÌ ³ª¿Ô½À´Ï´Ù. http://www.2cpu.co.kr/bmt/4040
4090 1°³ ´ëºñ 40¹èÀÇ ¼º´É Çâ»óÀÌ ¿Àµµ·Ï ¼ÒÇÁÆ®¿þ¾îÀûÀ¸·Î ¾î¶² Á¶Ä¡¸¦ ÇϽóª¿ä?
°¨»çµå¸³´Ï´Ù.
°á±¹. DDP ÁÒ
Áö±ÝÀÇ º¥Ä¡¸¶Å©´Â GPU °£ Åë½Å¿¡ ´ëÇØ µû·Î ¼³Á¤¾øÀÌ ±øÀ¸·Î µ¹¸®´Âµí ÇÕ´Ï´Ù.
±×°Ô ¾Æ´Ï¶ó 40¹è°¡ ³ª¿À·Á¸é? ¸ðµ¨°ú µ¥ÀÌÅÍ ºÐ»êÀ» ÅëÇÑ ¿ÉƼ¸¶ÀÌ¡Àº Çʼö ÀÔ´Ï´Ù.
±¸Á¶»ó 8°³ÀÇ ¹Ú½º·Î ³ª´©°í ´Ù½Ã °¢¹Ú½º¿¡¼ 5°³ÀÇ GPU ¿¡ ºÐ»êÇÏ´Â°Ô ÇÊ¿äÇÕ´Ï´Ù.
¼ÒÀ½Àº ¾î´ÀÁ¤µµÀϱî¿ä?