[ETC] ¿£ºñµð¾Æ ¾ÏÆä¾î ½Ã¸®Áî, µ¥ÀÌÅͼ¾ÅÍ GPU¿¡ ´ëÇØ ¾Ë¾Æº¸ÀÚ!
https://www.ehostidc.co.kr/ (184)https://www.aiocp.co.kr/ (197)
4차 산업 혁명의 핵심 기술, 인공지능(AI). 현 사회에서 가장 뜨겁게 떠오르는 자율주행, 메타버스, 블록체인, 사물인터넷 등 이 모든 기술에 있어 인공지능은 빼놓을 수 없는 핵심이 되는데요. 이러한 인공지능을 연구하고 개발하고 구동하기 위해서는 제반 시설로 데이터센터가 꼭 필요합니다.
그렇다면 데이터센터란 무엇일까요?
데이터센터란 컴퓨터 시스템과 통신장비, 저장장치인 스토리지 등이 설치된 시설을 일컫는데요. 과거에는 데이터를 분류하고 저장하는 저장소 역할을 해왔다면, 이제는 인공지능을 연구하고 작동하게 하는 거대한 뇌가 되어가는 것입니다.
인공지능을 연구하고 구동하기 위해서는 엄청난 양의 연산을 처리해야 하는데요. 빅데이터를 저장하고 유통시키는 핵심 인프라로 대규모의 전력 역시 필요로 합니다.
이러한 데이터센터의 두뇌가 되어주는 것이 바로 ‘GPU’ 즉 그래픽카드입니다. GPU 시장에서 세계 최대의 점유율을 자랑하는 곳이 바로 엔비디아인데요.
엔비디아는 세계 최초로 GPU를 개발하며 그래픽 카드 시장의 선두주자로서 점유율 1위를 꽉 잡고 있는 회사인데요. GPGPU를 개발하면서 인공지능의 연구를 이끌고 이제는 데이터센터까지 영역을 확장하고 있습니다.
테슬라와 협업을 해서 자율주행을 연구하고, 현재는 메르세데스 벤츠와 협업하여 자율주행차 기술을 개발하고 있기도 합니다. 이외에도 370여개 기업과 손을 잡고 인공지능, 자율주행 기술을 개발하고 있는데요. 메타버스와 클라우드에서도 엔비디아는 빠질 수가 없는데요. 심지어 인공지능 연구를 위한 슈퍼컴퓨터에도 엔비디아의 반도체가 들어갑니다.
4차 산업혁명 시대에 이렇게나 막대한 영향력을 가진 엔비디아는 최근 데이터센터용 반도체 사업 분야에서도 큰 성장세를 을 보이고 있는데요. 오늘은 엔비디아의 데이터센터 사업과 GPU에 대해 알아보도록 하겠습니다.
데이터센터가 크게 성장하면서 잇따라 엔비디아의 회사 가치도 성장하고 있는데요. 엔비디아의 경쟁사인 인텔과 AMD의 시가총액을 합쳐도 엔비디아에 못 미치는 상황이 되었습니다. 그렇다면 일반 목적용 GPU와 GPGPU는 어떻게 다를까요?
GPU 는 연산을 동시에 처리할 수 있는 특성을 가지고 있는데요 이를 엔비디아가 이어 붙여 만든 것이 GPGPU입니다. 이를 AI 가속기라고 칭하는데요 말 그대로 인공지능 연산을 돕는 모든 요소들, 즉 컴퓨터 연산을 할 수 있도록 하는 것들을 통칭하는 개념입니다.
출처 – 엔비디아
그렇다면 GPU가 데이터센터에서 어떤 역할을 하는 것일까요?
데이터센터의 영향력이 커지고 기술이 발전하면서 중요성이 더욱 커지고 있습니다. 예를 들면 과거에는 각 가정 회사 등에 있는 컴퓨터의 cpu가 연산을 담당했지만, 이제는 고성능 네트워크를 통한 클라우드 환경이 마련되면서 컴퓨팅 파워가 집적된 데이터센터에서 모든 연산을 처리하고 있습니다. 그에 따라 데이터 센터의 역할이 바뀌는데요.
단순 저장소의 역할을 벗어나 더욱 고도화 된 작업이나 복잡한 연산처리를 해내야 하는 것입니다. 그에 따라 사용되는 반도체의 성능에 대한 요구치가 높아지고 양도 많아집니다. 또한 앞서 말한 AI가속기가 데이터센터에 대량으로 탑재되기 시작하면서 엔비디아와 데이터 센터가 결합된 것입니다.
데이터센터용 칩 시장이 날로 커지는 와중에 이 시장을 휘어잡고 있는 것이 바로 엔비디아의 GPGPU인데요. 이미 아마존 aws 마이크로소프트 애저 구글 클라우드 ibm 클라우드 소위 4대 클라우드를 구성하기 위한 데이터센터에 탑재되는 하드웨어 가속기반도체의 97%를 엔비디아가 점유하고 있습니다.
그리고 최근 엔비디아가 새로 내 놓은 것이 암페어ampere 아키텍쳐를 기반으로 한 신형 gpu a시리즈입니다. a 시리즈는 별도의 브랜드 이름 없이 출시한 것이 특징인데요
암페어 아키텍쳐를 적용한 데이터센터 GPU는 총 5개로 구성되어있습니다.
1. A100
A 시리즈의 랭킹 1위라고 볼 수 있는 제품으로 엔비디아에서도 딥러닝 HPC 데이터 분석을 위한 데이터센터 플랫폼의 대표 격인 제품입니다. 540억개의 트랜지스터*로 제작되어 최대 9.7 테라플롭스(TF)의 연산 속도를 가지고 있습니다. 1초에 1조 회 연산을 하는 성능으로 전작인 볼타 아키텍쳐 기반의 V100에 비해 20배 향상된 속도인 것입니다.
*트랜지스터 : 반도체 접합해 만든 전자회로 구성요소. 전류나 전압흐름을 조절하여 증폭하거나 스위치 역할을 하는 반도체 소자.
다른 특징으로는 MIG (Multi Instance GPU) 기능이 있는데요. 쉽게 말해 GPU의 성능을 분할하는 기능이라고 볼 수 있습니다. 고성능의 GPU를 한 가지 작업에 모든 역량을 사용하는 것은 비효율적이니 시스템 상에서 하나의 GPU를 총 7개로 나눠 각각 일을 할당할 수 있는 기능을 말합니다. 그렇게 한다면 각각의 공간에서 서로의 간섭 혹은 지연 없이 최고의 성능을 끌어낼 수 있는 것이죠.
이A100 GPU 하나의 성능도 강력한데, 이를 합쳐서 서버를 구축할 수도 있습니다. 그것이 바로 DGX A100인데요.
A100 GPU 8개가 탑재된 모델이며 최대 5 페타플롭스(PFLOP)로 초당 1,000 조 회 연산이 가능한 수준입니다. 탑재된 GPU 사이의 네트워크는 엔비디아 GPU의 데이터 전송 기술인 NVlink를 통해서 이루어지는데요.
이것 역시 이전에 비해서 2배가 빨라진 초당 600GB의 속도를 가지고 있습니다. 8개의 GPU가 마치 하나처럼 일하는 환경을 만드는 것 입니다. 뛰어난 성능으로 A100은 이미 세계 주요 클라우드 사업자들의 데이터센터에 탑재가 되었습니다. 뿐만 아니라 세계 곳곳의 슈퍼 컴퓨터의 두뇌도 이 A100으로 대체되고 있으며 DGX A100은 개인용 컴퓨터 DGX STATION A100으로도 출시되는데요.
이는 인공지능 전문가를 위한 개인용 슈퍼컴퓨터 입니다. 즉, 데이터센터 급의 컴퓨터 성능을 일반 데스크톱 크기의 PC로 이용할 수 있게 되어 집에서도 인공지능 연구를 가능하게 하는 그래픽카드라는 것이죠.
2. A40
암페어 아키텍처를 이용해 제작된 그래픽 전문가를 위한 그래픽카드 입니다. 영화, CG, 3D 제품 디자인, 3D 건축물 평가 등에 활용될 수 있는 그래픽 카드 인데요.
A40의 가장 큰 장점은 강력한 성능은 물론이고, vGPU기술을 통해 언제 어디서나 많은 디자이너들이 A40의 성능을 활용할 수 있다는 점입니다. vGPU란 단일 GPU를 여러 가상 데스크톱 간에 공유할 수 있는 엔비디아의 기술로, 원격으로도 고성능의 GPU기능을 활용할 수 있도록 합니다.
이 기술로 집에서도, 노트북으로도 언제 어디서든지 무리 없이 고성능 컴퓨팅 성능이 요구되는 작업을 처리할 수 있게 됩니다.
3. A30
A30은 A100과 유사하나, 상대적으로 규모가 작은 사업체에서 활용할 수 있는 데이터센터용 GPU입니다. 쉽게 말해 보급형 모델이라고 볼 수 있는데요. A100이 전작과 비교하여 20배의 성능을 낸다면 A30은 10배 가량 향상된 속도를 보여줍니다. A100과 같이 GPU를 분할해 연구에 이용할 수 있는 MIG (Multi Instance GPU) 기능을 제공합니다.
따라서 빅테크 기업이 아니더라도 고성능의 데이터 센터를 구축하고 이를 통해 인공지능 연구를 비롯해 높은 컴퓨팅 역량이 필요한 일들을 진행할 수 있습니다. 즉 A30은 인공지능 연구의 대중화에 앞장서는 그래픽 카드 입니다.
4. A10, A16
A10과 A16은 가상 데스크톱 환경에 특화되어있는 제품인데요. 여기서 가상 데스크톱 인프라 (Virtual Desktop Infrastructure)는 클라우드 상에 가상으로 고성능의 컴퓨팅 환경을 제공하는 것입니다.
여기서 말하는 가상 데스크톱 인프라는 단순히 회사 컴퓨터로 접속해서 업무를 하는 것이 아닌, 클라우드 환경에서 고성능의 작업은 물론 인공지능 연구까지 가능하다는 의미입니다. 즉, 언택트 코로나 시대에 걸맞는 효율적인 원격 근무가 가능해지는 그래픽카드 인 것이죠.
엔비디아는 이런 하드웨어뿐 만 아니라 소프트웨어 지원도 함께 제공하고 있습니다.
1. Base command : 인공지능 연구 관리 프로그램
2. Certified Systems : 그래픽카드 + NIC + 이용자 서버 조합 인증 시스템. 인증된 조합으로 안정적으로 서버 구축을 할 수 있고 EGX 플랫폼과도 연관이 있다.
3. Triton : 복잡한 솔루션 확보 문제를 간소화하는 추론 시스템
이와 같이 소프트웨어까지 같이 지원을 해주어 이용자들이 최적의 생태계를 꾸리고 최적으로 사용할 수 있도록 하는 전략을 펼치고 있습니다. 그 전략의 결과로 엔비디아는 전체 클라우드 및 데이터센터용 AI프로세서 시장에서 80%이상의 점유율을 차지하고 있으며, 엔비디아의 매출에서 데이터센터의 비중 역시 높아지고 있습니다. 앞으로 더욱 크게 성장할 데이터센터 시장과 이 시장을 뒷받침해줄 엔비디아의 미래를 눈여겨봐도 좋을 것 같습니다. 감사합니다.
본 포스팅은 AIOCP를 운영하는 이호스트ICT의 원문 발췌를 하였으며, 더 좋은 IT 관련 칼럼 글을 읽어보고 싶은 분께서는 아래 링크를 통해 <이호스트ICT 블로그>에 접속해보세요.
▼
https://blog.naver.com/ehostidc2004
½Ç¹° »çÁø Âï¾î¼ ¿Ã·ÁÁÖ¼¼¿ä..