GPU - Pass Through / VGPU / GPU Clustering

   조회 4257   추천 0    

안녕하세요, 초보 질문 드립니다. 


일정 기간 동안 GPU 자원(예를 들어 GPU 카드 200개)을  다수의 사용자(예를 들어 10명) VM으로 분배해야 하구요.

(일단 오픈스택 활용..)

일정 기간 동안 사용량을 측정해서 10명의 사용자에게 자원을 유동적으로 할당해야 합니다.

ex) A사용자는 많이 썼으니, 지난 달은 20Tflops, 이 달은 40Tflops, B 사용자는 적게 썼으니, 지난 달은 20Tflops, 이 달은 10Tflops, C 사용자는 안 썼으니 이번 달은 자원 회수

NVidia P40, V100 장비를 쓸 예정인데,

Pass Through / VGPU / GPU Clustering 방식을 고민 중입니다.

- Pass Through로 가면 직접 GPU driver를 GPU 카드에 꽂아서 쓰는 방식인만큼 경합이 없어 GPU 성능을 100% 낼 수 있을 것 같구요.

- Vgpu는 1장의 GPU 카드를 임의로 1/4로 쪼개서 (예를 들어 4개), 더욱 분할해서 사용하는 방식이라 자원을 더 micro한 단위로 분산 활용할 수는 있지만, 패스 스루 방식에 비해 성능 상의 손실이 있을 것 같구요.

 이 방식이 하이퍼바이저를 통한 가상화 방식이 맞나요?


- Cluster 방식을 쓰면 여러 GPU 자원을 묶어서 보다 고성능 구성이 가능할 것 같구요. 

도커 컨테이너로 구성하게 되면 고성능으로 구성한 GPU를 컨테이너 방식으로 사용자 별로 분배하고 유동적으로 관리할 수 있을까요?


위 기재한 내용에 잘못 이해하고 있는 부분이 있다면 정정 부탁 드리고,

관련하여 비교 자료나 참고할 수 있는 자료가 있다면 말씀 부탁 드립니다!!


감사합니다.






짧은글 일수록 신중하게.
박경원 2020-01
Grid vgpu는 지원 중단된것같습니다.
     
쏘오쿠우위 2020-01
https://www.nvidia.com/ko-kr/data-center/virtual-gpu-technology/
위 사이트에 보니 grid vgpu가 여전히 나오는데, 지원 중단은 어떤 의미실까요??
          
박경원 2020-01
ESXi는 6.5 버젼까지만, KVM에선 버젼은 기억 안나지만 GRID 지원 코드가 더 이상 유지 안되고 있는걸로 압니다.
Lorenz 2020-01
vGPU 여전히 상용중이구요. 사용하시려면 하이퍼바이저 라이센스 + NVIDIA GRID 라이센스 둘다 필요합니다.
VMWare,Citrix etc 등등 가능하구요.
GPU Cluster 툴로는 Slurm 을 많이 사용하는거 같네요 KISTI에서 그렇게 사용하고 있습니다.
오픈스텍도 GPU 지원하는걸로 알고있어요


QnA
제목Page 1166/5730
2015-12   1791034   백메가
2014-05   5266103   정은준1
2017-04   3967   딩규
2016-05   6210   미수맨
2024-02   1350   빅픽챠
2013-11   8143   user
2013-11   6733   가빠로구나
2024-02   1895   narumir
2020-12   6270   서버새싹
2022-07   3218   zerotozero
2013-11   4431   블루영상
2015-03   5322   김건우
2017-05   7904   pika
2016-05   4775   김제연
2017-05   4083   twopaik
2022-07   7551   시오훅이
2011-06   5906   마이코코
2017-05   3835   하셀호프
2013-12   4418   Nikon
2021-01   3485   CARMEX
2019-10   3521   신은왜
2021-01   6506   슬러그