딥러닝에서 mGPU사용방법에 대한 질문입니다~!

쓰기

딥러닝에서 mGPU사용방법에 대한 질문입니다~!

2020-10

2020-10-27 14:13:06

"이전에 딥러닝 게시판에 올렸지만 게시판 성격이 안맞는것 같아서 옮겼습니다"

--------------------------------------------------------------------------------------------------------------

안녕하세요~!
딥러닝 업무를 받게되면서 컴퓨터를 맞추기 위해서 하드웨어를 공부중인데 2장의 GPU의 VRAM을 사용하는 방법이 궁금합니다

CUDA나 텐서플로우가 mGPU를 지원한다고 하는데 정녕 자동으로 VRAM을 나눠서 작업을 해주진 않을거라 추측되서 찾아보니 아래같은 내용이 있었습니다.

이런 분산 Strategy을 설정해서 사용하면 될것 같은데 그럼 텐서플로우에서 갖고있는 자원 내에서 알아서 정리가 되는건가요??
보통 n-way로 딥러닝 워크스테이션 맞추시는 분들은 대부분 이런 전략을 사용하거나 수동으로 GPU에 일을 할당하시나요?

3090 2-way로 견적을 맞출 예정인데 2개의 VRAM과 GPU를 사용하려면 그에 맞는 코딩을 하는게 맞는건지
아니면 신경 안써도 자동으로 2대를 다 사용해주는건지 궁금합니다.
(어차피 SLI이나 CFX는 VRAM 간의 대역폭을 넓혀주는데 도움은 줄 수 있을것 같은데 크게 신경쓰고 있진 않습니다...)

마지막으로 제가 시스템을 구축하면 다른 개발자들이 그 위에서 코딩을 할것 같은데 백엔드는 nvcc 같은걸로 연결해놓고
그 위에 텐서플로우의 distribute 설정된layer을 올릴 수 있을까요?? 개발자들이 distribute관련된 지식없이 텐서플로우 예제만 따라쳐도 알아서 분산처리될 수 있는 환경을 구축할 수 있는지 궁금합니다.

짧은글 일수록 신중하게.



이준용 2020-10 아마 가장 쉬운 방법은 nvlink아닐까 생각됩니다. 3090nvlink 지원하나요.? 아마 가장 쉬운 방법은 nvlink아닐까 생각됩니다. 3090nvlink 지원하나요.?



cpu2kyu 2020-10 3090에 nvlink 제공하고 있습니다! GPU 여러개 꼽혀있는걸 볼 때는 멋있었는데 실제로 쓸려니 험난하네요;; nvlink을 연결시키면 텐서플로우 상에서도 분산처리를 안해도 되나요??? nvlink는 sli와 같은 기능으로 데이터 버스정도로만 이해하고 있었습니다 (GPU 1번에서 계산된 결과를 GPU 2번으로 모을 때 빠른 데이터 전송이 가능하다 정도로 생각하고 있었습니다) 3090에 nvlink 제공하고 있습니다! GPU 여러개 꼽혀있는걸 볼 때는 멋있었는데 실제로 쓸려니 험난하네요;; nvlink을 연결시키면 텐서플로우 상에서도 분산처리를 안해도 되나요??? nvlink는 sli와 같은 기능으로 데이터 버스정도로만 이해하고 있었습니다 (GPU 1번에서 계산된 결과를 GPU 2번으로 모을 때 빠른 데이터 전송이 가능하다 정도로 생각하고 있었습니다)



성훈 2020-10 data parallel 과 model parallel을 선택하셔야 할것입니다. data parallel은 GPU마다 동일한 네트워크를 올린뒤 1번 데이터에 대한 연산은 1번 gpu에서 2번 데이터에 대한 연산은 2번으로 수행하는 방법이며, model parallel은 어떤 연산은 1번 gpu에서 나머지 연산은 2번 gpu에서 수행하는 방법입니다. 1번은 data parallel wrapper를 모델에 씌워주기만 하면 구현이 쉽게 되지만, model parallel은 세부적으로 직접 device에 대해서 연산을 지정해주어 구현하여야 합니다. 지식없이 하려면 data parallel쪽으로 고려하시고, data paralle 예제는 많이 공개되어 있으니 참고하시면 될것 같습니다. data parallel 과 model parallel을 선택하셔야 할것입니다. data parallel은 GPU마다 동일한 네트워크를 올린뒤 1번 데이터에 대한 연산은 1번 gpu에서 2번 데이터에 대한 연산은 2번으로 수행하는 방법이며, model parallel은 어떤 연산은 1번 gpu에서 나머지 연산은 2번 gpu에서 수행하는 방법입니다. 1번은 data parallel wrapper를 모델에 씌워주기만 하면 구현이 쉽게 되지만, model parallel은 세부적으로 직접 device에 대해서 연산을 지정해주어 구현하여야 합니다. 지식없이 하려면 data parallel쪽으로 고려하시고, data paralle 예제는 많이 공개되어 있으니 참고하시면 될것 같습니다.



cpu2kyu 2020-10 세부적인 정보 감사드립니다~! 처음 시작이니 data parallel부터 시작해서 구조가 익숙해지면 model parallel로 넘어가야겠습니다ㅠ GPU 잘 쓰려면 엄청 깊게 내려가야겠어요ㅠㅠ 세부적인 정보 감사드립니다~! 처음 시작이니 data parallel부터 시작해서 구조가 익숙해지면 model parallel로 넘어가야겠습니다ㅠ GPU 잘 쓰려면 엄청 깊게 내려가야겠어요ㅠㅠ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

627/5687

번호	제목Page 627/5687	글쓴이	날짜	조회	추천
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4990971	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4990971 1 정은준1
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1526960	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1526960 1 백메가
101204	국내에서 구매할 수 있는 48포트 이상 10GBASE-T 스위치는 어떤 회사 제품이 있을까… (5)	박문형	2021-05	2358	0
국내에서 구매할 수 있는 48포트 이상 10… (5) 2021-05 2358 1 박문형
101203	[비컴]휴대폰통화녹음기중 녹음잘되고 괜찮은 앱좀 소개부탁드립니다. (15)	정상백	2021-08	2358	0
[비컴]휴대폰통화녹음기중 녹음잘되고 괜… (15) 2021-08 2358 1 정상백
101202	dell 78xx 79xx 4xx~640 웍스 쓰시는 분들 소음 질문좀 드립니다. (9)	홀릭0o0	2021-05	2358	0
dell 78xx 79xx 4xx~640 웍스 쓰시는 분들… (9) 2021-05 2358 1 홀릭0o0
101201	컴알못 GPGPU 조언 구해봅니다... 이번 회사에서 GPGPU가 필요하다고 하는데 (4)	skzj	2020-10	2358	0
컴알못 GPGPU 조언 구해봅니다... 이번 회… (4) 2020-10 2358 1 skzj
101200	KT M2-802L - 해결완료	drezip	2021-01	2358	0
KT M2-802L - 해결완료 2021-01 2358 1 drezip
101199	NAS의 스토리지를 늘리고 싶은데, 이게 구성이 가능한건가요? (6)	잘하자	2019-05	2358	0
NAS의 스토리지를 늘리고 싶은데, 이게 구… (6) 2019-05 2358 1 잘하자
101198	집에서 시간 보내기 좋은 취미 추천해주세요 (13)	DDDIE	2020-06	2359	0
집에서 시간 보내기 좋은 취미 추천해주세요 (13) 2020-06 2359 1 DDDIE
101197	딥러닝에서 mGPU사용방법에 대한 질문입니다~! (4)	cpu2kyu	2020-10	2359	0
딥러닝에서 mGPU사용방법에 대한 질문입니… (4) 2020-10 2359 1 cpu2kyu
101196	[가상화 생초보] esxi7 u3 에서 quadro rtx 6000 그래픽카드를 사용하고 싶습니다. (5)	호머심슨	2023-02	2359	0
[가상화 생초보] esxi7 u3 에서 quadro rt… (5) 2023-02 2359 1 호머심슨
101195	슈퍼마이크로 웍스용 보드 부팅속도 질문 (19)	샤멍	01-11	2360	0
슈퍼마이크로 웍스용 보드 부팅속도 질문 (19) 01-11 2360 1 샤멍
101194	오라클 서버 CLI 명령어 좀 알려주세요 (1)	NeTe	2019-08	2360	0
오라클 서버 CLI 명령어 좀 알려주세요 (1) 2019-08 2360 1 NeTe
101193	[ vSphere 7 출시 ] ARM 지원 버전은 아직 출시 안 된 건지요 ?	전설속의미…	2020-04	2360	0
[ vSphere 7 출시 ] ARM 지원 버전은 아직… 2020-04 2360 1 전설속의미…
101192	ASA NAT 동일대역 L2L VPN 괜찮을까요?? (4)	공백기	2020-09	2360	0
ASA NAT 동일대역 L2L VPN 괜찮을까요?? (4) 2020-09 2360 1 공백기
101191	인터넷 장애시 전화를 하면 신호를 초기화해준다는데 이게 정확히 뭘 하는걸까요? (6)	일론머스크	2021-09	2360	0
인터넷 장애시 전화를 하면 신호를 초기화… (6) 2021-09 2360 1 일론머스크
101190	간단하게 쓸만한 dhcp server 어플 없을까요? (4)	osthek83	2023-09	2360	0
간단하게 쓸만한 dhcp server 어플 없을까… (4) 2023-09 2360 1 osthek83
101189	헤놀로지 Audio station 문제..	길가던뉴비	2019-07	2360	0
헤놀로지 Audio station 문제.. 2019-07 2360 1 길가던뉴비
101188	HP z840 Top Cover, Rear Handdle (3)	hdsniper	2021-10	2361	0
HP z840 Top Cover, Rear Handdle (3) 2021-10 2361 1 hdsniper
101187	소규모 사무실 백업용 혹은 클라우드 서비스 관련 추천부탁드립니다. (8)	양창권	2019-12	2361	0
소규모 사무실 백업용 혹은 클라우드 서비… (8) 2019-12 2361 1 양창권
101186	18650 배터리 통관 문의 (4)	민지파파	2021-11	2361	0
18650 배터리 통관 문의 (4) 2021-11 2361 1 민지파파
101185	웹서버에 anti virus 프로그램 쓰세요? (2)	호호	2019-06	2361	0
웹서버에 anti virus 프로그램 쓰세요? (2) 2019-06 2361 1 호호