gpu 병렬 처리 시 병목 현상 문의 드립니다.

QnA more

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1794 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

2360/5686

번호	제목Page 2360/5686	글쓴이	날짜	조회	추천
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1522348	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1522348 1 백메가
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4986356	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4986356 1 정은준1
66539	(비 컴퓨터)수리 질문 드립니다. (4)	손석우	2011-10	5620	0
(비 컴퓨터)수리 질문 드립니다. (4) 2011-10 5620 1 손석우
66538	gpu 병렬 처리 시 병목 현상 문의 드립니다. (4)	한중일	06-04	1795	0
gpu 병렬 처리 시 병목 현상 문의 드립니… (4) 06-04 1795 1 한중일
66537	Active Directory에서 Local User의 profile을 Domain User에게 적용시킬 수 있을까… (3)	GoodWolf	2011-11	5179	0
Active Directory에서 Local User의 profi… (3) 2011-11 5179 1 GoodWolf
66536	PC 스피커 전원을 PC파워로 공급해도 될까요? (8)	수퍼싸이언	2021-03	2226	0
PC 스피커 전원을 PC파워로 공급해도 될까… (8) 2021-03 2226 1 수퍼싸이언
66535	메모리 다중채널, 8G * 12EA = 96G 면 몇채널일까요? (9)	이니이니	2016-07	4591	0
메모리 다중채널, 8G * 12EA = 96G 면 몇… (9) 2016-07 4591 1 이니이니
66534	알리에서 파는 램 제조 쉽나요? (16)	Q8300	06-16	1937	0
알리에서 파는 램 제조 쉽나요? (16) 06-16 1937 1 Q8300
66533	서버와 현재 컴퓨터가 아이피대역이 같을때 (3)	현비니	2015-06	4336	0
서버와 현재 컴퓨터가 아이피대역이 같을때 (3) 2015-06 4336 1 현비니
66532	슈마 서버 nvme 관련 질문드립니다. (7)	PWneo	2022-11	2014	0
슈마 서버 nvme 관련 질문드립니다. (7) 2022-11 2014 1 PWneo
66531	화장실에 컴터 두면 뭔 일이 발생할까요 (17)	Q8300	06-21	1744	0
화장실에 컴터 두면 뭔 일이 발생할까요 (17) 06-21 1744 1 Q8300
66530	TV 블루투스 트랜스미터 (12)	나파이강승훈	2019-12	2590	0
TV 블루투스 트랜스미터 (12) 2019-12 2590 1 나파이강승훈
66529	[비컴] 납땜 관련 문의 (15)	성민	07-07	1705	0
[비컴] 납땜 관련 문의 (15) 07-07 1705 1 성민
66528	amd a6-9500e라는 cpu를 아시나요? (9)	inquisitive	2022-11	2583	0
amd a6-9500e라는 cpu를 아시나요? (9) 2022-11 2583 1 inquisitive
66527	공냉쿨러 / 수냉쿨러 어떤게 좋을까요? (7)	은우마스터	2016-07	14803	0
공냉쿨러 / 수냉쿨러 어떤게 좋을까요? (7) 2016-07 14803 1 은우마스터
66526	단순 사타채널 확장용 카드에 대해서 문의 드려 봅니다. (12)	SpringValley	2014-03	3860	0
단순 사타채널 확장용 카드에 대해서 문의… (12) 2014-03 3860 1 SpringValley
66525	이 보드와 메모리 호환성문제 없을까요? (4)	뉴클래식	2015-07	3123	0
이 보드와 메모리 호환성문제 없을까요? (4) 2015-07 3123 1 뉴클래식
66524	KMV 검색어가 따로 있나요? (10)	배준석	2014-03	3369	0
KMV 검색어가 따로 있나요? (10) 2014-03 3369 1 배준석
66523	노코나급 제온 질문이요 (3)	방o효o문	2015-07	2954	0
노코나급 제온 질문이요 (3) 2015-07 2954 1 방o효o문
66522	레이드구성하는법에대해 소중한 지식부탁드립니다. (5)	람쥐라궁	2012-01	5558	0
레이드구성하는법에대해 소중한 지식부탁… (5) 2012-01 5558 1 람쥐라궁
66521	(TP-LINK) TL-NT521F 10G 랜카드 호환성 괜찬을까요? (6)	무법자	2022-12	2245	0
(TP-LINK) TL-NT521F 10G 랜카드 호환성… (6) 2022-12 2245 1 무법자
66520	윈도우 다시 깔때... (1)	이지포토	2012-02	6272	0
윈도우 다시 깔때... (1) 2012-02 6272 1 이지포토