gpu 병렬 처리 시 병목 현상 문의 드립니다.

hardware more

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1778 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

78/5686

번호	제목Page 78/5686	글쓴이	날짜	조회	추천
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1512726	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1512726 1 백메가
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4976601	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4976601 1 정은준1
112166	[질문] TYAN 2877 ANRF 의 메모리 관련 질문입니다. (2)	서용환	2006-09	4882	69
[질문] TYAN 2877 ANRF 의 메모리 관련 질… (2) 2006-09 4882 1 서용환
112165	s2466-4m에 대한 물음	박계철	2002-09	12872	69
s2466-4m에 대한 물음 2002-09 12872 1 박계철
112164	듀얼 모니터 지원하는 VGA카드 좀.... (1)	이경덕	2002-10	13300	69
듀얼 모니터 지원하는 VGA카드 좀.... (1) 2002-10 13300 1 이경덕
112163	좀 엉뚱한 질문입니다.	박준연	2002-08	14500	69
좀 엉뚱한 질문입니다. 2002-08 14500 1 박준연
112162	디빅 동영상 파일에 자막이 싱크가 안됩니다. (5)	우승엽	2004-01	8735	69
디빅 동영상 파일에 자막이 싱크가 안됩니… (5) 2004-01 8735 1 우승엽
112161	ASUS 보드 A/S 이런경우 어찌 대처해야할지... (9)	이수민	2004-06	10317	69
ASUS 보드 A/S 이런경우 어찌 대처해야할… (9) 2004-06 10317 1 이수민
112160	준호님 펜티엄 제온 1.8a 구입한곳좀 알려주세요 (4)	박신석	2002-05	17864	69
준호님 펜티엄 제온 1.8a 구입한곳좀 알려… (4) 2002-05 17864 1 박신석
112159	어라 이상합니다. (4)	조용훈	2003-12	10250	69
어라 이상합니다. (4) 2003-12 10250 1 조용훈
112158	hiddenFax....	윤호용	2005-08	5789	69
hiddenFax.... 2005-08 5789 1 윤호용
112157	잉~ 질문입니다,, (1)	김태경	2003-02	12303	69
잉~ 질문입니다,, (1) 2003-02 12303 1 김태경
112156	[re] megaraid 320-1 redhat9.0 드라이버질문 (2)	이성주	2004-04	8700	69
[re] megaraid 320-1 redhat9.0 드라이버… (2) 2004-04 8700 1 이성주
112155	[질문]MSI-K7-LMaster보드와 사운드-오디지2와 충돌은 없는지 궁금합니다. (4)	김병훈	2003-02	10771	69
[질문]MSI-K7-LMaster보드와 사운드-오디… (4) 2003-02 10771 1 김병훈
112154	제가 격었던 레이드설정 삽질기 (1)	김민욱	2004-01	7985	69
제가 격었던 레이드설정 삽질기 (1) 2004-01 7985 1 김민욱
112153	필립스 201p 드라이버 있으신분.. (2)	김기범	2004-05	8539	69
필립스 201p 드라이버 있으신분.. (2) 2004-05 8539 1 김기범
112152	슬롯1 형식의 메인보드에서 소켓370 cpu사용 가능한 방법이 있습니까 (6)	이기영	2003-01	11102	69
슬롯1 형식의 메인보드에서 소켓370 cpu사… (6) 2003-01 11102 1 이기영
112151	멀티 스레드에 대한 질문입니다. 아시는분 답변 부탁합니다. (4)	이호열	2003-02	11924	69
멀티 스레드에 대한 질문입니다. 아시는분… (4) 2003-02 11924 1 이호열
112150	[re] 듀얼 모니터에 궁금증이..	박진배	2003-03	12193	69
[re] 듀얼 모니터에 궁금증이.. 2003-03 12193 1 박진배
112149	똑같은 메일이 두세개씩 수신되는 문제좀 해결해주세요 (2)	우승엽	2004-02	8630	69
똑같은 메일이 두세개씩 수신되는 문제좀 … (2) 2004-02 8630 1 우승엽
112148	그냥 잡답입니다. (2)	이정근	2003-01	11919	69
그냥 잡답입니다. (2) 2003-01 11919 1 이정근
112147	Eizo 465A, 565A 쓰고 있는 분......답변 부탁드립니다. (1)	이상목	2003-01	12181	69
Eizo 465A, 565A 쓰고 있는 분......답변… (1) 2003-01 12181 1 이상목