gpu 병렬 처리 시 병목 현상 문의 드립니다.

강좌게시판 more

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 589 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

10/5620

번호	제목Page 10/5620	글쓴이	날짜	조회	추천
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1197862	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1197862 1 백메가
	[필독] 처음 오시는 분을 위한 안내 (720)	정은준1	2014-05	4650939	0
[필독] 처음 오시는 분을 위한 안내 (720) 2014-05 4650939 1 정은준1
112214	건물에 있는 EPS실 의 뜻은 무엇인지요?? (3)	블루영상	06-08	815	0
건물에 있는 EPS실 의 뜻은 무엇인지요?? (3) 06-08 815 1 블루영상
112213	3300x에 p106 100 사용못하나요? (14)	FX8300	06-08	673	0
3300x에 p106 100 사용못하나요? (14) 06-08 673 1 FX8300
112212	메인보드 SATA 콘트롤러 인식 에러? (6)	김민수2	06-08	556	0
메인보드 SATA 콘트롤러 인식 에러? (6) 06-08 556 1 김민수2
112211	미니 PC 찾습니다! (10)	Dosh	06-07	809	0
미니 PC 찾습니다! (10) 06-07 809 1 Dosh
112210	메인보드 B7에러 어떻게 처리 가능한가요? (7)	금콩커피	06-07	660	0
메인보드 B7에러 어떻게 처리 가능한가요? (7) 06-07 660 1 금콩커피
112209	"두낫콜"이 뭔가요 (3)	하셀호프	06-07	758	0
"두낫콜"이 뭔가요 (3) 06-07 758 1 하셀호프
112208	GPU 수리 (3)	한중일	06-07	754	0
GPU 수리 (3) 06-07 754 1 한중일
112207	마이닝 RX470 포트없는 제품 써보신분 (3)	FX8300	06-07	510	0
마이닝 RX470 포트없는 제품 써보신분 (3) 06-07 510 1 FX8300
112206	end Kernel panic ??? (3)	네이쳐	06-07	445	0
end Kernel panic ??? (3) 06-07 445 1 네이쳐
112205	혹시 영덕 주변에 계시는 분 (4)	미담	06-07	575	0
혹시 영덕 주변에 계시는 분 (4) 06-07 575 1 미담
112204	전자앨범 메인보드 PCB 에서 VGA(RGB) 입력신호 개조해서 일반 모니터로 개조 가능할… (7)	냐미냐미	06-07	475	0
전자앨범 메인보드 PCB 에서 VGA(RGB) 입… (7) 06-07 475 1 냐미냐미
112203	Fujitsu RX2540 M6 / RHEL 8.6 설치중에 JBOD 설정이 안됩니다. (2)	JJ25	06-07	380	0
Fujitsu RX2540 M6 / RHEL 8.6 설치중에 J… (2) 06-07 380 1 JJ25
112202	에즈락랙 EPYCD8 메인보드 문의 드립니다. (6)	song05	06-07	493	0
에즈락랙 EPYCD8 메인보드 문의 드립니다. (6) 06-07 493 1 song05
112201	P106 100 쓰시는분? i5 2500도 가능한데... (5)	FX8300	06-07	560	0
P106 100 쓰시는분? i5 2500도 가능한데... (5) 06-07 560 1 FX8300
112200	P106 100 사용안한 제품도 있을까요;; (4)	FX8300	06-06	581	0
P106 100 사용안한 제품도 있을까요;; (4) 06-06 581 1 FX8300
112199	오리 lossless 업스케일 썹ㅎ신분 (4)	FX8300	06-06	495	0
오리 lossless 업스케일 썹ㅎ신분 (4) 06-06 495 1 FX8300
112198	(비컴)병가 (6)	Sakura24	06-06	479	0
(비컴)병가 (6) 06-06 479 1 Sakura24
112197	외장배터리 통관 가능할까요? (9)	사누스	06-06	595	0
외장배터리 통관 가능할까요? (9) 06-06 595 1 사누스
112196	회사에서 리눅스 어떤거 사용하시나요? (18)	osthek83	06-06	795	0
회사에서 리눅스 어떤거 사용하시나요? (18) 06-06 795 1 osthek83
112195	인터넷 연결시 모뎀에서 직접 연결과 공유기를 통해 연결하는 것 보안 차이가 많겠죠? (6)	VSPress	06-06	538	0
인터넷 연결시 모뎀에서 직접 연결과 공유… (6) 06-06 538 1 VSPress