gpu 병렬 처리 시 병목 현상 문의 드립니다.

자유게시판 more

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1725 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

73/5682

번호	제목Page 73/5682	글쓴이	날짜	조회	추천
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1488431	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1488431 1 백메가
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4951762	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4951762 1 정은준1
112184	시놀로지 네트워크 UPS 설정에 대하여 (해놀로지 연결) (11)	코젠	06-06	1489	0
시놀로지 네트워크 UPS 설정에 대하여 (해… (11) 06-06 1489 1 코젠
112183	윈도우용 Docker Desktop에서 CPU 128쓰레드 인식하게 하는법 (6)	핸즈	06-05	1528	0
윈도우용 Docker Desktop에서 CPU 128쓰레… (6) 06-05 1528 1 핸즈
112182	델 R730 iDRAC 응답없음 문제 (4)	CW33300	06-05	1387	0
델 R730 iDRAC 응답없음 문제 (4) 06-05 1387 1 CW33300
112181	이게 뭘까요? 나비도 아니고 벌도 아닌거 같은데.. (5)	퍼싱글	06-05	1336	0
이게 뭘까요? 나비도 아니고 벌도 아닌거 … (5) 06-05 1336 1 퍼싱글
112180	proxmox 에 헤놀을 올리면 (4)	애월남	06-05	1247	0
proxmox 에 헤놀을 올리면 (4) 06-05 1247 1 애월남
112179	DELL T7910 듀얼 구성시 전원 불가 증상 문의 (11)	가온누리I강…	06-05	1269	0
DELL T7910 듀얼 구성시 전원 불가 증상 … (11) 06-05 1269 1 가온누리I강…
112178	베란다 태양광 발전 설치 문의드려봅니다 (3)	VSPress	06-05	1181	0
베란다 태양광 발전 설치 문의드려봅니다 (3) 06-05 1181 1 VSPress
112177	윈도우 재부팅 안되게 하는 법 문의드립니다. (8)	블루영상	06-05	1398	0
윈도우 재부팅 안되게 하는 법 문의드립니… (8) 06-05 1398 1 블루영상
112176	pcie x4 슬롯이 있는 미니pc가 있을까요? (6)	이프리타	06-05	1226	0
pcie x4 슬롯이 있는 미니pc가 있을까요? (6) 06-05 1226 1 이프리타
112175	4210R 및 i7-8700 tpmc값 문의 드립니다. (1)	한중일	06-05	1022	0
4210R 및 i7-8700 tpmc값 문의 드립니다. (1) 06-05 1022 1 한중일
112174	갑자기 윈도우 정품인증이 될 수도 있나요? 신기하네요. (2)	신은왜	06-05	1259	0
갑자기 윈도우 정품인증이 될 수도 있나… (2) 06-05 1259 1 신은왜
112173	아이폰 무선 충전이 왜 안될까요 (9)	영산회상	06-05	1140	0
아이폰 무선 충전이 왜 안될까요 (9) 06-05 1140 1 영산회상
112172	사각 막대건전지 충전기는 못구하나요? (6)	서울l강한모	06-05	1238	0
사각 막대건전지 충전기는 못구하나요? (6) 06-05 1238 1 서울l강한모
112171	윈도우 dsp 는 보드에 귀속되어서 나중에 옮길 수 없다는게 (5)	신은왜	06-05	1209	0
윈도우 dsp 는 보드에 귀속되어서 나중에 … (5) 06-05 1209 1 신은왜
112170	블루투스 연결에 문제가 있습니다. (2)	Rich	06-05	1066	0
블루투스 연결에 문제가 있습니다. (2) 06-05 1066 1 Rich
112169	원격으로 부팅방법 변경문의 (7)	리장님	06-05	1234	0
원격으로 부팅방법 변경문의 (7) 06-05 1234 1 리장님
112168	120와트 이상 가변 DC 어댑터 질문 드립니다 (11)	전진	06-05	1500	0
120와트 이상 가변 DC 어댑터 질문 드립니다 (11) 06-05 1500 1 전진
112167	요즘 저렴하고 괜찮은 10G 이상의 라우터가 있을까요? (8)	sbg2005	06-04	1336	0
요즘 저렴하고 괜찮은 10G 이상의 라우터… (8) 06-04 1336 1 sbg2005
112166	T프로세서 관련 질문드립니다 (4)	샤멍	06-04	1080	0
T프로세서 관련 질문드립니다 (4) 06-04 1080 1 샤멍
112165	와사비망고 4K 지원 40인치 모니터 LED 수리건 (4)	iwill	06-04	1787	0
와사비망고 4K 지원 40인치 모니터 LED … (4) 06-04 1787 1 iwill