gpu 병렬 처리 시 병목 현상 문의 드립니다.

UnBoxing more

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1770 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

371/5685

번호	제목Page 371/5685	글쓴이	날짜	조회	추천
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1505514	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1505514 1 백메가
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4969167	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4969167 1 정은준1
106299	AMD진영 CPU 가격전망 어떻게 보시나요 (5)	NaHS	2022-04	1764	0
AMD진영 CPU 가격전망 어떻게 보시나요 (5) 2022-04 1764 1 NaHS
106298	[질문] PCIe x16 (x1)에 NVMe 어뎁터를 이용한 연결과 관련하여 (12)	신우섭	2023-12	1764	0
[질문] PCIe x16 (x1)에 NVMe 어뎁터를 이… (12) 2023-12 1764 1 신우섭
106297	제온 골드 1세대 숄더링 되어있나요? 외 T7920에 대한 몇가지 질문 (14)	Kimmandu	02-11	1764	0
제온 골드 1세대 숄더링 되어있나요? 외 T… (14) 02-11 1764 1 Kimmandu
106296	LSI 레이드카드 백업배터리 상태 관련 문의 (6)	안철현	2022-03	1764	0
LSI 레이드카드 백업배터리 상태 관련 문의 (6) 2022-03 1764 1 안철현
106295	컴퓨터 파워 24핀(전원??) 전원 들어오게 접지 할려면 뭘로 해야할까요? (13)	강한구	03-13	1765	0
컴퓨터 파워 24핀(전원??) 전원 들어오게 … (13) 03-13 1765 1 강한구
106294	장터 물품구매 후 이런경우는 어찌해야 할까요? (9)	langrisser	2021-12	1765	0
장터 물품구매 후 이런경우는 어찌해야 할… (9) 2021-12 1765 1 langrisser
106293	u.2 enterprise SSD 15.36TB 질문 (8)	진돌슈빈	2022-03	1765	0
u.2 enterprise SSD 15.36TB 질문 (8) 2022-03 1765 1 진돌슈빈
106292	하드디스크도 호환성을 타나요? (2)	화이트노이즈	2021-11	1765	0
하드디스크도 호환성을 타나요? (2) 2021-11 1765 1 화이트노이즈
106291	775 cpu는 771 소켓에 안맞나요? (3)	우뭉	2021-11	1765	0
775 cpu는 771 소켓에 안맞나요? (3) 2021-11 1765 1 우뭉
106290	flir 열화상 카메라 반응없음 해결방법이 궁금합니다. (11)	까치산개꿀탱	2022-11	1765	0
flir 열화상 카메라 반응없음 해결방법이 … (11) 2022-11 1765 1 까치산개꿀탱
106289	dc to dc 질문드립니다. (6)	똑띠파파	2021-05	1766	0
dc to dc 질문드립니다. (6) 2021-05 1766 1 똑띠파파
106288	ssd 공간이 사라집니다 ㅠㅠ (11)	pilsuni	2022-07	1766	0
ssd 공간이 사라집니다 ㅠㅠ (11) 2022-07 1766 1 pilsuni
106287	구매에 예전글을 끌어올려서 수정하거나 삭제후 등록하는방법 있나요? (1)	지존터미네…	2020-11	1766	0
구매에 예전글을 끌어올려서 수정하거나 … (1) 2020-11 1766 1 지존터미네…
106286	공유기에서 10m 랜케이블만 인식을 못합니다 (5)	ENIHS	2020-06	1766	0
공유기에서 10m 랜케이블만 인식을 못합니다 (5) 2020-06 1766 1 ENIHS
106285	슈퍼마이크로 IPMI IKVM 화면 관련 질문 (3)	Warwick	2022-12	1766	0
슈퍼마이크로 IPMI IKVM 화면 관련 질문 (3) 2022-12 1766 1 Warwick
106284	이 케이블로 sas hdd 연결 되나요? (4)	미친감자	2022-02	1766	0
이 케이블로 sas hdd 연결 되나요? (4) 2022-02 1766 1 미친감자
106283	UTM보안옵션 문의	켄틀리12	2020-03	1766	0
UTM보안옵션 문의 2020-03 1766 1 켄틀리12
106282	기존서버에 쓰다 나온 리퍼비쉬 중고 고용량 HDD 괜찬을까요? (11)	김민수2	2023-08	1767	0
기존서버에 쓰다 나온 리퍼비쉬 중고 고용… (11) 2023-08 1767 1 김민수2
106281	[해결됨] 철의? 삼종 무슨 뜻인지 궁금합니다. (5)	blueMango	2021-09	1767	0
[해결됨] 철의? 삼종 무슨 뜻인지 궁금합… (5) 2021-09 1767 1 blueMango
106280	메인모니터 입력 변경시 보조모니터 안나오는 현상 (2)	2048	2023-03	1767	0
메인모니터 입력 변경시 보조모니터 안나… (2) 2023-03 1767 1 2048