gpu 병렬 처리 시 병목 현상 문의 드립니다.

자유게시판 more

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1730 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

75/5683

번호	제목Page 75/5683	글쓴이	날짜	조회	추천
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4954519	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4954519 1 정은준1
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1491005	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1491005 1 백메가
112161	HP DL360e 주황색 불 점등 되고 iml 로그 문의 드립니다. (5)	quiet	06-04	1410	0
HP DL360e 주황색 불 점등 되고 iml 로그 … (5) 06-04 1410 1 quiet
112160	AI 딥러닝 학습과 동영상 변환 처리를 동시에 수행하는 메인PC에서 서브PC를 추가해… (6)	이프리타	06-04	1372	0
AI 딥러닝 학습과 동영상 변환 처리를 동… (6) 06-04 1372 1 이프리타
112159	gpu 병렬 처리 시 병목 현상 문의 드립니다. (4)	한중일	06-04	1731	0
gpu 병렬 처리 시 병목 현상 문의 드립니… (4) 06-04 1731 1 한중일
112158	(해결) chrome,edge 플러그인 설치불가? (이 시각 정상으로 활성화 되었네요.^^) (3)	김창윤(WC)	06-04	1161	0
(해결) chrome,edge 플러그인 설치불가? (… (3) 06-04 1161 1 김창윤(WC)
112157	차량용 pc (9)	2CPU최주희	06-04	1449	0
차량용 pc (9) 06-04 1449 1 2CPU최주희
112156	배아세포로 만든 줄기세포 (6)	미담	06-04	1083	0
배아세포로 만든 줄기세포 (6) 06-04 1083 1 미담
112155	좋은 아이디어좀 주세요..Toshiba SAS SSD 800GB x 2 Raid 1 죽음 (10)	제온프로	06-04	1892	0
좋은 아이디어좀 주세요..Toshiba SAS SSD… (10) 06-04 1892 1 제온프로
112154	시놀로지 하드디스크 다른 서버에 인식 (5)	guest1	06-03	1430	0
시놀로지 하드디스크 다른 서버에 인식 (5) 06-03 1430 1 guest1
112153	안녕하세요, 실험을 위한 LAB을 구성중인데 조언 부탁드리겠습니다. (16)	bag0504	06-03	1529	0
안녕하세요, 실험을 위한 LAB을 구성중인… (16) 06-03 1529 1 bag0504
112152	SMS 문의 (6)	Sakura24	06-03	1184	0
SMS 문의 (6) 06-03 1184 1 Sakura24
112151	이거 차이가 무엇인지 가르침 부탁드립니다. (16)	여주농민76	06-03	1613	0
이거 차이가 무엇인지 가르침 부탁드립니… (16) 06-03 1613 1 여주농민76
112150	삼성 프린터 -복합기 SCX 4521F 덮개 센서가 문제가 있으면 프린터가 작동이 안된다고 (2)	신은왜	06-03	1274	0
삼성 프린터 -복합기 SCX 4521F 덮개 센… (2) 06-03 1274 1 신은왜
112149	안녕하세요 슈마 리던던트 파워 관련 질문드립니다. (14)	안성현	06-03	1333	0
안녕하세요 슈마 리던던트 파워 관련 질문… (14) 06-03 1333 1 안성현
112148	am5 4u 쿨러 수입하는 업체 알고있는분 계신가요? (4)	뭐든팔아요	06-03	1240	0
am5 4u 쿨러 수입하는 업체 알고있는분 계… (4) 06-03 1240 1 뭐든팔아요
112147	해당물품 구매처 정보좀 부탁드립니다. (3)	Frinc	06-03	1417	0
해당물품 구매처 정보좀 부탁드립니다. (3) 06-03 1417 1 Frinc
112146	ESXi에서 10G 속도가 다 안나옵니다. (6)	박	06-03	1885	0
ESXi에서 10G 속도가 다 안나옵니다. (6) 06-03 1885 1 박
112145	서비스 접속 대기중입니다는 왜 나오는 걸까요? (2)	VSPress	06-03	1135	0
서비스 접속 대기중입니다는 왜 나오는 걸… (2) 06-03 1135 1 VSPress
112144	크롬에서 갑자기 구글 로그인이 안됩니다. (3)	장동건2014	06-03	1089	0
크롬에서 갑자기 구글 로그인이 안됩니다. (3) 06-03 1089 1 장동건2014
112143	공유기와 공유기가 무선으로 연결 (9)	yummy	06-03	1513	0
공유기와 공유기가 무선으로 연결 (9) 06-03 1513 1 yummy
112142	하... 정신 차리고 보니 제 손에 쓰례드리퍼가 들려있습니다 (6)	을신축	06-02	1826	0
하... 정신 차리고 보니 제 손에 쓰례드리… (6) 06-02 1826 1 을신축