gpu 병렬 처리 시 병목 현상 문의 드립니다.

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1734 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

4022/5683

번호	제목Page 4022/5683	글쓴이	날짜	조회	추천
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4957099	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4957099 1 정은준1
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1493553	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1493553 1 백메가
33235	컴퓨터를 한대 사야 하는데... 부품 가격들이... (16)	LSSAH	2018-09	4032	0
컴퓨터를 한대 사야 하는데... 부품 가격… (16) 2018-09 4032 1 LSSAH
33234	hp dv7 윈도우 이미지나 dvd 구할려면 어떻게 하나요 (10)	2CPU최주희	2015-05	5286	0
hp dv7 윈도우 이미지나 dvd 구할려면 어… (10) 2015-05 5286 1 2CPU최주희
33233	(비 컴퓨터)수리 질문 드립니다. (4)	손석우	2011-10	5599	0
(비 컴퓨터)수리 질문 드립니다. (4) 2011-10 5599 1 손석우
33232	gpu 병렬 처리 시 병목 현상 문의 드립니다. (4)	한중일	06-04	1735	0
gpu 병렬 처리 시 병목 현상 문의 드립니… (4) 06-04 1735 1 한중일
33231	Active Directory에서 Local User의 profile을 Domain User에게 적용시킬 수 있을까… (3)	GoodWolf	2011-11	5164	0
Active Directory에서 Local User의 profi… (3) 2011-11 5164 1 GoodWolf
33230	PC 스피커 전원을 PC파워로 공급해도 될까요? (8)	수퍼싸이언	2021-03	2208	0
PC 스피커 전원을 PC파워로 공급해도 될까… (8) 2021-03 2208 1 수퍼싸이언
33229	메모리 다중채널, 8G * 12EA = 96G 면 몇채널일까요? (9)	이니이니	2016-07	4574	0
메모리 다중채널, 8G * 12EA = 96G 면 몇… (9) 2016-07 4574 1 이니이니
33228	알리에서 파는 램 제조 쉽나요? (16)	Q8300	06-16	1912	0
알리에서 파는 램 제조 쉽나요? (16) 06-16 1912 1 Q8300
33227	서버와 현재 컴퓨터가 아이피대역이 같을때 (3)	현비니	2015-06	4315	0
서버와 현재 컴퓨터가 아이피대역이 같을때 (3) 2015-06 4315 1 현비니
33226	슈마 서버 nvme 관련 질문드립니다. (7)	PWneo	2022-11	1967	0
슈마 서버 nvme 관련 질문드립니다. (7) 2022-11 1967 1 PWneo
33225	화장실에 컴터 두면 뭔 일이 발생할까요 (17)	Q8300	06-21	1704	0
화장실에 컴터 두면 뭔 일이 발생할까요 (17) 06-21 1704 1 Q8300
33224	TV 블루투스 트랜스미터 (12)	나파이강승훈	2019-12	2574	0
TV 블루투스 트랜스미터 (12) 2019-12 2574 1 나파이강승훈
33223	[비컴] 납땜 관련 문의 (15)	성민	07-07	1637	0
[비컴] 납땜 관련 문의 (15) 07-07 1637 1 성민
33222	amd a6-9500e라는 cpu를 아시나요? (9)	inquisitive	2022-11	2527	0
amd a6-9500e라는 cpu를 아시나요? (9) 2022-11 2527 1 inquisitive
33221	공냉쿨러 / 수냉쿨러 어떤게 좋을까요? (7)	은우마스터	2016-07	14785	0
공냉쿨러 / 수냉쿨러 어떤게 좋을까요? (7) 2016-07 14785 1 은우마스터
33220	단순 사타채널 확장용 카드에 대해서 문의 드려 봅니다. (12)	SpringValley	2014-03	3844	0
단순 사타채널 확장용 카드에 대해서 문의… (12) 2014-03 3844 1 SpringValley
33219	이 보드와 메모리 호환성문제 없을까요? (4)	뉴클래식	2015-07	3109	0
이 보드와 메모리 호환성문제 없을까요? (4) 2015-07 3109 1 뉴클래식
33218	KMV 검색어가 따로 있나요? (10)	배준석	2014-03	3344	0
KMV 검색어가 따로 있나요? (10) 2014-03 3344 1 배준석
33217	노코나급 제온 질문이요 (3)	방o효o문	2015-07	2937	0
노코나급 제온 질문이요 (3) 2015-07 2937 1 방o효o문
33216	레이드구성하는법에대해 소중한 지식부탁드립니다. (5)	람쥐라궁	2012-01	5535	0
레이드구성하는법에대해 소중한 지식부탁… (5) 2012-01 5535 1 람쥐라궁