gpu 병렬 처리 시 병목 현상 문의 드립니다.

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

2024-06

2024-06-04 11:44:31

조회 3371 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 2024-06 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 2024-06 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 2024-06 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 2024-06 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

153/5752

번호	제목Page 153/5752	글쓴이	날짜	조회	추천
	[필독] 처음 오시는 분을 위한 안내 (738)	정은준1	2014-05	5378735	0
[필독] 처음 오시는 분을 위한 안내 (738) 2014-05 5378735 1 정은준1
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (234)	백메가	2015-12	1892972	25
(광고) 단통법 시대의 인터넷가입 가이드(… (234) 2015-12 1892972 1 백메가
111987	[re] js-1500 케이스 질문입니다. (1)	한명수	2002-07	15292	31
[re] js-1500 케이스 질문입니다. (1) 2002-07 15292 1 한명수
111986	M5000 시리즈 Performance Accelerator Key (1)	AKA지니	2013-10	15292	0
M5000 시리즈 Performance Accelerator Key (1) 2013-10 15292 1 AKA지니
111985	아답텍 정품 LVD 스카시케이블은? (4)	한창수	2002-07	15292	16
아답텍 정품 LVD 스카시케이블은? (4) 2002-07 15292 1 한창수
111984	[질문] bios에서는 듀얼로 잡히는데,2000으로 들어가면... (13)	정래진	2002-06	15291	8
[질문] bios에서는 듀얼로 잡히는데,2000… (13) 2002-06 15291 1 정래진
111983	pc전원관련 문의드립니다. (1)	임종열	2013-04	15290	0
pc전원관련 문의드립니다. (1) 2013-04 15290 1 임종열
111982	30M 길이의 랜선을 옥외에포설하려고 합니다. (27)	정의석	2018-03	15290	0
30M 길이의 랜선을 옥외에포설하려고 합니… (27) 2018-03 15290 1 정의석
111981	ip camera 질문 (아래 무답) (21)	나파이강승훈	2014-12	15288	0
ip camera 질문 (아래 무답) (21) 2014-12 15288 1 나파이강승훈
111980	아답텍 29160 사용에 문제가 있어요~~ (3)	임진욱	2002-06	15286	10
아답텍 29160 사용에 문제가 있어요~~ (3) 2002-06 15286 1 임진욱
111979	골동품 컴에서 부팅 가능한 IDE 레이드 카드는 없는지 ????????? (3)	김현민	2002-06	15285	11
골동품 컴에서 부팅 가능한 IDE 레이드 카… (3) 2002-06 15285 1 김현민
111978	버니어캘리퍼 저가형 괜찮을까요? (11)	장동건2014	2014-10	15284	0
버니어캘리퍼 저가형 괜찮을까요? (11) 2014-10 15284 1 장동건2014
111977	오디오 볼륨 수리? 교체? (9)	MikroTik이진	2014-07	15282	0
오디오 볼륨 수리? 교체? (9) 2014-07 15282 1 MikroTik이진
111976	[질문] 윈도우7 익스플로러9 에서 상단 아이콘 크기조절 어디에서 하나요? (2)	박석호	2011-06	15279	0
[질문] 윈도우7 익스플로러9 에서 상단 … (2) 2011-06 15279 1 박석호
111975	레이드 0을 구성... (6)	고대준	2002-06	15277	16
레이드 0을 구성... (6) 2002-06 15277 1 고대준
111974	인텔 듀얼 지온 파는 곳 알려주세요 (2)	김현민	2002-07	15275	11
인텔 듀얼 지온 파는 곳 알려주세요 (2) 2002-07 15275 1 김현민
111973	갤럭시 업데이트후 PC 랑 연결하면 계속 충전모드만 뜹니다. (12)	정은준1	2023-05	15274	0
갤럭시 업데이트후 PC 랑 연결하면 계속 … (12) 2023-05 15274 1 정은준1
111972	ESXI에서 SSH접속하여 파티션 날리는 방법 부탁드립니다. (7)	악땅	2013-11	15274	0
ESXI에서 SSH접속하여 파티션 날리는 방법… (7) 2013-11 15274 1 악땅
111971	\'elsa 홈페이지 주소\' 아시는 분~~~~~ (2)	박필화	2002-06	15273	22
\'elsa 홈페이지 주소\' 아시는… (2) 2002-06 15273 1 박필화
111970	공냉쿨러 / 수냉쿨러 어떤게 좋을까요? (7)	은우마스터	2016-07	15272	0
공냉쿨러 / 수냉쿨러 어떤게 좋을까요? (7) 2016-07 15272 1 은우마스터
111969	재 부팅 시 윈도우 로고 에서 멈춤 현상 (19)	백만스물하나	2020-09	15269	1
재 부팅 시 윈도우 로고 에서 멈춤 현상 (19) 2020-09 15269 1 백만스물하나
111968	기가인터넷 설치했는데, 랜선을 둘로 갈라 놨습니다. 어떻게 해야 할까요? (29)	네오네모	2017-03	15269	1
기가인터넷 설치했는데, 랜선을 둘로 갈라… (29) 2017-03 15269 1 네오네모