gpu 병렬 처리 시 병목 현상 문의 드립니다.

가상화 more

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1815 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

79/5687

번호	제목Page 79/5687	글쓴이	날짜	조회	추천
	[필독] 처음 오시는 분을 위한 안내 (728)	정은준1	2014-05	4996721	0
[필독] 처음 오시는 분을 위한 안내 (728) 2014-05 4996721 1 정은준1
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1532643	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1532643 1 백메가
112175	MS Office 중 선택삭제가 가능한가요 ? (7)	화란	2022-07	1117	0
MS Office 중 선택삭제가 가능한가요 ? (7) 2022-07 1117 1 화란
112174	USB메모리의 특정 폴더에 암호걸 방법 없을까요? (1)	트니아빠	2022-07	1117	0
USB메모리의 특정 폴더에 암호걸 방법 없… (1) 2022-07 1117 1 트니아빠
112173	UPS 받침 SMTL2USF 어디서 구할수 있을까요? (3)	Frinc	05-25	1117	0
UPS 받침 SMTL2USF 어디서 구할수 있을까… (3) 05-25 1117 1 Frinc
112172	부하 테스트 (8)	화란	01-22	1117	0
부하 테스트 (8) 01-22 1117 1 화란
112171	방열판 재질 (8)	미담	03-05	1117	0
방열판 재질 (8) 03-05 1117 1 미담
112170	오토데스크 인벤터 11 문의드립니다 (4)	김태훈	2023-11	1117	0
오토데스크 인벤터 11 문의드립니다 (4) 2023-11 1117 1 김태훈
112169	주식 매매를 위한 IDC 는 어디회사가 좋은가요?> (12)	누리7	07-09	1118	0
주식 매매를 위한 IDC 는 어디회사가 좋은… (12) 07-09 1118 1 누리7
112168	게시판을 잘못 올렸습니다. 자삭합니다. 미안합니다. (2)	지니컴I영진	2023-03	1118	0
게시판을 잘못 올렸습니다. 자삭합니다. … (2) 2023-03 1118 1 지니컴I영진
112167	코로케이션과 DDOS 트래픽 관련 (3)	Synkc	01-30	1118	0
코로케이션과 DDOS 트래픽 관련 (3) 01-30 1118 1 Synkc
112166	Rr부트로더 (14)	Sakura24	07-21	1118	0
Rr부트로더 (14) 07-21 1118 1 Sakura24
112165	부품 문의 : AMD 라데온 HIS 7970 (1)	박문형	06-02	1118	0
부품 문의 : AMD 라데온 HIS 7970 (1) 06-02 1118 1 박문형
112164	잘부탁드려요 (4)	Hahao	2022-07	1119	0
잘부탁드려요 (4) 2022-07 1119 1 Hahao
112163	PoE랜카드 질문.. (10)	브라운콧	01-09	1119	0
PoE랜카드 질문.. (10) 01-09 1119 1 브라운콧
112162	Intel Graphics Driver 버그 신고 어디해야 하나요? (14)	dateno1	03-11	1119	0
Intel Graphics Driver 버그 신고 어디해… (14) 03-11 1119 1 dateno1
112161	Windows Tablet 추천 받습니다	dateno1	2023-07	1119	0
Windows Tablet 추천 받습니다 2023-07 1119 1 dateno1
112160	14~15.6인치 액정 반사판은 어디서 구매하시나요??? (9)	호박고구마	2023-03	1119	0
14~15.6인치 액정 반사판은 어디서 구매하… (9) 2023-03 1119 1 호박고구마
112159	여러 선배님들중에 LED 디스플레이 모듈쪽 아시는 선배님들 계실까요. (8)	다이어트중	2022-11	1119	0
여러 선배님들중에 LED 디스플레이 모듈쪽… (8) 2022-11 1119 1 다이어트중
112158	윈도우 서버 계정을 그대로 다른 서버로 옮길 수 있나요?? (2)	프랑	2023-01	1119	0
윈도우 서버 계정을 그대로 다른 서버로 … (2) 2023-01 1119 1 프랑
112157	자유게시판 글쓰기 오류 (5)	maronet	2023-10	1119	0
자유게시판 글쓰기 오류 (5) 2023-10 1119 1 maronet
112156	중고 서버에 대해 고민입니다. (8)	풍신권	08-12	1119	0
중고 서버에 대해 고민입니다. (8) 08-12 1119 1 풍신권