gpu 병렬 처리 시 병목 현상 문의 드립니다.

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1699 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

352/5679

번호	제목Page 352/5679	글쓴이	날짜	조회	추천
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1479237	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1479237 1 백메가
	[필독] 처음 오시는 분을 위한 안내 (726)	정은준1	2014-05	4942415	0
[필독] 처음 오시는 분을 위한 안내 (726) 2014-05 4942415 1 정은준1
106545	네이트 이메일 박스가 불안합니다.. (1)	박문형	2021-11	1696	0
네이트 이메일 박스가 불안합니다.. (1) 2021-11 1696 1 박문형
106544	ds-c9148-16p-k9 시스코 스위치 (도와주십쇼 선배님들 ㅠㅠ) (6)	it초보	2022-09	1696	0
ds-c9148-16p-k9 시스코 스위치 (도와주십… (6) 2022-09 1696 1 it초보
106543	배수관을뚫어서 세탁기물을내려가게할수있나요 (11)	pumkin	2023-03	1696	0
배수관을뚫어서 세탁기물을내려가게할수있… (11) 2023-03 1696 1 pumkin
106542	[초보질문] SKT 제공 모뎀 교체해야 하는데 어떤걸 사야 하나요? (7)	전일장	02-29	1696	0
[초보질문] SKT 제공 모뎀 교체해야 하는… (7) 02-29 1696 1 전일장
106541	서버메모리 mlcc 캐패시터 잔뜩떨어졌는데 수리가능할까요 (13)	쭝2짱	2023-11	1696	0
서버메모리 mlcc 캐패시터 잔뜩떨어졌는데… (13) 2023-11 1696 1 쭝2짱
106540	VGA 증상입니다. RAM 문제 일까요? (8)	다롱이	2023-08	1697	0
VGA 증상입니다. RAM 문제 일까요? (8) 2023-08 1697 1 다롱이
106539	USB 3.0 헤더 수리 비용 문의 (6)	원시인7	2022-05	1697	0
USB 3.0 헤더 수리 비용 문의 (6) 2022-05 1697 1 원시인7
106538	레이드 묶어 쓰던 하드.... (7)	catstyle	2021-02	1697	0
레이드 묶어 쓰던 하드.... (7) 2021-02 1697 1 catstyle
106537	공유기 통한 pc 인터넷 연결이 갑자기 안되네요 (8)	마비올라	2022-06	1697	0
공유기 통한 pc 인터넷 연결이 갑자기 안… (8) 2022-06 1697 1 마비올라
106536	나스 서버용 하드 저렴하게 살려면 어떻게 해야하나요? (13)	Elusive4245	2022-05	1697	0
나스 서버용 하드 저렴하게 살려면 어떻게… (13) 2022-05 1697 1 Elusive4245
106535	linux firewalld 정책 질문 드립니다. (7)	정창진	05-02	1697	0
linux firewalld 정책 질문 드립니다. (7) 05-02 1697 1 정창진
106534	윈도우10 공유폴더 액세스 불가.. (13)	그대	2021-11	1697	0
윈도우10 공유폴더 액세스 불가.. (13) 2021-11 1697 1 그대
106533	윈도우즈 북구 질문 드립니다 (6)	전진	2021-10	1697	0
윈도우즈 북구 질문 드립니다 (6) 2021-10 1697 1 전진
106532	한/영 변환이 안되게끔 락을 가는방법 없나요? (윈10) (11)	어훕	2023-03	1697	0
한/영 변환이 안되게끔 락을 가는방법 없… (11) 2023-03 1697 1 어훕
106531	HP Z Turbo Drive Quard 제품은 자체 Raid 가능이 있는가요? (12)	galaxyfamily	04-16	1697	0
HP Z Turbo Drive Quard 제품은 자체 Raid… (12) 04-16 1697 1 galaxyfamily
106530	미크로틱 hap ac3에 갤럭시 M12 가 연결되지 않습니다. (3)	대두강아지	2022-02	1697	0
미크로틱 hap ac3에 갤럭시 M12 가 연결되… (3) 2022-02 1697 1 대두강아지
106529	X9SRL-F 메인보드 메모리 질문 (2)	히우니	2021-11	1697	0
X9SRL-F 메인보드 메모리 질문 (2) 2021-11 1697 1 히우니
106528	서버 메모리 혼용에 관하여.. (8)	gusoong	2023-10	1698	0
서버 메모리 혼용에 관하여.. (8) 2023-10 1698 1 gusoong
106527	차량 보험처리 알려면어떻게해야되나요? (2)	행복하세	2023-04	1698	0
차량 보험처리 알려면어떻게해야되나요? (2) 2023-04 1698 1 행복하세
106526	5.25 베이 많은 케이스 추천 부탁드립니다 (10)	김훈1	01-21	1698	0
5.25 베이 많은 케이스 추천 부탁드립니다 (10) 01-21 1698 1 김훈1