gpu 병렬 처리 시 병목 현상 문의 드립니다.

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1789 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

369/5686

번호	제목Page 369/5686	글쓴이	날짜	조회	추천
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1521040	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1521040 1 백메가
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4985021	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4985021 1 정은준1
106358	[초보질문] SKT 제공 모뎀 교체해야 하는데 어떤걸 사야 하나요? (7)	전일장	02-29	1769	0
[초보질문] SKT 제공 모뎀 교체해야 하는… (7) 02-29 1769 1 전일장
106357	홈서버 만들때 얘를 써도 되나요? (7)	이매망량2	2022-10	1769	0
홈서버 만들때 얘를 써도 되나요? (7) 2022-10 1769 1 이매망량2
106356	무선공유기를 타사의 라우터에 붙여서 AP로 쓸 수 있을까요? (6)	goodcarrot	2022-10	1770	0
무선공유기를 타사의 라우터에 붙여서 AP… (6) 2022-10 1770 1 goodcarrot
106355	RAID5 구성에서 독립적으로 하드디스크를 추가로 증설할 수 있나요?> (13)	IT왕초보	2023-09	1770	0
RAID5 구성에서 독립적으로 하드디스크를 … (13) 2023-09 1770 1 IT왕초보
106354	시놀러지 RS822+ 에 들어가는 호환 되는 16GB 메모리 알려 주세요 (6)	한중일	04-26	1770	0
시놀러지 RS822+ 에 들어가는 호환 되는 … (6) 04-26 1770 1 한중일
106353	[질문을 가장한 구매]게시판에 올려야하는데.... 죄송합니다. (8)	김영기대전	2023-06	1770	0
[질문을 가장한 구매]게시판에 올려야하는… (8) 2023-06 1770 1 김영기대전
106352	[조이스틱] PC 게임패드 문의드립니다. (10)	Smile	2023-07	1770	0
[조이스틱] PC 게임패드 문의드립니다. (10) 2023-07 1770 1 Smile
106351	사내 공지사항 재생용 PC 사양 질문드립니다. (24)	choigo	2023-05	1770	0
사내 공지사항 재생용 PC 사양 질문드립니… (24) 2023-05 1770 1 choigo
106350	cpu e5-2687w v3 속도가 기본속도보다 낮아요 (13)	천마건빵	2023-03	1770	0
cpu e5-2687w v3 속도가 기본속도보다 낮… (13) 2023-03 1770 1 천마건빵
106349	tx100s3p 메인보드의 usb 핀 레이아웃 아시는 분 계십니까? (6)	김진영JK	2023-02	1770	0
tx100s3p 메인보드의 usb 핀 레이아웃 아… (6) 2023-02 1770 1 김진영JK
106348	dc to dc 질문드립니다. (6)	똑띠파파	2021-05	1771	0
dc to dc 질문드립니다. (6) 2021-05 1771 1 똑띠파파
106347	티비 화물 배송 문의드립니다 (5)	미수맨	2022-04	1771	0
티비 화물 배송 문의드립니다 (5) 2022-04 1771 1 미수맨
106346	SSD RAID0 .. 단일 SSD 보다 느린 것이 사실인가요? (1)	송주환	2023-09	1771	1
SSD RAID0 .. 단일 SSD 보다 느린 것이 … (1) 2023-09 1771 1 송주환
106345	우히히히, 랜섬이 나에게도...ㅎㅎ 밀어야 할까요? (7)	이창준	2023-06	1771	0
우히히히, 랜섬이 나에게도...ㅎㅎ 밀어야… (7) 2023-06 1771 1 이창준
106344	써멀패드 추천 부탁드립니다. (13)	미담	03-05	1771	0
써멀패드 추천 부탁드립니다. (13) 03-05 1771 1 미담
106343	D54250WYK에 사용가능한 쿨러 규격은 어떤게 있을까요~ (1)	김민철GC	2020-10	1771	0
D54250WYK에 사용가능한 쿨러 규격은 어떤… (1) 2020-10 1771 1 김민철GC
106342	SD 카드 복사기 오류? (14)	2CPU최주희	2022-04	1771	0
SD 카드 복사기 오류? (14) 2022-04 1771 1 2CPU최주희
106341	윈도우 비트락커 스마트 카드는 어떤걸 사용해야하나요? (11)	일론머스크	2022-04	1771	0
윈도우 비트락커 스마트 카드는 어떤걸 사… (11) 2022-04 1771 1 일론머스크
106340	네트워크카드 Long => Low Profile (17)	epowergate	2022-02	1772	0
네트워크카드 Long => Low Profile (17) 2022-02 1772 1 epowergate
106339	서버 모니터 주파수 초과 현상 관련 (7)	chotws	03-08	1772	0
서버 모니터 주파수 초과 현상 관련 (7) 03-08 1772 1 chotws