gpu 병렬 처리 시 병목 현상 문의 드립니다.

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1757 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

368/5685

번호	제목Page 368/5685	글쓴이	날짜	조회	추천
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1503836	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1503836 1 백메가
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4967467	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4967467 1 정은준1
106358	LED 안정기, 컨버터, 드라이버 질문드립니다. (5)	머리감자	2021-11	1754	0
LED 안정기, 컨버터, 드라이버 질문드립니… (5) 2021-11 1754 1 머리감자
106357	18 t 하드 디스크 용량 인식 질문 입니다 (6)	휴식처	2023-05	1754	0
18 t 하드 디스크 용량 인식 질문 입니다 (6) 2023-05 1754 1 휴식처
106356	adaptec 71605 는 esxi 7.0에서 지원 안되나요? (3)	미수맨	2022-08	1754	0
adaptec 71605 는 esxi 7.0에서 지원 안되… (3) 2022-08 1754 1 미수맨
106355	케이스 내부 전원연장선? 찾아봅니다 (3)	사랑하라	2023-01	1755	0
케이스 내부 전원연장선? 찾아봅니다 (3) 2023-01 1755 1 사랑하라
106354	큐냅 나스는 어떤가요? (6)	osthek83	2022-11	1755	0
큐냅 나스는 어떤가요? (6) 2022-11 1755 1 osthek83
106353	hp z420 전원투입시 소리 (6)	백룡	2022-08	1755	0
hp z420 전원투입시 소리 (6) 2022-08 1755 1 백룡
106352	노트북에서 디슨플레이 문제 (2)	최시영	2023-07	1755	0
노트북에서 디슨플레이 문제 (2) 2023-07 1755 1 최시영
106351	리눅스(우분투) 잘 아시는 분들.. 여쭤볼게 있습니다. (3)	dukez73	05-05	1755	0
리눅스(우분투) 잘 아시는 분들.. 여쭤볼… (3) 05-05 1755 1 dukez73
106350	RAID5 구성에서 독립적으로 하드디스크를 추가로 증설할 수 있나요?> (13)	IT왕초보	2023-09	1755	0
RAID5 구성에서 독립적으로 하드디스크를 … (13) 2023-09 1755 1 IT왕초보
106349	서버 기초지식 (7)	DB뉴비	2022-01	1755	0
서버 기초지식 (7) 2022-01 1755 1 DB뉴비
106348	Vmware 에서 애플 OS 돌리는 것은 여전히 문제가 많습니까? (28)	나우마크	2023-02	1755	0
Vmware 에서 애플 OS 돌리는 것은 여전히 … (28) 2023-02 1755 1 나우마크
106347	브라우저로 유튜브나 팟플레이어 동영상 재생시 가끔 검은 화면으로 리셋 돼는데..vg… (3)	이영규	2023-09	1755	0
브라우저로 유튜브나 팟플레이어 동영상 … (3) 2023-09 1755 1 이영규
106346	삼성복합기 무선네트워크 끊어짐? (4)	르랏	2023-02	1755	0
삼성복합기 무선네트워크 끊어짐? (4) 2023-02 1755 1 르랏
106345	고수분들께 DNS 관련 질문드립니다.ㅠㅠ (12)	티보리13	03-08	1756	0
고수분들께 DNS 관련 질문드립니다.ㅠㅠ (12) 03-08 1756 1 티보리13
106344	서울, 경기남부 곱창 많이 넣어주는 순대국 추천좀 부탁드립니다. (10)	겨울나무	2021-10	1756	0
서울, 경기남부 곱창 많이 넣어주는 순대… (10) 2021-10 1756 1 겨울나무
106343	리눅스에 PPTP VPN설치 오류.... (7)	라이카	2023-01	1756	1
리눅스에 PPTP VPN설치 오류.... (7) 2023-01 1756 1 라이카
106342	작년 소득이 많지 않아서 간편 장부 작성하면 세금을 감면 받을 수 있나요? (7)	신은왜	2022-05	1756	0
작년 소득이 많지 않아서 간편 장부 작성… (7) 2022-05 1756 1 신은왜
106341	서버납품용으로 들어가는 rtx3080 블로워방식 글카 팬 질문입니다 (1)	DOSS	2023-01	1756	0
서버납품용으로 들어가는 rtx3080 블로워… (1) 2023-01 1756 1 DOSS
106340	좋은 컴퓨터를 가진 사용자님들은 뭘 하시나요? (19)	소이치로	07-21	1756	0
좋은 컴퓨터를 가진 사용자님들은 뭘 하시… (19) 07-21 1756 1 소이치로
106339	tx100s3p 메인보드의 usb 핀 레이아웃 아시는 분 계십니까? (6)	김진영JK	2023-02	1756	0
tx100s3p 메인보드의 usb 핀 레이아웃 아… (6) 2023-02 1756 1 김진영JK