gpu 병렬 처리 시 병목 현상 문의 드립니다.

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1790 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

4023/5686

번호	제목Page 4023/5686	글쓴이	날짜	조회	추천
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1521098	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1521098 1 백메가
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4985077	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4985077 1 정은준1
33278	LCD 모니터를 바나나파이에 연결하기 (4)	나파이강승훈	2015-04	4302	0
LCD 모니터를 바나나파이에 연결하기 (4) 2015-04 4302 1 나파이강승훈
33277	SSD NETAPP 질문입니다. (7)	술이	2021-01	2777	0
SSD NETAPP 질문입니다. (7) 2021-01 2777 1 술이
33276	익스플로러 오류에 대한문의 (5)	김승권	2013-12	4220	0
익스플로러 오류에 대한문의 (5) 2013-12 4220 1 김승권
33275	x58a-ud3r ex58-ud3r 바이오스 (3)	윈98	2015-04	4069	0
x58a-ud3r ex58-ud3r 바이오스 (3) 2015-04 4069 1 윈98
33274	공인중개사 사무실에서 쓸 컴 문의드립니다. (21)	twopaik	2018-09	3372	0
공인중개사 사무실에서 쓸 컴 문의드립니… (21) 2018-09 3372 1 twopaik
33273	[QS CPU 문의] (6)	마스코트	2022-08	1290	0
[QS CPU 문의] (6) 2022-08 1290 1 마스코트
33272	FLAC 파일 포터블 스피커 재생? (3)	앤드유저	2022-08	1395	0
FLAC 파일 포터블 스피커 재생? (3) 2022-08 1395 1 앤드유저
33271	(1)전원분배케이블(Y케이블)이 제대로 안되는것인지 4핀전원이 제대로 안되는것인지.… (7)	김건우	2018-09	3640	0
(1)전원분배케이블(Y케이블)이 제대로 안… (7) 2018-09 3640 1 김건우
33270	(2.5인치하드용) 외장하드케이스의 나사...별도로 구할수있을까요?	김건우	2011-08	6993	0
(2.5인치하드용) 외장하드케이스의 나사..… 2011-08 6993 1 김건우
33269	이베이에서 주문 관세 문의 드립니다. (5)	monan	2013-12	7655	0
이베이에서 주문 관세 문의 드립니다. (5) 2013-12 7655 1 monan
33268	MariaDB 버전 (3)	이지포토	2021-02	2445	0
MariaDB 버전 (3) 2021-02 2445 1 이지포토
33267	HP 마이크로 Gen8 iLO에 관련하여. (2)	테돌아이	2015-05	3350	0
HP 마이크로 Gen8 iLO에 관련하여. (2) 2015-05 3350 1 테돌아이
33266	p5k e5472 질문드립니다. (6)	eunrabuny	2016-06	5802	0
p5k e5472 질문드립니다. (6) 2016-06 5802 1 eunrabuny
33265	(링크+사진추가)라이저 카드라는게 뭔가요..?? 장터 구경하다가.. 라이저 카드가 없… (8)	쁘삐	2015-05	11225	0
(링크+사진추가)라이저 카드라는게 뭔가요… (8) 2015-05 11225 1 쁘삐
33264	XP 시스템 하드웨어 맛가면?? 어떻게들 하시나요 (10)	페선생	2018-09	3239	0
XP 시스템 하드웨어 맛가면?? 어떻게들 하… (10) 2018-09 3239 1 페선생
33263	2cpu 보드.. 초 미스테리입니다 크흑 (1)	김영기대전	2014-01	4040	0
2cpu 보드.. 초 미스테리입니다 크흑 (1) 2014-01 4040 1 김영기대전
33262	신생 가상화폐 코인의 전망을 어떻게 알 수 있을까요? (6)	황재광	2017-06	4514	0
신생 가상화폐 코인의 전망을 어떻게 알 … (6) 2017-06 4514 1 황재광
33261	WD 외장하드 적출 관련 질문 있습니다. (4)	동행큐브	2018-09	5739	0
WD 외장하드 적출 관련 질문 있습니다. (4) 2018-09 5739 1 동행큐브
33260	AMD 그래픽카드 - 드라이버 설치 후,재시작 직전 꼭 나오는 상황 (5)	김건우	2018-09	5707	0
AMD 그래픽카드 - 드라이버 설치 후,재시… (5) 2018-09 5707 1 김건우
33259	트위터로 어떻게 마케팅이 가능한가요? (3)	병맛폰	2014-01	4128	0
트위터로 어떻게 마케팅이 가능한가요? (3) 2014-01 4128 1 병맛폰