gpu 병렬 처리 시 병목 현상 문의 드립니다.

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

2024-06

2024-06-04 11:44:31

조회 3369 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 2024-06 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 2024-06 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 2024-06 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 2024-06 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

5584/5752

번호	제목Page 5584/5752	글쓴이	날짜	조회	추천
	[필독] 처음 오시는 분을 위한 안내 (738)	정은준1	2014-05	5378574	0
[필독] 처음 오시는 분을 위한 안내 (738) 2014-05 5378574 1 정은준1
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (234)	백메가	2015-12	1892760	25
(광고) 단통법 시대의 인터넷가입 가이드(… (234) 2015-12 1892760 1 백메가
3367	ICY DOCK 뒷면 전원단자 같은.... (8)	미담	2023-05	1963	0
ICY DOCK 뒷면 전원단자 같은.... (8) 2023-05 1963 1 미담
3366	윈도우 서버 저장소 공간, 풀의 크기를 512byte로 지정해 주는 팁 관련 질문 (23)	아마데우쓰	2024-08	1963	0
윈도우 서버 저장소 공간, 풀의 크기를 51… (23) 2024-08 1963 1 아마데우쓰
3365	유튜브 가입 (6)	미담	2024-01	1963	0
유튜브 가입 (6) 2024-01 1963 1 미담
3364	우분투 VPS에 OpenVPN 설치 후 포트 개방 (4)	Ysch	2022-08	1963	0
우분투 VPS에 OpenVPN 설치 후 포트 개방 (4) 2022-08 1963 1 Ysch
3363	이렇게 생긴 터치펜 구할수 있을까요	ocarina	2022-05	1963	0
이렇게 생긴 터치펜 구할수 있을까요 2022-05 1963 1 ocarina
3362	글 추천은 어떻게 하나요? (5)	펩시는콜라가아니다	2021-06	1962	1
글 추천은 어떻게 하나요? (5) 2021-06 1962 1 펩시는콜라가아니다
3361	epson 팩스 드라이버 설치 (3)	삐돌이슬픔이	2023-02	1962	0
epson 팩스 드라이버 설치 (3) 2023-02 1962 1 삐돌이슬픔이
3360	dns 설정 안 했는데 계속 쿼리 날리는 현상..	icalux93	2023-01	1962	0
dns 설정 안 했는데 계속 쿼리 날리는 현… 2023-01 1962 1 icalux93
3359	일기를 써 보고 싶습니다! (8)	쓰레기단장	2023-04	1962	0
일기를 써 보고 싶습니다! (8) 2023-04 1962 1 쓰레기단장
3358	상속세 신고 (7)	epowergate	2022-10	1961	0
상속세 신고 (7) 2022-10 1961 1 epowergate
3357	영상 파일이 재생이 되는지 일괄 확인해주는 프로그램같은게 있을까요? (8)	어훕	2024-02	1961	0
영상 파일이 재생이 되는지 일괄 확인해주… (8) 2024-02 1961 1 어훕
3356	MF2 방화벽 관련해서... (2)	EYESSHOT	2022-09	1961	0
MF2 방화벽 관련해서... (2) 2022-09 1961 1 EYESSHOT
3355	CPU 사용량이 100%라고 다 같은 것은 아닌 지에 대한 질문 (24)	풀로드시스템	2024-12	1961	0
CPU 사용량이 100%라고 다 같은 것은 아닌… (24) 2024-12 1961 1 풀로드시스템
3354	ubuntu 메모리 증가 현상 관련 (1)	L2스위치	2022-12	1960	0
ubuntu 메모리 증가 현상 관련 (1) 2022-12 1960 1 L2스위치
3353	용접 구조 잘 알고 계시는 분 혹시 봐주세요 (10)	신은왜	2023-06	1960	0
용접 구조 잘 알고 계시는 분 혹시 봐주세요 (10) 2023-06 1960 1 신은왜
3352	바이마르 블라스트 무선 에어건 충전 문제로 AS를 보내려고 하는데요 (3)	범이님	2022-09	1960	0
바이마르 블라스트 무선 에어건 충전 문제… (3) 2022-09 1960 1 범이님
3351	삼성페이 질문.... (18)	송지만	2024-02	1960	0
삼성페이 질문.... (18) 2024-02 1960 1 송지만
3350	시놀러지, 포토스테이션. 로그인 없이 사진을 볼 수 있게 할 수 없는지요??	황재광	2024-06	1960	0
시놀러지, 포토스테이션. 로그인 없이 사… 2024-06 1960 1 황재광
3349	리튬건전지 AA (8)	여해i이상복	2022-09	1960	0
리튬건전지 AA (8) 2022-09 1960 1 여해i이상복
3348	PFCB 검사하는 현미경 40배줌 혹시 (2)	신은왜	2021-05	1960	0
PFCB 검사하는 현미경 40배줌 혹시 (2) 2021-05 1960 1 신은왜