gpu 병렬 처리 시 병목 현상 문의 드립니다.

PDS more

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1798 추천 0

딥러능 GPU 관련 문의 사항이 있어 메일 보내 드립니다.

장비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라이브 버전은 535.129.03 / CUDA Version : 12.2 버전에서 CUDA Tool kit을 이용하여 업데이트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

380/5686

번호	제목Page 380/5686	글쓴이	날짜	조회	추천
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1524164	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1524164 1 백메가
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4988157	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4988157 1 정은준1
106140	헤놀로지 시스템을 구성하고 동시에 송출컴으로 사용 가능한가요...? (11)	sprppr	2022-11	1799	0
헤놀로지 시스템을 구성하고 동시에 송출… (11) 2022-11 1799 1 sprppr
106139	새롭게 마운트되는 드라이브 문자를 자동으로 교체할수있는 방법이 있을까요? (3)	U3164	2020-08	1799	0
새롭게 마운트되는 드라이브 문자를 자동… (3) 2020-08 1799 1 U3164
106138	gpu 병렬 처리 시 병목 현상 문의 드립니다. (4)	한중일	06-04	1799	0
gpu 병렬 처리 시 병목 현상 문의 드립니… (4) 06-04 1799 1 한중일
106137	satadom 전원공급을 sata 단자에서 해결 가능한가요? (3)	겨울나무	2021-08	1799	0
satadom 전원공급을 sata 단자에서 해결 … (3) 2021-08 1799 1 겨울나무
106136	왜? (5)	미담	2023-07	1799	0
왜? (5) 2023-07 1799 1 미담
106135	[펌] 크하하 천근추 !!! (2)	삐돌이슬픔이	2022-03	1799	0
[펌] 크하하 천근추 !!! (2) 2022-03 1799 1 삐돌이슬픔이
106134	CISCO C2960L 스위치 관련 질문입니다 (2)	아침뱃살	2022-02	1799	0
CISCO C2960L 스위치 관련 질문입니다 (2) 2022-02 1799 1 아침뱃살
106133	openVPN 문제 (1)	양시열	2021-11	1800	0
openVPN 문제 (1) 2021-11 1800 1 양시열
106132	윈도우 11 질문... (2)	catstyle	2021-10	1800	0
윈도우 11 질문... (2) 2021-10 1800 1 catstyle
106131	어께 팔 너무 아프고.. 몸살 날 것 같은데.... 좋은 방법 없나요.. (1)	제온프로	2020-01	1800	0
어께 팔 너무 아프고.. 몸살 날 것 같은데… (1) 2020-01 1800 1 제온프로
106130	아레카 패스워드 초기화 질문 (9)	ArtsRommel	2021-11	1800	0
아레카 패스워드 초기화 질문 (9) 2021-11 1800 1 ArtsRommel
106129	바이오스 업데이트 할려고 하는데, 한번에 올려도 문제 없나요? (3)	pwater	2023-12	1800	0
바이오스 업데이트 할려고 하는데, 한번에… (3) 2023-12 1800 1 pwater
106128	하드디스크를 관리하는 노하우를 알고싶습니다=백업+색인db등 (10)	스무프	2023-04	1800	0
하드디스크를 관리하는 노하우를 알고싶습… (10) 2023-04 1800 1 스무프
106127	스위치에 2개의 공유기가 동시에 연결되면 어떤일이 발생할까요? (13)	리오	02-15	1800	0
스위치에 2개의 공유기가 동시에 연결되면… (13) 02-15 1800 1 리오
106126	서버 마이그레이션 (Raid) 질문 드립니다.. (7)	방뭉밍봉	2023-07	1800	0
서버 마이그레이션 (Raid) 질문 드립니다.. (7) 2023-07 1800 1 방뭉밍봉
106125	스마트 수도 계량기를 읽을 수 있을까요? (5)	배상0원	2021-11	1800	0
스마트 수도 계량기를 읽을 수 있을까요? (5) 2021-11 1800 1 배상0원
106124	안녕하세요! 서버초보가 레이드 구성에 대해 질문 드립니다! (9)	서버공부하…	2023-10	1800	0
안녕하세요! 서버초보가 레이드 구성에 대… (9) 2023-10 1800 1 서버공부하…
106123	윈10원격데스크톱 접속불가 문제 (이사 및 인터넷변경) (9)	MWWM	2023-06	1801	0
윈10원격데스크톱 접속불가 문제 (이사 및… (9) 2023-06 1801 1 MWWM
106122	DB서버가 active/staby 구조인데 raw다바이스 확인 관련 질문입니다. (2)	일리케	2023-06	1801	0
DB서버가 active/staby 구조인데 raw다바… (2) 2023-06 1801 1 일리케
106121	정말 죄송하지만 autocad 2016 설치본 가지고 계신분있으시면 링크 부탁드립니다. (7)	김동혁1	2022-09	1801	0
정말 죄송하지만 autocad 2016 설치본 가… (7) 2022-09 1801 1 김동혁1