H100 80GB 2개 병렬로 사용시 처리 속도 저항 :: 2cpu, 지름이 시작되는 곳!

UnBoxing more

쓰기

H100 80GB 2개 병렬로 사용시 처리 속도 저항

한중일

06-11

2024-06-11 08:46:28

조회 1893 추천 0

안녕하세요

아래 내용 해결을 위해서, 비용을 지불하려고 합니다.

문제 해결이 가능한 분은 연락 주시기 바랍니다.

01*-****-****

대략적인 내용을 설명 드리자면,

HPE DL380aG11 (2U장비임에도 GPU 4EA 까지 장착 가능) H100 80GB 2EA를 장착 하였습니다.

한개 씩 돌리면 성능이 잘 나오고 있으나 두 개를 동시에 돌리면 처리 속도가 매우 느립니다.

고객이 하드웨어를 의심해서 DL380aG11 이외에 다른 DL380G11 , ASUS 4세대 CPU 서버에서 테스트를 하였으나, 결과는 모두 동일 합니다.

GPU 장애는 아닙니다. 저희가 GPU 서버를 많이 납품 하였습니다. 보통 GPU를 사용 하는 고객측에서 소프트웨어에서 수정 해주어서 문제를 해결 하는데...

일단 브릿지로 연결해서 테스트 해보려는데, 결과는 좋지 않을거 같습니다.

그동안 테스트 내용 아래 정리해서 알려 드리니, 해결이 가능할거 같은신분은 연락 주시기 바랍니다.

1. OS : Ubuntu 22.04.2
2. CUDA Version : 12. 2
3. H100 Drive Version : 535.129.03
4. 사용중인 프로그램 : Python 3.11.X
5. 처리 속도 H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초
비교군 GPU A100 80G
A100 80G * 2EA
Llama-3-70B 처리 시간 : 2.7초
A100 80G * 1EA
Llama-3-8B 처리 시간 : 1.2초
한 개를 돌렸을때는 H100 GPU가 A100 GPU 보다 2배가 빠른데
2장을 같이 돌렸을 때는 A100 GPU는 2.7초 이고 H100 GPU는 2.4초가 나오고 있습니다.

테스트 한 코드는 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

model_id,

torch_dtype=torch.bfloat16,

device_map="auto",

#device_map="balanced_low_0",

trust_remote_code=True,

attn_implementation="flash_attention_2",

low_cpu_mem_usage=True

#max_memory=max_memory_mapping

).eval()

terminators = [

tokenizer.eos_token_id,

tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

messages = [

#{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

{"role": "system", "content": "Please try to provide useful, helpful answers."},

{"role": "user", "content": question},

]

input_ids = tokenizer.apply_chat_template(

messages,

add_generation_prompt=True,

return_tensors="pt"

).to(model.device, non_blocking=True)

outputs = model.generate(

input_ids,

max_new_tokens=1024,

eos_token_id=terminators,

do_sample=True,

temperature=0.05,

top_p=0.95,

)

response = outputs[0][input_ids.shape[-1]:]

#print(tokenizer.decode(response, skip_special_tokens=True))

return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

start_time = time.time()

#tmp = chat('hello.')

tmp = chat('hello!')

#tmp = chat('Testing. Please answer in 10,000 characters.')

end_time = time.time()

print((end_time - start_time))

response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



술이 06-11 같은 CPU 레인에 꼽아서 8배속으로 쪼개진게 아닐까 생각드는데... 각각 CPU가 배정된 익스프레스 슬롯에 장착한건지가 관건일거 같아요. 같은 CPU 레인에 꼽아서 8배속으로 쪼개진게 아닐까 생각드는데... 각각 CPU가 배정된 익스프레스 슬롯에 장착한건지가 관건일거 같아요.



트니아빠 06-11 위의 코드를 테스트 할 수 있는 환경이 아니고, 딥러닝에서 손 땐지 오래되어서 그냥 느낌으로 봤습니다. 제 경험에 몇몇 파라미터 설정을 변경하는 것을 주석처리 여부로만 할 경우 실수하는 경우가 많았습니다. for 문으로 돌리면 이전 변수값이 남아 있어 오류가 나는 경우도 많구요. 위의 코드도 보면 device_map과 max_memory 부분이 주석 처리를 변경하면서 테스트하는 것으로 보입니다. 다양한 조건에서 초단위로 성능을 평가해야 하는 상황이라면, 해당 설정 부분만 정확하게 수정한 파일 4개를 만들어서 확인해 보는 것이 좋을 것 같습니다. 대부분 결과가 3초 이내에 나오면 nvidia-smi 등으로 GPU 상태를 볼 때에 시간이 너무 짧기 때문에 더 긴 시간 동안 테스트 할 수 있도록 하는 것이 좋을 것 같습니다. 위의 코드를 테스트 할 수 있는 환경이 아니고, 딥러닝에서 손 땐지 오래되어서 그냥 느낌으로 봤습니다. 제 경험에 몇몇 파라미터 설정을 변경하는 것을 주석처리 여부로만 할 경우 실수하는 경우가 많았습니다. for 문으로 돌리면 이전 변수값이 남아 있어 오류가 나는 경우도 많구요. 위의 코드도 보면 device_map과 max_memory 부분이 주석 처리를 변경하면서 테스트하는 것으로 보입니다. 다양한 조건에서 초단위로 성능을 평가해야 하는 상황이라면, 해당 설정 부분만 정확하게 수정한 파일 4개를 만들어서 확인해 보는 것이 좋을 것 같습니다. 대부분 결과가 3초 이내에 나오면 nvidia-smi 등으로 GPU 상태를 볼 때에 시간이 너무 짧기 때문에 더 긴 시간 동안 테스트 할 수 있도록 하는 것이 좋을 것 같습니다.



검은콩 06-12 Vllm 테스트해보시죠 Vllm 테스트해보시죠

로그인 하시면 댓글을 남길 수 있습니다

쓰기

QnA

쓰기

5264/5686

번호	제목Page 5264/5686	글쓴이	날짜	조회	추천
	[필독] 처음 오시는 분을 위한 안내 (727)	정은준1	2014-05	4978562	0
[필독] 처음 오시는 분을 위한 안내 (727) 2014-05 4978562 1 정은준1
	(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (228)	백메가	2015-12	1514691	25
(광고) 단통법 시대의 인터넷가입 가이드(… (228) 2015-12 1514691 1 백메가
8450	어떻게 해야할까요 (6)	이나윤1996	2021-06	1893	0
어떻게 해야할까요 (6) 2021-06 1893 1 이나윤1996
8449	서비스 실행 스크립트 예제좀 부탁드립니다. (MariaDB)	구십평	2020-05	1893	0
서비스 실행 스크립트 예제좀 부탁드립니… 2020-05 1893 1 구십평
8448	윈도우 서버 2012 폴더공유 권한 부분 질문드립니다. (11)	엄청난x	2022-10	1893	0
윈도우 서버 2012 폴더공유 권한 부분 질… (11) 2022-10 1893 1 엄청난x
8447	HCI 진행 시 Window Server 라이선스 질문 (4)	DualPort	2023-01	1893	0
HCI 진행 시 Window Server 라이선스 질문 (4) 2023-01 1893 1 DualPort
8446	dell poweredge 서버에 라이센스가 필요한가요? (5)	sdlfkjwer	2022-04	1893	0
dell poweredge 서버에 라이센스가 필요한… (5) 2022-04 1893 1 sdlfkjwer
8445	요즘도 바이두 클라우드 토렌트 파일 한번에 받기 되나요? (4)	Sikieiki	2021-12	1892	0
요즘도 바이두 클라우드 토렌트 파일 한번… (4) 2021-12 1892 1 Sikieiki
8444	SATA 2.5인치 SSD 2TB를 사려고 합니다. :-) (6)	포스타	2023-03	1892	0
SATA 2.5인치 SSD 2TB를 사려고 합니다. :… (6) 2023-03 1892 1 포스타
8443	공기청정기와 호흡질환은 관련이 있을까요? (5)	김영기	2021-05	1892	0
공기청정기와 호흡질환은 관련이 있을까요? (5) 2021-05 1892 1 김영기
8442	10G SFP+ AOC Cable 옥외 노출 시 내구성 관련 질문 (10)	한효석	2023-03	1892	0
10G SFP+ AOC Cable 옥외 노출 시 내구성 … (10) 2023-03 1892 1 한효석
8441	이 안경 쓸만할까요?? (1)	행복한제주…	2020-06	1892	0
이 안경 쓸만할까요?? (1) 2020-06 1892 1 행복한제주…
8440	R730xd 서버 부팅오류 질문입니다! (3)	도유	2023-06	1892	0
R730xd 서버 부팅오류 질문입니다! (3) 2023-06 1892 1 도유
8439	otg메모리랑 otg젠더랑 다른건가요? (11)	고양시	2021-11	1892	0
otg메모리랑 otg젠더랑 다른건가요? (11) 2021-11 1892 1 고양시
8438	Z11PR-D16보드에서 중간에 비어 있는 부분은 왜 비어있는 건가요? (6)	이매망량2	2023-05	1892	0
Z11PR-D16보드에서 중간에 비어 있는 부분… (6) 2023-05 1892 1 이매망량2
8437	Putty 사용자 고수님들, 제 고민에 답을 주시기를 바랍니다. (4)	kochung	2022-09	1892	0
Putty 사용자 고수님들, 제 고민에 답을 … (4) 2022-09 1892 1 kochung
8436	서버를 운영하는 전반적인 틀을 여쭤보고 싶습니다. (18)	startserver	2021-12	1892	0
서버를 운영하는 전반적인 틀을 여쭤보고 … (18) 2021-12 1892 1 startserver
8435	CH341A 롬 라이터로 . . 않 지워지는 이유를 . . . 회원님 도와 주세요 (5)	hdsniper	2022-05	1892	0
CH341A 롬 라이터로 . . 않 지워지는 이… (5) 2022-05 1892 1 hdsniper
8434	HP DL360 Gen9 서버에 windows os 2008 설치시 레드스크린 (14)	요를레이	2023-01	1891	0
HP DL360 Gen9 서버에 windows os 2008 설… (14) 2023-01 1891 1 요를레이
8433	레노보 C30 쿨러 관련 문의드립니다. (8)	gowork	2021-05	1891	0
레노보 C30 쿨러 관련 문의드립니다. (8) 2021-05 1891 1 gowork
8432	태블릿 USB(OTG)외부입력으로 서버VGA콘솔 보시는분 있으세요? (3)	홀릭0o0	2023-08	1891	0
태블릿 USB(OTG)외부입력으로 서버VGA콘솔… (3) 2023-08 1891 1 홀릭0o0
8431	areca 1880 raid controller 부팅 인식.. 도와주세요	박문형	2021-06	1891	0
areca 1880 raid controller 부팅 인식.. … 2021-06 1891 1 박문형