H100 80GB 2개 병렬로 사용시 처리 속도 저항 :: 2cpu, 지름이 시작되는 곳!

검색 목록

쓰기

H100 80GB 2개 병렬로 사용시 처리 속도 저항

한중일

06-11

2024-06-11 08:46:28

조회 619 추천 0

안녕Ȣ16;세요

아래 내용 해결1012; 위해서, 비용1012; 1648;불Ȣ16;/140;고 합니다.

문1228; 해결1060; 가능한 ǥ16;1008;  연락 1452;시기 0148;랍니다.

01*-****-****

대략1201;1064; 내용1012; 설명 드리1088;면,

HPE  DL380aG11  (2U1109;비1076;에도 GPU 4EA 까1648; 1109;착 가능) H100 80GB   2EA를 1109;착 Ȣ16;였습니다.

한개 씩 돌리면 성능1060; 1096;  나오고 1080;1004;나 .160; 개를 ᇼ1;시에 돌리면 처리 속도가 매우 ǉ12;립니다.

고ᄶ1;1060; Ȣ16;드웨Ǻ12;를 1032;심해서  DL380aG11  1060;외에  다른   DL380G11 ,   ASUS  4세대  CPU 서버에서 테스트를 Ȣ16;였1004;나, 결과ǉ16;  모.160; ᇼ1;1068; 합니다.

GPU 1109;애ǉ16; 아닙니다.  1200;7148;가  GPU 서버를 많1060; 납품 Ȣ16;였습니다. 보통 GPU를 사용 Ȣ16;ǉ16; 고ᄶ1;측에서  소프트웨Ǻ12;에서 수1221; 해1452;Ǻ12;서 문1228;를 해결 Ȣ16;ǉ16;데...

1068;단  브ና1;1648;/196; 연결해서 테스트 해보/140;ǉ16;데, 결과ǉ16; 1339;1648; 않1012;,144; 같습니다.

그ᇼ1;안   테스트 내용  아래 1221;리해서 알/140; 드리니,  해결1060; 가능할,144; 같1008;신ǥ16;1008;  연락 1452;시기 0148;랍니다.

1.    OS : Ubuntu 22.04.2
2.    CUDA Version : 12. 2
3.    H100 Drive Version : 535.129.03
4.    사용1473;1064; 프/196;그ǖ16; : Python 3.11.X
5.   처리 속도 H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
 
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초
 
비교군 GPU A100 80G
A100 80G * 2EA
Llama-3-70B 처리 시간 : 2.7초
 
A100 80G * 1EA
Llama-3-8B 처리 시간 : 1.2초
 
한 개를 돌/160;1012;ǐ12;ǉ16; H100 GPU가 A100 GPU 보다 20176;가 빠른데
21109;1012; 같1060; 돌/160;1012; ǐ12;ǉ16; A100 GPUǉ16; 2.7초 1060;고 H100 GPUǉ16; 2.4초가 나오고 1080;습니다.

테스트 한 코드ǉ16; 아래와 같습니다.

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

 

torch.manual_seed(42)

 

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

 

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

    model_id,

    torch_dtype=torch.bfloat16,

    device_map="auto",

    #device_map="balanced_low_0",

    trust_remote_code=True,

    attn_implementation="flash_attention_2",

    low_cpu_mem_usage=True

    #max_memory=max_memory_mapping

).eval()

 

terminators = [

    tokenizer.eos_token_id,

    tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

 

### base inference

def chat(question):

    messages = [

        #{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

        {"role": "system", "content": "Please try to provide useful, helpful answers."},

        {"role": "user", "content": question},

    ]

   

    input_ids = tokenizer.apply_chat_template(

        messages,

        add_generation_prompt=True,

        return_tensors="pt"

    ).to(model.device, non_blocking=True)

   

    outputs = model.generate(

        input_ids,

        max_new_tokens=1024,

        eos_token_id=terminators,

        do_sample=True,

        temperature=0.05,

        top_p=0.95,

    )

    response = outputs[0][input_ids.shape[-1]:]

    #print(tokenizer.decode(response, skip_special_tokens=True))

    return tokenizer.decode(response, skip_special_tokens=True)

 

response_times = []

for _ in range(100):

    start_time = time.time()

    #tmp = chat('hello.')

    tmp = chat('hello!')

    #tmp = chat('Testing. Please answer in 10,000 characters.')

    end_time = time.time()

    print((end_time - start_time))

    response_times.append(end_time - start_time)

 

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



술이 06-11 같은 CPU 레인에 꼽아서 8배속으로 쪼개진게 아닐까 생각드는데... 각각 CPU가 배정된 익스프레스 슬롯에 장착한건지가 관건일거 같아요. 같은 CPU 레인에 꼽아서 8배속으로 쪼개진게 아닐까 생각드는데... 각각 CPU가 배정된 익스프레스 슬롯에 장착한건지가 관건일거 같아요.



트니아빠 06-11 위의 코드를 테스트 할 수 있는 환경이 아니고, 딥러닝에서 손 땐지 오래되어서 그냥 느낌으로 봤습니다. 제 경험에 몇몇 파라미터 설정을 변경하는 것을 주석처리 여부로만 할 경우 실수하는 경우가 많았습니다. for 문으로 돌리면 이전 변수값이 남아 있어 오류가 나는 경우도 많구요. 위의 코드도 보면 device_map과 max_memory 부분이 주석 처리를 변경하면서 테스트하는 것으로 보입니다. 다양한 조건에서 초단위로 성능을 평가해야 하는 상황이라면, 해당 설정 부분만 정확하게 수정한 파일 4개를 만들어서 확인해 보는 것이 좋을 것 같습니다. 대부분 결과가 3초 이내에 나오면 nvidia-smi 등으로 GPU 상태를 볼 때에 시간이 너무 짧기 때문에 더 긴 시간 동안 테스트 할 수 있도록 하는 것이 좋을 것 같습니다. 위의 코드를 테스트 할 수 있는 환경이 아니고, 딥러닝에서 손 땐지 오래되어서 그냥 느낌으로 봤습니다. 제 경험에 몇몇 파라미터 설정을 변경하는 것을 주석처리 여부로만 할 경우 실수하는 경우가 많았습니다. for 문으로 돌리면 이전 변수값이 남아 있어 오류가 나는 경우도 많구요. 위의 코드도 보면 device_map과 max_memory 부분이 주석 처리를 변경하면서 테스트하는 것으로 보입니다. 다양한 조건에서 초단위로 성능을 평가해야 하는 상황이라면, 해당 설정 부분만 정확하게 수정한 파일 4개를 만들어서 확인해 보는 것이 좋을 것 같습니다. 대부분 결과가 3초 이내에 나오면 nvidia-smi 등으로 GPU 상태를 볼 때에 시간이 너무 짧기 때문에 더 긴 시간 동안 테스트 할 수 있도록 하는 것이 좋을 것 같습니다.



검은콩 06-12 Vllm 테스트해보시죠 Vllm 테스트해보시죠

로그인 하시면 댓글을 남길 수 있습니다

검색 목록

쓰기

QnA

쓰기

7/437

번호	제목Page 7/437	글쓴이	날짜	조회	추천
8607	백업 컴퓨터를 만드려고 하는데 IT모드카드 궁금해요. (12)	바람의나래	06-16	606	0
백업 컴퓨터를 만드려고 하는데 IT모드카… (12) 06-16 606 1 바람의나래
8606	산넘어 산이네요? (윈도10 --> 윈도11 업글) (9)	NiteFlite9	06-16	572	0
산넘어 산이네요? (윈도10 --> 윈도11 … (9) 06-16 572 1 NiteFlite9
8605	델 5060 마이크로 어댑터 및 바이오스 문제 (19)	싱국날강도	06-16	455	0
델 5060 마이크로 어댑터 및 바이오스 문제 (19) 06-16 455 1 싱국날강도
8604	asmedia에 연결한 sata 이동식디스크로 인식되는 문제 (4)	원시인7	06-16	388	0
asmedia에 연결한 sata 이동식디스크로 인… (4) 06-16 388 1 원시인7
8603	알리에서 파는 램 제조 쉽나요? (16)	FX8300	06-16	788	0
알리에서 파는 램 제조 쉽나요? (16) 06-16 788 1 FX8300
8602	DC 플러그를 점퍼 케이블로 사용 가능하게 하려면.. (10)	gusoong	06-15	606	0
DC 플러그를 점퍼 케이블로 사용 가능하게… (10) 06-15 606 1 gusoong
8601	벤더 납품용 SSD를 일반 PC에서 사용하는데 제약이 있을까요? (9)	황재광	06-15	853	0
벤더 납품용 SSD를 일반 PC에서 사용하는… (9) 06-15 853 1 황재광
8600	시놀러지, 포토스테이션. 로그인 없이 사진을 볼 수 있게 할 수 없는지요?? (2)	블루영상	06-15	607	0
시놀러지, 포토스테이션. 로그인 없이 사… (2) 06-15 607 1 블루영상
8599	시놀러지, 포토스테이션. 로그인 없이 사진을 볼 수 있게 할 수 없는지요??	황재광	06-15	401	0
시놀러지, 포토스테이션. 로그인 없이 사… 06-15 401 1 황재광
8598	Poe 스위치 질문 드립니다 (13)	전진	06-15	744	0
Poe 스위치 질문 드립니다 (13) 06-15 744 1 전진
8597	space desk 라는 프로그램 아시나요 획기적인데 (5)	FX8300	06-15	802	0
space desk 라는 프로그램 아시나요 획기… (5) 06-15 802 1 FX8300
8596	라이젠 3000g은 p106 100과 궁합 엄청안좋네요 (8)	FX8300	06-14	747	0
라이젠 3000g은 p106 100과 궁합 엄청안… (8) 06-14 747 1 FX8300
8595	ping이 한 번만 성공하는 경우는 왜 그럴까요? (10)	JJAMTIGER	06-14	775	0
ping이 한 번만 성공하는 경우는 왜 그럴… (10) 06-14 775 1 JJAMTIGER
8594	DDR2 제품은 단종된게 아니였을까요? (5)	정무현	06-14	835	0
DDR2 제품은 단종된게 아니였을까요? (5) 06-14 835 1 정무현
8593	델서버 ssd 추가 장착할려고합니다 (4)	파뱐	06-14	590	0
델서버 ssd 추가 장착할려고합니다 (4) 06-14 590 1 파뱐
8592	일반 pc제품군 리눅스 사용시 드라이버 문제 (12)	뭐든팔아요	06-14	516	0
일반 pc제품군 리눅스 사용시 드라이버 문제 (12) 06-14 516 1 뭐든팔아요
8591	레이드카드(9280-8e) <-> DELL MD1200 연결 관련 질문입니다 (14)	CChuYong	06-14	423	0
레이드카드(9280-8e) <-> DELL MD12… (14) 06-14 423 1 CChuYong
8590	혹시 이거 명칭이 뭐죠? (11)	시메트라	06-14	545	0
혹시 이거 명칭이 뭐죠? (11) 06-14 545 1 시메트라
8589	Microsoft Visual Studio 2008 32bit 영문 버젼 다운로드 받을수 있을까요? (2)	임종열	06-14	417	0
Microsoft Visual Studio 2008 32bit 영문… (2) 06-14 417 1 임종열
8588	FTP 서버 중에... (14)	Sakura24	06-13	734	0
FTP 서버 중에... (14) 06-13 734 1 Sakura24