gpu 병렬 처리 시 병목 현상 문의 드립니다.

중고장터 more

검색 목록

쓰기

gpu 병렬 처리 시 병목 현상 문의 드립니다.

한중일

06-04

2024-06-04 11:44:31

조회 1717 추천 0

딥러능 GPU 관/144; 문1032; 사항1060; 1080;Ǻ12; 메1068; 보내 드립니다.

1109;비명 : DL380a Gen11
OS : Ubuntu 22.04
Python 3.11.9

드라1060;브 버1204;1008; 535.129.03 / CUDA Version : 12.2 버1204;에서 CUDA Tool kit1012; 1060;용Ȣ16;여 업데1060;트 후

NVIDIA Drive version 555.42.02
CUDA Version: 12.5
H100 80G * 2EA
Llama-3-8B처리시간 : 2.4
H100 80G * 1EA
Llama-3-8B 처리 시간 : 0.5초

테스트 코드ǉ16; 아래와 같습니다. 

from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, TextStreamer

import torch

from threading import Thread

import gradio as gr

import time

#import accelerate_speedup

torch.manual_seed(42)

model_id = "meta-llama/Meta-Llama-3-70B-Instruct"

#model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)

#max_memory_mapping = {0: "80GB", 1: "80GB"}

model = AutoModelForCausalLM.from_pretrained(

    model_id,

    torch_dtype=torch.bfloat16,

    device_map="auto",

    #device_map="balanced_low_0",

    trust_remote_code=True,

    attn_implementation="flash_attention_2",

    low_cpu_mem_usage=True

    #max_memory=max_memory_mapping

).eval()

terminators = [

    tokenizer.eos_token_id,

    tokenizer.convert_tokens_to_ids("<|eot_id|>")

]

### base inference

def chat(question):

    messages = [

        #{"role": "system", "content": "You are AI chatbot. You are honest, do not harm others, and help users."},

        {"role": "system", "content": "Please try to provide useful, helpful answers."},

        {"role": "user", "content": question},

    ]

    input_ids = tokenizer.apply_chat_template(

        messages,

        add_generation_prompt=True,

        return_tensors="pt"

    ).to(model.device, non_blocking=True)

    outputs = model.generate(

        input_ids,

        max_new_tokens=1024,

        eos_token_id=terminators,

        do_sample=True,

        temperature=0.05,

        top_p=0.95,

    )

    response = outputs[0][input_ids.shape[-1]:]

    #print(tokenizer.decode(response, skip_special_tokens=True))

    return tokenizer.decode(response, skip_special_tokens=True)

response_times = []

for _ in range(100):

    start_time = time.time()

    #tmp = chat('hello.')

    tmp = chat('hello!')

    #tmp = chat('Testing. Please answer in 10,000 characters.')

    end_time = time.time()

    print((end_time - start_time))

    response_times.append(end_time - start_time)

print(f"Average Response Time: {sum(response_times) / len(response_times):.2f} seconds")

짧은글 일수록 신중하게.



제온프로 06-04 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요.. 일단 DL380 Gen 11 System Diagram를 확인해 보세요. 비상식적인 Delay 네요. 메모리 문제는 아닌것 같은데요. PCIe 가 어떻게 물려 있나요? PCIe 5.0 16배속 이 최대 64GB/S 까지 지원을 하는데요..== 일단은 여기서 병목 같에요.. PCIe 5.0 x16를 각 카드당 2개씩 줄 수 없나요?? 그러면 128GB/s 까지 확보가 되는데.. 일단 대안은 NVlink를 설치하는 수 밖에는 없어 보입니다. #max_memory_mapping = {0: "80GB", 1: "80GB"} 이걸 줌 줄여 보세요.. PCIe 대역폭에 어울리도록 {0: "30GB", 1: "30GB"} 정도로요..



epowergate 06-04 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠 프로그램이 더 느릴 이유는 없는데 더 빠를 이유도 없습니다. 소스가 seq인데 더 빠를리 없죠



박문형 06-04 HPE 쪽 기술지원에는 문의해보셨는지요?? HPE 쪽 기술지원에는 문의해보셨는지요??



ikaros7 06-04 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ 코드는 안봤습니다만, Llama3 8G처럼 gpu 하나에 다 올라가는 모델이라면 그냥 하나로 돌리시는게 빠르지 않나요? 버스 통신 오버헤드가 상당할 건데요? 복수 개의 gpu를 쓰는건 보통 학습시 하나로는 gpu 메모리가 부족해서 그럴겁니다. 그나저나 H100 정말 빠르군요. ㅎㅎ

로그인 하시면 댓글을 남길 수 있습니다

검색 목록

쓰기

QnA

쓰기

47/440

번호	제목Page 47/440	글쓴이	날짜	조회	추천
7863	PFSense vs. OPNSense (17)	아마데우쓰	07-18	1113	0
PFSense vs. OPNSense (17) 07-18 1113 1 아마데우쓰
7862	장비제어용 컴퓨터의 운영체계 WinXp vs Win7 무엇이 좋을까요? (31)	코뿔사냥	07-18	1258	0
장비제어용 컴퓨터의 운영체계 WinXp vs W… (31) 07-18 1258 1 코뿔사냥
7861	자동차 정기검사 후 에어컨이 이상해졌습니다. 검사가 원인일 수 있을까요? (6)	VSPress	07-18	1050	0
자동차 정기검사 후 에어컨이 이상해졌습… (6) 07-18 1050 1 VSPress
7860	이거 하면 ip추적 안되나요? (CyberGhost VPN) (2)	어훕	07-18	864	0
이거 하면 ip추적 안되나요? (CyberGhost … (2) 07-18 864 1 어훕
7859	9400-16i 발열이 어느정도 일까요? (8)	배우러왔슴둥	07-18	787	0
9400-16i 발열이 어느정도 일까요? (8) 07-18 787 1 배우러왔슴둥
7858	Sas 하드 윈도우11 인식하나요 ? (7)	근육계장	07-17	956	0
Sas 하드 윈도우11 인식하나요 ? (7) 07-17 956 1 근육계장
7857	서버 하드디스크 핫스왑 부분 백 플레인은 교체가 가능한가요? (10)	항공모함	07-17	763	0
서버 하드디스크 핫스왑 부분 백 플레인은… (10) 07-17 763 1 항공모함
7856	구형 서버 메인보드 파워 추천 부탁드립니다. (7)	냥더쿠	07-17	774	0
구형 서버 메인보드 파워 추천 부탁드립니… (7) 07-17 774 1 냥더쿠
7855	mdadm 오류 관련하여 질문드립니다 (6)	뉴진스	07-17	1089	0
mdadm 오류 관련하여 질문드립니다 (6) 07-17 1089 1 뉴진스
7854	이것 어떻게 사용을 하는건가요? (10)	나라사랑	07-17	1043	0
이것 어떻게 사용을 하는건가요? (10) 07-17 1043 1 나라사랑
7853	[업데이트-두번째]바이오스 진입 이후, windows 10 구동이 안됩니다. (8)	두쿠	07-17	1322	0
[업데이트-두번째]바이오스 진입 이후, wi… (8) 07-17 1322 1 두쿠
7852	선이 끊어진 쿨러 팬 쓰면 회로에 문제생기나요? (6)	Q8300	07-17	959	0
선이 끊어진 쿨러 팬 쓰면 회로에 문제생… (6) 07-17 959 1 Q8300
7851	xcp-ng grid k2 인식	슬러그94	07-17	955	0
xcp-ng grid k2 인식 07-17 955 1 슬러그94
7850	해외 접속이 막힌 것 같습니다. (7)	배진영	07-16	1138	0
해외 접속이 막힌 것 같습니다. (7) 07-16 1138 1 배진영
7849	슈마 X10SLM-F보드 부팅이 한번에 안됩니다.<<<====램 그래픽 카드 재… (12)	dietist	07-16	1181	0
슈마 X10SLM-F보드 부팅이 한번에 안됩… (12) 07-16 1181 1 dietist
7848	고속총전 어댑터 관련 질문입니다. (6)	Mode	07-16	966	0
고속총전 어댑터 관련 질문입니다. (6) 07-16 966 1 Mode
7847	박문형님 랜카드 바주세요 ^^;; 이상해서요ᆢ (7)	핸즈	07-16	1285	0
박문형님 랜카드 바주세요 ^^;; 이상해서… (7) 07-16 1285 1 핸즈
7846	박문형님ᆢHP 361T 랜카드 가상화 문의 드립니다. ^^;; (2)	핸즈	07-16	1150	0
박문형님ᆢHP 361T 랜카드 가상화 문… (2) 07-16 1150 1 핸즈
7845	실내온도를 원격으로 체크할 수 있는 장치를 아시는 분이 있는가요? (14)	허인구마틴	07-15	1179	0
실내온도를 원격으로 체크할 수 있는 장치… (14) 07-15 1179 1 허인구마틴
7844	바이오스 레이드 어떻게 하나요? (12)	뉴진스	07-15	1197	0
바이오스 레이드 어떻게 하나요? (12) 07-15 1197 1 뉴진스