|
(광고) 단통법 시대의 인터넷가입 가이드(ver2.0) (234) |
백메가 |
2015-12 |
1758976 |
25 |
2015-12
1758976
1 백메가
|
|
[필독] 처음 오시는 분을 위한 안내 (737) |
정은준1 |
2014-05 |
5232276 |
0 |
2014-05
5232276
1 정은준1
|
105597 |
[질문]블레이드 서버 .. 써본적이 없어서.. 질문드립니다. (12) |
홀릭0o0 |
2022-12 |
2370 |
0 |
2022-12
2370
1 홀릭0o0
|
105596 |
노트북 리퍼 VS 중고 어느게 나을까요? (7) |
LevinF |
2022-12 |
2283 |
0 |
2022-12
2283
1 LevinF
|
105595 |
노트북 램슬롯 이상 문제 문의드립니다. (9) |
luciddream |
2022-12 |
3330 |
0 |
2022-12
3330
1 luciddream
|
105594 |
천장에 물이 새는데, 거실 전등 켜도 될까요? (8) |
네오네모 |
2022-12 |
2383 |
0 |
2022-12
2383
1 네오네모
|
105593 |
음악을 선명하게 만들 수 있을까요? (6) |
장동건2014 |
2022-12 |
2524 |
0 |
2022-12
2524
1 장동건2014
|
105592 |
사용자별 윈도우 작업 스케쥴러 접근 제한이 가능할까요? (1) |
꺄울 |
2022-12 |
1982 |
0 |
2022-12
1982
1 꺄울
|
105591 |
R720 E5-2697V2에 맞는 램 구성 부탁드려여~~~ (6) |
워니님 |
2022-12 |
3723 |
0 |
2022-12
3723
1 워니님
|
105590 |
오라클 DB 임포트 관련 (5) |
프랑 |
2022-12 |
2009 |
0 |
2022-12
2009
1 프랑
|
105589 |
패킷 트레이서 질문? 드립니다 (2) |
Uinx |
2022-12 |
2270 |
0 |
2022-12
2270
1 Uinx
|
105588 |
tensorfloat32 (TF32), INT4 8 16 32?질문 드립니다 (5) |
cncn |
2022-12 |
2449 |
0 |
2022-12
2449
1 cncn
|
105587 |
안드11 usb 테더링과 이더넷테더링의 차이점? (6) |
영산회상 |
2022-12 |
6161 |
0 |
2022-12
6161
1 영산회상
|
105586 |
gen9 ip 버전 활성화 안됨 (2) |
lenux8 |
2022-12 |
3230 |
0 |
2022-12
3230
1 lenux8
|
105585 |
dell 14세대는 메모리 rank 24개 풀뱅과 속도 하락 질문 (4) |
홀릭0o0 |
2022-12 |
3083 |
0 |
2022-12
3083
1 홀릭0o0
|
105584 |
COM 포트가 없는 2대의 PC에 SERIAL 케이블 통신으로 모니터링을 하고 싶습니다. (14) |
화정큐삼 |
2022-11 |
2924 |
0 |
2022-11
2924
1 화정큐삼
|
105583 |
원격데스크탑 질문드립니다. (2) |
인초리 |
2022-11 |
4989 |
0 |
2022-11
4989
1 인초리
|
105582 |
USB PORT BLOCKER (usb 포트락) 어느 회사 제품인가요? (4) |
순짱 |
2022-11 |
2104 |
0 |
2022-11
2104
1 순짱
|
105581 |
어떤 방식의 케이블(커넥터)가 더 안전한가요? (14) |
Setila |
2022-11 |
2829 |
0 |
2022-11
2829
1 Setila
|
105580 |
서버 전력량 줄이기.. (20) |
남산과장 |
2022-11 |
4528 |
0 |
2022-11
4528
1 남산과장
|
105579 |
WINDOWS SERVER 2019 설치 부팅시 하드디스크 인식 문제 (9) |
Noman |
2022-11 |
3239 |
0 |
2022-11
3239
1 Noman
|
105578 |
리웍 스테이션 알리서 하나 제일 싼거 질러볼려고 합니당 어떤게 좋을까요? (2) |
민경열 |
2022-11 |
1631 |
0 |
2022-11
1631
1 민경열
|
참고: https://www.nvidia.com/en-us/data-center/tensor-cores/#end-to-end
float은 자료형이고 (tf32도 float에 해당) flops는 연산속도입니다. float 연산을 1초에 몇 번 할 수 있느냐.. 보통 이론상 최대 수치를 적어두죠. tf32 tflops라고 적어뒀다면 tf32를 썼을 때의 최대 flops 속도겠지요. (테라 단위)
2.
int는 그냥 정수형이라는 뜻입니다. 실수 표현 못하고 정수값만 표현할 수 있는 자료형.. 딥러닝이나 신호처리에서 쓰긴 좀 까다롭지만 잘 쓰면 float계열 대비 연산속도가 빠르죠.. 딥러닝쪽에선 보통 고속 인퍼런스 목적으로만 씁니다.
죄송한데 제가 지금 데이터시트를 만들고있는데요
peak TF32 Tensor TFLOPS 는 ampere이전에것은 다 없는게맞는건가요? 튜링 볼타도 텐서가있다고 계산법대로 작성하라는데..
peak FP32 tensor TFLOPS (non-tensor) 이게 근데 논텐서인데 맞는말인가요? FP32 텐서플롭을 구하라는데..
논텐서는 CUDA코어 FP32 (IEEE754 single-precision) 기준 TFLOPS 적으라는 뜻 같습니다. 텐서라는 단어는 왜 들어갔나 모르곘는데 뭐 텐서연산시 기준으로 하라는 거 아닐까요? 피크값이라니 그냥 스펙시트에 적힌 CUDA코어 32비트 tflops값 쓰셔도 될 것 같습니다. 의존성 적은 단순한 텐서 연산이라면 쿠다 코어 이론상 성능을 거의 그대로 낼 수 있으니...
FP32 성능 * SM당 TensorCore 개수 * Tensor 버전 성능 * 2(sparsity)
SM당 TensorCore 수 (gv100 8개 , ga100 4개)
Tensor 버전별 성능 차이 ( ampere 에서 사용한 3세대 Tensor Core는
Volta와 Turing 에 사용한 Tensor Core 1, 2 세대 보다 2배 좋은 성능을 가졌음 )
sparsity 원리로 최대 2배 성능
이걸가지고 TF32를 볼타부터 구하라는데 저는 데이터시트를 찾아봐도 ampere만 TF32가 있는걸봐서 안적고있었거든요
그럼 TF32는 ampere부터인게 맞는거같은데...
혹시 GA100 102 104 106 / GP100 104 107 이런식으로 100시리즈에서 점점 늘어나던데
이건 제조과정에서 100프로 성능이 못나와서 하위버전으로 나오는게 맞나요?
볼타/튜링의 "쿠다코어" 는 32비트 연산이 되는데, 말씀하시는 분이 그것때문에 착각하고 계신게 아닌가 하는 생각이 드네요.. 아니면 그 텐서코어가 최종 연산결과를 FP32로 누적시켜서 FP32로 반환하게 만들 수 있기는 한데, 그것때문에 착각하셨거나요. 내부적으로 FP32 연산 구간이 있다곤 해도 사용자가 32비트 데이터를 입력시킬 수 있는 게 아니고 내부적인 동작, 그 중에서도 특정 단계에만 일시적으로 쓰는 수준이기 때문에 학술적인 용도로 뭐 텐서코어를 세부적으로 분석하는 경우라던가 그런 거라면 몰라도 데이터시트에 32비트 tflops 성능이라고 적어도 될 만한 것은 아닙니다.
GA100 102 그건 저도 정확히 알고 있지는 않은데, 기본적으론 아예 따로 제조되는 칩으로 알고 있습니다. 같은 번호내에서 (예를 들어 GA100 내에서) 성능이나 커팅 여부 등을 기준으로 더 세세하게 모델을 분류하기는 할 겁니다. 근데 뭐 모델 이름 붙이는건 엔비디아 맘대로라서..? 제가 잘 모르는 케이스가 있을지도 모르겠습니다.