Ampere (mikroarkitektur) - Ampere (microarchitecture)
Utgivningsdatum | 14 maj 2020 |
---|---|
Tillverkningsprocess | |
Historia | |
Företrädare | |
Efterträdare |
Ampere är kodnamnet för en grafikprocessorenhet (GPU) mikroarkitektur som utvecklats av Nvidia som efterträdare till både Volta- och Turing- arkitekturen, officiellt tillkännagav den 14 maj 2020. Det är uppkallat efter den franske matematikern och fysikern André-Marie Ampère . Nvidia tillkännagav nästa generations GeForce 30-seriens konsument-GPU: er vid ett GeForce Special Event den 1 september 2020. Nvidia tillkännagav A100 80 GB GPU på SC20 den 16 november 2020. Mobila RTX-grafikkort och RTX 3060 avslöjades den 12 januari 2021 . Nvidia tillkännagav också Amperes efterträdare, preliminärt kodnamnet "Ampere Next" för en release 2022 och "Ampere Next Next" för en 2024 -release på GPU Technology Conference 2021.
Detaljer
Arkitektoniska förbättringar av Ampere -arkitekturen inkluderar följande:
- CUDA Compute Capability 8.0 för A100 och 8.6 för GeForce 30 -serien
- TSMC : s 7 nm FinFET -process för A100
- Anpassad version av Samsung : s 8 nm process (8N) för GeForce 30-serien
- Tredje generationens Tensor-kärnor med FP16, bfloat16, TensorFloat-32 (TF32) och FP64 support och sparsity acceleration
- Andra generationens strålspårningskärnor; samtidig strålspårning, skuggning och beräkning för GeForce 30 -serien
- Minne med hög bandbredd 2 (HBM2) på A100 40GB och A100 80GB
- GDDR6X -minne för GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti
- Dubbla FP32 -kärnor per SM på GA10x -GPU: er
- NVLink 3.0 med en 50 Gbit/s per par -genomströmning
- PCI Express 4.0 med SR-IOV-stöd (SR-IOV är endast reserverat för A100)
- Multi-Instance GPU (MIG) virtualisering och GPU-partitionsfunktion i A100 som stöder upp till sju instanser
- PureVideo -funktionsuppsättning K hårdvaruvideoavkodning med AV1 -hårdvaruavkodning för GeForce 30 -serien och funktionsuppsättning J för A100
- 5 NVDEC för A100
- Lägger till ny hårdvarubaserad 5-kärnig JPEG- avkodning ( NVJPG ) med YUV420, YUV422, YUV444, YUV400, RGBA. Bör inte förväxlas med Nvidia NVJPEG (GPU-accelererat bibliotek för JPEG-kodning/avkodning)
Pommes frites
- GA100
- GA102
- GA104
- GA106
- GA107
Jämförelse av beräkningskapacitet: GP100 vs GV100 mot GA100
GPU -funktioner | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 |
---|---|---|---|
GPU -kodnamn | GP100 | GV100 | GA100 |
GPU -arkitektur | NVIDIA Pascal | NVIDIA Volta | NVIDIA Ampere |
Beräkningskapacitet | 6,0 | 7,0 | 8.0 |
Trådar / varp | 32 | 32 | 32 |
Max varp / SM | 64 | 64 | 64 |
Max trådar / SM | 2048 | 2048 | 2048 |
Max gängblock / SM | 32 | 32 | 32 |
Max 32-bitars register / SM | 65536 | 65536 | 65536 |
Max register / block | 65536 | 65536 | 65536 |
Max register / tråd | 255 | 255 | 255 |
Max trådstorlek | 1024 | 1024 | 1024 |
FP32 -kärnor / SM | 64 | 64 | 64 |
Förhållande SM -register till FP32 -kärnor | 1024 | 1024 | 1024 |
Delat minnesstorlek / SM | 64 kB | Konfigurerbar upp till 96 KB | Konfigurerbar upp till 164 KB |
Jämförelse av precisionsstödmatris
CUDA Core Precisions som stöds | Tensor Core Precisions som stöds | |||||||||||||||
FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NVIDIA Tesla P4 | Nej | Ja | Ja | Nej | Nej | Ja | Nej | Nej | Nej | Nej | Nej | Nej | Nej | Nej | Nej | Nej |
NVIDIA P100 | Ja | Ja | Ja | Nej | Nej | Nej | Nej | Nej | Nej | Nej | Nej | Nej | Nej | Nej | Nej | Nej |
NVIDIA Volta | Ja | Ja | Ja | Nej | Nej | Ja | Nej | Nej | Ja | Nej | Nej | Nej | Nej | Nej | Nej | Nej |
NVIDIA Turing | Ja | Ja | Ja | Nej | Nej | Ja | Nej | Nej | Ja | Nej | Nej | Ja | Ja | Ja | Nej | Nej |
NVIDIA A100 | Ja | Ja | Ja | Nej | Nej | Ja | Nej | Ja | Ja | Nej | Ja | Ja | Ja | Ja | Ja | Ja |
Legend:
- FPnn: flytpunkt med nn bitar
- INTn: heltal med n bitar
- INT1: binärt
- TF32: TensorFloat32
- BF16: bfloat16
Jämförelse av avkodningsprestanda
Samtidiga strömmar | H.264 avkodning (1080p30) | H.265 (HEVC) avkodning (1080p30) | VP9 -avkodning (1080p30) |
---|---|---|---|
V100 | 16 | 22 | 22 |
A100 | 75 | 157 | 108 |
A100 -accelerator och DGX A100
Meddelades och släpptes den 14 maj 2020 var den Ampere-baserade A100-acceleratorn. A100 har 19,5 teraflops FP32 -prestanda, 6912 CUDA -kärnor, 40 GB grafikminne och 1,6 TB/s grafikminnesbandbredd. A100 -acceleratorn var ursprungligen endast tillgänglig i tredje generationen av DGX -server , inklusive 8 A100 -enheter. I DGX A100 ingår också 15 TB PCIe gen 4 NVMe -lagring , två 64 -kärniga AMD Rome 7742 -processorer, 1 TB RAM -minne och Mellanox -driven HDR InfiniBand -anslutning. Det ursprungliga priset för DGX A100 var 199 000 dollar.
Jämförelse av acceleratorer som används i DGX:
Accelerator |
---|
A100 80 GB |
A100 |
V100 |
P100 |
Arkitektur | FP32 CUDA -kärnor | FP64 -kärnor (exkl. Tensor) | INT32 -kärnor | Öka klockan | Minnes klocka | Minnesbussbredd | minnesbandbredd | VRAM | Single Precision | Dubbel precision (FP64) | INT8 (icke-Tensor) | INT8 Tensor | INT32 | FP16 | FP16 Tensor | bfloat16 Tensor | TensorFloat-32 (TF32) Tensor | FP64 Tensor | Koppla samman | GPU | L1 Cachestorlek | L2 Cache -storlek | GPU -storlek | Transistorräkning | TDP | Tillverkningsprocess |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Ampere | 6912 | 3456 | 6912 | 1410 MHz | 3,2 Gbit/s HBM2 | 5120-bitars | 2039 GB/sek | 80 GB | 19,5 TFLOP | 9.7 TFLOP | Ej tillgängligt | 624 TOPPAR | 19.5 TOPPAR | 78 TFLOP | 312 TFLOP | 312 TFLOP | 156 TFLOP | 19,5 TFLOP | 600 GB/sek | GA100 | 20736KB (192KBx108) | 40960 KB | 826 mm2 | 54.2B | 400W | TSMC 7 nm N7 |
Ampere | 6912 | 3456 | 6912 | 1410 MHz | 2,4 Gbit/s HBM2 | 5120-bitars | 1555 GB/sek | 40 GB | 19,5 TFLOP | 9.7 TFLOP | Ej tillgängligt | 624 TOPPAR | 19.5 TOPPAR | 78 TFLOP | 312 TFLOP | 312 TFLOP | 156 TFLOP | 19,5 TFLOP | 600 GB/sek | GA100 | 20736KB (192KBx108) | 40960 KB | 826 mm2 | 54.2B | 400W | TSMC 7 nm N7 |
Volta | 5120 | 2560 | 5120 | 1530 MHz | 1,75 Gbit/s HBM2 | 4096-bitars | 900 GB/sek | 16 GB/32 GB | 15.7 TFLOP | 7.8 TFLOP | 62 TOPPAR | Ej tillgängligt | 15.7 TOPP | 31.4 TFLOP | 125 TFLOP | Ej tillgängligt | Ej tillgängligt | Ej tillgängligt | 300 GB/sek | GV100 | 10240KB (128KBx80) | 6144 kB | 815 mm2 | 21.1B | 300W/350W | TSMC 12 nm FFN |
Pascal | 3584 | 1792 | Ej tillgängligt | 1480 MHz | 1,4 Gbit/s HBM2 | 4096-bitars | 720 GB/sek | 16 GB | 10.6 TFLOP | 5.3 TFLOP | Ej tillgängligt | Ej tillgängligt | Ej tillgängligt | 21.2 TFLOP | Ej tillgängligt | Ej tillgängligt | Ej tillgängligt | Ej tillgängligt | 160 GB/sek | GP100 | 1344KB (24KBx56) | 4096 KB | 610 mm2 | 15.3B | 300W | TSMC 16 nm FinFET+ |
Produkter som använder Ampere
-
GeForce 30 -serien
- GeForce RTX 3050 (GA107)
- GeForce RTX 3050 Ti (GA107)
- GeForce RTX 3060 (GA106)
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3070 Ti (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3080 Ti (GA102)
- GeForce RTX 3090 (GA102)
-
Nvidia Workstation GPU: er (tidigare Quadro )
- RTX A2000 (mobil) (GA10?)
- RTX A3000 (mobil) (GA104)
- RTX A4000 (mobil) (GA104)
- RTX A5000 (mobil) (GA104)
- RTX A2000 (GA106)
- RTX A4000 (GA104)
- RTX A5000 (GA102)
- RTX A6000 (GA102)
-
Nvidia Data Center GPU: er (tidigare Tesla )
- Nvidia A10 (GA102)
- Nvidia A16 (4 × GA107)
- Nvidia A30 (GA100)
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 80GB (GA100)