Ampere (mikroarkitektur) - Ampere (microarchitecture)

Nvidia Ampere
Utgivningsdatum 14 maj 2020 ( 2020-05-14 )
Tillverkningsprocess
Historia
Företrädare
Efterträdare

Ampere är kodnamnet för en grafikprocessorenhet (GPU) mikroarkitektur som utvecklats av Nvidia som efterträdare till både Volta- och Turing- arkitekturen, officiellt tillkännagav den 14 maj 2020. Det är uppkallat efter den franske matematikern och fysikern André-Marie Ampère . Nvidia tillkännagav nästa generations GeForce 30-seriens konsument-GPU: er vid ett GeForce Special Event den 1 september 2020. Nvidia tillkännagav A100 80 GB GPU på SC20 den 16 november 2020. Mobila RTX-grafikkort och RTX 3060 avslöjades den 12 januari 2021 . Nvidia tillkännagav också Amperes efterträdare, preliminärt kodnamnet "Ampere Next" för en release 2022 och "Ampere Next Next" för en 2024 -release på GPU Technology Conference 2021.

Detaljer

Arkitektoniska förbättringar av Ampere -arkitekturen inkluderar följande:

  • CUDA Compute Capability 8.0 för A100 och 8.6 för GeForce 30 -serien
  • TSMC : s 7 nm FinFET -process för A100
  • Anpassad version av Samsung : s 8 nm process (8N) för GeForce 30-serien
  • Tredje generationens Tensor-kärnor med FP16, bfloat16, TensorFloat-32 (TF32) och FP64 support och sparsity acceleration
  • Andra generationens strålspårningskärnor; samtidig strålspårning, skuggning och beräkning för GeForce 30 -serien
  • Minne med hög bandbredd 2 (HBM2) på A100 40GB och A100 80GB
  • GDDR6X -minne för GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti
  • Dubbla FP32 -kärnor per SM på GA10x -GPU: er
  • NVLink 3.0 med en 50 Gbit/s per par -genomströmning
  • PCI Express 4.0 med SR-IOV-stöd (SR-IOV är endast reserverat för A100)
  • Multi-Instance GPU (MIG) virtualisering och GPU-partitionsfunktion i A100 som stöder upp till sju instanser
  • PureVideo -funktionsuppsättning K hårdvaruvideoavkodning med AV1 -hårdvaruavkodning för GeForce 30 -serien och funktionsuppsättning J för A100
  • 5 NVDEC för A100
  • Lägger till ny hårdvarubaserad 5-kärnig JPEG- avkodning ( NVJPG ) med YUV420, YUV422, YUV444, YUV400, RGBA. Bör inte förväxlas med Nvidia NVJPEG (GPU-accelererat bibliotek för JPEG-kodning/avkodning)

Pommes frites

  • GA100
  • GA102
  • GA104
  • GA106
  • GA107

Jämförelse av beräkningskapacitet: GP100 vs GV100 mot GA100

GPU -funktioner NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA A100
GPU -kodnamn GP100 GV100 GA100
GPU -arkitektur NVIDIA Pascal NVIDIA Volta NVIDIA Ampere
Beräkningskapacitet 6,0 7,0 8.0
Trådar / varp 32 32 32
Max varp / SM 64 64 64
Max trådar / SM 2048 2048 2048
Max gängblock / SM 32 32 32
Max 32-bitars register / SM 65536 65536 65536
Max register / block 65536 65536 65536
Max register / tråd 255 255 255
Max trådstorlek 1024 1024 1024
FP32 -kärnor / SM 64 64 64
Förhållande SM -register till FP32 -kärnor 1024 1024 1024
Delat minnesstorlek / SM 64 kB Konfigurerbar upp till 96 KB Konfigurerbar upp till 164 KB

Jämförelse av precisionsstödmatris

CUDA Core Precisions som stöds Tensor Core Precisions som stöds
FP16 FP32 FP64 INT1 INT4 INT8 TF32 BF16 FP16 FP32 FP64 INT1 INT4 INT8 TF32 BF16
NVIDIA Tesla P4 Nej Ja Ja Nej Nej Ja Nej Nej Nej Nej Nej Nej Nej Nej Nej Nej
NVIDIA P100 Ja Ja Ja Nej Nej Nej Nej Nej Nej Nej Nej Nej Nej Nej Nej Nej
NVIDIA Volta Ja Ja Ja Nej Nej Ja Nej Nej Ja Nej Nej Nej Nej Nej Nej Nej
NVIDIA Turing Ja Ja Ja Nej Nej Ja Nej Nej Ja Nej Nej Ja Ja Ja Nej Nej
NVIDIA A100 Ja Ja Ja Nej Nej Ja Nej Ja Ja Nej Ja Ja Ja Ja Ja Ja

Legend:

  • FPnn: flytpunkt med nn bitar
  • INTn: heltal med n bitar
  • INT1: binärt
  • TF32: TensorFloat32
  • BF16: bfloat16

Jämförelse av avkodningsprestanda

Samtidiga strömmar H.264 avkodning (1080p30) H.265 (HEVC) avkodning (1080p30) VP9 -avkodning (1080p30)
V100 16 22 22
A100 75 157 108

A100 -accelerator och DGX A100

Meddelades och släpptes den 14 maj 2020 var den Ampere-baserade A100-acceleratorn. A100 har 19,5 teraflops FP32 -prestanda, 6912 CUDA -kärnor, 40 GB grafikminne och 1,6 TB/s grafikminnesbandbredd. A100 -acceleratorn var ursprungligen endast tillgänglig i tredje generationen av DGX -server , inklusive 8 A100 -enheter. I DGX A100 ingår också 15 TB PCIe gen 4 NVMe -lagring , två 64 -kärniga AMD Rome 7742 -processorer, 1 TB RAM -minne och Mellanox -driven HDR InfiniBand -anslutning. Det ursprungliga priset för DGX A100 var 199 000 dollar.

Jämförelse av acceleratorer som används i DGX:

Accelerator
A100 80 GB
A100
V100
P100
Arkitektur FP32 CUDA -kärnor FP64 -kärnor (exkl. Tensor) INT32 -kärnor Öka klockan Minnes klocka Minnesbussbredd minnesbandbredd VRAM Single Precision Dubbel precision (FP64) INT8 (icke-Tensor) INT8 Tensor INT32 FP16 FP16 Tensor bfloat16 Tensor TensorFloat-32 (TF32) Tensor FP64 Tensor Koppla samman GPU L1 Cachestorlek L2 Cache -storlek GPU -storlek Transistorräkning TDP Tillverkningsprocess
Ampere 6912 3456 6912 1410 MHz 3,2 Gbit/s HBM2 5120-bitars 2039 GB/sek 80 GB 19,5 TFLOP 9.7 TFLOP Ej tillgängligt 624 TOPPAR 19.5 TOPPAR 78 TFLOP 312 TFLOP 312 TFLOP 156 TFLOP 19,5 TFLOP 600 GB/sek GA100 20736KB (192KBx108) 40960 KB 826 mm2 54.2B 400W TSMC 7 nm N7
Ampere 6912 3456 6912 1410 MHz 2,4 Gbit/s HBM2 5120-bitars 1555 GB/sek 40 GB 19,5 TFLOP 9.7 TFLOP Ej tillgängligt 624 TOPPAR 19.5 TOPPAR 78 TFLOP 312 TFLOP 312 TFLOP 156 TFLOP 19,5 TFLOP 600 GB/sek GA100 20736KB (192KBx108) 40960 KB 826 mm2 54.2B 400W TSMC 7 nm N7
Volta 5120 2560 5120 1530 MHz 1,75 Gbit/s HBM2 4096-bitars 900 GB/sek 16 GB/32 GB 15.7 TFLOP 7.8 TFLOP 62 TOPPAR Ej tillgängligt 15.7 TOPP 31.4 TFLOP 125 TFLOP Ej tillgängligt Ej tillgängligt Ej tillgängligt 300 GB/sek GV100 10240KB (128KBx80) 6144 kB 815 mm2 21.1B 300W/350W TSMC 12 nm FFN
Pascal 3584 1792 Ej tillgängligt 1480 MHz 1,4 Gbit/s HBM2 4096-bitars 720 GB/sek 16 GB 10.6 TFLOP 5.3 TFLOP Ej tillgängligt Ej tillgängligt Ej tillgängligt 21.2 TFLOP Ej tillgängligt Ej tillgängligt Ej tillgängligt Ej tillgängligt 160 GB/sek GP100 1344KB (24KBx56) 4096 KB 610 mm2 15.3B 300W TSMC 16 nm FinFET+

Produkter som använder Ampere

  • GeForce 30 -serien
    • GeForce RTX 3050 (GA107)
    • GeForce RTX 3050 Ti (GA107)
    • GeForce RTX 3060 (GA106)
    • GeForce RTX 3060 Ti (GA104)
    • GeForce RTX 3070 (GA104)
    • GeForce RTX 3070 Ti (GA104)
    • GeForce RTX 3080 (GA102)
    • GeForce RTX 3080 Ti (GA102)
    • GeForce RTX 3090 (GA102)
  • Nvidia Workstation GPU: er (tidigare Quadro )
    • RTX A2000 (mobil) (GA10?)
    • RTX A3000 (mobil) (GA104)
    • RTX A4000 (mobil) (GA104)
    • RTX A5000 (mobil) (GA104)
    • RTX A2000 (GA106)
    • RTX A4000 (GA104)
    • RTX A5000 (GA102)
    • RTX A6000 (GA102)
  • Nvidia Data Center GPU: er (tidigare Tesla )
    • Nvidia A10 (GA102)
    • Nvidia A16 (4 × GA107)
    • Nvidia A30 (GA100)
    • Nvidia A40 (GA102)
    • Nvidia A100 (GA100)
    • Nvidia A100 80GB (GA100)

Se även

Referenser

externa länkar