Ampere (mikroarkitektur) - Ampere (microarchitecture)

Nvidia Ampere
Utgivningsdatum	14 maj 2020
Tillverkningsprocess
Historia
Företrädare
Efterträdare

Ampere är kodnamnet för en grafikprocessorenhet (GPU) mikroarkitektur som utvecklats av Nvidia som efterträdare till både Volta- och Turing- arkitekturen, officiellt tillkännagav den 14 maj 2020. Det är uppkallat efter den franske matematikern och fysikern André-Marie Ampère . Nvidia tillkännagav nästa generations GeForce 30-seriens konsument-GPU: er vid ett GeForce Special Event den 1 september 2020. Nvidia tillkännagav A100 80 GB GPU på SC20 den 16 november 2020. Mobila RTX-grafikkort och RTX 3060 avslöjades den 12 januari 2021 . Nvidia tillkännagav också Amperes efterträdare, preliminärt kodnamnet "Ampere Next" för en release 2022 och "Ampere Next Next" för en 2024 -release på GPU Technology Conference 2021.

Detaljer

Arkitektoniska förbättringar av Ampere -arkitekturen inkluderar följande:

CUDA Compute Capability 8.0 för A100 och 8.6 för GeForce 30 -serien
TSMC : s 7 nm FinFET -process för A100
Anpassad version av Samsung : s 8 nm process (8N) för GeForce 30-serien
Tredje generationens Tensor-kärnor med FP16, bfloat16, TensorFloat-32 (TF32) och FP64 support och sparsity acceleration
Andra generationens strålspårningskärnor; samtidig strålspårning, skuggning och beräkning för GeForce 30 -serien
Minne med hög bandbredd 2 (HBM2) på A100 40GB och A100 80GB
GDDR6X -minne för GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti
Dubbla FP32 -kärnor per SM på GA10x -GPU: er
NVLink 3.0 med en 50 Gbit/s per par -genomströmning
PCI Express 4.0 med SR-IOV-stöd (SR-IOV är endast reserverat för A100)
Multi-Instance GPU (MIG) virtualisering och GPU-partitionsfunktion i A100 som stöder upp till sju instanser
PureVideo -funktionsuppsättning K hårdvaruvideoavkodning med AV1 -hårdvaruavkodning för GeForce 30 -serien och funktionsuppsättning J för A100
5 NVDEC för A100
Lägger till ny hårdvarubaserad 5-kärnig JPEG- avkodning ( NVJPG ) med YUV420, YUV422, YUV444, YUV400, RGBA. Bör inte förväxlas med Nvidia NVJPEG (GPU-accelererat bibliotek för JPEG-kodning/avkodning)

Pommes frites

GA100
GA102
GA104
GA106
GA107

Jämförelse av beräkningskapacitet: GP100 vs GV100 mot GA100

GPU -funktioner	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
GPU -kodnamn	GP100	GV100	GA100
GPU -arkitektur	NVIDIA Pascal	NVIDIA Volta	NVIDIA Ampere
Beräkningskapacitet	6,0	7,0	8.0
Trådar / varp	32	32	32
Max varp / SM	64	64	64
Max trådar / SM	2048	2048	2048
Max gängblock / SM	32	32	32
Max 32-bitars register / SM	65536	65536	65536
Max register / block	65536	65536	65536
Max register / tråd	255	255	255
Max trådstorlek	1024	1024	1024
FP32 -kärnor / SM	64	64	64
Förhållande SM -register till FP32 -kärnor	1024	1024	1024
Delat minnesstorlek / SM	64 kB	Konfigurerbar upp till 96 KB	Konfigurerbar upp till 164 KB

Jämförelse av precisionsstödmatris

	FP16	FP32	FP64	INT1	INT4	INT8	TF32	BF16	FP16	FP32	FP64	INT1	INT4	INT8	TF32	BF16
	CUDA Core Precisions som stöds								Tensor Core Precisions som stöds
NVIDIA Tesla P4	Nej	Ja	Ja	Nej	Nej	Ja	Nej	Nej	Nej	Nej	Nej	Nej	Nej	Nej	Nej	Nej
NVIDIA P100	Ja	Ja	Ja	Nej	Nej	Nej	Nej	Nej	Nej	Nej	Nej	Nej	Nej	Nej	Nej	Nej
NVIDIA Volta	Ja	Ja	Ja	Nej	Nej	Ja	Nej	Nej	Ja	Nej	Nej	Nej	Nej	Nej	Nej	Nej
NVIDIA Turing	Ja	Ja	Ja	Nej	Nej	Ja	Nej	Nej	Ja	Nej	Nej	Ja	Ja	Ja	Nej	Nej
NVIDIA A100	Ja	Ja	Ja	Nej	Nej	Ja	Nej	Ja	Ja	Nej	Ja	Ja	Ja	Ja	Ja	Ja

Legend:

FPnn: flytpunkt med nn bitar
INTn: heltal med n bitar
INT1: binärt
TF32: TensorFloat32
BF16: bfloat16

Jämförelse av avkodningsprestanda

Samtidiga strömmar	H.264 avkodning (1080p30)	H.265 (HEVC) avkodning (1080p30)	VP9 -avkodning (1080p30)
V100	16	22	22
A100	75	157	108

A100 -accelerator och DGX A100

Meddelades och släpptes den 14 maj 2020 var den Ampere-baserade A100-acceleratorn. A100 har 19,5 teraflops FP32 -prestanda, 6912 CUDA -kärnor, 40 GB grafikminne och 1,6 TB/s grafikminnesbandbredd. A100 -acceleratorn var ursprungligen endast tillgänglig i tredje generationen av DGX -server , inklusive 8 A100 -enheter. I DGX A100 ingår också 15 TB PCIe gen 4 NVMe -lagring , två 64 -kärniga AMD Rome 7742 -processorer, 1 TB RAM -minne och Mellanox -driven HDR InfiniBand -anslutning. Det ursprungliga priset för DGX A100 var 199 000 dollar.

Jämförelse av acceleratorer som används i DGX:

Accelerator
A100 80 GB
A100
V100
P100

Arkitektur	FP32 CUDA -kärnor	FP64 -kärnor (exkl. Tensor)	INT32 -kärnor	Öka klockan	Minnes klocka	Minnesbussbredd	minnesbandbredd	VRAM	Single Precision	Dubbel precision (FP64)	INT8 (icke-Tensor)	INT8 Tensor	INT32	FP16	FP16 Tensor	bfloat16 Tensor	TensorFloat-32 (TF32) Tensor	FP64 Tensor	Koppla samman	GPU	L1 Cachestorlek	L2 Cache -storlek	GPU -storlek	Transistorräkning	TDP	Tillverkningsprocess
Ampere	6912	3456	6912	1410 MHz	3,2 Gbit/s HBM2	5120-bitars	2039 GB/sek	80 GB	19,5 TFLOP	9.7 TFLOP	Ej tillgängligt	624 TOPPAR	19.5 TOPPAR	78 TFLOP	312 TFLOP	312 TFLOP	156 TFLOP	19,5 TFLOP	600 GB/sek	GA100	20736KB (192KBx108)	40960 KB	826 mm2	54.2B	400W	TSMC 7 nm N7
Ampere	6912	3456	6912	1410 MHz	2,4 Gbit/s HBM2	5120-bitars	1555 GB/sek	40 GB	19,5 TFLOP	9.7 TFLOP	Ej tillgängligt	624 TOPPAR	19.5 TOPPAR	78 TFLOP	312 TFLOP	312 TFLOP	156 TFLOP	19,5 TFLOP	600 GB/sek	GA100	20736KB (192KBx108)	40960 KB	826 mm2	54.2B	400W	TSMC 7 nm N7
Volta	5120	2560	5120	1530 MHz	1,75 Gbit/s HBM2	4096-bitars	900 GB/sek	16 GB/32 GB	15.7 TFLOP	7.8 TFLOP	62 TOPPAR	Ej tillgängligt	15.7 TOPP	31.4 TFLOP	125 TFLOP	Ej tillgängligt	Ej tillgängligt	Ej tillgängligt	300 GB/sek	GV100	10240KB (128KBx80)	6144 kB	815 mm2	21.1B	300W/350W	TSMC 12 nm FFN
Pascal	3584	1792	Ej tillgängligt	1480 MHz	1,4 Gbit/s HBM2	4096-bitars	720 GB/sek	16 GB	10.6 TFLOP	5.3 TFLOP	Ej tillgängligt	Ej tillgängligt	Ej tillgängligt	21.2 TFLOP	Ej tillgängligt	Ej tillgängligt	Ej tillgängligt	Ej tillgängligt	160 GB/sek	GP100	1344KB (24KBx56)	4096 KB	610 mm2	15.3B	300W	TSMC 16 nm FinFET+

Produkter som använder Ampere

GeForce 30 -serien
- GeForce RTX 3050 (GA107)
- GeForce RTX 3050 Ti (GA107)
- GeForce RTX 3060 (GA106)
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3070 Ti (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3080 Ti (GA102)
- GeForce RTX 3090 (GA102)
Nvidia Workstation GPU: er (tidigare Quadro )
- RTX A2000 (mobil) (GA10?)
- RTX A3000 (mobil) (GA104)
- RTX A4000 (mobil) (GA104)
- RTX A5000 (mobil) (GA104)
- RTX A2000 (GA106)
- RTX A4000 (GA104)
- RTX A5000 (GA102)
- RTX A6000 (GA102)
Nvidia Data Center GPU: er (tidigare Tesla )
- Nvidia A10 (GA102)
- Nvidia A16 (4 × GA107)
- Nvidia A30 (GA100)
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 80GB (GA100)

Languages

In other projects

Ampere (mikroarkitektur) - Ampere (microarchitecture)

Innehåll

Detaljer

Pommes frites

A100 -accelerator och DGX A100

Produkter som använder Ampere

Se även

Referenser

externa länkar

Historia
Utgivningsdatum	14 maj 2020 ( 2020-05-14 )
Tillverkningsprocess
Företrädare
Efterträdare