Nvidia透露了有關(guān)新GPU架構(gòu)Ampere的初步細(xì)節(jié)

2022-06-28 06:46:00 編輯：荀茗弘來源：

導(dǎo)讀 Nvidia透露了有關(guān)新GPU架構(gòu)Ampere的初步細(xì)節(jié)。Volta的后繼產(chǎn)品旨在在數(shù)據(jù)中心中用于AI培訓(xùn)和深度學(xué)習(xí)。在這種情況下，據(jù)說第一款安培GPU

Nvidia透露了有關(guān)新GPU架構(gòu)Ampere的初步細(xì)節(jié)。Volta的后繼產(chǎn)品旨在在數(shù)據(jù)中心中用于AI培訓(xùn)和深度學(xué)習(xí)。在這種情況下，據(jù)說第一款安培GPU A100的功率是Volta的20倍。帶有A100的第一款產(chǎn)品是DGX A100。

基于Ampere的第一款芯片A100具有重要的生命統(tǒng)計(jì)數(shù)據(jù)。根據(jù)Nvidia的數(shù)據(jù)，它由540億個(gè)晶體管提供支持，是世界上最大的7納米芯片，每秒可傳輸超過1個(gè)Peta運(yùn)算。英偉達(dá)(Nvidia)聲稱，對于AI訓(xùn)練(單精度，32位浮點(diǎn)數(shù))和AI推理(8位整數(shù))，A100的性能是等效Volta設(shè)備的20倍。用于高性能科學(xué)計(jì)算的同一設(shè)備可以使Volta的性能提高2.5倍(64位雙精度)。A100的每個(gè)SM都帶有64個(gè)FP32內(nèi)核和32個(gè)FP64內(nèi)核。A100視頻卡使用PCI Express 4.0和Nvidia專有的NVLink接口進(jìn)行超快速的相互通信，最高速度為600 GB / s。TDP設(shè)置為400瓦。您可以在照片上看到有六個(gè)HBM2堆棧，它們總共占了40 GB的視頻內(nèi)存。給定總內(nèi)存帶寬為1550 GB / s，即5120位內(nèi)存總線。

A100添加了功能強(qiáng)大的新型第三代Tensor Core，可在V100之上提高吞吐量，同時(shí)增加了對DL和HPC數(shù)據(jù)類型的全面支持，以及新的Sparsity功能，可將吞吐量進(jìn)一步提高一倍。A100中的新TensorFloat-32(TF32)Tensor Core操作為在DL框架和HPC中加速FP32輸入/輸出數(shù)據(jù)提供了一條簡便的途徑，其運(yùn)行速度比V100 FP32 FMA操作快10倍，而稀疏性則快20倍。對于FP16 / FP32混合精度DL，A100 Tensor Core的性能是V100的2.5倍，而稀疏性則提高到5倍。新的Bfloat16(BF16)/ FP32混合精度Tensor Core操作以與FP16 / FP32混合精度相同的速率運(yùn)行。Tensor Core加速了INT8，INT4和二進(jìn)制，全面支持DL推理，其中A100稀疏INT8的運(yùn)行速度比V100 INT8快20倍。對于HPC，

該GPU具有7nm Ampere GA100 GPU，具有6912個(gè)著色器處理器和432個(gè)Tensor內(nèi)核。GPU尺寸為826mm2，具有108個(gè)流式多處理器x 64個(gè)著色器處理器。A100不是完全啟用的芯片。Tesla A100具有40GB的HBM2e內(nèi)存。

A100 GPU流式多處理器

基于NVIDIA Ampere架構(gòu)的A100 Tensor Core GPU中的新流式多處理器(SM)大大提高了性能，并基于Volta和Turing SM架構(gòu)中引入的功能，并增加了許多新功能。

A100第三代Tensor內(nèi)核增強(qiáng)了操作數(shù)共享并提高了效率，并添加了功能強(qiáng)大的新數(shù)據(jù)類型，其中包括：

TF32 Tensor Core指令可加速FP32數(shù)據(jù)的處理

適用于HPC的IEEE兼容FP64 Tensor Core指令

BF16 Tensor Core指令的吞吐量與FP16相同

40 GB HBM2和40 MB L2緩存

為了滿足其巨大的計(jì)算吞吐量，NVIDIA A100 GPU擁有40 GB的高速HBM2內(nèi)存，具有一流的1.6 TB /秒的內(nèi)存帶寬–與Tesla V100相比增加了73%。此外，A100 GPU擁有更多的片上內(nèi)存，其中包括40 MB的2級(jí)(L2)緩存-比V100大近7倍-以最大化計(jì)算性能。借助新的分區(qū)交叉開關(guān)結(jié)構(gòu)，A100 L2緩存提供了V100的L2緩存讀取帶寬的2.3倍。為了優(yōu)化容量利用率，NVIDIA Ampere體系結(jié)構(gòu)提供了L2緩存駐留控件，供您管理要保留或從緩存中逐出的數(shù)據(jù)。A100還增加了計(jì)算數(shù)據(jù)壓縮功能，以使DRAM帶寬和L2帶寬最多增加4倍，L2容量最多增加2倍。

A100 GPU硬件架構(gòu)

NVIDIA GA100 GPU由多個(gè)GPU處理群集(GPC)，紋理處理群集(TPC)，流式多處理器(SM)和HBM2內(nèi)存控制器組成。

GA100 GPU的完整實(shí)現(xiàn)包括以下單元：

每個(gè)完整GPU 8個(gè)GPC，8個(gè)TPC / GPC，2個(gè)SM / TPC，16個(gè)SM / GPC，128個(gè)SM

每個(gè)完整GPU 64個(gè)FP32 CUDA內(nèi)核/ SM，8192個(gè)FP32 CUDA內(nèi)核

每個(gè)完整GPU 4個(gè)第三代Tensor內(nèi)核/ SM，512個(gè)第三代Tensor內(nèi)核

6個(gè)HBM2堆棧，12個(gè)512位內(nèi)存控制器

GA100 GPU的A100 Tensor Core GPU實(shí)現(xiàn)包括以下單元：

7個(gè)GPC，7個(gè)或8個(gè)TPC / GPC，2個(gè)SM / TPC，最多16個(gè)SM / GPC，108個(gè)SM

每個(gè)GPU 64個(gè)FP32 CUDA內(nèi)核/ SM，6912??個(gè)FP32 CUDA內(nèi)核

每個(gè)GPU 4個(gè)第三代Tensor內(nèi)核/ SM，432個(gè)第三代Tensor內(nèi)核

5個(gè)HBM2堆棧，10個(gè)512位內(nèi)存控制器