您的位置: 首頁 >科技 >

Nvidia透露了有關(guān)新GPU架構(gòu)Ampere的初步細(xì)節(jié)

2022-06-28 06:46:00 編輯:荀茗弘 來源:
導(dǎo)讀 Nvidia透露了有關(guān)新GPU架構(gòu)Ampere的初步細(xì)節(jié)。Volta的后繼產(chǎn)品旨在在數(shù)據(jù)中心中用于AI培訓(xùn)和深度學(xué)習(xí)。在這種情況下,據(jù)說第一款安培GPU

Nvidia透露了有關(guān)新GPU架構(gòu)Ampere的初步細(xì)節(jié)。Volta的后繼產(chǎn)品旨在在數(shù)據(jù)中心中用于AI培訓(xùn)和深度學(xué)習(xí)。在這種情況下,據(jù)說第一款安培GPU A100的功率是Volta的20倍。帶有A100的第一款產(chǎn)品是DGX A100。

基于Ampere的第一款芯片A100具有重要的生命統(tǒng)計(jì)數(shù)據(jù)。根據(jù)Nvidia的數(shù)據(jù),它由540億個(gè)晶體管提供支持,是世界上最大的7納米芯片,每秒可傳輸超過1個(gè)Peta運(yùn)算。英偉達(dá)(Nvidia)聲稱,對于AI訓(xùn)練(單精度,32位浮點(diǎn)數(shù))和AI推理(8位整數(shù)),A100的性能是等效Volta設(shè)備的20倍。用于高性能科學(xué)計(jì)算的同一設(shè)備可以使Volta的性能提高2.5倍(64位雙精度)。A100的每個(gè)SM都帶有64個(gè)FP32內(nèi)核和32個(gè)FP64內(nèi)核。A100視頻卡使用PCI Express 4.0和Nvidia專有的NVLink接口進(jìn)行超快速的相互通信,最高速度為600 GB / s。TDP設(shè)置為400瓦。您可以在照片上看到有六個(gè)HBM2堆棧,它們總共占了40 GB的視頻內(nèi)存。給定總內(nèi)存帶寬為1550 GB / s,即5120位內(nèi)存總線。

A100添加了功能強(qiáng)大的新型第三代Tensor Core,可在V100之上提高吞吐量,同時(shí)增加了對DL和HPC數(shù)據(jù)類型的全面支持,以及新的Sparsity功能,可將吞吐量進(jìn)一步提高一倍。A100中的新TensorFloat-32(TF32)Tensor Core操作為在DL框架和HPC中加速FP32輸入/輸出數(shù)據(jù)提供了一條簡便的途徑,其運(yùn)行速度比V100 FP32 FMA操作快10倍,而稀疏性則快20倍。對于FP16 / FP32混合精度DL,A100 Tensor Core的性能是V100的2.5倍,而稀疏性則提高到5倍。新的Bfloat16(BF16)/ FP32混合精度Tensor Core操作以與FP16 / FP32混合精度相同的速率運(yùn)行。Tensor Core加速了INT8,INT4和二進(jìn)制,全面支持DL推理,其中A100稀疏INT8的運(yùn)行速度比V100 INT8快20倍。對于HPC,

該GPU具有7nm Ampere GA100 GPU,具有6912個(gè)著色器處理器和432個(gè)Tensor內(nèi)核。GPU尺寸為826mm2,具有108個(gè)流式多處理器x 64個(gè)著色器處理器。A100不是完全啟用的芯片。Tesla A100具有40GB的HBM2e內(nèi)存。

A100 GPU流式多處理器

基于NVIDIA Ampere架構(gòu)的A100 Tensor Core GPU中的新流式多處理器(SM)大大提高了性能,并基于Volta和Turing SM架構(gòu)中引入的功能,并增加了許多新功能。

A100第三代Tensor內(nèi)核增強(qiáng)了操作數(shù)共享并提高了效率,并添加了功能強(qiáng)大的新數(shù)據(jù)類型,其中包括:

TF32 Tensor Core指令可加速FP32數(shù)據(jù)的處理

適用于HPC的IEEE兼容FP64 Tensor Core指令

BF16 Tensor Core指令的吞吐量與FP16相同

40 GB HBM2和40 MB L2緩存

為了滿足其巨大的計(jì)算吞吐量,NVIDIA A100 GPU擁有40 GB的高速HBM2內(nèi)存,具有一流的1.6 TB /秒的內(nèi)存帶寬–與Tesla V100相比增加了73%。此外,A100 GPU擁有更多的片上內(nèi)存,其中包括40 MB的2級(jí)(L2)緩存-比V100大近7倍-以最大化計(jì)算性能。借助新的分區(qū)交叉開關(guān)結(jié)構(gòu),A100 L2緩存提供了V100的L2緩存讀取帶寬的2.3倍。為了優(yōu)化容量利用率,NVIDIA Ampere體系結(jié)構(gòu)提供了L2緩存駐留控件,供您管理要保留或從緩存中逐出的數(shù)據(jù)。A100還增加了計(jì)算數(shù)據(jù)壓縮功能,以使DRAM帶寬和L2帶寬最多增加4倍,L2容量最多增加2倍。

A100 GPU硬件架構(gòu)

NVIDIA GA100 GPU由多個(gè)GPU處理群集(GPC),紋理處理群集(TPC),流式多處理器(SM)和HBM2內(nèi)存控制器組成。

GA100 GPU的完整實(shí)現(xiàn)包括以下單元:

每個(gè)完整GPU 8個(gè)GPC,8個(gè)TPC / GPC,2個(gè)SM / TPC,16個(gè)SM / GPC,128個(gè)SM

每個(gè)完整GPU 64個(gè)FP32 CUDA內(nèi)核/ SM,8192個(gè)FP32 CUDA內(nèi)核

每個(gè)完整GPU 4個(gè)第三代Tensor內(nèi)核/ SM,512個(gè)第三代Tensor內(nèi)核

6個(gè)HBM2堆棧,12個(gè)512位內(nèi)存控制器

GA100 GPU的A100 Tensor Core GPU實(shí)現(xiàn)包括以下單元:

7個(gè)GPC,7個(gè)或8個(gè)TPC / GPC,2個(gè)SM / TPC,最多16個(gè)SM / GPC,108個(gè)SM

每個(gè)GPU 64個(gè)FP32 CUDA內(nèi)核/ SM,6912??個(gè)FP32 CUDA內(nèi)核

每個(gè)GPU 4個(gè)第三代Tensor內(nèi)核/ SM,432個(gè)第三代Tensor內(nèi)核

5個(gè)HBM2堆棧,10個(gè)512位內(nèi)存控制器


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。