您的位置: 首頁(yè) >互聯(lián)網(wǎng) >

Google的第四代張量處理單元公開(kāi)發(fā)布

2020-07-31 08:44:35 編輯: 來(lái)源:國(guó)際品牌資訊
導(dǎo)讀 Google的第四代張量處理單元(TPU)直到今天才公開(kāi)發(fā)布,它可以在接近記錄的壁鐘時(shí)間內(nèi)完成AI和機(jī)器學(xué)習(xí)訓(xùn)練工作量。這是根據(jù)MLPerf發(fā)布的最

Google的第四代張量處理單元(TPU)直到今天才公開(kāi)發(fā)布,它可以在接近記錄的壁鐘時(shí)間內(nèi)完成AI和機(jī)器學(xué)習(xí)訓(xùn)練工作量。這是根據(jù)MLPerf發(fā)布的最新一組指標(biāo)得出的。該指標(biāo)是MLPerf套件背后的70多家公司和學(xué)術(shù)機(jī)構(gòu)組成的聯(lián)盟,用于AI性能基準(zhǔn)測(cè)試。它顯示了第四代TPU的集群在對(duì)象檢測(cè),圖像分類(lèi),自然語(yǔ)言處理,機(jī)器翻譯和推薦基準(zhǔn)方面超過(guò)了第三代TPU(甚至是Nvidia最近發(fā)布的A100的集群)的功能。

谷歌表示,其第四代TPU提供的矩陣乘法TFLOP是第三代TPU的兩倍以上,其中單個(gè)TFLOP相當(dāng)于每秒1萬(wàn)億個(gè)浮點(diǎn)運(yùn)算。(矩陣通常用于表示輸入到AI模型中的數(shù)據(jù)。)它還提供了“顯著”的內(nèi)存帶寬提升,同時(shí)受益于互連技術(shù)的未指定進(jìn)步。谷歌表示,總體而言,在相同的64芯片規(guī)模上,并且不考慮軟件帶來(lái)的改進(jìn),在去年的MLPerf基準(zhǔn)測(cè)試中,第四代TPU的性能平均比第三代TPU提升了2.7倍。

Google的TPU是專(zhuān)用于加速AI的專(zhuān)用集成電路(ASIC)。它們是液冷的,旨在插入服務(wù)器機(jī)架中。交付多達(dá)100 petaflops的計(jì)算;并增強(qiáng)Google產(chǎn)品的功能,例如Google搜索,Google相冊(cè),Google翻譯,Google助手,Gmail和Google Cloud AI API。谷歌在其年度I / O開(kāi)發(fā)人員大會(huì)上宣布了2018年的第三代產(chǎn)品,今天早晨揭開(kāi)了繼任者的序幕,后者處于研究階段。

Google AI軟件工程師Naveen Kumar在博客中寫(xiě)道:“這表明了我們致力于大規(guī)模開(kāi)展機(jī)器學(xué)習(xí)研究和工程,并通過(guò)開(kāi)源軟件,Google產(chǎn)品和Google Cloud向用戶(hù)提供這些進(jìn)步的承諾。”“機(jī)器學(xué)習(xí)模型的快速培訓(xùn)對(duì)于提供以前無(wú)法實(shí)現(xiàn)的新產(chǎn)品,服務(wù)和研究突破的研究和工程團(tuán)隊(duì)至關(guān)重要。”

今年的MLPerf結(jié)果表明,谷歌的第四代TPU不容小at。在涉及使用ImageNet數(shù)據(jù)集對(duì)算法(ResNet-50 v1.5)進(jìn)行至少75.90%的準(zhǔn)確度訓(xùn)練的圖像分類(lèi)任務(wù)中,在1.82分鐘內(nèi)完成了256個(gè)第四代TPU。這幾乎與768個(gè)Nvidia A100圖形卡,192個(gè)AMD Epyc 7742 CPU內(nèi)核(1.06分鐘)以及512個(gè)華為AI優(yōu)化的Ascend910芯片與128個(gè)Intel Xeon Platinum 8168內(nèi)核(1.56分鐘)組合在一起的速度一樣快。第三代TPU在0.48分鐘的訓(xùn)練中獲得了第四代跳動(dòng),但這也許僅是因?yàn)榇?lián)使用了4,096個(gè)第三代TPU。

在MLPerf的“重量級(jí)”對(duì)象檢測(cè)類(lèi)別中,第四代TPU稍稍領(lǐng)先一點(diǎn)。一個(gè)參考模型(Mask R-CNN)在9.95分鐘內(nèi)用256個(gè)第四代TPU進(jìn)行了COCO語(yǔ)料庫(kù)的訓(xùn)練,達(dá)到了512個(gè)第三代TPU的驚人距離(8.13分鐘)。在自然語(yǔ)言處理工作量上,需要在WMT英語(yǔ)-德語(yǔ)數(shù)據(jù)集上訓(xùn)練Transformer模型,因此在0.78分鐘內(nèi)完成了256個(gè)第四代TPU。4,096個(gè)第三代TPU需要0.35分鐘,而480個(gè)Nvidia A100卡(加上256個(gè)AMD Epyc 7742 CPU內(nèi)核)需要0.62分鐘。

當(dāng)負(fù)責(zé)在大型維基百科語(yǔ)料庫(kù)上訓(xùn)練BERT


免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。