您的位置: 首頁(yè) >科技 >

英偉達(dá)培訓(xùn)世界上最大的轉(zhuǎn)換型語(yǔ)言模型

2022-08-15 00:48:21 編輯:莫哲純 來源:
導(dǎo)讀 英偉達(dá)(Nvidia)今天宣布,它已經(jīng)訓(xùn)練出世界上最大的語(yǔ)言模型,這是這家GPU制造商旨在推進(jìn)對(duì)話人工智能的一系列更新中的最新一個(gè)。為了實(shí)現(xiàn)...

英偉達(dá)(Nvidia)今天宣布,它已經(jīng)訓(xùn)練出世界上最大的語(yǔ)言模型,這是這家GPU制造商旨在推進(jìn)對(duì)話人工智能的一系列更新中的最新一個(gè)。

為了實(shí)現(xiàn)這一壯舉,Nvidia利用了模型并行性,將一個(gè)神經(jīng)網(wǎng)絡(luò)分解成若干塊,并使用一種技術(shù)來創(chuàng)建太大而無法容納單個(gè)GPU內(nèi)存的模型。該模型使用了83億個(gè)參數(shù),比BERT大24倍,比OpenAI的GPT-2大5倍。

Nvidia還宣布了雙向編碼器表示(BERT)的最快訓(xùn)練和推理時(shí)間,這是一種流行的模型,在2018年由谷歌開源時(shí)是最先進(jìn)的。

Nvidia能夠使用優(yōu)化的PyTorch軟件和超過1000個(gè)gpu的DGX-SuperPOD來訓(xùn)練BERT,耗時(shí)53分鐘。

Nvidia應(yīng)用深度學(xué)習(xí)副總裁Bryan Catarazano在與記者和分析師的對(duì)話中表示:“如果沒有這種技術(shù),可能需要數(shù)周時(shí)間來訓(xùn)練這些大型語(yǔ)言模型。”

Nvidia還聲稱,它已經(jīng)實(shí)現(xiàn)了最快的BERT推理時(shí)間,在特斯拉T4 GPU和TensorRT 5.1上運(yùn)行,為數(shù)據(jù)中心推理進(jìn)行了優(yōu)化,下降到2.2毫秒??ㄋ_諾說,當(dāng)使用cpu時(shí),伯特推理的時(shí)間可達(dá)40毫秒,而現(xiàn)在許多人工智能對(duì)話操作的時(shí)間可達(dá)10毫秒。

gpu也為微軟的Bing帶來了收益,后者使用Nvidia硬件將延遲時(shí)間縮短了一半。

今天介紹的每一項(xiàng)改進(jìn)都是為了強(qiáng)調(diào)Nvidia的GPU在語(yǔ)言理解方面的性能提升。上述每一個(gè)壯舉的代碼今天都是開源的,以幫助人工智能從業(yè)者和研究人員探索大型語(yǔ)言模型的創(chuàng)建或使用gpu進(jìn)行速度訓(xùn)練或推理。

除了單詞錯(cuò)誤率的大幅下降外,延遲的減少也是提高流行人工智能助手(如亞馬遜的Alexa、谷歌Assistant和百度的Duer)采用率的主要因素。

幾乎沒有延遲的交流將導(dǎo)致機(jī)器與人之間的對(duì)話,這種對(duì)話更像是人與人之間的對(duì)話,通常以思維的速度進(jìn)行。

就像今年為微軟的Cortana、Alexa和谷歌Assistant引入的多回合對(duì)話功能一樣,與助手的實(shí)時(shí)交流也讓交互變得更加自然。

會(huì)話人工智能系統(tǒng)的發(fā)展水平在很大程度上圍繞著谷歌基于轉(zhuǎn)換的語(yǔ)言模型在2017年和BERT在2018年的發(fā)展。

從那以后,BERT就被微軟的MT-DNN、谷歌的XLNet和百度的ERNIE超越了,它們都建立在BERT的基礎(chǔ)上。Facebook在7月份推出了同樣源自BERT的RoBERTa。羅伯塔目前在GLUE基準(zhǔn)排行榜上名列前茅,在9個(gè)語(yǔ)言任務(wù)中有4個(gè)是最好的。每個(gè)模型在粘合任務(wù)上的表現(xiàn)都優(yōu)于人類基線。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。