英偉達(dá)培訓(xùn)世界上最大的轉(zhuǎn)換型語(yǔ)言模型

2022-08-15 00:48:21 編輯：莫哲純來(lái)源：

導(dǎo)讀英偉達(dá)(Nvidia)今天宣布，它已經(jīng)訓(xùn)練出世界上最大的語(yǔ)言模型，這是這家GPU制造商旨在推進(jìn)對(duì)話人工智能的一系列更新中的最新一個(gè)。為了實(shí)現(xiàn)...

英偉達(dá)(Nvidia)今天宣布，它已經(jīng)訓(xùn)練出世界上最大的語(yǔ)言模型，這是這家GPU制造商旨在推進(jìn)對(duì)話人工智能的一系列更新中的最新一個(gè)。

為了實(shí)現(xiàn)這一壯舉，Nvidia利用了模型并行性，將一個(gè)神經(jīng)網(wǎng)絡(luò)分解成若干塊，并使用一種技術(shù)來(lái)創(chuàng)建太大而無(wú)法容納單個(gè)GPU內(nèi)存的模型。該模型使用了83億個(gè)參數(shù)，比BERT大24倍，比OpenAI的GPT-2大5倍。

Nvidia還宣布了雙向編碼器表示(BERT)的最快訓(xùn)練和推理時(shí)間，這是一種流行的模型，在2018年由谷歌開(kāi)源時(shí)是最先進(jìn)的。

Nvidia能夠使用優(yōu)化的PyTorch軟件和超過(guò)1000個(gè)gpu的DGX-SuperPOD來(lái)訓(xùn)練BERT，耗時(shí)53分鐘。

Nvidia應(yīng)用深度學(xué)習(xí)副總裁Bryan Catarazano在與記者和分析師的對(duì)話中表示:“如果沒(méi)有這種技術(shù)，可能需要數(shù)周時(shí)間來(lái)訓(xùn)練這些大型語(yǔ)言模型。”

Nvidia還聲稱，它已經(jīng)實(shí)現(xiàn)了最快的BERT推理時(shí)間，在特斯拉T4 GPU和TensorRT 5.1上運(yùn)行，為數(shù)據(jù)中心推理進(jìn)行了優(yōu)化，下降到2.2毫秒?？ㄋ_諾說(shuō)，當(dāng)使用cpu時(shí)，伯特推理的時(shí)間可達(dá)40毫秒，而現(xiàn)在許多人工智能對(duì)話操作的時(shí)間可達(dá)10毫秒。

gpu也為微軟的Bing帶來(lái)了收益，后者使用Nvidia硬件將延遲時(shí)間縮短了一半。

今天介紹的每一項(xiàng)改進(jìn)都是為了強(qiáng)調(diào)Nvidia的GPU在語(yǔ)言理解方面的性能提升。上述每一個(gè)壯舉的代碼今天都是開(kāi)源的，以幫助人工智能從業(yè)者和研究人員探索大型語(yǔ)言模型的創(chuàng)建或使用gpu進(jìn)行速度訓(xùn)練或推理。

除了單詞錯(cuò)誤率的大幅下降外，延遲的減少也是提高流行人工智能助手(如亞馬遜的Alexa、谷歌Assistant和百度的Duer)采用率的主要因素。

幾乎沒(méi)有延遲的交流將導(dǎo)致機(jī)器與人之間的對(duì)話，這種對(duì)話更像是人與人之間的對(duì)話，通常以思維的速度進(jìn)行。

就像今年為微軟的Cortana、Alexa和谷歌Assistant引入的多回合對(duì)話功能一樣，與助手的實(shí)時(shí)交流也讓交互變得更加自然。

會(huì)話人工智能系統(tǒng)的發(fā)展水平在很大程度上圍繞著谷歌基于轉(zhuǎn)換的語(yǔ)言模型在2017年和BERT在2018年的發(fā)展。

從那以后，BERT就被微軟的MT-DNN、谷歌的XLNet和百度的ERNIE超越了，它們都建立在BERT的基礎(chǔ)上。Facebook在7月份推出了同樣源自BERT的RoBERTa。羅伯塔目前在GLUE基準(zhǔn)排行榜上名列前茅，在9個(gè)語(yǔ)言任務(wù)中有4個(gè)是最好的。每個(gè)模型在粘合任務(wù)上的表現(xiàn)都優(yōu)于人類基線。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！