您的位置: 首頁(yè) >互聯(lián)網(wǎng) >

Facebook研究人員構(gòu)建了一個(gè)數(shù)據(jù)集來(lái)訓(xùn)練個(gè)性化對(duì)話代理

2019-06-10 17:32:21 編輯: 來(lái)源:
導(dǎo)讀 Facebook的研究人員最近編制了一個(gè)包含500萬(wàn)個(gè)人物角色和7億個(gè)基于人物角色的對(duì)話的數(shù)據(jù)集。該數(shù)據(jù)庫(kù)可用于訓(xùn)練端到端對(duì)話系統(tǒng),從而在計(jì)算

Facebook的研究人員最近編制了一個(gè)包含500萬(wàn)個(gè)人物角色和7億個(gè)基于人物角色的對(duì)話的數(shù)據(jù)集。該數(shù)據(jù)庫(kù)可用于訓(xùn)練端到端對(duì)話系統(tǒng),從而在計(jì)算機(jī)代理和人類之間產(chǎn)生更具吸引力和豐富的對(duì)話。

對(duì)話系統(tǒng)或會(huì)話代理(CA)是設(shè)計(jì)用于通過(guò)文本,語(yǔ)音,圖形或其他方法以連貫的方式與人類通信的計(jì)算機(jī)系統(tǒng)。到目前為止,已經(jīng)發(fā)現(xiàn)基于神經(jīng)架構(gòu)的對(duì)話系統(tǒng)(例如LSTM或存儲(chǔ)器網(wǎng)絡(luò))在實(shí)現(xiàn)流暢的通信方面特別有前途,特別是在直接對(duì)話對(duì)話日志時(shí)。

“他們的主要優(yōu)勢(shì)之一是他們可以依靠現(xiàn)有對(duì)話的大型數(shù)據(jù)源來(lái)學(xué)習(xí)覆蓋各種領(lǐng)域而無(wú)需任何專業(yè)知識(shí),”研究人員在他們的論文中寫道,該論文已預(yù)先發(fā)布在arXiv上。“然而,另一方面,他們也表現(xiàn)出有限的參與度,特別是在閑聊環(huán)境中:他們?nèi)狈σ恢滦裕⑶也粫?huì)像(甚至部分)腳本聊天機(jī)器人那樣利用主動(dòng)參與策略。”

在最近的一項(xiàng)研究中,蒙特利爾學(xué)習(xí)算法研究所(MILA)和Facebook AI的另一組研究人員創(chuàng)建了一個(gè)名為PERSONA-CHAT 的數(shù)據(jù)集,其中包括與文本配置文件或人物角色相關(guān)聯(lián)的代理之間的對(duì)話。他們發(fā)現(xiàn),針對(duì)特定角色培訓(xùn)對(duì)話系統(tǒng)可以提高他們對(duì)互動(dòng)的參與度。

“然而,PERSONA-CHAT數(shù)據(jù)集是使用基于Mechanical Turk的人工數(shù)據(jù)收集機(jī)制創(chuàng)建的,”研究人員在他們的論文中解釋道。“因此,對(duì)話框和人物角色都不能完全代表真實(shí)的用戶 - 機(jī)器人交互,數(shù)據(jù)集覆蓋范圍仍然有限,包含超過(guò)1k個(gè)不同的角色。”

為了解決以前編譯的數(shù)據(jù)集的局限性,F(xiàn)acebook研究人員創(chuàng)建了一個(gè)新的,大規(guī)模的基于角色的對(duì)話數(shù)據(jù)集,由從在線平臺(tái)Reddit中提取的對(duì)話組成。他們的研究通過(guò)使用更具代表性的互動(dòng),使他們的前輩的工作更進(jìn)一步。

“在本文中,我們使用以前從Reddit中提取的對(duì)話構(gòu)建了一個(gè)非常大規(guī)模的基于角色的對(duì)話數(shù)據(jù)集,”研究人員寫道。“通過(guò)簡(jiǎn)單的啟發(fā)式方法,我們創(chuàng)建了一個(gè)超過(guò)500萬(wàn)個(gè)角色的語(yǔ)料庫(kù),涵蓋超過(guò)7億個(gè)對(duì)話。”

為了評(píng)估其有效性,研究人員在他們新開(kāi)發(fā)的數(shù)據(jù)集上訓(xùn)練了基于人物的端對(duì)端對(duì)話系統(tǒng)。受過(guò)數(shù)據(jù)集培訓(xùn)的系統(tǒng)能夠進(jìn)行更具吸引力的對(duì)話,優(yōu)于其他在培訓(xùn)期間無(wú)法訪問(wèn)人物角色的會(huì)話代理。

有趣的是,他們的數(shù)據(jù)集導(dǎo)致了最先進(jìn)的結(jié)果,即使對(duì)話系統(tǒng)只是在其上進(jìn)行了預(yù)訓(xùn)練。將來(lái),這些發(fā)現(xiàn)可能會(huì)導(dǎo)致更具吸引力的聊天機(jī)器人的發(fā)展,這些聊天機(jī)器人也可以個(gè)性化和訓(xùn)練以獲得特定的角色。

研究人員寫道:“我們表明,訓(xùn)練模型可以將答案與作者的角色和背景相結(jié)合,從而提高預(yù)測(cè)性能。” “由于預(yù)訓(xùn)練可以帶來(lái)相當(dāng)大的性能提升,未來(lái)的工作可以為各種對(duì)話系統(tǒng)微調(diào)這個(gè)模型。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。