2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在過(guò)去的幾十年里,研究人員開(kāi)發(fā)了越來(lái)越先進(jìn)的人工智能(AI)工具和計(jì)算技術(shù),可以應(yīng)用于各種環(huán)境。在這些技術(shù)中,能夠產(chǎn)生書(shū)面或口頭語(yǔ)言的技術(shù)已經(jīng)引起了相當(dāng)大的注意,特別是隨著新語(yǔ)音助手、機(jī)器人和新交互式設(shè)備的引進(jìn)。
科羅拉多大學(xué)(UC)——科羅拉多斯普林斯和德魯里大學(xué)的研究人員最近開(kāi)發(fā)了一種獨(dú)特的語(yǔ)言生成系統(tǒng),可以產(chǎn)生創(chuàng)造性的詩(shī)歌詩(shī)句。他們的系統(tǒng)在arXiv上預(yù)先發(fā)布的一篇論文中提出,是對(duì)OpenAI開(kāi)發(fā)的一種預(yù)先訓(xùn)練好的語(yǔ)言模型GPT-2的微調(diào)。
加州大學(xué)科羅拉多斯普林斯分校(UC Colorado Springs)教授尤加爾·卡利塔(Jugal Kalita)是這項(xiàng)最新研究的負(fù)責(zé)人,從他在賓夕法尼亞大學(xué)(University of Pennsylvania)的研究生時(shí)期開(kāi)始,他在過(guò)去30年里一直在進(jìn)行自然語(yǔ)言生成的研究。他的第一篇關(guān)于自然語(yǔ)言生成的論文發(fā)表于1988年,其目標(biāo)是按照一套基本規(guī)則,寫(xiě)出可能出現(xiàn)在典型期刊上的文本段落。最近,受人工神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理(NLP)方面的進(jìn)步啟發(fā),卡麗塔教授和他的學(xué)生開(kāi)始開(kāi)發(fā)用于生成短文、對(duì)話和創(chuàng)造性寫(xiě)作的深度學(xué)習(xí)技術(shù)。
卡麗塔教授對(duì)TechXplore說(shuō):“研究自動(dòng)生成詩(shī)歌這一主題的想法出現(xiàn)在2019年夏初,當(dāng)時(shí)來(lái)自密蘇里州德魯里大學(xué)(Drury University)科羅拉多斯普林斯市科羅拉多大學(xué)(University of Colorado, Colorado Springs)的暑期研究實(shí)習(xí)生布倫丹·貝納(Brendan Bena)對(duì)自動(dòng)生成歌詞表現(xiàn)出了興趣?!薄八畛跸胍?jiǎng)?chuàng)造一個(gè)系統(tǒng),試圖模仿歌詞中所表達(dá)的情感?!?/p>
由于大多數(shù)歌詞是受版權(quán)保護(hù)的,尋找大型數(shù)據(jù)集來(lái)訓(xùn)練歌詞生成的深度學(xué)習(xí)模型是非常具有挑戰(zhàn)性的。Bena和Kalita教授因此決定開(kāi)發(fā)一個(gè)詩(shī)歌生成的深度學(xué)習(xí)工具。然而,他們并沒(méi)有像以往的詩(shī)歌創(chuàng)作研究那樣,關(guān)注詩(shī)歌的結(jié)構(gòu)或節(jié)奏等特征,而是探索了詩(shī)歌更富情感和創(chuàng)造性的方面。
Bena在接受TechXplore采訪時(shí)表示:“在意識(shí)到詩(shī)歌創(chuàng)作領(lǐng)域的研究和數(shù)據(jù)要多得多之后,我們將注意力轉(zhuǎn)移到了這個(gè)特定的主題上?!边@項(xiàng)工作很大程度上是建立在文本生成的首要任務(wù)的基礎(chǔ)上的,而這一任務(wù)與之前的許多研究工作是同時(shí)進(jìn)行的。然而,與之前的努力不同,我們希望更多地關(guān)注文本的內(nèi)容、情感和創(chuàng)造力,而不是之前詩(shī)歌生成研究中發(fā)現(xiàn)的結(jié)構(gòu)或節(jié)奏?!?/p>
為了開(kāi)發(fā)他們的詩(shī)歌生成系統(tǒng),Bena和Kalita教授首先從古登堡計(jì)劃和UC-Santa Cruz夢(mèng)想數(shù)據(jù)庫(kù)中收集了大量的文本。他們?yōu)g覽了古登堡(Gutenberg)數(shù)據(jù)庫(kù),尋找EmoLex中包含的詞匯。EmoLex是加拿大研究委員會(huì)(National Research Council of Canada)開(kāi)發(fā)的情感詞匯數(shù)據(jù)集。
然后,研究人員將得到的數(shù)據(jù)集分成不同的“情感類(lèi)別”,觀察每個(gè)提取片段中包含的EmoLex詞匯的數(shù)量,并利用這些數(shù)據(jù)訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)。他們所訓(xùn)練的模型是對(duì)GPT-2的一種適應(yīng),GPT-2是一種通過(guò)對(duì)其所訓(xùn)練的數(shù)據(jù)中使用的語(yǔ)言風(fēng)格建模來(lái)學(xué)習(xí)生成新的文本片段的體系結(jié)構(gòu)。
貝納解釋說(shuō):“我們還將夢(mèng)境數(shù)據(jù)和詩(shī)歌結(jié)合起來(lái),輸入人工神經(jīng)網(wǎng)絡(luò),創(chuàng)造出所謂的‘夢(mèng)境詩(shī)歌’?!薄白詈螅覀冇形宸N不同的情緒模式,分別是喜悅、悲傷、信任、憤怒和期待,但我們也有一個(gè)夢(mèng)詩(shī)模式。如前所述,這一體系較少關(guān)注大量詩(shī)歌創(chuàng)作的結(jié)構(gòu),更多關(guān)注自由詩(shī)的風(fēng)格,這種風(fēng)格旨在模仿和復(fù)制真正詩(shī)人的技巧和創(chuàng)造力?!?/p>
研究人員要求人類(lèi)用戶評(píng)估他們的系統(tǒng)生成的詩(shī)歌,同時(shí)使用Coh-Metrix工具來(lái)評(píng)估它生成的詩(shī)歌的質(zhì)量。他們發(fā)現(xiàn),在87.5%和85%的情況下,它所產(chǎn)生的詩(shī)歌能有效地引發(fā)悲傷和快樂(lè)。此外,當(dāng)對(duì)夢(mèng)數(shù)據(jù)和詩(shī)歌進(jìn)行訓(xùn)練時(shí),他們的系統(tǒng)生成獨(dú)特的“夢(mèng)幻”詩(shī)歌,這些詩(shī)歌捕捉到了所謂的“夢(mèng)幻詩(shī)歌”的元素,李克特量表(Likert scale)得分為3.2分。
貝納說(shuō):“我們的研究結(jié)果表明,實(shí)際上,文本可以被生成,從而激發(fā)讀者的情感,它可以像藝術(shù)家希望注入到作品中的那種創(chuàng)造力?!薄拔覀兿嘈盼覀兊难芯渴莿?chuàng)造性詩(shī)歌創(chuàng)作領(lǐng)域的一部小說(shuō),希望我們的研究能為這一領(lǐng)域的未來(lái)工作打開(kāi)大門(mén)。”
貝納和卡麗塔教授是最早在詩(shī)歌創(chuàng)作中展示機(jī)器創(chuàng)造力的人之一。在接下來(lái)的研究中,研究人員計(jì)劃提高他們的系統(tǒng)所創(chuàng)作的詩(shī)歌的質(zhì)量,同時(shí)也將他們的方法應(yīng)用到其他語(yǔ)言的詩(shī)歌創(chuàng)作中。
貝納說(shuō):“如果我們對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行更多的整理,我們相信神經(jīng)網(wǎng)絡(luò)架構(gòu)可以更好地捕捉我們想要?jiǎng)?chuàng)作的詩(shī)歌的情感和夢(mèng)境?!薄笆聦?shí)上,盡管EmoLex詞典是一個(gè)非常有用的數(shù)據(jù)集,但它的詞匯量并不能解釋古騰堡(Gutenberg)的一些詩(shī)歌中出現(xiàn)的所有老式英語(yǔ)?!?/p>
在未來(lái),研究人員希望復(fù)制他們的實(shí)驗(yàn),重點(diǎn)放在短語(yǔ)或分段級(jí)詞匯上,因?yàn)檫@可以讓他們更有效地捕捉基于情感的文本中的依賴性。他們的研究也可以使用更復(fù)雜的基于神經(jīng)網(wǎng)絡(luò)的架構(gòu)進(jìn)行重復(fù),這可能會(huì)提高詩(shī)歌的語(yǔ)法和句子結(jié)構(gòu)的質(zhì)量。
Bena和Kalita教授已經(jīng)用他們的系統(tǒng)創(chuàng)作了夢(mèng)詩(shī),他們最終也可以把它應(yīng)用到其他的創(chuàng)作風(fēng)格上,比如消除詩(shī)歌。擦除詩(shī)是通過(guò)從現(xiàn)有的文本中提取特定的或隨機(jī)的單詞,然后使用它們來(lái)形成新的詩(shī)句。
卡麗塔教授說(shuō):“最后,我們還在利用遷移學(xué)習(xí)的方法,用不同的語(yǔ)言創(chuàng)作詩(shī)歌。”例如,加州大學(xué)科羅拉多斯普林斯分校(UC-Colorado Springs)的碩士研究生肖恩·塔克(Shaun Tucker)一直在用OpenAI預(yù)先訓(xùn)練過(guò)的gps -2模型,用多種印歐語(yǔ)言創(chuàng)作詩(shī)歌。到目前為止,我們已經(jīng)生成了英語(yǔ)、西班牙語(yǔ)、烏克蘭語(yǔ)、印地語(yǔ)、孟加拉語(yǔ)和阿薩姆語(yǔ)的詩(shī)歌,我們發(fā)現(xiàn),經(jīng)過(guò)大量英語(yǔ)文本預(yù)處理的深度學(xué)習(xí)生成模式GPT-2,可以用所有這些語(yǔ)言的散文和詩(shī)歌進(jìn)行訓(xùn)練,生成詩(shī)歌。”
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。