亞馬遜的人工智能改善了語音的情感檢測

2022-09-01 03:56:51 編輯：印福茗來源：

導(dǎo)讀從某人聲音的音調(diào)中可以得到很多東西，這是一種自然的情感管道。情緒有一系列的應(yīng)用：它可以通過幫助檢測癡呆或心臟病發(fā)作的早期跡象來幫...

從某人聲音的音調(diào)中可以得到很多東西，這是一種自然的情感管道。情緒有一系列的應(yīng)用：它可以通過幫助檢測癡呆或心臟病發(fā)作的早期跡象來幫助健康監(jiān)測，它有可能使會話AI系統(tǒng)更吸引人和更有反應(yīng)。總有一天，情感甚至可能提供隱性反饋，幫助谷歌助理、蘋果Siri和亞馬遜Alexa等語音助理從錯誤中吸取教訓(xùn)。

情緒分類人工智能并不是什么新的東西，但傳統(tǒng)的方法是受監(jiān)督的，這意味著他們攝入根據(jù)說話者的情緒狀態(tài)標(biāo)記的訓(xùn)練數(shù)據(jù)。亞馬遜的科學(xué)家們最近采取了一種不同的方法，他們在一篇預(yù)定在聲學(xué)、語音和信號處理國際會議上發(fā)表的論文中描述了這一點。他們沒有提供一個詳盡注釋的“情感”語料庫來教授一個系統(tǒng)，而是提供了一個對抗性的自動編碼器，一個公開可用的數(shù)據(jù)集，其中包含來自10個不同說話者的10，000個話語。結(jié)果呢? 神經(jīng)網(wǎng)絡(luò)在判斷人們聲音中的價態(tài)或情感價值方面的準(zhǔn)確性高達(dá)4%。

這項研究基于亞馬遜Alexa團隊正在進(jìn)行的努力，從用戶的聲音中可靠地確定用戶的情緒或情緒狀態(tài)。

正如論文合著者和Alexa語言組高級應(yīng)用科學(xué)家Viktor Rozgic在一篇博客文章中解釋的那樣，對抗性自動編碼器是由編碼器組成的兩部分模型，它學(xué)習(xí)產(chǎn)生編碼訓(xùn)練示例所有屬性的輸入語音的緊湊(或潛在)表示，以及一個解碼器，它從緊湊表示中重建輸入。

研究人員的情緒表示由三個網(wǎng)絡(luò)節(jié)點組成，三個情緒度量中的每一個節(jié)點：價態(tài)、激活(無論說話人是警覺的、參與的還是被動的)和支配(無論說話人是否感覺到控制了情況)。培訓(xùn)分三個階段進(jìn)行，第一階段包括使用沒有標(biāo)簽的數(shù)據(jù)單獨培訓(xùn)編碼器和解碼器。在第二階段，對抗性訓(xùn)練-一種技術(shù)，在這種技術(shù)中，對抗性鑒別器試圖區(qū)分編碼器產(chǎn)生的真實表示調(diào)整編碼器。在第三階段，編碼器被調(diào)諧以確保潛在的情感表示預(yù)測訓(xùn)練數(shù)據(jù)的情感標(biāo)簽。

在涉及句子級特征表示的“手工工程”來捕獲關(guān)于語音信號的信息的實驗中，研究人員報告說，他們的人工智能系統(tǒng)在評估價態(tài)方面比常規(guī)訓(xùn)練的網(wǎng)絡(luò)了3%的更好的準(zhǔn)確性。此外，他們說，當(dāng)網(wǎng)絡(luò)被提供一系列表示20毫秒幀或音頻片段的聲學(xué)特性時，改進(jìn)是4%。

亞馬遜不是唯一一家研究改進(jìn)的基于語音的情感檢測的公司，值得注意。麻省理工學(xué)院媒體實驗室SpinoffAffectiva最近展示了一個神經(jīng)網(wǎng)絡(luò)，SoundNet，它可以在1.2秒內(nèi)從音頻數(shù)據(jù)中對憤怒進(jìn)行分類-就在人類感知憤怒所需的時間內(nèi)-而不管說話者的語言如何。同時，創(chuàng)業(yè)公司Cogito的AI被退伍事務(wù)部用來分析創(chuàng)傷后應(yīng)激障礙退伍的聲音，以確定他們是否需要立即幫助。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！