您的位置: 首頁 >科技 >

亞馬遜的人工智能改善了語音的情感檢測

2022-09-01 03:56:51 編輯:印福茗 來源:
導讀 從某人聲音的音調中可以得到很多東西,這是一種自然的情感管道。 情緒有一系列的應用:它可以通過幫助檢測癡呆或心臟病發(fā)作的早期跡象來幫...

從某人聲音的音調中可以得到很多東西,這是一種自然的情感管道。 情緒有一系列的應用:它可以通過幫助檢測癡呆或心臟病發(fā)作的早期跡象來幫助健康監(jiān)測,它有可能使會話AI系統(tǒng)更吸引人和更有反應。 總有一天,情感甚至可能提供隱性反饋,幫助谷歌助理、蘋果Siri和亞馬遜Alexa等語音助理從錯誤中吸取教訓。

情緒分類人工智能并不是什么新的東西,但傳統(tǒng)的方法是受監(jiān)督的,這意味著他們攝入根據(jù)說話者的情緒狀態(tài)標記的訓練數(shù)據(jù)。 亞馬遜的科學家們最近采取了一種不同的方法,他們在一篇預定在聲學、語音和信號處理國際會議上發(fā)表的論文中描述了這一點。 他們沒有提供一個詳盡注釋的“情感”語料庫來教授一個系統(tǒng),而是提供了一個對抗性的自動編碼器,一個公開可用的數(shù)據(jù)集,其中包含來自10個不同說話者的10,000個話語。 結果呢? 神經網絡在判斷人們聲音中的價態(tài)或情感價值方面的準確性高達4%。

這項研究基于亞馬遜Alexa團隊正在進行的努力,從用戶的聲音中可靠地確定用戶的情緒或情緒狀態(tài)。

正如論文合著者和Alexa語言組高級應用科學家Viktor Rozgic在一篇博客文章中解釋的那樣,對抗性自動編碼器是由編碼器組成的兩部分模型,它學習產生編碼訓練示例所有屬性的輸入語音的緊湊(或潛在)表示,以及一個解碼器,它從緊湊表示中重建輸入。

研究人員的情緒表示由三個網絡節(jié)點組成,三個情緒度量中的每一個節(jié)點:價態(tài)、激活(無論說話人是警覺的、參與的還是被動的)和支配(無論說話人是否感覺到控制了情況)。 培訓分三個階段進行,第一階段包括使用沒有標簽的數(shù)據(jù)單獨培訓編碼器和解碼器。 在第二階段,對抗性訓練-一種技術,在這種技術中,對抗性鑒別器試圖區(qū)分編碼器產生的真實表示調整編碼器。 在第三階段,編碼器被調諧以確保潛在的情感表示預測訓練數(shù)據(jù)的情感標簽。

在涉及句子級特征表示的“手工工程”來捕獲關于語音信號的信息的實驗中,研究人員報告說,他們的人工智能系統(tǒng)在評估價態(tài)方面比常規(guī)訓練的網絡了3%的更好的準確性。 此外,他們說,當網絡被提供一系列表示20毫秒幀或音頻片段的聲學特性時,改進是4%。

亞馬遜不是唯一一家研究改進的基于語音的情感檢測的公司,值得注意。 麻省理工學院媒體實驗室SpinoffAffectiva最近展示了一個神經網絡,SoundNet,它可以在1.2秒內從音頻數(shù)據(jù)中對憤怒進行分類-就在人類感知憤怒所需的時間內-而不管說話者的語言如何。 同時,創(chuàng)業(yè)公司Cogito的AI被退伍事務部用來分析創(chuàng)傷后應激障礙退伍的聲音,以確定他們是否需要立即幫助。


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。