您的位置: 首頁(yè) >科技 >

人工智能產(chǎn)生逼真的聲音 愚弄人類

2022-07-02 20:47:00 編輯:從欣菁 來(lái)源:
導(dǎo)讀 為了讓機(jī)器人能夠駕馭世界,他們需要能夠?qū)χ車h(huán)境以及在一系列事件中可能發(fā)生的事情做出合理的假設(shè)。人類學(xué)習(xí)這些東西的一種方式是通過(guò)

為了讓機(jī)器人能夠駕馭世界,他們需要能夠?qū)χ車h(huán)境以及在一系列事件中可能發(fā)生的事情做出合理的假設(shè)。

人類學(xué)習(xí)這些東西的一種方式是通過(guò)聲音。對(duì)于嬰兒來(lái)說(shuō),戳戳和刺激物品不僅有趣; 一些研究表明,實(shí)際上他們是如何發(fā)展直覺(jué)物理學(xué)理論的。難道我們可以讓機(jī)器以同樣的方式學(xué)習(xí)嗎?

來(lái)自麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究人員已經(jīng)演示了一種有效學(xué)習(xí)如何預(yù)測(cè)聲音的算法:當(dāng)顯示被擊中物體的無(wú)聲視頻片段時(shí),該算法可以產(chǎn)生足夠逼真的擊打聲音愚弄人類觀眾。

這種“聲音圖靈測(cè)試”不僅僅是一個(gè)聰明的計(jì)算機(jī)技巧:研究人員設(shè)想未來(lái)版本的類似算法可用于自動(dòng)為電影和電視節(jié)目制作聲音效果,以及幫助機(jī)器人更好地理解物體的屬性。

“當(dāng)你用手指劃過(guò)酒杯時(shí),它所產(chǎn)生的聲音反映出它中含有多少液體,”CSAIL博士生安德魯歐文斯說(shuō)道,他是即將發(fā)表的一篇描述這項(xiàng)工作的論文的第一作者。“模擬這種聲音的算法可以揭示關(guān)于物體形狀和材料類型的關(guān)鍵信息,以及它們與世界相互作用的力量和運(yùn)動(dòng)。”

該團(tuán)隊(duì)使用了“深度學(xué)習(xí)”領(lǐng)域的技術(shù),這些技術(shù)涉及教授計(jì)算機(jī)篩選大量數(shù)據(jù)以自行查找模式。深度學(xué)習(xí)方法特別有用,因?yàn)樗鼈兪褂?jì)算機(jī)科學(xué)家不必手動(dòng)設(shè)計(jì)算法并監(jiān)督他們的進(jìn)度。

該論文的共同作者包括最近的博士畢業(yè)生Phillip Isola和麻省理工學(xué)院教授Edward Adelson,Bill Freeman,Josh McDermott和Antonio Torralba。本文將于本月晚些時(shí)候在拉斯維加斯舉行的計(jì)算機(jī)視覺(jué)和模式識(shí)別年會(huì)(CVPR)上發(fā)表。

訓(xùn)練聲音產(chǎn)生算法的第一步是讓它聽(tīng)起來(lái)有效。幾個(gè)月以來(lái),研究人員記錄了大約1,000個(gè)視頻,估計(jì)有46,000個(gè)聲音代表各種物體被擊打,刮擦和用鼓棒刺激。(他們使用鼓槌,因?yàn)樗峁┝水a(chǎn)生聲音的一致方式。)

接下來(lái),團(tuán)隊(duì)將這些視頻提供給深度學(xué)習(xí)算法,該算法解構(gòu)了聲音并分析了它們的音高,響度和其他特征。

“為了預(yù)測(cè)新視頻的聲音,該算法會(huì)查看該視頻每幀的聲音屬性,并將它們與數(shù)據(jù)庫(kù)中最相似的聲音相匹配,”歐文斯說(shuō)。“一旦系統(tǒng)具有這些音頻,它就會(huì)將它們拼接在一起,形成一個(gè)連貫的聲音。”

結(jié)果是該算法可以準(zhǔn)確地模擬不同命中的微妙之處,從巖石的斷斷點(diǎn)到常見(jiàn)的沙沙作響。音高也沒(méi)有問(wèn)題,因?yàn)樗梢院铣陕曇?,從軟沙發(fā)的低音“砰”聲到硬木欄桿的高音調(diào)“咔嗒聲”。

“人工智能的當(dāng)前方法只關(guān)注五種感知方式中的一種,視覺(jué)研究人員使用圖像,語(yǔ)音研究人員使用音頻,等等,”卡內(nèi)基梅隆大學(xué)機(jī)器人助理教授Abhinav Gupta表示,他沒(méi)有參與研究。“通過(guò)整合聲音和視覺(jué),本文是朝著模仿人類學(xué)習(xí)方式的正確方向邁出的一步。”

這項(xiàng)工作的另一個(gè)好處是該團(tuán)隊(duì)的46,000個(gè)聲音庫(kù)是免費(fèi)的,可供其他研究人員使用。數(shù)據(jù)集的名稱:“Greatest Hits。”

為了測(cè)試虛假聲音的真實(shí)程度,該團(tuán)隊(duì)進(jìn)行了一項(xiàng)在線研究,其中受試者看到兩個(gè)碰撞視頻 - 一個(gè)是實(shí)際錄制的聲音,另一個(gè)是算法的 - 并被問(wèn)到哪一個(gè)是真實(shí)的。

結(jié)果:受試者在真實(shí)的聲音上選擇假聲音的頻率是基線算法的兩倍。他們特別被諸如樹(shù)葉和泥土之類的材料所愚弄,這些材料往往比木材或金屬具有更少“干凈”的聲音。

最重要的是,該團(tuán)隊(duì)發(fā)現(xiàn)材料的聲音揭示了其物理特性的關(guān)鍵方面:他們開(kāi)發(fā)的算法可以在67%的時(shí)間內(nèi)分辨出硬質(zhì)和軟質(zhì)材料之間的差異。

該團(tuán)隊(duì)的工作與最近的CSAIL音頻和視頻放大研究一致。Freeman已經(jīng)幫助開(kāi)發(fā)了一種算法,可以放大肉眼看不到的視頻捕獲的動(dòng)作,這使得他的團(tuán)隊(duì)可以做一些事情,比如讓人類脈搏可見(jiàn),甚至只用馬鈴薯片袋的視頻來(lái)恢復(fù)語(yǔ)音。

研究人員表示,仍有改進(jìn)系統(tǒng)的空間。例如,如果鼓槌在視頻中特別不規(guī)律地移動(dòng),則算法更可能錯(cuò)過(guò)或幻覺(jué)錯(cuò)誤命中。它還受到以下事實(shí)的限制:它僅適用于“視覺(jué)指示的聲音” - 由視頻中描繪的物理交互直接引起的聲音。

“從輕柔的風(fēng)吹到筆記本電腦的嗡嗡聲,在任何特定的時(shí)刻,都有如此多的環(huán)境聲音與我們實(shí)際看到的無(wú)關(guān),”歐文斯說(shuō)。“真正令人興奮的是以某種方式模擬與視覺(jué)效果不太直接相關(guān)的聲音。”

該團(tuán)隊(duì)認(rèn)為,該領(lǐng)域未來(lái)的工作可以提高機(jī)器人與周圍環(huán)境互動(dòng)的能力。

歐文斯說(shuō):“一個(gè)機(jī)器人可以看到一條人行道,本能地知道水泥很硬,草很柔軟,因此知道如果他們踩到其中任何一個(gè)會(huì)發(fā)生什么。” “能夠預(yù)測(cè)聲音是預(yù)測(cè)與世界物理互動(dòng)的后果的重要的第一步。”

這項(xiàng)工作部分由科學(xué)基金會(huì)和殼牌公司資助。Owens也得到了微軟研究獎(jiǎng)學(xué)金的支持。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。