人工智能產(chǎn)生逼真的聲音愚弄人類

2022-07-02 20:47:00 編輯：從欣菁來(lái)源：

導(dǎo)讀為了讓機(jī)器人能夠駕馭世界，他們需要能夠?qū)χ車h(huán)境以及在一系列事件中可能發(fā)生的事情做出合理的假設(shè)。人類學(xué)習(xí)這些東西的一種方式是通過(guò)

為了讓機(jī)器人能夠駕馭世界，他們需要能夠?qū)χ車h(huán)境以及在一系列事件中可能發(fā)生的事情做出合理的假設(shè)。

人類學(xué)習(xí)這些東西的一種方式是通過(guò)聲音。對(duì)于嬰兒來(lái)說(shuō)，戳戳和刺激物品不僅有趣; 一些研究表明，實(shí)際上他們是如何發(fā)展直覺(jué)物理學(xué)理論的。難道我們可以讓機(jī)器以同樣的方式學(xué)習(xí)嗎?

來(lái)自麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究人員已經(jīng)演示了一種有效學(xué)習(xí)如何預(yù)測(cè)聲音的算法：當(dāng)顯示被擊中物體的無(wú)聲視頻片段時(shí)，該算法可以產(chǎn)生足夠逼真的擊打聲音愚弄人類觀眾。

這種“聲音圖靈測(cè)試”不僅僅是一個(gè)聰明的計(jì)算機(jī)技巧：研究人員設(shè)想未來(lái)版本的類似算法可用于自動(dòng)為電影和電視節(jié)目制作聲音效果，以及幫助機(jī)器人更好地理解物體的屬性。

“當(dāng)你用手指劃過(guò)酒杯時(shí)，它所產(chǎn)生的聲音反映出它中含有多少液體，”CSAIL博士生安德魯歐文斯說(shuō)道，他是即將發(fā)表的一篇描述這項(xiàng)工作的論文的第一作者。“模擬這種聲音的算法可以揭示關(guān)于物體形狀和材料類型的關(guān)鍵信息，以及它們與世界相互作用的力量和運(yùn)動(dòng)。”

該團(tuán)隊(duì)使用了“深度學(xué)習(xí)”領(lǐng)域的技術(shù)，這些技術(shù)涉及教授計(jì)算機(jī)篩選大量數(shù)據(jù)以自行查找模式。深度學(xué)習(xí)方法特別有用，因?yàn)樗鼈兪褂?jì)算機(jī)科學(xué)家不必手動(dòng)設(shè)計(jì)算法并監(jiān)督他們的進(jìn)度。

該論文的共同作者包括最近的博士畢業(yè)生Phillip Isola和麻省理工學(xué)院教授Edward Adelson，Bill Freeman，Josh McDermott和Antonio Torralba。本文將于本月晚些時(shí)候在拉斯維加斯舉行的計(jì)算機(jī)視覺(jué)和模式識(shí)別年會(huì)(CVPR)上發(fā)表。

訓(xùn)練聲音產(chǎn)生算法的第一步是讓它聽(tīng)起來(lái)有效。幾個(gè)月以來(lái)，研究人員記錄了大約1,000個(gè)視頻，估計(jì)有46,000個(gè)聲音代表各種物體被擊打，刮擦和用鼓棒刺激。(他們使用鼓槌，因?yàn)樗峁┝水a(chǎn)生聲音的一致方式。)

接下來(lái)，團(tuán)隊(duì)將這些視頻提供給深度學(xué)習(xí)算法，該算法解構(gòu)了聲音并分析了它們的音高，響度和其他特征。

“為了預(yù)測(cè)新視頻的聲音，該算法會(huì)查看該視頻每幀的聲音屬性，并將它們與數(shù)據(jù)庫(kù)中最相似的聲音相匹配，”歐文斯說(shuō)。“一旦系統(tǒng)具有這些音頻，它就會(huì)將它們拼接在一起，形成一個(gè)連貫的聲音。”

結(jié)果是該算法可以準(zhǔn)確地模擬不同命中的微妙之處，從巖石的斷斷點(diǎn)到常見(jiàn)的沙沙作響。音高也沒(méi)有問(wèn)題，因?yàn)樗梢院铣陕曇?，從軟沙發(fā)的低音“砰”聲到硬木欄桿的高音調(diào)“咔嗒聲”。

“人工智能的當(dāng)前方法只關(guān)注五種感知方式中的一種，視覺(jué)研究人員使用圖像，語(yǔ)音研究人員使用音頻，等等，”卡內(nèi)基梅隆大學(xué)機(jī)器人助理教授Abhinav Gupta表示，他沒(méi)有參與研究。“通過(guò)整合聲音和視覺(jué)，本文是朝著模仿人類學(xué)習(xí)方式的正確方向邁出的一步。”

這項(xiàng)工作的另一個(gè)好處是該團(tuán)隊(duì)的46,000個(gè)聲音庫(kù)是免費(fèi)的，可供其他研究人員使用。數(shù)據(jù)集的名稱：“Greatest Hits。”

為了測(cè)試虛假聲音的真實(shí)程度，該團(tuán)隊(duì)進(jìn)行了一項(xiàng)在線研究，其中受試者看到兩個(gè)碰撞視頻 - 一個(gè)是實(shí)際錄制的聲音，另一個(gè)是算法的 - 并被問(wèn)到哪一個(gè)是真實(shí)的。

結(jié)果：受試者在真實(shí)的聲音上選擇假聲音的頻率是基線算法的兩倍。他們特別被諸如樹(shù)葉和泥土之類的材料所愚弄，這些材料往往比木材或金屬具有更少“干凈”的聲音。

最重要的是，該團(tuán)隊(duì)發(fā)現(xiàn)材料的聲音揭示了其物理特性的關(guān)鍵方面：他們開(kāi)發(fā)的算法可以在67%的時(shí)間內(nèi)分辨出硬質(zhì)和軟質(zhì)材料之間的差異。

該團(tuán)隊(duì)的工作與最近的CSAIL音頻和視頻放大研究一致。Freeman已經(jīng)幫助開(kāi)發(fā)了一種算法，可以放大肉眼看不到的視頻捕獲的動(dòng)作，這使得他的團(tuán)隊(duì)可以做一些事情，比如讓人類脈搏可見(jiàn)，甚至只用馬鈴薯片袋的視頻來(lái)恢復(fù)語(yǔ)音。

研究人員表示，仍有改進(jìn)系統(tǒng)的空間。例如，如果鼓槌在視頻中特別不規(guī)律地移動(dòng)，則算法更可能錯(cuò)過(guò)或幻覺(jué)錯(cuò)誤命中。它還受到以下事實(shí)的限制：它僅適用于“視覺(jué)指示的聲音” - 由視頻中描繪的物理交互直接引起的聲音。

“從輕柔的風(fēng)吹到筆記本電腦的嗡嗡聲，在任何特定的時(shí)刻，都有如此多的環(huán)境聲音與我們實(shí)際看到的無(wú)關(guān)，”歐文斯說(shuō)。“真正令人興奮的是以某種方式模擬與視覺(jué)效果不太直接相關(guān)的聲音。”

該團(tuán)隊(duì)認(rèn)為，該領(lǐng)域未來(lái)的工作可以提高機(jī)器人與周圍環(huán)境互動(dòng)的能力。

歐文斯說(shuō)：“一個(gè)機(jī)器人可以看到一條人行道，本能地知道水泥很硬，草很柔軟，因此知道如果他們踩到其中任何一個(gè)會(huì)發(fā)生什么。” “能夠預(yù)測(cè)聲音是預(yù)測(cè)與世界物理互動(dòng)的后果的重要的第一步。”

這項(xiàng)工作部分由科學(xué)基金會(huì)和殼牌公司資助。Owens也得到了微軟研究獎(jiǎng)學(xué)金的支持。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！