您的位置: 首頁 >互聯(lián)網(wǎng) >

百度的新文本到語音轉換系統(tǒng)可以掌握數(shù)百種口音

2019-05-27 11:42:34 編輯: 來源:
導讀 人工智能領域正在發(fā)生文藝復興。通過深度學習,研究人員正在制作能夠識別物體,理解口語,甚至模擬人類聲音的系統(tǒng)。這些系統(tǒng)的質量正在以驚

人工智能領域正在發(fā)生文藝復興。通過深度學習,研究人員正在制作能夠識別物體,理解口語,甚至模擬人類聲音的系統(tǒng)。這些系統(tǒng)的質量正在以驚人的速度發(fā)展。

就在三個月前,中國搜索巨頭百度展示了Deep Voice,這是一個將文本轉化為語音的系統(tǒng)。它可以產(chǎn)生的語音與第一次收聽時的實際人聲幾乎無法區(qū)分,并且可以近乎實時地進行。但是該系統(tǒng)一次只能學習一個聲音,并且需要多個小時的音頻或更多來構建樣本。今天公司正在推出Deep Voice 2。它可以用半小時的音頻來學習一個人聲音的細微差別,一個系統(tǒng)可以學習模仿數(shù)百個不同的揚聲器。

還記得Siri推出區(qū)域口音需要多長時間?那是因為每個新的聲音都需要一個真實的人來記錄成千上萬小時的演講。在那之后,工程師花了很長時間手動調整軟件,教它如何說話。Deep Voice 2采用了不同的方法:它學習了數(shù)百個不同揚聲器共享的共性,以構建人聲模型,然后稍微調整該模型以制作不同的角色。該系統(tǒng)不需要人工創(chuàng)作者進行任何手動調整。“給它提供正確的數(shù)據(jù),它可以自己學習什么樣的功能很重要,”百度硅谷人工智能實驗室研究科學家安德魯·吉比安斯基說。

百度想象這項技術對通過語音命令控制的數(shù)字助理非常有用,這些語音命令通過與用戶交談來回應。它還看到了電子書等文本到語音應用的潛力。“快速合成多種人類聲音的能力將對未來的個人助理和電子書閱讀器等產(chǎn)品產(chǎn)生巨大影響。例如,當您向電子書列出時,您的電子書的每個角色都可以擁有獨特的聲音,“該公司在博客文章中寫道。

百度不是唯一一個探索這個領域的科技巨頭。去年9月,Google的DeepMind部門發(fā)布了對WaveNet的研究,WaveNet是一種使用深度學習技術構建的聲碼器,與傳統(tǒng)的語音合成系統(tǒng)相比,它在音頻質量方面取得了巨大的進步。初創(chuàng)公司也在這個市場上發(fā)揮作用。上個月,一家加拿大創(chuàng)業(yè)公司Lyrebird 展示了一個系統(tǒng),可以根據(jù)一分鐘的音頻數(shù)據(jù)模仿著名人物的聲音細微差別。

隨著我們進入一個我們的聲音越來越多地控制我們的小玩意的世界,并期望回復,這項技術將用于為我們的數(shù)字助理創(chuàng)建各種自定義角色。你更喜歡Siri聽起來像Humphrey Bogart,Hulk Hogan還是Lil Kim?我們在下面的評論中提出建議。


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。