您的位置: 首頁 >互聯(lián)網(wǎng) >

谷歌提供類似人類的文本到語音轉(zhuǎn)換系統(tǒng)的更新

2019-06-21 16:45:12 編輯: 來源:
導(dǎo)讀 谷歌本周通過博客文章向感興趣的技術(shù)愛好者提供了有關(guān)其Tacotron文字轉(zhuǎn)語音系統(tǒng)的最新消息。在該帖子中,該團隊描述了該系統(tǒng)如何工作并提供

谷歌本周通過博客文章向感興趣的技術(shù)愛好者提供了有關(guān)其Tacotron文字轉(zhuǎn)語音系統(tǒng)的最新消息。在該帖子中,該團隊描述了該系統(tǒng)如何工作并提供了一些音頻樣本,該帖子的作者Ruoming Pang和Jonathan Shen聲稱與一組人類聽眾判斷的專業(yè)錄音相當。作者還與其他Google團隊成員一起撰寫了一篇論文,描述了他們的努力,并將其發(fā)布到arXiv預(yù)打印服務(wù)器上。

多年來,科學(xué)家一直致力于使計算機生成的語音更具人性化,更少機器人化。作者指出,該任務(wù)的一部分是開發(fā)文本到語音(TTS)應(yīng)用程序。大多數(shù)人都聽說過TTS系統(tǒng)的結(jié)果,例如許多公司用于現(xiàn)場客戶呼叫的自動語音系統(tǒng)。在這項新的努力中,谷歌集團將其從Tacotron和WaveNet項目中學(xué)到的知識與創(chuàng)建Tacotron 2-a系統(tǒng)相結(jié)合,將科學(xué)提升到一個新的水平。在收聽提供的樣本時,很難判斷語音是人還是TTS系統(tǒng)語音是很困難的。

為了達到這種新的準確度,Google的團隊使用了經(jīng)過優(yōu)化的序列到序列模型,以便與TTS一起使用 - 它將字母排列映射到描述音頻的一系列功能。結(jié)果是80維譜圖。然后,該頻譜圖被用作第二系統(tǒng)的輸入,該系統(tǒng)使用基于WaveNet的架構(gòu)輸出24kHz波形。兩者都是使用語音示例(來自眾包應(yīng)用程序,如亞馬遜的Mechanical Turk)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)及其相應(yīng)的成績單。新系統(tǒng)能夠融合音量,發(fā)音,語調(diào)和速度,從而創(chuàng)造出更像人類的聲音。

該團隊還指出,他們?nèi)栽谂Ω倪M系統(tǒng),最重要的是克服復(fù)雜單詞的問題并使其實時工作。他們還希望為聲音添加更多??情感,以便聽眾可以實際聽到幸福或悲傷,或者發(fā)現(xiàn)不快。這樣做不僅會推動科學(xué)發(fā)展,而且會使與數(shù)字助理的互動變得更加親密。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。