谷歌提供類似人類的文本到語音轉(zhuǎn)換系統(tǒng)的更新

2019-06-21 16:45:12 編輯：來源：

導(dǎo)讀谷歌本周通過博客文章向感興趣的技術(shù)愛好者提供了有關(guān)其Tacotron文字轉(zhuǎn)語音系統(tǒng)的最新消息。在該帖子中，該團(tuán)隊(duì)描述了該系統(tǒng)如何工作并提供

谷歌本周通過博客文章向感興趣的技術(shù)愛好者提供了有關(guān)其Tacotron文字轉(zhuǎn)語音系統(tǒng)的最新消息。在該帖子中，該團(tuán)隊(duì)描述了該系統(tǒng)如何工作并提供了一些音頻樣本，該帖子的作者Ruoming Pang和Jonathan Shen聲稱與一組人類聽眾判斷的專業(yè)錄音相當(dāng)。作者還與其他Google團(tuán)隊(duì)成員一起撰寫了一篇論文，描述了他們的努力，并將其發(fā)布到arXiv預(yù)打印服務(wù)器上。

多年來，科學(xué)家一直致力于使計(jì)算機(jī)生成的語音更具人性化，更少機(jī)器人化。作者指出，該任務(wù)的一部分是開發(fā)文本到語音(TTS)應(yīng)用程序。大多數(shù)人都聽說過TTS系統(tǒng)的結(jié)果，例如許多公司用于現(xiàn)場客戶呼叫的自動(dòng)語音系統(tǒng)。在這項(xiàng)新的努力中，谷歌集團(tuán)將其從Tacotron和WaveNet項(xiàng)目中學(xué)到的知識(shí)與創(chuàng)建Tacotron 2-a系統(tǒng)相結(jié)合，將科學(xué)提升到一個(gè)新的水平。在收聽提供的樣本時(shí)，很難判斷語音是人還是TTS系統(tǒng)語音是很困難的。

為了達(dá)到這種新的準(zhǔn)確度，Google的團(tuán)隊(duì)使用了經(jīng)過優(yōu)化的序列到序列模型，以便與TTS一起使用 - 它將字母排列映射到描述音頻的一系列功能。結(jié)果是80維譜圖。然后，該頻譜圖被用作第二系統(tǒng)的輸入，該系統(tǒng)使用基于WaveNet的架構(gòu)輸出24kHz波形。兩者都是使用語音示例(來自眾包應(yīng)用程序，如亞馬遜的Mechanical Turk)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)及其相應(yīng)的成績單。新系統(tǒng)能夠融合音量，發(fā)音，語調(diào)和速度，從而創(chuàng)造出更像人類的聲音。

該團(tuán)隊(duì)還指出，他們?nèi)栽谂Ω倪M(jìn)系統(tǒng)，最重要的是克服復(fù)雜單詞的問題并使其實(shí)時(shí)工作。他們還希望為聲音添加更多??情感，以便聽眾可以實(shí)際聽到幸?；虮瘋?，或者發(fā)現(xiàn)不快。這樣做不僅會(huì)推動(dòng)科學(xué)發(fā)展，而且會(huì)使與數(shù)字助理的互動(dòng)變得更加親密。

標(biāo)簽：語音轉(zhuǎn)換系統(tǒng)