2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在預定于下個月在國際聲學,語音和信號處理國際會議(ICASSP)上發(fā)表的技術(shù)論文中,一組亞馬遜研究人員提出了一種AI驅(qū)動的方法來進行多源本地化,或者是估計聲音質(zhì)量的問題。使用麥克風音頻定位。他們說,在涉及真實和模擬數(shù)據(jù)(前者來自AV16.3語料庫)和多達三個同時活動的聲源的實驗中,與最新的信號相比,該方法顯示出將近15%的改進,處理模型。
解決多源本地化問題是開發(fā)足夠強大的智能揚聲器,智能顯示器甚至視頻會議軟件的必不可少的步驟。這是因為它是波束賦形的核心,它是一種將信號(在這種情況下為聲音)聚焦到接收設備(麥克風)的技術(shù)。亞馬遜自己的Echo系列產(chǎn)品利用波束賦形來提高語音識別的準確性,谷歌的Nest Hub和蘋果的HomePod也是如此。
朝向麥克風陣列傳播的聲音將在不同的時間到達每個麥克風,這種現(xiàn)象可被用來查明聲源的位置。對于單個聲源,計算相對簡單,但是對于多個聲源,計算卻成倍地復雜。
已經(jīng)提出了針對多源本地化問題的各種AI和機器學習解決方案,但其中許多都有局限性。
當可能的聲音數(shù)量超過模型輸出的數(shù)量時,可能會懷疑哪個聲音對應哪個輸出。例如,如果模型學習將一組坐標與一個說話者關(guān)聯(lián),并將另一組坐標與兩個其他說話者關(guān)聯(lián),則不清楚當另外兩個說話者同時講話時哪個輸出與哪個說話者關(guān)聯(lián)。一種解決方案是將麥克風陣列周圍的空間表示為3D網(wǎng)格,從而在給定一組輸入信號的情況下,使模型能夠輸出一種聲音源自每個網(wǎng)格點的概率。但這具有主要缺點,其中主要的困難在于本地化離網(wǎng)資源,創(chuàng)建包含每個點的所有聲音組合的語料庫以及提高超出網(wǎng)格分辨率的準確性的困難。
亞馬遜團隊的模型首先將聲音定位到粗略定義的區(qū)域,然后將聲音精確地定位在這些區(qū)域內(nèi)。如果它包含至少一個源,則認為該區(qū)域處于活動狀態(tài),并且假定在任何活動區(qū)域中最多可以有一個活動源。因為每個粗略區(qū)域在模型的輸出層中都有一組指定的節(jié)點,所以對于給定區(qū)域中的哪個聲源與位置估計相關(guān)聯(lián)不會有任何歧義。
對于每個區(qū)域,模型都會計算該區(qū)域包含一個源的概率,以及源與麥克風陣列中心之間的距離以及源相對于陣列的角度。它從麥克風中攝取多通道原始音頻,并輸出上述三個量,從而是端到端的—該模型處理原始音頻,從而避免了預處理或后處理的需要。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。