谷歌為ai生成的音頻和視頻質(zhì)量引入了新的度量標(biāo)準(zhǔn)

2022-08-24 13:46:31 編輯：熊雄靈來(lái)源：

導(dǎo)讀谷歌AI研究人員發(fā)表了兩項(xiàng)新的衡量深度學(xué)習(xí)網(wǎng)絡(luò)產(chǎn)生的音頻和視頻質(zhì)量的指標(biāo)，即Frechet音頻距離（FAD）和Frechet視頻距離（FVD）。這些指標(biāo)...

谷歌AI研究人員發(fā)表了兩項(xiàng)新的衡量深度學(xué)習(xí)網(wǎng)絡(luò)產(chǎn)生的音頻和視頻質(zhì)量的指標(biāo)，即Frechet音頻距離（FAD）和Frechet視頻距離（FVD）。這些指標(biāo)已被證明與人類對(duì)質(zhì)量的評(píng)價(jià)有很高的相關(guān)性。

　　在最近的一篇博客文章中，軟件工程師凱文·基爾古爾（Kevin Kilgour）和托馬斯·尤特西納（Thomas Unterthiner）描述了他們團(tuán)隊(duì)所做的工作，這項(xiàng)工作建立在先前測(cè)量神經(jīng)網(wǎng)絡(luò)生成的圖像質(zhì)量的研究的基礎(chǔ)上。這些團(tuán)隊(duì)分別展示了他們的新度量如何檢測(cè)添加到聲音或視頻中的噪聲，以及他們的度量如何通過(guò)人類對(duì)聲音或視頻質(zhì)量的評(píng)估來(lái)跟蹤。通過(guò)對(duì)失真音頻樣本的排序來(lái)評(píng)估FAD，其選擇與人類評(píng)委的相關(guān)性為0.39。通過(guò)對(duì)由深度學(xué)習(xí)模型生成的視頻對(duì)進(jìn)行排名，對(duì)FVD進(jìn)行了類似的評(píng)估；它與60%到80%之間的人類排名一致，這取決于所使用的生成標(biāo)準(zhǔn)。

　　深度學(xué)習(xí)模型的成功在一定程度上是由Image Net等大型高質(zhì)量數(shù)據(jù)集的可用性驅(qū)動(dòng)的。這些數(shù)據(jù)集還提供了一個(gè)“基本真相”，可以據(jù)此對(duì)模型進(jìn)行評(píng)估。最近流行的深度學(xué)習(xí)生成新圖像的應(yīng)用提出了一個(gè)新的問(wèn)題：如何測(cè)量輸出的質(zhì)量？不能采用信噪比或均方誤差等通用指標(biāo)，因?yàn)檫@些網(wǎng)絡(luò)生成的圖像或其他數(shù)據(jù)沒(méi)有“地面真相”答案。

　　由于目標(biāo)是創(chuàng)建對(duì)人類來(lái)說(shuō)看起來(lái)或聽(tīng)起來(lái)真實(shí)的輸出，數(shù)據(jù)可以由人類評(píng)委打分，但這既不可伸縮，也不一定客觀。Gans的發(fā)明者提出的最初度量標(biāo)準(zhǔn)是Inception評(píng)分（IS）。該度量是通過(guò)將預(yù)先訓(xùn)練的Inception圖像分類器應(yīng)用于圖像和計(jì)算結(jié)果統(tǒng)計(jì)來(lái)計(jì)算的。這一度量指標(biāo)“與用于訓(xùn)練生成模型的目標(biāo)密切相關(guān)”，并被證明與人類對(duì)質(zhì)量的判斷密切相關(guān)。

　　然而，Inception評(píng)分標(biāo)準(zhǔn)確實(shí)有一些缺點(diǎn)；特別是，它對(duì)所使用的底層Inception模型的變化很敏感。奧地利約翰內(nèi)斯·開(kāi)普勒大學(xué)LIT人工智能實(shí)驗(yàn)室的Unterthier和其他人開(kāi)發(fā)了Frechet初始距離（FID）。而不是使用Inception模型的分類輸出，F(xiàn)ID使用Inception模型的隱藏層來(lái)計(jì)算輸入圖像的嵌入。為一組生成的圖像和一組真實(shí)世界（或基線）圖像計(jì)算嵌入。所得到的數(shù)據(jù)集被視為由多元高斯分布生成的數(shù)據(jù)，并使用Frechet距離對(duì)兩個(gè)分布進(jìn)行比較。與IS相比，F(xiàn)ID的一個(gè)優(yōu)點(diǎn)是隨著噪聲被添加到圖像中，F(xiàn)ID會(huì)增加，而IS可以保持平坦，甚至減少。

　　谷歌的新指標(biāo)擴(kuò)展了計(jì)算生成數(shù)據(jù)的嵌入，并將統(tǒng)計(jì)數(shù)據(jù)與基線數(shù)據(jù)進(jìn)行比較的想法。對(duì)于FAD，團(tuán)隊(duì)使用VGGish來(lái)計(jì)算嵌入，對(duì)于FVD，一個(gè)充氣的3D Convnet。為了驗(yàn)證其度量的有用性，研究人員計(jì)算了通過(guò)在基線中添加噪聲而創(chuàng)建的數(shù)據(jù)集的度量值；期望是隨著噪聲的增加，分?jǐn)?shù)會(huì)增加，這確實(shí)發(fā)生了。該小組還將他們的度量結(jié)果與人類評(píng)價(jià)進(jìn)行了比較，發(fā)現(xiàn)他們的度量與人類判斷之間的相關(guān)性，并且他們的新度量與人類法官的一致性比其他常用的度量更強(qiáng)。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！