您的位置: 首頁 >科技 >

用于編輯視頻中音樂的AI系統(tǒng)

2022-07-03 04:30:40 編輯:于瑤素 來源:
導(dǎo)讀 業(yè)余和專業(yè)音樂家都可能花費數(shù)小時傾注YouTube剪輯,以弄清楚如何播放他們喜歡的歌曲的某些部分。但是如果有一種方法可以播放視頻并隔離

業(yè)余和專業(yè)音樂家都可能花費數(shù)小時傾注YouTube剪輯,以弄清楚如何播放他們喜歡的歌曲的某些部分。但是如果有一種方法可以播放視頻并隔離您想要聽到的唯一樂器呢?

這是麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)新的AI項目的結(jié)果:一個深度學(xué)習(xí)系統(tǒng),可以觀看音樂表演的視頻,隔離特定樂器的聲音,使它們更響亮或更柔和。

該系統(tǒng)是“自我監(jiān)督的”,不需要任何人類注釋儀器是什么或它們聽起來像什么。

經(jīng)過超過60小時的視頻培訓(xùn),“PixelPlayer”系統(tǒng)可以觀看前所未有的音樂表演,識別像素級別的特定樂器,并提取與這些樂器相關(guān)的聲音。

例如,它可以播放大號和小號的視頻播放“超級馬里奧兄弟”主題曲,并分離出與每種樂器相關(guān)的聲波。

研究人員表示,改變單個樂器音量的能力意味著,在未來,這樣的系統(tǒng)可能有助于工程師提高舊音樂會錄像的音質(zhì)。你甚至可以想象制作人采用特定的樂器部件并預(yù)覽他們聽起來與其他樂器一樣的聲音(即換成一個聲學(xué)樂器的電吉他)。

在一篇新論文中,該團隊證明PixelPlayer可以識別超過20種常見樂器的聲音。第一作者Hang Zhao表示,如果系統(tǒng)有更多的訓(xùn)練數(shù)據(jù),系統(tǒng)將能夠識別更多的儀器,盡管它仍然可能無法處理儀器子類之間的微妙差異(例如中音薩克斯與男高音)。

以前分離聲源的努力主要集中在音頻上,這通常需要廣泛的人類標簽。相比之下,PixelPlayer引入了視覺元素,研究人員稱其不需要人工標簽,因為視覺提供了自我監(jiān)督。

系統(tǒng)首先定位產(chǎn)生聲音的圖像區(qū)域,然后將輸入聲音分離為表示來自每個像素的聲音的一組分量。

“我們期待一個最好的情況,我們可以識別出哪種樂器會發(fā)出哪種聲音,”CSAIL的博士生趙說。“我們很驚訝我們實際上可以在像素級別空間定位儀器。能夠做到這一點開辟了許多可能性,例如只需點擊一下視頻即可編輯單個樂器的音頻。“

PixelPlayer使用“深度學(xué)習(xí)”方法,這意味著它使用已經(jīng)在現(xiàn)有視頻上訓(xùn)練的所謂“神經(jīng)網(wǎng)絡(luò)”在數(shù)據(jù)中找到模式。具體地,一個神經(jīng)網(wǎng)絡(luò)分析視頻的視覺,一個分析音頻,第三個“合成器”將特定的像素與特定的聲波相關(guān)聯(lián)以分離不同的聲音。

PixelPlayer使用所謂的“自我監(jiān)督”深度學(xué)習(xí)的事實意味著麻省理工學(xué)院的團隊并沒有明確地理解它如何學(xué)習(xí)哪些樂器制作哪種聲音。

然而,趙說他可以說系統(tǒng)似乎認識到了音樂的實際元素。例如,某些諧波頻率似乎與小提琴等樂器相關(guān),而快速脈沖狀模式則與木琴等樂器相對應(yīng)。

趙說,像PixelPlayer這樣的系統(tǒng)甚至可以用在機器人上,以更好地理解其他物體所產(chǎn)生的環(huán)境聲音,例如動物或車輛。

他與麻省理工學(xué)院教授,??電氣工程和計算機科學(xué)系的Antonio Torralba以及腦與認知科學(xué)系的Josh McDermott以及研究助理Chuang Gan,本科生Andrew Rouditchenko和博士共同撰寫了論文。畢業(yè)生Carl Vondrick。它最近被歐洲計算機視覺會議(ECCV)所接受,該會議將于今年9月在德國慕尼黑舉行。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。