谷歌的AutoFlip使用人工智能為你裁剪視頻

2022-08-31 23:21:40 編輯：柯珠鴻來(lái)源：

導(dǎo)讀為電視拍攝和編輯的視頻通常是在景觀中創(chuàng)建和觀看的，但問(wèn)題是，像16：9和4：3這樣的縱橫比并不總是適合用于觀看的顯示器。幸運(yùn)的是，谷...

為電視拍攝和編輯的視頻通常是在景觀中創(chuàng)建和觀看的，但問(wèn)題是，像16：9和4：3這樣的縱橫比并不總是適合用于觀看的顯示器。幸運(yùn)的是，谷歌正在處理這件事。它今天詳細(xì)介紹了自動(dòng)翻轉(zhuǎn)，一個(gè)開(kāi)源工具的智能視頻重構(gòu)。給定一個(gè)視頻和一個(gè)目標(biāo)維度，它分析視頻內(nèi)容，并制定最優(yōu)的跟蹤和裁剪策略，然后在期望的縱橫比中產(chǎn)生相同持續(xù)時(shí)間的輸出視頻。

正如Google Research高級(jí)軟件工程師Nathan Frey和高級(jí)軟件工程師鄭孫在一篇博客文章中指出的那樣，傳統(tǒng)的視頻重構(gòu)方法通常涉及靜態(tài)裁剪，這往往導(dǎo)致不滿意的結(jié)果。更多的定制方法是優(yōu)越的，但它們通常需要視頻策劃者手動(dòng)識(shí)別每個(gè)幀中的突出內(nèi)容，跟蹤它們從幀到幀的轉(zhuǎn)換，并在整個(gè)視頻中相應(yīng)地調(diào)整作物區(qū)域。

相比之下，由于AI對(duì)象檢測(cè)和跟蹤技術(shù)智能地理解視頻內(nèi)容，自動(dòng)翻轉(zhuǎn)是完全自動(dòng)的。該系統(tǒng)檢測(cè)表示場(chǎng)景變化的構(gòu)圖的變化，以便隔離場(chǎng)景進(jìn)行處理。在每個(gè)鏡頭中，它使用視頻分析來(lái)識(shí)別突出的內(nèi)容，然后再重新繪制場(chǎng)景，主要是通過(guò)選擇一個(gè)優(yōu)化的相機(jī)模式和路徑。

為了檢測(cè)視頻中的鏡頭何時(shí)發(fā)生變化，自動(dòng)翻轉(zhuǎn)計(jì)算每個(gè)幀的顏色直方圖，并將其與先前的幀進(jìn)行比較。如果幀顏色的分布以與滑動(dòng)歷史窗口不同的速度變化，則發(fā)出鏡頭變化信號(hào)。自動(dòng)翻轉(zhuǎn)緩沖視頻，直到場(chǎng)景完成，然后再進(jìn)行重構(gòu)決策，以優(yōu)化整個(gè)場(chǎng)景的重構(gòu)。

自動(dòng)翻轉(zhuǎn)還點(diǎn)擊基于AI的對(duì)象檢測(cè)模型，在框架中找到有趣的內(nèi)容，比如人、動(dòng)物、文本覆蓋、標(biāo)識(shí)和運(yùn)動(dòng)。人臉和對(duì)象檢測(cè)模型與通過(guò)媒體管道的自動(dòng)翻轉(zhuǎn)集成在一起，這是一個(gè)框架，可以開(kāi)發(fā)用于處理多模態(tài)數(shù)據(jù)的管道，該框架使用Google的處理器上的TensorFlowLite機(jī)器學(xué)習(xí)框架。根據(jù)谷歌的說(shuō)法，這種結(jié)構(gòu)允許Auto Flip是可擴(kuò)展的，因此開(kāi)發(fā)人員可以為不同的用例和視頻內(nèi)容添加檢測(cè)算法。

自動(dòng)翻轉(zhuǎn)自動(dòng)選擇一個(gè)重構(gòu)策略-靜止的，恐慌的，或跟蹤-取決于對(duì)象在場(chǎng)景中的行為方式。在靜止模式下，重構(gòu)的攝像機(jī)視口固定在一個(gè)位置(就像一個(gè)固定的三腳架)，在那里可以在整個(gè)場(chǎng)景中查看重要內(nèi)容。另一方面，恐慌模式以恒定的速度移動(dòng)視口，而跟蹤模式則提供連續(xù)和穩(wěn)定的跟蹤對(duì)象，因?yàn)樗鼈冊(cè)趲瑑?nèi)移動(dòng)。

在選擇重構(gòu)策略的基礎(chǔ)上，自動(dòng)翻轉(zhuǎn)為每個(gè)幀確定一個(gè)裁剪窗口，同時(shí)保留感興趣的內(nèi)容。配置圖提供了重新繪制的設(shè)置，以便如果不可能覆蓋所有所需區(qū)域，系統(tǒng)將自動(dòng)切換到一個(gè)不那么激進(jìn)的策略，通過(guò)應(yīng)用字母框效果，填充圖像來(lái)填充框架。自動(dòng)翻轉(zhuǎn)將繪制背景顏色(如果是純色)，以確保填充混合，或以其他方式使用模糊版本的原始框架。

研究人員留給未來(lái)的工作，以提高自動(dòng)翻轉(zhuǎn)的能力，以檢測(cè)“與視頻意圖相關(guān)的對(duì)象”，如揚(yáng)聲器檢測(cè)采訪或動(dòng)畫人臉檢測(cè)卡通，并確保輸入視頻與覆蓋在屏幕邊緣(如文本或徽標(biāo))是不從視圖裁剪。但他們斷言，即使以目前的形式，自動(dòng)翻轉(zhuǎn)也將“減少設(shè)計(jì)創(chuàng)造力的障礙”。

“通過(guò)結(jié)合文本/徽標(biāo)檢測(cè)和圖像修復(fù)技術(shù)，我們希望未來(lái)版本的自動(dòng)翻轉(zhuǎn)能夠重新定位前景對(duì)象，以更好地適應(yīng)新的縱橫比。 [而且]在需要填充的情況下，深度非裁剪技術(shù)可以提供更好的擴(kuò)展能力，超越原來(lái)的可視區(qū)域，“弗雷和Sun寫道。 “我們很高興能將這個(gè)工具直接發(fā)布給開(kāi)發(fā)人員和電影制作人，減少他們?cè)O(shè)計(jì)創(chuàng)造力的障礙，并通過(guò)視頻編輯的自動(dòng)化來(lái)實(shí)現(xiàn)。隨著視頻內(nèi)容消費(fèi)設(shè)備的多樣性繼續(xù)迅速增加，使任何視頻格式適應(yīng)各種縱橫比的能力越來(lái)越重要。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！