當(dāng)今的智能手機(jī)經(jīng)常使用人工智能來使我們拍攝的照片更清晰

2022-07-29 14:49:20 編輯：賴誠紈來源：

導(dǎo)讀當(dāng)今的智能手機(jī)經(jīng)常使用人工智能(AI)來使我們拍攝的照片更清晰，更清晰。但是，如果可以使用這些AI工具從頭開始創(chuàng)建整個場景呢?麻省理工學(xué)...

當(dāng)今的智能手機(jī)經(jīng)常使用人工智能(AI)來使我們拍攝的照片更清晰，更清晰。但是，如果可以使用這些AI工具從頭開始創(chuàng)建整個場景呢?麻省理工學(xué)院和IBM的團(tuán)隊現(xiàn)在已經(jīng)使用“ GANpaint Studio”完成了這一任務(wù)，該系統(tǒng)可以自動生成逼真的攝影圖像并編輯其中的對象。研究人員說，除了幫助藝術(shù)家和設(shè)計師快速調(diào)整視覺效果外，這項工作還可以幫助計算機(jī)科學(xué)家識別“偽造”圖像。

David Bau博士麻省理工學(xué)院計算機(jī)科學(xué)與人工智能實驗室(CSAIL)的一名學(xué)生將這個項目描述為計算機(jī)科學(xué)家首次真正能夠“用神經(jīng)網(wǎng)絡(luò)的神經(jīng)元進(jìn)行繪畫”，特別是一種流行的網(wǎng)絡(luò)，稱為“生成網(wǎng)絡(luò)”。對抗網(wǎng)絡(luò)(GAN)。

GANpaint Studio 作為交互式演示在線提供，用戶可以上傳自己選擇的圖像并修改其外觀的多個方面，從更改對象的大小到添加全新的項目(如樹木和建筑物)。

設(shè)計師的福音

該項目由MIT教授Antonio Torralba牽頭，是他領(lǐng)導(dǎo)的MIT-IBM Watson AI Lab的一部分，該項目具有廣泛的潛在應(yīng)用。設(shè)計師和藝術(shù)家可以使用它來更快地調(diào)整其視覺效果。使系統(tǒng)適應(yīng)視頻剪輯，將使計算機(jī)圖形編輯人員可以快速組合特定鏡頭所需的特定對象布置。(例如，想象一下，如果一個導(dǎo)演與演員一起拍攝了一個完整的場景，但是卻忘記在背景中包含一個對劇情很重要的對象。)

GANpaint Studio還可以通過分析需要刪除的“工件”單元，來改進(jìn)和調(diào)試正在開發(fā)的其他GAN。在不透明的AI工具使圖像處理比以往更容易的世界中，它可以幫助研究人員更好地理解神經(jīng)網(wǎng)絡(luò)及其底層結(jié)構(gòu)。

“目前，機(jī)器學(xué)習(xí)系統(tǒng)就是這些黑匣子，我們并不總是知道如何改進(jìn)這些黑匣子，就像老式的電視機(jī)一樣，您必須將它們撞到一邊，” Bau說。由Torralba監(jiān)督的團(tuán)隊撰寫有關(guān)該系統(tǒng)的論文。“這項研究表明，盡管打開電視并仔細(xì)查看所有電線可能會很嚇人，但那里會有很多有意義的信息。”

一個意外的發(fā)現(xiàn)是該系統(tǒng)實際上似乎已經(jīng)學(xué)習(xí)了一些有關(guān)對象之間關(guān)系的簡單規(guī)則。它以某種方式知道不要在不屬于自己的地方放置某些東西，例如天空中的窗戶，并且它還會在不同的上下文中創(chuàng)建不同的視覺效果。例如，如果圖像中有兩個不同的建筑物，并且要求系統(tǒng)在兩個建筑物上都添加門，則不只是添加相同的門，它們最終看起來可能彼此完全不同。

“所有繪圖應(yīng)用程序都將遵循用戶的說明，但是如果用戶命令將對象放置在不可能的位置，我們的應(yīng)用程序可能會決定不繪制任何內(nèi)容，” Torralba說。“這是一個具有強(qiáng)烈個性的繪圖工具，它打開了一個窗口，使我們能夠了解GAN如何學(xué)會代表視覺世界。”

GAN是為相互競爭而開發(fā)的神經(jīng)網(wǎng)絡(luò)集。在這種情況下，一個網(wǎng)絡(luò)是專注于創(chuàng)建逼真的圖像的生成器，第二個網(wǎng)絡(luò)是一個甄別器，其目標(biāo)是不被該生成器欺騙。鑒別器每次“捕獲”生成器時，都必須公開決策的內(nèi)部推理，這使生成器不斷變得更好。

芬蘭阿爾托大學(xué)副教授Jaakko Lehtinen說：“看到這項工作如何使我們直接看到GAN真正開始學(xué)習(xí)一些常識，真是令人難以置信。” 。“我認(rèn)為這種能力是擁有可以在人類世界中實際運(yùn)行的自治系統(tǒng)的關(guān)鍵墊腳石，它是無限，復(fù)雜和不斷變化的。”

刪除不需要的“假”圖像

該團(tuán)隊的目標(biāo)是使人們對GAN網(wǎng)絡(luò)有更多的控制權(quán)。但是他們認(rèn)識到，權(quán)力的增強(qiáng)會帶來濫用的可能性，例如使用此類技術(shù)來篡改照片。合著者朱俊彥說，他相信更好地了解GAN以及他們犯的錯誤種類將有助于研究人員更好地杜絕偽造品。

CSAIL的博士后朱說：“在防御之前，您需要了解對手。” “這種了解可能會幫助我們更輕松地檢測偽造圖像。”

為了開發(fā)該系統(tǒng)，團(tuán)隊首先確定了GAN內(nèi)部與特定類型的對象(例如樹木)相關(guān)的單元。然后，它分別測試了這些單元，看清除它們是否會導(dǎo)致某些物體消失或出現(xiàn)。重要的是，他們還確定了導(dǎo)致視覺錯誤(偽影)的單元，并努力將其移除以提高圖像的整體質(zhì)量。

IBM的合著者Hendrik Strobelt說：“每當(dāng)GAN生成極其不真實的圖像時，這些錯誤的原因就一直是個謎。” “我們發(fā)現(xiàn)這些錯誤是由特定的神經(jīng)元集合觸發(fā)的，我們可以沉默這些神經(jīng)元來改善圖像質(zhì)量。”

Bau，Strobelt，Torralba和Zhu與前CSAIL博士共同撰寫了這篇論文。學(xué)生Bolei Zhou，博士后研究員Jonas Wulff和本科生William Peebles。他們將在下個月于洛杉磯舉行的SIGGRAPH會議上介紹該文檔。Lehtinen說：“該系統(tǒng)為更好地理解GAN模型打開了一扇門，這將有助于我們進(jìn)行需要對GAN進(jìn)行的任何類型的研究。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！