您的位置: 首頁 >科技 >

計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室的深度學(xué)習(xí)視覺系統(tǒng)

2022-07-02 20:32:30 編輯:祝瑤藍(lán) 來源:
導(dǎo)讀 當(dāng)我們看到兩個(gè)人相遇時(shí),我們通??梢灶A(yù)測(cè)接下來會(huì)發(fā)生什么:握手,擁抱,甚至是吻。我們預(yù)測(cè)行動(dòng)的能力歸功于一生中經(jīng)歷的直覺。另一方

當(dāng)我們看到兩個(gè)人相遇時(shí),我們通??梢灶A(yù)測(cè)接下來會(huì)發(fā)生什么:握手,擁抱,甚至是吻。我們預(yù)測(cè)行動(dòng)的能力歸功于一生中經(jīng)歷的直覺。

另一方面,機(jī)器難以利用這樣的復(fù)雜知識(shí)。預(yù)測(cè)行動(dòng)的計(jì)算機(jī)系統(tǒng)將開辟新的可能性,從可以更好地駕馭人類環(huán)境的機(jī)器人,到預(yù)測(cè)跌倒的緊急響應(yīng)系統(tǒng),到谷歌玻璃風(fēng)格的耳機(jī),為您提供在不同情況下做什么的建議。

本周麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的研究人員在預(yù)測(cè)視覺方面取得了重大的新突破,開發(fā)出一種能夠比以往更準(zhǔn)確地預(yù)測(cè)交互的算法。

在YouTube視頻和電視節(jié)目(如“辦公室”和“絕望主婦”)上接受過培訓(xùn),系統(tǒng)可以預(yù)測(cè)兩個(gè)人是否會(huì)擁抱,親吻,握手或拍打五個(gè)人。在第二種情況下,它還可以預(yù)測(cè)五秒鐘后視頻中可能出現(xiàn)的對(duì)象。

雖然人類的問候可能看似像預(yù)測(cè)的任意行為,但這項(xiàng)任務(wù)可以作為一個(gè)更容易控制的測(cè)試案例供研究人員研究。

“人類通過經(jīng)驗(yàn)自動(dòng)學(xué)會(huì)預(yù)測(cè)行動(dòng),這使我們有興趣試圖讓計(jì)算機(jī)充滿同樣的常識(shí),”CSAIL博士生Carl Vondrick說道,他是相關(guān)論文的第一作者,他將提出這一點(diǎn)。本周計(jì)算機(jī)視覺和模式識(shí)別國(guó)際會(huì)議(CVPR)。“我們希望通過觀看大量視頻來表明,計(jì)算機(jī)可以獲得足夠的知識(shí),以便始終如一地預(yù)測(cè)周圍環(huán)境。”

Vondrick的合著者包括麻省理工學(xué)院教授Antonio Torralba和前博士后Hamed Pirsiavash,他現(xiàn)在是馬里蘭大學(xué)的教授。

過去預(yù)測(cè)計(jì)算機(jī)視覺的嘗試通常采用兩種方法之一。

第一種方法是查看圖像的單個(gè)像素,并使用該知識(shí)逐個(gè)像素地創(chuàng)建逼真的“未來”圖像 - 這是Vondrick描述為“對(duì)于專業(yè)畫家來說很難,更不用說算法”的任務(wù)。第二種方法是讓人類事先為計(jì)算機(jī)標(biāo)記場(chǎng)景,這對(duì)于能夠大規(guī)模地預(yù)測(cè)動(dòng)作是不切實(shí)際的。

相反,CSAIL團(tuán)隊(duì)創(chuàng)建了一種可以預(yù)測(cè)“視覺表示”的算法,這些算法基本上是凍結(jié)幀,顯示場(chǎng)景可能看起來的不同版本。

“而不是說一個(gè)像素值是藍(lán)色,下一個(gè)是紅色,依此類推,可視化表示顯示有關(guān)較大圖像的信息,例如代表人臉的某些像素集合,”Vondrick說。

該團(tuán)隊(duì)的算法采用深度學(xué)習(xí)技術(shù),這是一個(gè)人工智能領(lǐng)域,使用稱為“神經(jīng)網(wǎng)絡(luò)”的系統(tǒng)來教授計(jì)算機(jī)挖掘大量數(shù)據(jù)以自行查找模式。

每個(gè)算法的網(wǎng)絡(luò)預(yù)測(cè)表示被自動(dòng)分類為四個(gè)動(dòng)作之一 - 在這種情況下,擁抱,握手,高五或親吻。然后,系統(tǒng)將這些操作合并為一個(gè)用作預(yù)測(cè)的操作。例如,三個(gè)網(wǎng)絡(luò)可能預(yù)測(cè)一個(gè)吻,而另一個(gè)可能會(huì)使用另一個(gè)人進(jìn)入框架的事實(shí)作為預(yù)測(cè)擁抱的理由。

“視頻不像'選擇你自己的冒險(xiǎn)'一書,你可以看到所有潛在的路徑,”Vondrick說。“未來本質(zhì)上是模棱兩可的,所以挑戰(zhàn)自己開發(fā)一個(gè)使用這些表示來預(yù)測(cè)所有可能性的系統(tǒng)是令人興奮的。”

在對(duì)600小時(shí)無標(biāo)簽視頻進(jìn)行算法訓(xùn)練后,團(tuán)隊(duì)在新視頻上對(duì)其進(jìn)行了測(cè)試,同時(shí)顯示了動(dòng)作和對(duì)象。

當(dāng)顯示距離執(zhí)行四個(gè)動(dòng)作之一一秒鐘的人的視頻時(shí),該算法正確地預(yù)測(cè)該動(dòng)作超過43%的時(shí)間,這與現(xiàn)有算法相比僅占36%的時(shí)間。

在第二項(xiàng)研究中,該算法顯示了一個(gè)視頻幀,并被要求預(yù)測(cè)五秒鐘后會(huì)出現(xiàn)什么對(duì)象。例如,看到有人打開微波爐可能會(huì)暗示未來咖啡杯的存在。該算法預(yù)測(cè)框架中的物體比基線測(cè)量值更精確30%,盡管研究人員警告說它仍然只有11%的平均精度。

值得注意的是,即使是人類也會(huì)在這些任務(wù)上犯錯(cuò)誤:例如,人類受試者只能在71%的時(shí)間內(nèi)正確預(yù)測(cè)行動(dòng)。

“理解和預(yù)測(cè)人類互動(dòng)有很多微妙之處,”Vondrick說。“我們希望能夠在這個(gè)例子中工作,以便能夠很快預(yù)測(cè)出更復(fù)雜的任務(wù)。”

雖然這些算法對(duì)于實(shí)際應(yīng)用來說還不夠準(zhǔn)確,但Vondrick表示,未來的版本可以用于從制定更好的行動(dòng)計(jì)劃的機(jī)器人到安全攝像頭的所有內(nèi)容,當(dāng)有人跌倒或受傷時(shí),可以向緊急救援人員發(fā)出警報(bào)。

“如果我們可以為他們提供終身價(jià)值的視頻,我很高興看到算法有多好,”Vondrick說。“我們可能會(huì)看到一些重大改進(jìn),這些改進(jìn)將使我們更接近在現(xiàn)實(shí)世界中使用預(yù)測(cè)視覺。”

這項(xiàng)工作得到了科學(xué)基金會(huì)的資助,以及Torralba的谷歌教師研究獎(jiǎng)和Vondrick的谷歌博士獎(jiǎng)學(xué)金。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。