2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
向孩子呈現(xiàn)各種形狀的圖片,并要求他們找到大紅色圓圈。為了得出答案,她經(jīng)歷了幾個(gè)推理步驟:首先,找到所有大事; 接下來,找到紅色的大事; 最后,選擇一個(gè)大圓圈的紅色東西。
我們通過理性學(xué)習(xí)如何解讀世界。那么,神經(jīng)網(wǎng)絡(luò)也是如此。現(xiàn)在,麻省理工學(xué)院林肯實(shí)驗(yàn)室的情報(bào)和決策技術(shù)小組的一個(gè)研究小組開發(fā)了一個(gè)神經(jīng)網(wǎng)絡(luò),可以執(zhí)行類似人類的推理步驟來回答有關(guān)圖像內(nèi)容的問題。該模型被命名為透明設(shè)計(jì)網(wǎng)絡(luò)(TbD-net),在解決問題時(shí)可視化地呈現(xiàn)其思維過程,使人類分析師能夠解釋其決策過程。該模型比當(dāng)今最好的視覺推理神經(jīng)網(wǎng)絡(luò)表現(xiàn)更好。
了解神經(jīng)網(wǎng)絡(luò)如何做出決策一直是人工智能(AI)研究人員長期面臨的挑戰(zhàn)。正如其名稱的神經(jīng)部分所暗示的那樣,神經(jīng)網(wǎng)絡(luò)是大腦啟發(fā)的AI系統(tǒng),旨在復(fù)制人類學(xué)習(xí)的方式。它們由輸入和輸出層以及介于兩者之間的層組成,將輸入轉(zhuǎn)換為正確的輸出。一些深度神經(jīng)網(wǎng)絡(luò)變得如此復(fù)雜,以至于幾乎不可能遵循這種轉(zhuǎn)換過程。這就是為什么它們被稱為“黑匣子”系統(tǒng),它們的內(nèi)部完全不透明,甚至是構(gòu)建它們的工程師。
使用TbD-net,開發(fā)人員的目標(biāo)是使這些內(nèi)部工作變得透明。透明度很重要,因?yàn)樗试S人類解釋AI的結(jié)果。
重要的是要知道,例如,在自動(dòng)駕駛汽車中使用的神經(jīng)網(wǎng)絡(luò)究竟是什么意思是行人和停車標(biāo)志之間的區(qū)別,并且在其推理鏈的哪一點(diǎn)上看到了這種差異。這些見解允許研究人員教授神經(jīng)網(wǎng)絡(luò)來糾正任何不正確的假設(shè)。但TbD-net開發(fā)人員表示,目前最好的神經(jīng)網(wǎng)絡(luò)缺乏有效的機(jī)制,使人們能夠理解他們的推理過程。
“在提高視覺推理性能方面取得的進(jìn)展是以可解釋性為代價(jià)的,”Ryan Soklaski說道,他與研究員Arjun Majumdar,David Mascharka和Philip Tran建立了TbD-net。
林肯實(shí)驗(yàn)室小組能夠縮小與TbD-net的性能和可解釋性之間的差距。他們系統(tǒng)的一個(gè)關(guān)鍵是“模塊”的集合,這些小型神經(jīng)網(wǎng)絡(luò)專門用于執(zhí)行特定的子任務(wù)。當(dāng)向TbD-net詢問關(guān)于圖像的視覺推理問題時(shí),它將問題分解為子任務(wù)并分配適當(dāng)?shù)哪K以實(shí)現(xiàn)其部分。就像裝配線上的工人一樣,每個(gè)模塊都會(huì)在模塊出現(xiàn)之前構(gòu)建模塊,最終產(chǎn)生最終的正確答案??偟膩碚f,TbD-net利用一種AI技術(shù)來解釋人類語言問題并將這些句子分解為子任務(wù),然后是多種解釋圖像的計(jì)算機(jī)視覺AI技術(shù)。
Majumdar說:“將一系列復(fù)雜的推理分解為一系列較小的子問題,每個(gè)子問題都可以獨(dú)立解決并組成,是一種強(qiáng)大而直觀的推理手段。”
每個(gè)模塊的輸出在視覺上以組稱為“注意掩碼”的方式描繪。注意掩碼顯示模塊識(shí)別為其答案的圖像中的對象上的熱圖blob。這些可視化使人類分析師能夠看到模塊如何解釋圖像。
舉例來說,對TbD-net提出以下問題:“在這張圖片中,大金屬立方體的顏色是什么?”為了回答這個(gè)問題,第一個(gè)模塊僅定位大型物體,產(chǎn)生一個(gè)注意面具,突出顯示那些大型物體下一個(gè)模塊接受這個(gè)輸出并找出前一個(gè)模塊中識(shí)別為大的那些對象中的哪些也是金屬的。該模塊的輸出被發(fā)送到下一個(gè)模塊,該模塊識(shí)別哪些大的金屬對象也是一個(gè)立方體。最后,這個(gè)輸出被發(fā)送到一個(gè)可以確定對象顏色的模塊.TbD-net的最終輸出是“紅色”,這個(gè)問題的正確答案。
經(jīng)過測試,TbD-net取得的成績超過了性能最佳的視覺推理模型。研究人員使用視覺問答數(shù)據(jù)集評估了該模型,該數(shù)據(jù)集包括70,000個(gè)訓(xùn)練圖像和700,000個(gè)問題,以及15,000個(gè)圖像和150,000個(gè)問題的測試和驗(yàn)證集。初始模型在數(shù)據(jù)集上實(shí)現(xiàn)了98.7%的測試精度,據(jù)研究人員稱,這遠(yuǎn)遠(yuǎn)優(yōu)于其他神經(jīng)模塊網(wǎng)絡(luò)方法。
重要的是,研究人員能夠改善這些結(jié)果,因?yàn)樗麄兊哪P偷年P(guān)鍵優(yōu)勢 - 透明度。通過查看模塊產(chǎn)生的注意面具,他們可以看到出錯(cuò)的地方并改進(jìn)模型。最終結(jié)果是最先進(jìn)的99.1%準(zhǔn)確度。
“我們的模型在視覺推理過程的每個(gè)階段都提供了直觀,可解釋的輸出,”Mascharka說。
如果要將深度學(xué)習(xí)算法與人類一起部署以幫助解決復(fù)雜的現(xiàn)實(shí)任務(wù),那么可解釋性尤其有用。為了在這些系統(tǒng)中建立信任,用戶需要能夠檢查推理過程,以便他們能夠理解模型為何以及如何做出錯(cuò)誤的預(yù)測。
智能與決策技術(shù)集團(tuán)的負(fù)責(zé)人Paul Metzger表示,這項(xiàng)研究“是林肯實(shí)驗(yàn)室致力于成為應(yīng)用機(jī)器學(xué)習(xí)研究和人工智能的世界領(lǐng)導(dǎo)者,促進(jìn)人機(jī)協(xié)作的一部分。”
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。