您的位置: 首頁 >要聞 >

一種生成記憶方法 可實現(xiàn)終身強化學(xué)習(xí)

2019-06-03 10:46:29 編輯: 來源:
導(dǎo)讀 現(xiàn)有人工智能(AI)系統(tǒng)的一個關(guān)鍵限制是它們無法處理未經(jīng)過培訓(xùn)的任務(wù)。事實上,即使他們接受了再培訓(xùn),大多數(shù)這些系統(tǒng)都容易發(fā)生災(zāi)難性遺忘

現(xiàn)有人工智能(AI)系統(tǒng)的一個關(guān)鍵限制是它們無法處理未經(jīng)過培訓(xùn)的任務(wù)。事實上,即使他們接受了再培訓(xùn),大多數(shù)這些系統(tǒng)都容易發(fā)生“災(zāi)難性遺忘”,這實際上意味著新項目可能會破壞他們以前獲得的知識。

例如,如果最初訓(xùn)練模型以完成任務(wù) A然后隨后在任務(wù)B上重新訓(xùn)練,則其在任務(wù)A上的表現(xiàn)可能會顯著下降。一個天真的解決方案是無限添加更多的神經(jīng)層來支持正在訓(xùn)練的其他任務(wù)或項目,但這種方法效率不高,甚至功能可擴展。

SRI國際的研究人員最近嘗試將生物記憶傳遞機制應(yīng)用于AI系統(tǒng),因為他們認為這可以提高他們的表現(xiàn)并使他們更具適應(yīng)性。他們的研究預(yù)先發(fā)表在arXiv上,從人類記憶轉(zhuǎn)移機制中汲取靈感,如長期和短期記憶。

“我們正在構(gòu)建可以從經(jīng)驗中學(xué)習(xí)的新一代人工智能系統(tǒng),” DARPA終身學(xué)習(xí)機(L2M)項目的聯(lián)合PI的Sek Chai 告訴TechXplore。“這意味著他們可以根據(jù)自己的經(jīng)驗適應(yīng)新的情景。今天,AI系統(tǒng)因為不適應(yīng)而失敗。由Hava Siegelmann博士領(lǐng)導(dǎo)的DARPA L2M項目旨在實現(xiàn)人工智能能力的范式轉(zhuǎn)變。”

記憶轉(zhuǎn)移需要一系列復(fù)雜的動態(tài)過程,使人們在思考,計劃,創(chuàng)建或預(yù)測未來事件時能夠輕松訪問顯著或相關(guān)的記憶。睡眠被認為在鞏固記憶方面起著至關(guān)重要的作用,特別是REM睡眠,即最常發(fā)生夢的階段。

在他們的研究中,Chai和他的SRI同事開發(fā)了一種生成記憶機制,可用于以偽排練的方式訓(xùn)練AI系統(tǒng)。使用重放和強化學(xué)習(xí)(RL),該機制允許AI系統(tǒng)在其整個生命周期中從顯著記憶中學(xué)習(xí),并且可以使用大量訓(xùn)練任務(wù)或項目進行擴展。Chai及其同事開發(fā)的生成記憶方法使用編碼方法來分離潛在空間。這允許AI系統(tǒng)即使在任務(wù)沒有明確定義或任務(wù)數(shù)量未知時也能學(xué)習(xí)。

“我們的AI系統(tǒng)不會直接存儲原始數(shù)據(jù),例如視頻,音頻等,”Chai解釋道。“相反,我們使用生成記憶來生成或想象它以前經(jīng)歷過的東西。生成AI系統(tǒng)已被用于創(chuàng)造藝術(shù),音樂等。在我們的研究中,我們使用它們來編碼生成體驗,以后可以用于強化學(xué)習(xí)這種方法的靈感來自睡眠和夢境中的生物機制,在這里,我們回想起或想象在我們的長期記憶中得到強化的經(jīng)驗碎片。“

將來,Chai及其同事介紹的新的生成記憶方法可以幫助解決基于神經(jīng)網(wǎng)絡(luò)的模型中的災(zāi)難性遺忘問題,從而實現(xiàn)AI系統(tǒng)中的終身學(xué)習(xí)。研究人員現(xiàn)在正在測試他們在基于計算機的策略游戲上的方法,這些游戲通常用于訓(xùn)練和評估AI系統(tǒng)。

“我們正在使用像星際爭霸2這樣的即時戰(zhàn)略游戲來培訓(xùn)和研究我們的AI代理人的終身學(xué)習(xí)指標,如適應(yīng)性,穩(wěn)健性和安全性,”Chai說。“我們的AI代理人在游戲中注入了驚喜(例如地形和單位能力的變化)。”


免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。