您的位置: 首頁 >要聞 >

一種向強(qiáng)化學(xué)習(xí)者灌輸好奇心的新方法

2019-06-10 11:08:01 編輯: 來源:
導(dǎo)讀 幾個(gè)真實(shí)世界的任務(wù)都有稀疏的獎(jiǎng)勵(lì),這對強(qiáng)化學(xué)習(xí)(RL)算法的發(fā)展提出了挑戰(zhàn)。該問題的解決方案是允許代理人自主地為自己創(chuàng)造獎(jiǎng)勵(lì),使得獎(jiǎng)勵(lì)

幾個(gè)真實(shí)世界的任務(wù)都有稀疏的獎(jiǎng)勵(lì),這對強(qiáng)化學(xué)習(xí)(RL)算法的發(fā)展提出了挑戰(zhàn)。該問題的解決方案是允許代理人自主地為自己創(chuàng)造獎(jiǎng)勵(lì),使得獎(jiǎng)勵(lì)更加密集并且更適合于學(xué)習(xí)。

例如,受到動(dòng)物探索環(huán)境的奇怪行為的啟發(fā),RL算法對新事物的觀察可以獎(jiǎng)勵(lì)獎(jiǎng)勵(lì)。這個(gè)獎(jiǎng)勵(lì)總結(jié)了真實(shí)的任務(wù)獎(jiǎng)勵(lì),然后允許RL算法從綜合獎(jiǎng)勵(lì)中學(xué)習(xí)。

DeepMind,谷歌大腦和蘇黎世聯(lián)邦理工學(xué)院的研究人員最近設(shè)計(jì)了一種新的好奇心方法,使用情景記憶來形成這種新奇的獎(jiǎng)勵(lì)。通過比較存儲(chǔ)在存儲(chǔ)器中的當(dāng)前觀察和觀察來確定該獎(jiǎng)勵(lì)。

“我們工作的主要目的是調(diào)查新的基于記憶的強(qiáng)化學(xué)習(xí)(RL)代理人的”好奇心“,即使在完全沒有獎(jiǎng)勵(lì)的情況下我們也意味著探索環(huán)境,”Tim Lillicrap at Google Brain的DeepMind和Nikolay Savinov在一封電子郵件中告訴TechXplore。“研究界已經(jīng)以各種方式對好奇心進(jìn)行了探討,但我們覺得有些想法可以從進(jìn)一步的探索中受益。”

最近這篇論文探討的關(guān)鍵思想是基于Savinov先前進(jìn)行的一項(xiàng)研究,該研究提出了一種受哺乳動(dòng)物導(dǎo)航啟發(fā)的新記憶體系結(jié)構(gòu)。此體系結(jié)構(gòu)允許代理僅使用可視演練重復(fù)通過環(huán)境的路由。研究人員開發(fā)的新方法更進(jìn)一步,試圖通過好奇心實(shí)現(xiàn)良好的探索。

“在表演時(shí),代理人將觀察表征的實(shí)例存儲(chǔ)在其情景記憶中,”Lillicrap和Savinov說。“為了確定當(dāng)前的觀察是否新穎,將其與記憶中的觀察結(jié)果進(jìn)行比較。如果沒有發(fā)現(xiàn)任何相似之處,則當(dāng)前的觀察被認(rèn)為是新穎的并且代理人會(huì)得到獎(jiǎng)勵(lì),否則會(huì)得到負(fù)面的獎(jiǎng)勵(lì)。這會(huì)鼓勵(lì)代理人探索陌生的領(lǐng)域,類似于好奇。“

研究人員發(fā)現(xiàn),比較成對的觀察結(jié)果可能很棘手,因?yàn)樵诂F(xiàn)實(shí)環(huán)境中檢查精確匹配最終是毫無意義的。這是因?yàn)樵诂F(xiàn)實(shí)世界中,代理人很少會(huì)兩次觀察同一件事。

“相反,我們訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)來預(yù)測代理人是否可以通過采取比固定閾值更少的動(dòng)作來從記憶中的那些人那里獲得當(dāng)前的觀察結(jié)果;比如,五個(gè)動(dòng)作,”Lillicrap和Savinov解釋說。“這五項(xiàng)行動(dòng)中的觀察結(jié)果被認(rèn)為是相似的,而需要采取更多行動(dòng)才能進(jìn)行過渡的觀察結(jié)果被視為不同。”

Lillicrap,Savinov和他們的同事在VizDoom和DMLab中測試了他們的方法,這兩個(gè)視覺豐富的3D環(huán)境。在VizDoom中,代理人學(xué)會(huì)了成功導(dǎo)航到遠(yuǎn)處的目標(biāo),至少比最先進(jìn)的好奇心方法ICM快兩倍。在DMLab中,該算法很好地推廣到新的,程序上生成的游戲級別,在具有非常稀疏獎(jiǎng)勵(lì)的測試迷宮上比ICM至少兩倍地達(dá)到其期望目標(biāo)。

基于驚喜的方法(ICM)持久地用類似激光的科幻小說標(biāo)記墻壁而不是探索迷宮。這種行為類似于前面描述的通道切換:即使標(biāo)記的結(jié)果在理論上是可預(yù)測的,但這并不容易,并且顯然需要深入了解物理學(xué)知識,這對于一般代理來說并不是直接的。圖片來源:Savinov等。

Lillicrap和Savinov說:“我們注意到一種最受歡迎??的方法有一個(gè)有趣的缺點(diǎn),可以讓代理人充滿好奇心。” “我們發(fā)現(xiàn)這種方法,基于由緩慢變化的模型計(jì)算的驚喜,該模型試圖預(yù)測接下來會(huì)發(fā)生什么,可以導(dǎo)致代理的即時(shí)滿足響應(yīng):而不是解決手頭的任務(wù),它將利用導(dǎo)致不可預(yù)測后果的行動(dòng),以獲得即時(shí)獎(jiǎng)勵(lì)。“

這種奇特的事件,也被稱為“沙發(fā) - 土豆”問題,需要代理人找到通過利用導(dǎo)致不可預(yù)測后果的行動(dòng)立即滿足自己的方法。例如,當(dāng)給定電視遙控器時(shí),代理可能除了改變頻道之外什么都不做,即使其原始任務(wù)完全不同,例如在迷宮中搜索目標(biāo)。

“這種缺點(diǎn)可以通過情景記憶和合理的觀察相似度來緩解,這是我們的貢獻(xiàn),”Lillicrap和Savinov說。“這為更智能的探索開辟了道路。”

由Lillicrap,Savinov和他們的同事設(shè)計(jì)的新好奇心方法可以幫助復(fù)制RL算法中的好奇心技能,使他們能夠自主地為自己創(chuàng)造獎(jiǎng)勵(lì)。在未來,研究人員希望使用情景記憶不僅可以用于獎(jiǎng)勵(lì),還可以用于計(jì)劃行動(dòng)。

“例如,可以使用從內(nèi)存中檢索到的內(nèi)容來考慮下一步的去向嗎?” 莉莉拉普和薩維諾夫說。“這是一項(xiàng)重大的科學(xué)挑戰(zhàn):如果解決了問題,代理商將能夠迅速將探索策略適應(yīng)新環(huán)境,從而使學(xué)習(xí)速度更快。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。