2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
想象和計劃的代表:這是本月早些時候六個DeepMind團(tuán)隊成員的DeepMind討論的標(biāo)題。
他們在兩個論文上完成了DeepMind研究工作的方向,現(xiàn)在正在arXiv上。
他們說,在你采取行動之前想象你行為的后果是人類認(rèn)知的有力工具。(我們每天都這樣做。就像那個筆在你桌面的邊緣搖搖晃晃。你可以“想象”它落下,所以你把它移到一個更安全的位置。)
“如果我們的算法要發(fā)展同樣復(fù)雜的行為,他們也必須具備'想象'和推理未來的能力。”
正如Thomas Claburn在The Register中指出的那樣,DeepMind“已經(jīng)發(fā)現(xiàn),用想象力灌輸其軟件代理可以幫助他們更好地學(xué)習(xí)。”
什么樣的想象。
如果你研究報道這項(xiàng)研究的新聞網(wǎng)站,你會發(fā)現(xiàn)他們會仔細(xì)地說出它是什么以及它不是什么,而是使用諸如想象力 - “喜歡”和想象力 - “基于”這樣的短語。
他們從根本上研究了改進(jìn)深層強(qiáng)化學(xué)習(xí)的新技術(shù)。
克拉本用非常清晰的語言翻譯了他們正在做的事情:
“強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種形式。它涉及一種軟件代理,通過與特定環(huán)境的交互來學(xué)習(xí),通常是通過反復(fù)試驗(yàn)。深度學(xué)習(xí)是一種機(jī)器形式,涉及受人類大腦啟發(fā)的算法,稱為神經(jīng)網(wǎng)絡(luò)。這兩種技術(shù)可以一起使用。“ 他說,DeepMind的工作試圖提供兩全其美的優(yōu)勢。
代理人從像素表示中播放Sokoban,而不知道游戲規(guī)則。在特定的時間點(diǎn),我們想象代理人對五種可能未來的想象。根據(jù)該信息,代理商決定采取什么行動。突出顯示相應(yīng)的軌跡。閱讀DeepMind博客:想象和計劃的代理商
在現(xiàn)實(shí)世界中,復(fù)雜性規(guī)則。說到規(guī)則,在現(xiàn)實(shí)生活中,它們并沒有如此清晰地定義。事情發(fā)生你無法輕易預(yù)測。至于規(guī)劃策略,我們非常清楚,一個通用的答案并不總是適用于真實(shí)的環(huán)境。
代理商如何處理復(fù)雜問題?團(tuán)隊成員有兩篇論文涉及這一切。他們描述了一系列基于想象力的計劃方法。引入了體系結(jié)構(gòu),以便代理商學(xué)習(xí)和構(gòu)建計劃以最大化任務(wù)效率的新方法。
關(guān)于這些代理人的一個更有趣的特征描述是“他們可以學(xué)習(xí)不同的策略來構(gòu)建計劃。他們通過在繼續(xù)當(dāng)前的想象軌跡或從頭開始重新選擇之間做出選擇。”
他們還可以使用不同的想象模型,“具有不同的精度和計算成本。”
研究人員測試了任務(wù)的架構(gòu),包括益智游戲推箱子和宇宙飛船導(dǎo)航游戲。
推箱子視頻說明:一名經(jīng)紀(jì)人從像素表示中扮演推箱子,不知道游戲規(guī)則。
宇宙飛船任務(wù)的注意事項(xiàng):DeepMind的帖子帶有一個“代理人玩太空飛船任務(wù)的視覺效果。紅線表示在環(huán)境中執(zhí)行的軌跡,而藍(lán)色和綠色表示想象的軌跡。”
結(jié)果?
“對于這兩項(xiàng)任務(wù),想象力增強(qiáng)的特工大大優(yōu)于無想象力的基線:他們以較少的經(jīng)驗(yàn)學(xué)習(xí),能夠應(yīng)對環(huán)境建模的不完美之處。”
正如TNW的亞歷杭德羅·陶伯所說,“這些論文中描述的想象力類型遠(yuǎn)不及人類所能達(dá)到的那種,但它確實(shí)表明,人工智能可以并且能夠在行動之前有效地想象不同的場景。”
關(guān)于論文:“想象力增強(qiáng)的深層強(qiáng)化學(xué)習(xí)代理”本月在arXiv上提交。
他們表示,這些代理人通過“學(xué)習(xí)解釋”他們的不完美預(yù)測來使用近似環(huán)境模型,并且他們的算法可以直接在低級別的觀察上進(jìn)行訓(xùn)練,只需很少的領(lǐng)域知識。
“在不對環(huán)境模型的結(jié)構(gòu)及其可能的不完善性做出任何假設(shè)的情況下,我們的方法以端到端的方式學(xué)習(xí),從模型模擬中提取有用的知識 - 特別是不依賴于模擬的回報。”
另一篇論文是“從零開始學(xué)習(xí)基于模型的規(guī)劃”,本月也提交了arXiv。“我們表明,我們的架構(gòu)可以學(xué)習(xí)解決具有挑戰(zhàn)性的連續(xù)控制問題,并在離散的迷宮解決任務(wù)中學(xué)習(xí)精心策劃的策略。”
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。