您的位置: 首頁(yè) >科技 >

DeepMind的AI自動(dòng)生成強(qiáng)化學(xué)習(xí)算法

2022-06-22 19:10:20 編輯:邰娟輝 來(lái)源:
導(dǎo)讀 在預(yù)印本服務(wù)器Arxiv org上發(fā)表的一項(xiàng)研究中,DeepMind研究人員描述了一種強(qiáng)化學(xué)習(xí)算法生成技術(shù),該技術(shù)通過(guò)與環(huán)境交互來(lái)發(fā)現(xiàn)預(yù)測(cè)內(nèi)容

在預(yù)印本服務(wù)器Arxiv.org上發(fā)表的一項(xiàng)研究中,DeepMind研究人員描述了一種強(qiáng)化學(xué)習(xí)算法生成技術(shù),該技術(shù)通過(guò)與環(huán)境交互來(lái)發(fā)現(xiàn)預(yù)測(cè)內(nèi)容以及如何學(xué)習(xí)。他們聲稱,生成的算法在一系列具有挑戰(zhàn)性的Atari視頻游戲中表現(xiàn)出色,實(shí)現(xiàn)了“非平凡”的性能,表明該技術(shù)具有普遍性。

強(qiáng)化學(xué)習(xí)算法(使軟件代理能夠使用反饋通過(guò)反復(fù)試驗(yàn)在環(huán)境中學(xué)習(xí)的算法)根據(jù)幾種規(guī)則之一來(lái)更新代理的參數(shù)。這些規(guī)則通常是通過(guò)多年研究發(fā)現(xiàn)的,從數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)可能會(huì)導(dǎo)致算法更有效,或者算法更適合特定環(huán)境。

DeepMind的解決方案是一個(gè)元學(xué)習(xí)框架,可共同發(fā)現(xiàn)特定代理應(yīng)預(yù)測(cè)的內(nèi)容以及如何使用這些預(yù)測(cè)來(lái)改進(jìn)策略。(在強(qiáng)化學(xué)習(xí)中,“策略”定義了學(xué)習(xí)主體在給定時(shí)間的行為方式。)他們的架構(gòu)-學(xué)習(xí)策略梯度(LGP)-允許更新規(guī)則(即元學(xué)習(xí)者)決定主體的行為當(dāng)框架通過(guò)多個(gè)學(xué)習(xí)代理發(fā)現(xiàn)規(guī)則時(shí),輸出應(yīng)該是預(yù)測(cè)性的,每個(gè)學(xué)習(xí)代理都與不同的環(huán)境交互。

在實(shí)驗(yàn)中,研究人員直接在復(fù)雜的Atari游戲(包括Tutankham,Breakout和Yars'Revenge)上評(píng)估了液化石油氣。他們發(fā)現(xiàn),與現(xiàn)有算法相比,它可以“合理地”推廣到游戲中,盡管訓(xùn)練環(huán)境由基本任務(wù)比Atari游戲簡(jiǎn)單得多的環(huán)境組成。此外,受液化石油氣培訓(xùn)的特工在不依賴手工設(shè)計(jì)的強(qiáng)化學(xué)習(xí)組件的情況下,成功實(shí)現(xiàn)了14場(chǎng)比賽的“超人”表現(xiàn)。

合著者指出,LPG仍落后于某些高級(jí)強(qiáng)化學(xué)習(xí)算法。但是在實(shí)驗(yàn)期間,隨著訓(xùn)練環(huán)境數(shù)量的增加,其泛化性能迅速提高,這表明一旦有更多的環(huán)境可用于元訓(xùn)練,發(fā)現(xiàn)通用增強(qiáng)學(xué)習(xí)算法可能是可行的。

“通過(guò)以數(shù)據(jù)驅(qū)動(dòng)的方式使發(fā)現(xiàn)過(guò)程自動(dòng)化,所提出的方法具有極大地加速發(fā)現(xiàn)新的強(qiáng)化學(xué)習(xí)算法的過(guò)程的潛力。如果建議的研究方向成功,這將使研究范式從人工開發(fā)強(qiáng)化學(xué)習(xí)算法轉(zhuǎn)變?yōu)闃?gòu)建適當(dāng)?shù)沫h(huán)境集,從而使所得算法高效。”研究人員寫道。“此外,提出的方法還可以用作輔助強(qiáng)化學(xué)習(xí)研究人員開發(fā)和改進(jìn)其手工設(shè)計(jì)算法的工具。在這種情況下,根據(jù)研究人員提供的輸入架構(gòu),可以使用建議的方法來(lái)了解良好更新規(guī)則的外觀,


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。