您的位置: 首頁(yè) >科技 >

科技動(dòng)態(tài):什么是強(qiáng)化學(xué)習(xí) 你需要知道的

2022-04-14 05:25:01 編輯:尤劍心 來(lái)源:
導(dǎo)讀 隨著科技的發(fā)展,很多新科技的誕生許多朋友無(wú)法了解,相信通過(guò)什么是強(qiáng)化學(xué)習(xí) 你需要知道的這篇文章能幫到你,在和好朋友分享的時(shí)候,也歡

隨著科技的發(fā)展,很多新科技的誕生許多朋友無(wú)法了解,相信通過(guò)什么是強(qiáng)化學(xué)習(xí) 你需要知道的這篇文章能幫到你,在和好朋友分享的時(shí)候,也歡迎感興趣小伙伴們一起來(lái)探討。

我們研究了一種基于積極和消極反饋理念的人工智能開(kāi)發(fā)方法,近年來(lái),強(qiáng)化學(xué)習(xí)領(lǐng)域迅速普及,許多引人注目的用例已經(jīng)見(jiàn)證了這一系列的人工智能不僅在機(jī)器中復(fù)制了類似人類的能力,甚至證明了軟件可以在自己的游戲中擊敗世界冠軍。

2017年,自2014年以來(lái)一直擔(dān)任抽象棋盤游戲世界衛(wèi)冕冠軍的柯杰被谷歌的DeepMind毆打三次 - 這次強(qiáng)化學(xué)習(xí)使智力超越世界第一。

但是,它不僅僅用于搞清楚游戲。這個(gè)機(jī)器學(xué)習(xí)子集(ML)依賴于有限的人工指令,這對(duì)于機(jī)器人和自動(dòng)化的發(fā)展具有巨大的潛力。它可能是完全定義人工智能的應(yīng)用程序,因?yàn)樗_實(shí)是ML的“學(xué)習(xí)”部分。

什么是RL?

強(qiáng)化學(xué)習(xí)是一種訓(xùn)練機(jī)器學(xué)習(xí)算法的方法,以找到自己達(dá)到復(fù)雜最終目標(biāo)的方式,而不是根據(jù)程序員設(shè)置的預(yù)先加載的可能決策列表做出選擇。使用積極和消極的強(qiáng)化,為實(shí)現(xiàn)目標(biāo)而做出的正確決策會(huì)得到回報(bào),而不正確的決策會(huì)受到懲罰。雖然在人類的情況下,獎(jiǎng)勵(lì)可能象征某種形式的待遇,但在機(jī)器學(xué)習(xí)的情況下,獎(jiǎng)勵(lì)只是對(duì)行動(dòng)的積極評(píng)價(jià)。

它不同于有限制的監(jiān)督學(xué)習(xí)。如前所述,它涉及給機(jī)器學(xué)習(xí)算法一組可供選擇的決策。使用Go游戲和一個(gè)例子,訓(xùn)練算法的人可以給出一個(gè)在給定場(chǎng)景中可以選擇的動(dòng)作列表。這個(gè)模型的問(wèn)題在于算法變得和人類編程一樣好,這意味著機(jī)器不能自己學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)的目標(biāo)是訓(xùn)練算法以做出連續(xù)決策以達(dá)到最終目標(biāo),并且隨著時(shí)間的推移,算法將學(xué)習(xí)如何使用強(qiáng)化以最有效的方式做出達(dá)到目標(biāo)的決策。當(dāng)使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練時(shí),人工智能系統(tǒng)可以從比人類更多的決策樹(shù)中吸取經(jīng)驗(yàn),這使得他們更好地解決復(fù)雜的任務(wù),至少在游戲化的環(huán)境中。

學(xué)會(huì)贏

強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)有相似之處。您仍然需要輸入一個(gè)框架來(lái)運(yùn)行神經(jīng)網(wǎng)絡(luò)模型以獲取指令 - 基本上設(shè)置基本規(guī)則。但是,不同之處在于軟件代理不會(huì)被告知它應(yīng)該使用哪條指令,因?yàn)闆](méi)有可以訓(xùn)練的數(shù)據(jù)集。相反,代理將基本上通過(guò)反復(fù)試驗(yàn)創(chuàng)建自己的數(shù)據(jù)集,盡可能有效地實(shí)現(xiàn)獎(jiǎng)勵(lì)。

這個(gè)試錯(cuò)過(guò)程是按順序完成的 - 一次一個(gè)動(dòng)作,直到代理遇到一個(gè)受到懲罰的狀態(tài),迫使它反轉(zhuǎn)并嘗試不同的動(dòng)作。通過(guò)一些過(guò)程,我們不需要代理人學(xué)習(xí),但更愿意遵循規(guī)定的公式,就像面部識(shí)別一樣。

但是,對(duì)于某些情況,RL更有益。例如,谷歌DeepMind的Deep Q-Learning是一款用于玩Atari Breakout的算法,這是一款經(jīng)典的70年代街機(jī)游戲,玩家必須用球和槳?jiǎng)澐职伺潘椒e木。在這種情況下,代理僅被給予感官輸入,在屏幕上看到的內(nèi)容,并且只是命令在該屏幕上最大化得分。

在那種情況下,代理人很早就掙扎了。它在理解控制裝置時(shí)遇到了問(wèn)題,很難用球拍擊球,并且在磚墻上幾乎沒(méi)有任何凹痕。然而,經(jīng)過(guò)大量的反復(fù)試驗(yàn),經(jīng)紀(jì)人發(fā)現(xiàn),通過(guò)在墻壁上創(chuàng)建一個(gè)隧道,它可以將球發(fā)送到屏幕的頂部,在那里它將反復(fù)從頂部反彈,打破墻壁而不會(huì)反復(fù)撞擊槳。它了解到以一種讓它向后沖向槳的方式擊球是效率低下的,并且花了太長(zhǎng)時(shí)間才能完成比賽。相反,它可以利用游戲的邊界來(lái)操縱球,用一擊擊中多個(gè)磚塊 - 實(shí)際上是人類可能遵循的相同過(guò)程。

這是由于策略網(wǎng)絡(luò)有助于在代理播放時(shí)將游戲映射出來(lái)。從代理進(jìn)行的游戲中的每個(gè)操作,策略網(wǎng)絡(luò)可以列出如果再次出現(xiàn)相同的情況該怎么做。因此,被稱為國(guó)家的結(jié)果可以由代理人預(yù)測(cè),并將形成采取何種行動(dòng)的基礎(chǔ)。

未來(lái)

游戲環(huán)境,無(wú)論它們有多大,都為機(jī)器學(xué)習(xí)提供了有限的規(guī)模,實(shí)際上只對(duì)測(cè)試有用。在現(xiàn)實(shí)世界中,RL可能會(huì)發(fā)生一系列可能徹底改變的應(yīng)用,但它需要代理商學(xué)習(xí)更復(fù)雜的環(huán)境。因此,雖然它可以加速機(jī)器人和工廠機(jī)器,網(wǎng)絡(luò)系統(tǒng)配置,甚至醫(yī)療診斷的自動(dòng)化軟件,但可能需要一段時(shí)間才能取得任何實(shí)際進(jìn)展。

我們?nèi)匀贿h(yuǎn)離像人類一樣的機(jī)器學(xué)習(xí),強(qiáng)化學(xué)習(xí)并不是一項(xiàng)易于實(shí)施的技術(shù)。但是,隨著時(shí)間的推移,它可能成為未來(lái)的動(dòng)力。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。