2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。
2015年,谷歌的DeepMind AI的任務是學習玩Atari視頻游戲。它也非常成功,在視頻彈球方面與人類玩家一樣出色。但由于游戲的復雜性,除了簡單的街機游戲之外,它開始掙扎,眾所周知甚至未能收集傳奇的20世紀80年代冒險游戲Montezuma's Revenge中的第一把鑰匙。
然而,一種新方法導致了一種AI算法,該算法從錯誤中學習,并確定中間步驟的速度提高了10倍,在Google失敗并成功自主玩Montezuma's Revenge之后取得了成功。
這項工作由Fabio Zambetta及其團隊在澳大利亞墨爾本的RMIT大學進行。Zambetta 于2月1日在夏威夷舉行的第33屆AAAI人工智能會議上介紹了這一發(fā)現(xiàn)。
設計可以克服計劃問題的人工智能,例如獎勵不是很明顯,是推動該領域最重要的挑戰(zhàn)之一。
人工智能在冒險游戲中掙扎的原因是,在發(fā)現(xiàn)一些獎勵之前,它認為沒有動力選擇一種行動方式而不是其他任何一種方式,例如實現(xiàn)爬梯或跳過坑到達更大目標的子目標水平。
他們感到困惑并無法確定前進的道路,而只是隨意開始行動。
對于某些游戲,例如彈球,獎勵在附近,算法獲得所需的外部輸入。
然而,在一個冒險游戲中,獎勵更加分散,雞和蛋的情況發(fā)展。該程序發(fā)現(xiàn)自己無法改善其游戲玩法,直到獲得一些獎勵,但在改進其游戲玩法之前不會找到獎勵。
為了解決這個問題,Zambetta從其他電腦游戲中汲取靈感,如超級馬里奧和Pacman,并引入了顆粒獎勵,提供了小的中間獎勵,并鼓勵它探索和完成子目標。
“真正聰明的人工智能需要能夠學會在模糊的環(huán)境中自主完成任務,”他說。
“我們已經(jīng)證明,正確的算法可以使用更智能的方法改善結果,而不是純粹粗暴地在非常強大的計算機上端到端地解決問題。”
這種方法意味著算法將更自然地行動,并且完成子目標的速度比其他AI方法快10倍。
“不僅我們的算法在玩Montezuma's Revenge時自動識別相關任務的速度比Google DeepMind快10倍,他們還表現(xiàn)出相對類似人類的行為,”Zambetta聲稱。
“例如,在你可以進入游戲的第二個屏幕之前,你需要確定一些子任務,例如爬梯子,跳過一個敵人,然后最終拿起鑰匙,大致按照這個順序。
“這最終會在很長一段時間后隨機發(fā)生,但在我們的測試中如此自然地發(fā)生了某種意圖。
“這使我們成為第一個完全自主的面向目標的代理商,與這些游戲中最先進的代理商真正競爭。”
雖然聽起來微不足道,但這項工作在游戲之外可能很重要。根據(jù)Zambetta的說法,激勵子目標可能有利于控制自動駕駛汽車的算法以及需要機器人助手在現(xiàn)實世界中實現(xiàn)目標的其他情況。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。