2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
研究人員已經(jīng)發(fā)布消息,讓他們的人工智能野心發(fā)揮出一種強(qiáng)大的捉迷藏游戲,帶來了令人生畏的結(jié)果。代理商的環(huán)境有墻壁和可移動的箱子,以挑戰(zhàn)一些人,其中一些是尋找者,其他人,尋求者。一路上發(fā)生了很多事,帶來了驚喜。
作者陳述了所學(xué)的內(nèi)容,他們寫道:“我們觀察到代理人在玩一個簡單的捉迷藏游戲時逐漸發(fā)現(xiàn)更復(fù)雜的工具使用,”代理人建立了“一系列六種截然不同的策略和反策略,其中一些我們不知道我們的環(huán)境得到了支持。“
在本周早些時候發(fā)布的一篇新論文中,該團(tuán)隊公布了結(jié)果。他們的論文“來自Multi-Agent Autocurricula的Emergent Tool Use”有七位作者,其中六位已列出OpenAI表示,另一位是Google Brain。
作者評論了他們正在采取什么樣的挑戰(zhàn)。“創(chuàng)建能夠解決各種復(fù)雜的人類相關(guān)任務(wù)的智能人工智能因素一直是人工智能領(lǐng)域的長期挑戰(zhàn)。”
該團(tuán)隊表示,“我們發(fā)現(xiàn)代理人創(chuàng)建了一個自我監(jiān)督的自動課程,引發(fā)了多輪不同的緊急策略,其中許多需要復(fù)雜的工具使用和協(xié)調(diào)。”
通過捉迷藏,(1)尋求者學(xué)會追逐學(xué)會逃跑的躲藏者和躲藏者(2)Hiders學(xué)會了基本的工具用途和墻壁來建造堡壘。(3)尋求者學(xué)會了使用坡道跳入躲避者的庇護(hù)所(4)躲藏者學(xué)會將匝道移到遠(yuǎn)離他們建造堡壘的地方,并將它們鎖定到位(5)尋求者知道他們可以從鎖定的坡道跳到箱子并將箱子沖到躲藏者的避難所。(6)在建造堡壘之前,躲藏者學(xué)會了鎖住未使用過的箱子。
這六種策略是作為代理人在捉迷藏中相互訓(xùn)練而出現(xiàn)的 - 每種新策略都為代理人進(jìn)入下一階段創(chuàng)造了以前不存在的壓力,沒有任何直接激勵代理人與對象交互或探索。這些策略是多智能體競爭和捉迷藏動態(tài)引發(fā)的“自動課程”的結(jié)果。
博客中的作者說,他們了解到“通常情況下,代理商會找到一種方法來以無意的方式利用您構(gòu)建的環(huán)境或物理引擎。”
發(fā)生的事情是“自我監(jiān)督的緊急復(fù)雜性”。而這“進(jìn)一步表明,多智能體共同適應(yīng)可能有一天會產(chǎn)生極其復(fù)雜和智能的行為。” 作者在他們的論文中同樣指出,“在物理基礎(chǔ)和開放式環(huán)境中誘導(dǎo)自動調(diào)節(jié)可能最終使代理人能夠獲得無限數(shù)量的與人類相關(guān)的技能。”
道格拉斯天堂,新科學(xué)家,真正引起了讀者對他描述發(fā)生的事情的興趣:
“起初,躲避者只是逃跑了。但是,他們很快就發(fā)現(xiàn),找到尋求者的最快方法是找到環(huán)境中的物體以隱藏自己的視線,將它們當(dāng)作一種工具使用。例如,他們學(xué)會了這些箱子可以用來擋住門口并建造簡單的藏身處。求職者了解到他們可以移動一個坡道并用它來爬過墻壁。然后機(jī)器人發(fā)現(xiàn),作為一個團(tuán)隊玩家 - 彼此傳遞物體或合作隱藏 - 是獲勝的最快方式。“
這是一個雄心勃勃的項目。在審查他們的工作時,麻省理工學(xué)院技術(shù)評論指出,人工智能在近5億次捉迷藏游戲后學(xué)會了使用工具。通過玩捉迷藏,數(shù)以億計的輪次,兩個對立的AI代理團(tuán)隊制定了復(fù)雜的隱藏和尋求策略。
Karen Hao提供了一個有趣的標(biāo)記,表明經(jīng)紀(jì)人在多少輪之后學(xué)到了什么:“...圍繞著2500萬游戲標(biāo)記,游戲變得更加復(fù)雜。躲藏者學(xué)會了移動并鎖定環(huán)境中的盒子和路障以建立圍繞著自己進(jìn)行斗爭,以便尋求者永遠(yuǎn)不會看到他們。“
更多的數(shù)百萬輪:尋求者發(fā)現(xiàn)了一種反策略,因為他們學(xué)會了在躲避者堡壘旁邊移動一個坡道并用它爬過墻壁。更多回合后,躲藏者學(xué)會了在建造堡壘之前將斜坡鎖定到位。
然而,更多的戰(zhàn)略出現(xiàn)在3.8億的比賽中。出現(xiàn)了另外兩種策略。尋求者們制定了一項戰(zhàn)略,通過使用一個鎖定的坡道爬上一個未鎖定的箱子,然后在箱子頂部“沖浪”到堡壘和墻壁上來打入闖入者的堡壘。在最后階段,護(hù)匠再次學(xué)會在建造堡壘之前將所有坡道和箱子鎖定到位。
郝引用了該報的作者之一鮑文貝克。“我們沒有告訴躲貓貓或?qū)で笳咴谝粋€盒子附近奔跑或與之互動...但是通過多智能體競賽,他們?yōu)閷Ψ絼?chuàng)造了新的任務(wù),以便其他團(tuán)隊不得不適應(yīng)。”
考慮一下。貝克說,他們并沒有告訴劊子手,他們沒有告訴尋求者,在箱子附近跑,也不與他們互動。
TechCrunch的 Devin Coldewey 想到了這一點。“該研究旨在并成功地研究了機(jī)器學(xué)習(xí)代理人學(xué)習(xí)復(fù)雜的,與現(xiàn)實世界相關(guān)的技術(shù)的可能性,而不會受到研究人員建議的干擾。”
Coldewey把所有這些工作都帶回了家。“正如該論文的作者解釋的那樣,這就是我們出現(xiàn)的方式。”
我們和人類一樣??频峦乃麄兊恼撐闹幸昧艘欢卧?。
“地球上的大量復(fù)雜性和多樣性由于生物之間的共同進(jìn)化和競爭而演變,由自然選擇引導(dǎo)。當(dāng)一個新的成功策略或突變出現(xiàn)時,它改變了鄰近代理人需要解決的隱含任務(wù)分布并創(chuàng)造了一個新的適應(yīng)的壓力。這些進(jìn)化的軍備競賽創(chuàng)造了隱含的自動競爭,競爭者不斷為彼此創(chuàng)造新的任務(wù)。“
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。