AI可以通過玩星際爭(zhēng)霸和我的世界來學(xué)習(xí)真實(shí)世界的技能

2022-09-09 21:35:21 編輯：蒲美全來源：

導(dǎo)讀虛擬游戲世界是探索，響應(yīng)和適應(yīng)的良好測(cè)試平臺(tái)，AI AT PLAY玩視頻游戲的算法可以掌握各種技能。DarioWünsch感到自信。來自德國(guó)萊比...

虛擬游戲世界是探索，響應(yīng)和適應(yīng)的良好測(cè)試平臺(tái)，AI AT PLAY玩視頻游戲的算法可以掌握各種技能。

DarioWünsch感到自信。來自德國(guó)萊比錫的這位28歲的年輕人即將成為第一個(gè)在快速視頻游戲“星際爭(zhēng)霸II”中接受人工智能程序AlphaStar的專業(yè)游戲玩家。Wünsch一直專業(yè)玩“星際爭(zhēng)霸II”，競(jìng)爭(zhēng)對(duì)手命令外國(guó)艦隊(duì)爭(zhēng)奪領(lǐng)土近十年。他不可能失去這個(gè)五場(chǎng)比賽的挑戰(zhàn)給一個(gè)新創(chuàng)造的AI游戲玩家。

甚至AlphaStar在總部位于倫敦的人工智能研究公司DeepMind的創(chuàng)始人也是如此，該公司是Alphabet公司的一部分，對(duì)結(jié)果并不樂觀。他們是一大批研究人員中的最新成員，他們?cè)噲D建立一個(gè)可以處理星際爭(zhēng)霸II令人眼花繚亂的復(fù)雜性的人工智能。到目前為止，還沒有人創(chuàng)造出能夠擊敗經(jīng)驗(yàn)豐富的人類玩家的系統(tǒng)。

果然，當(dāng)AlphaStar在12月12日對(duì)陣Wünsch時(shí)，人工智能似乎在第一場(chǎng)比賽開始時(shí)犯了一個(gè)致命錯(cuò)誤：它忽略了在營(yíng)地入口處建立一個(gè)保護(hù)屏障，讓W(xué)ünsch滲透并迅速挑選關(guān)閉了幾個(gè)工人單位。有一分鐘，看起來星際爭(zhēng)霸II仍然是人類戰(zhàn)勝機(jī)器的領(lǐng)域。但AlphaStar取得了勝利的回歸，組建了一個(gè)頑強(qiáng)的隊(duì)伍，很快就浪費(fèi)了Wünsch的防守。AlphaStar 1，Wünsch0。

Wünsch搖了搖頭。他只需要更多地關(guān)注防守。但是在第二輪比賽中，AlphaStar通過扣留攻擊讓這位職業(yè)選手感到驚訝，直到它積累了一支再次粉碎Wünsch部隊(duì)的。之后的三場(chǎng)比賽，AlphaStar以5比0的比分贏得了比賽，將Wünsch降級(jí)為由機(jī)器擊敗的小型但不斷增長(zhǎng)的世界級(jí)游戲玩家俱樂部。

研究人員長(zhǎng)期以來一直將游戲作為AI智能的基準(zhǔn)。1997年，IBM的Deep Blue贏得了國(guó)際象棋冠軍加里卡斯帕羅夫(SN：8/2/97，第76頁)的國(guó)際贊譽(yù)。2016年，DeepMind的AlphaGo以擊敗Go冠軍Lee Sedol而著稱(SN：12/24/16，第28頁)。

但是像國(guó)際象棋和圍棋這樣的基于棋盤的比賽到目前為止只能推動(dòng)人工智能。這些游戲仍然非常簡(jiǎn)單 - 玩家可以輪流看到每個(gè)棋子在棋盤上的位置。在制作能夠處理真實(shí)世界歧義和快節(jié)奏互動(dòng)的人工智能時(shí)，最有用的機(jī)器認(rèn)知測(cè)試可能會(huì)出現(xiàn)在虛擬世界中的游戲中。

建立可以打敗人類玩家的AI游戲玩家不僅僅是一個(gè)虛榮項(xiàng)目。哥本哈根IT大學(xué)的AI研究員Sebastian Risi說：“最終的想法是......將這些算法用于實(shí)際挑戰(zhàn)。”例如，在總部位于舊金山的公司OpenAI訓(xùn)練了一個(gè)五人工作小組參加一個(gè)名為Dota 2的在線戰(zhàn)斗游戲之后，程序員重新利用這些算法教導(dǎo)機(jī)器人手的五個(gè)手指以前所未有的靈巧操縱物體。研究人員在1月份在arXiv.org網(wǎng)上描述了這項(xiàng)工作。

使用最初開發(fā)的算法來幫助五個(gè)AI玩游戲Dota 2，OpenAI研究人員構(gòu)建了一個(gè)非常靈巧的機(jī)器人手。

DeepMind的研究人員同樣希望AlphaStar的設(shè)計(jì)能夠讓研究人員嘗試構(gòu)建AI來處理長(zhǎng)時(shí)間的相互作用，例如那些涉及模擬氣候變化或理解對(duì)話的人，這是一項(xiàng)特別困難的任務(wù)(SN：3/2/19，第8頁)。

目前，AI仍在努力解決的兩個(gè)重要問題是：相互協(xié)調(diào)，不斷將新知識(shí)應(yīng)用于新情況。事實(shí)證明，星際爭(zhēng)霸的世界是一種優(yōu)秀的測(cè)試平臺(tái)，可以讓人工智能更加合作。為了試驗(yàn)使AI永遠(yuǎn)成為學(xué)習(xí)者的方法，研究人員正在使用另一種流行的視頻游戲Minecraft。雖然人們可能會(huì)利用屏幕時(shí)間作為對(duì)現(xiàn)實(shí)生活的分心，但虛擬挑戰(zhàn)可能有助于AI掌握在現(xiàn)實(shí)世界中取得成功所需的技能。

街機(jī)教育

AI可以在視頻游戲中練習(xí)不同的技能，以學(xué)習(xí)如何在現(xiàn)實(shí)世界中相處。例如，導(dǎo)航技術(shù)可以幫助搜索和救援機(jī)器人徘徊崎嶇的地形，知道如何管理許多工人的AI可以幫助管理公司。

教授AI為現(xiàn)實(shí)世界提供有用技能的游戲類型：

類型賽跑第一人稱射擊開放世界實(shí)時(shí)戰(zhàn)略示例游戲Forza Motororsport，Real Racing厄運(yùn)我的世界，俠盜獵車手星際爭(zhēng)霸導(dǎo)航XXX管理資源/員工XX情節(jié)策略XXX快速反應(yīng)XXX合作XX設(shè)定目標(biāo)X創(chuàng)造力X勘探XX終身學(xué)習(xí)X動(dòng)機(jī)XX雜耍優(yōu)先事項(xiàng)XX

團(tuán)隊(duì)合作

當(dāng)AlphaStar接手Wünsch時(shí)，AI就像人類一樣玩星際爭(zhēng)霸II：它像一個(gè)木偶操縱者一樣完全控制著艦隊(duì)中的所有角色。但在舊金山的Facebook AI Research的人工智能研究員Jakob Foerster表示，有許多現(xiàn)實(shí)世界的情況依賴于一個(gè)主腦AI來微觀管理大量設(shè)備會(huì)變得難以處理。

想想監(jiān)督整個(gè)醫(yī)院照顧病人的數(shù)十個(gè)護(hù)理機(jī)器人，或者自駕卡車協(xié)調(diào)他們?cè)跀?shù)英里的高速公路上的速度，以緩解交通瓶頸。因此，包括Foerster在內(nèi)的研究人員正在使用星際爭(zhēng)霸游戲嘗試不同的“多代理”方案。

在某些設(shè)計(jì)中，個(gè)別作戰(zhàn)單位具有一定的獨(dú)立性，但仍然受到集中控制器的支持。在這個(gè)設(shè)置中，監(jiān)督AI就像一個(gè)教練在場(chǎng)邊喊叫。教練制定了一個(gè)重要的計(jì)劃并向團(tuán)隊(duì)成員發(fā)出指示。各個(gè)單位使用該指導(dǎo)以及對(duì)周圍環(huán)境的詳細(xì)觀察來決定如何采取行動(dòng)。北京大學(xué)計(jì)算機(jī)科學(xué)家王益洲及其同事在提交給IEEE神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)系統(tǒng)的論文中報(bào)告了這種設(shè)計(jì)的有效性。

Wang的團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí)訓(xùn)練其人工智能團(tuán)隊(duì)，這是一種機(jī)器學(xué)習(xí)，其中計(jì)算機(jī)系統(tǒng)通過與環(huán)境互動(dòng)獲得技能，并在做正確的事情后獲得虛擬獎(jiǎng)勵(lì)。每個(gè)隊(duì)友都根據(jù)其附近被淘汰的敵人數(shù)量獲得獎(jiǎng)勵(lì)，以及整個(gè)團(tuán)隊(duì)是否勝過由游戲內(nèi)置的自動(dòng)對(duì)手控制的艦隊(duì)。在由至少10個(gè)戰(zhàn)斗單位組成的團(tuán)隊(duì)的幾個(gè)不同挑戰(zhàn)中，教練指導(dǎo)的AI團(tuán)隊(duì)贏得了60%到82%的時(shí)間。沒有獨(dú)立推理能力的控制的AI團(tuán)隊(duì)對(duì)內(nèi)置對(duì)手的成功率較低。

當(dāng)團(tuán)隊(duì)可以依賴所有代理人之間快速，準(zhǔn)確的溝通時(shí)，具有單個(gè)指揮官的AI工作人員對(duì)個(gè)別單位施加至少一些控制可能效果最佳。例如，該系統(tǒng)可以用于同一倉庫內(nèi)的機(jī)器人。

在星際爭(zhēng)霸II的視頻游戲中，專業(yè)的星際爭(zhēng)霸II玩家DarioWünsch扮演“LiquidTLO”，被人工智能AlphaStar所壓倒，這對(duì)Wünsch的基地造成了嚴(yán)重破壞。當(dāng)AI顯示其優(yōu)勢(shì)時(shí)，人工智能在DeepMind的創(chuàng)作者歡呼。當(dāng)AlphaStar擊敗他時(shí)，Wünsch大步邁進(jìn)，5場(chǎng)比賽為0。

但是，對(duì)于許多機(jī)器，例如自動(dòng)駕駛汽車或無人機(jī)群體，它們分布在很遠(yuǎn)的距離，單獨(dú)的設(shè)備“將無法與單個(gè)控制器保持一致，可靠和快速的數(shù)據(jù)連接，”Foerster說。這是每個(gè)AI本身。在這些限制下工作的AI通常無法與集中式團(tuán)隊(duì)協(xié)調(diào)，但Foerster及其同事設(shè)計(jì)了一個(gè)培訓(xùn)計(jì)劃，以使獨(dú)立思考的機(jī)器能夠協(xié)同工作。

在該系統(tǒng)中，集中觀察者在強(qiáng)化學(xué)習(xí)期間向隊(duì)友提供反饋。但是，一旦該小組接受了全面培訓(xùn)，AI就會(huì)獨(dú)立完成。主要代理人不像是邊線教練，更像是在排練期間提供芭蕾舞女演員指導(dǎo)的舞蹈教練，但在舞臺(tái)表演期間保持沉默。

AI監(jiān)督員通過在培訓(xùn)期間提供個(gè)性化建議，為個(gè)人AI提供自給自足的準(zhǔn)備。在每次試運(yùn)行之后，監(jiān)督員模擬替代可能的未來，并告訴每個(gè)代理人，“這就是實(shí)際發(fā)生的事情，如果其他人都做了同樣的事情就會(huì)發(fā)生這種情況，但你做了不同的事情。”這種方法，福斯特的團(tuán)隊(duì)于2018年2月在新奧爾良舉行的AAAI人工智能會(huì)議上，幫助每個(gè)AI單位判斷哪些行動(dòng)有助于或阻礙該團(tuán)隊(duì)的成功。

為了測(cè)試這個(gè)框架，F(xiàn)oerster及其同事在星際爭(zhēng)霸中訓(xùn)練了三組五個(gè)AI單元。受過訓(xùn)練的單位必須僅根據(jù)對(duì)周圍環(huán)境的觀察來行動(dòng)。在由內(nèi)置的非人類對(duì)手指揮的相同球隊(duì)的戰(zhàn)斗回合中，所有三個(gè)AI組贏得了他們的大部分回合，在相同的戰(zhàn)斗場(chǎng)景中表現(xiàn)出三個(gè)控制的AI團(tuán)隊(duì)。

終身學(xué)習(xí)

程序員在星際爭(zhēng)霸和星際爭(zhēng)霸II中測(cè)試的AI培訓(xùn)類型旨在幫助AI團(tuán)隊(duì)掌握單一任務(wù)，例如協(xié)調(diào)交通信號(hào)燈或無人機(jī)。星際爭(zhēng)霸游戲非常適合這種情況，因?yàn)閷?duì)于所有移動(dòng)部件而言，游戲相當(dāng)簡(jiǎn)單：每個(gè)玩家都有一個(gè)壓倒對(duì)手的單一目標(biāo)。但是，如果人工智能變得更加多樣化和人性化，程序需要能夠?qū)W習(xí)更多知識(shí)并不斷學(xué)習(xí)新技能。

“我們現(xiàn)在看到的所有玩Go和國(guó)際象棋的系統(tǒng) - 他們基本上都訓(xùn)練過很好地完成這一項(xiàng)任務(wù)，然后他們被修復(fù)以便他們無法改變，”Risi說。Risi說，一個(gè)帶有18×18網(wǎng)格的Go-playing系統(tǒng)，而不是標(biāo)準(zhǔn)的19×19游戲板，可能必須在新的主板上完全重新訓(xùn)練。改變星際爭(zhēng)霸單位的特征需要進(jìn)行相同的背對(duì)一訓(xùn)練。類似樂高的Minecraft領(lǐng)域是一個(gè)更好的測(cè)試方法，使AI更具適應(yīng)性。

在由3D墻塊組成的不同環(huán)境中，Minecraft玩家可以構(gòu)建結(jié)構(gòu)并探索周圍環(huán)境(上面的示例)。CHRISTOPH SALGE等人/PROC。第13屆國(guó)際比賽。CONF。關(guān)于2018年數(shù)字游戲的基礎(chǔ)

與“星際爭(zhēng)霸”不同，“我的世界”不會(huì)讓玩家完成任務(wù)。在這個(gè)由三維灰塵，玻璃和其他材料組成的虛擬世界中，玩家可以收集資源來建造結(jié)構(gòu)，旅行，尋找食物，并做其他任何他們喜歡的事情?？偛课挥谂f金山的軟件公司Salesforce的人工智能研究員Caiming Xiong和同事們?cè)贛inecraft中使用了一個(gè)簡(jiǎn)單的建筑物來測(cè)試人工智能，以便不斷學(xué)習(xí)。

熊的團(tuán)隊(duì)并沒有指定人工智能通過強(qiáng)化學(xué)習(xí)中的反復(fù)試驗(yàn)來學(xué)習(xí)單一任務(wù)，而是讓人工智能的教育錯(cuò)綜復(fù)雜。研究人員指導(dǎo)人工智能通過越來越困難的強(qiáng)化學(xué)習(xí)挑戰(zhàn)，從尋找特定區(qū)塊到堆疊區(qū)塊。人工智能旨在將每個(gè)挑戰(zhàn)分解為更簡(jiǎn)單的步驟。它可以使用舊的專業(yè)知識(shí)解決每一步或嘗試新的東西。與另一個(gè)沒有使用先前知識(shí)來傳達(dá)新學(xué)習(xí)經(jīng)驗(yàn)的人工智能相比，熊團(tuán)隊(duì)的人工智能證明是一個(gè)更快的研究。

積累知識(shí)的人工智能在適應(yīng)新情況方面也更好。熊和同事告訴兩個(gè)AI如何拾取塊。在一個(gè)只包含一個(gè)街區(qū)的簡(jiǎn)單房間內(nèi)進(jìn)行培訓(xùn)時(shí)，兩個(gè)AI都獲得了“收集項(xiàng)目”技能。但是在一個(gè)有多個(gè)街區(qū)的房間里，離散任務(wù)AI很難確定其目標(biāo)并且只有29%的時(shí)間抓住了正確的區(qū)塊。

快速吸收

一個(gè)知道如何應(yīng)用過去的知識(shí)來學(xué)習(xí)新技能(深綠色)的Minecraft玩AI可以更快地學(xué)習(xí)如何成功地執(zhí)行新技能。與不依賴于舊專業(yè)知識(shí)(淺綠色)的人工智能相比，它在嘗試中獲得的獎(jiǎng)勵(lì)高達(dá)1.0。

人工智能學(xué)習(xí)有和沒有過去的知識(shí)

資料來源：T。Shu，C。Xiong和R. Socher / 6th Internat。CONF。關(guān)于學(xué)習(xí)代表2018年

知識(shí)積累的AI知道依賴于先前學(xué)習(xí)的“查找項(xiàng)目”技能來在分心中定位目標(biāo)對(duì)象。它在94%的時(shí)間內(nèi)獲得了正確的阻止。該研究于2018年5月在溫哥華舉行的國(guó)際學(xué)習(xí)代表大會(huì)上發(fā)表。

通過進(jìn)一步的培訓(xùn)，熊和同事的系統(tǒng)可以掌握更多的技能。但是這種設(shè)計(jì)受到以下事實(shí)的限制：AI只能學(xué)習(xí)人類程序員在訓(xùn)練期間分配的任務(wù)。人類沒有這種教育截止。當(dāng)人們完成學(xué)業(yè)時(shí)，“不喜歡，”現(xiàn)在你已經(jīng)完成了學(xué)習(xí)。你可以凍結(jié)你的大腦然后去，“Risi說。

加州大學(xué)圣地亞哥分校的機(jī)器人專家Priyam Parashar說，一個(gè)更好的人工智能將在游戲和模擬中獲得基礎(chǔ)教育，然后能夠在其整個(gè)生命周期中繼續(xù)學(xué)習(xí)。例如，如果居民安裝嬰兒門或重新安排家具，家用機(jī)器人應(yīng)該能夠找到導(dǎo)航工作區(qū)。

Parashar及其同事創(chuàng)建了一個(gè)AI，可以識(shí)別需要進(jìn)一步培訓(xùn)而無需人工輸入的實(shí)例。當(dāng)人工智能遇到新的障礙時(shí)，它會(huì)評(píng)估環(huán)境與預(yù)期的不同。然后它可以在心理上排練各種解決方案，想象每個(gè)解決方案的結(jié)果并選擇最佳解決方案。

研究人員在一個(gè)兩室的Minecraft建筑中用AI測(cè)試了這個(gè)系統(tǒng)。人工智能已經(jīng)接受過培訓(xùn)，可以從第二個(gè)房間找回金塊。但是另一個(gè)Minecraft玩家在房間之間的門口建造了一個(gè)玻璃屏障，阻止AI收集金塊。人工智能評(píng)估了這種情況，并通過強(qiáng)化學(xué)習(xí)，找出了如何粉碎玻璃以完成其任務(wù)，Parashar和她的同事在2018年知識(shí)工程評(píng)論中報(bào)道。

Parashar承認(rèn)，面對(duì)意想不到的嬰兒門或玻璃墻的人工智能應(yīng)該可能不會(huì)得出最好的解決辦法。但她說，程序員可以為AI的心理模擬添加額外的約束 - 比如不應(yīng)該破壞有價(jià)值或擁有的對(duì)象的知識(shí) - 來告知系統(tǒng)的學(xué)習(xí)。

研究人員使用Minecraft來教授人工智能技能，例如如何設(shè)定目標(biāo)和建立創(chuàng)造性結(jié)構(gòu)。LAIGE PENG和YOSHIMASA TSURUOKA /信息處理學(xué)會(huì)2018

新的視頻游戲一直在成為AI測(cè)試床。人工智能和紐約大學(xué)的游戲研究員Julian Togelius及其同事希望在Overcooked中測(cè)試合作的AIs - 這是一個(gè)團(tuán)隊(duì)烹飪游戲，發(fā)生在一個(gè)緊湊，擁擠的廚房里，玩家不斷地互相攻擊。“游戲旨在挑戰(zhàn)人類的思想，”Togelius說。任何視頻游戲本質(zhì)上都是一個(gè)現(xiàn)成的測(cè)試，可以測(cè)試AI知識(shí)如何模仿人類的聰明才智。

但是當(dāng)談到在視頻游戲或其他模擬世界中測(cè)試AI時(shí)，“你永遠(yuǎn)不能說，'好吧，我已經(jīng)模擬了現(xiàn)實(shí)世界中發(fā)生的一切，'”Parashar說。彌合虛擬和物理現(xiàn)實(shí)之間的差距將需要更多的研究。

她建議，保持模擬訓(xùn)練的人工智能免于過度使用的一種方法是設(shè)計(jì)需要AI在需要時(shí)向人們尋求幫助的系統(tǒng)(SN：3/2/19，第8頁)。“從某種意義上說，這使得[AI]更像人類，對(duì)嗎?”Parashar說。“我們?cè)谂笥训膸椭马樌^來。”

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！