在棋盤(pán)游戲中擊敗人類(lèi)在AI世界中是過(guò)時(shí)的

2019-05-13 11:38:41 編輯：來(lái)源：

導(dǎo)讀在棋盤(pán)游戲中擊敗人類(lèi)在AI世界中是過(guò)時(shí)的?，F(xiàn)在，頂尖的學(xué)者和科技公司希望在視頻游戲中挑戰(zhàn)我們。今天，由Elon Musk和Sam Altman創(chuàng)立的

在棋盤(pán)游戲中擊敗人類(lèi)在AI世界中是過(guò)時(shí)的?，F(xiàn)在，頂尖的學(xué)者和科技公司希望在視頻游戲中挑戰(zhàn)我們。今天，由Elon Musk和Sam Altman創(chuàng)立的研究實(shí)驗(yàn)室OpenAI宣布了其最新的里程碑：一個(gè)AI代理團(tuán)隊(duì)，可以在流行的戰(zhàn)斗競(jìng)技場(chǎng)游戲Dota 2中擊敗業(yè)余愛(ài)好者的前1%。

你可能還記得OpenAI 去年8月首次進(jìn)入Dota 2 的世界，推出了一個(gè)可以在1v1比賽中擊敗頂級(jí)球員的系統(tǒng)。然而，這種游戲類(lèi)型大大減少了Dota 2的挑戰(zhàn).OpenAI現(xiàn)在已經(jīng)升級(jí)其機(jī)器人在5v5對(duì)戰(zhàn)中扮演人類(lèi)，這需要更多的協(xié)調(diào)和長(zhǎng)期規(guī)劃。雖然OpenAI尚未挑戰(zhàn)該游戲最優(yōu)秀的玩家，但它將在今年晚些時(shí)候在The International舉行，這是Dota 2錦標(biāo)賽，這是電子競(jìng)技日歷上最大的年度賽事。

像這樣的研究動(dòng)機(jī)很簡(jiǎn)單：如果我們能夠教授人工智能系統(tǒng)玩視頻游戲所需的技能，我們可以用它們來(lái)解決復(fù)雜的現(xiàn)實(shí)挑戰(zhàn)，這些挑戰(zhàn)在某些方面類(lèi)似于視頻游戲 - 例如，管理城市的交通基礎(chǔ)設(shè)施。

“這是一個(gè)令人興奮的里程碑，它真的是因?yàn)樗顷P(guān)于過(guò)渡到真實(shí)應(yīng)用程序，”OpenAI的聯(lián)合創(chuàng)始人兼首席技術(shù)官Greg Brockman告訴The Verge。“如果你有一個(gè)問(wèn)題的模擬，并且你可以運(yùn)行它足夠大的規(guī)模，那么你可以用它做什么就沒(méi)有障礙。”

從根本上說(shuō)，視頻游戲提供了像國(guó)際象棋或Go這樣的棋盤(pán)游戲所面臨的挑戰(zhàn)。他們隱藏了玩家的信息，這意味著AI無(wú)法感知整個(gè)比賽場(chǎng)地并計(jì)算出最佳的下一步動(dòng)作。還有更多要處理的信息和大量可能的動(dòng)作。OpenAI表示，在任何時(shí)候，它的Dota 2機(jī)器人必須在1,000個(gè)不同的動(dòng)作之間進(jìn)行選擇，同時(shí)處理代表游戲中發(fā)生的事件的20,000個(gè)數(shù)據(jù)點(diǎn)。

為了創(chuàng)建他們的機(jī)器人，實(shí)驗(yàn)室轉(zhuǎn)向了一種稱(chēng)為強(qiáng)化學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。這是一種看似簡(jiǎn)單的技術(shù)，可以產(chǎn)生復(fù)雜的行為。AI代理人被投入到虛擬環(huán)境中，在那里他們自學(xué)如何通過(guò)反復(fù)試驗(yàn)來(lái)實(shí)現(xiàn)目標(biāo)。程序員設(shè)置所謂的獎(jiǎng)勵(lì)功能(為諸如殺死敵人之類(lèi)的東西授予機(jī)器人點(diǎn)數(shù))，然后他們讓AI代理人一遍又一遍地玩。

對(duì)于這批新的Dota機(jī)器人來(lái)說(shuō)，自我玩耍的數(shù)量是驚人的。每天，機(jī)器人以加速的速度玩了180 年的游戲時(shí)間。他們?cè)趲讉€(gè)月的時(shí)間里以這種速度接受訓(xùn)練。“它開(kāi)始時(shí)是完全隨機(jī)的，在地圖上游蕩。然后，經(jīng)過(guò)幾個(gè)小時(shí)，它開(kāi)始學(xué)習(xí)基本技能，“布羅克曼說(shuō)。他說(shuō)，如果需要12,000到20,000小時(shí)的人力來(lái)學(xué)習(xí)成為一名專(zhuān)業(yè)人士，那就意味著OpenAI的代理人“每天都會(huì)玩100次人類(lèi)生活。”

一方面，這證明了當(dāng)代機(jī)器學(xué)習(xí)方法和處理大量數(shù)據(jù)的最新計(jì)算機(jī)芯片的強(qiáng)大功能。另一方面，它提醒人們?nèi)绾螐母旧嫌薮赖腁I代理人。如果人類(lèi)花費(fèi)數(shù)千年的時(shí)間來(lái)學(xué)習(xí)如何玩單個(gè)視頻游戲，那么我們就不會(huì)是一個(gè)物種。

OpenAI的機(jī)器人仍然受到限制。例如，他們只玩了115個(gè)英雄中的5個(gè)，包括Necrophos(如圖)。圖片：閥門(mén)

雖然OpenAI的機(jī)器人現(xiàn)在正在玩5v5比賽，但他們?nèi)匀粵](méi)有接觸到Dota 2的全部復(fù)雜性。存在許多限制。他們只使用了115位英雄中的5位，每位都有自己的打法。(他們的選擇：Necrophos，Sniper，Viper，Crystal Maiden和Lich。)他們的決策過(guò)程中的某些元素是硬編碼的，比如他們從供應(yīng)商處購(gòu)買(mǎi)的物品以及他們使用游戲中體驗(yàn)點(diǎn)升級(jí)的技能。游戲的其他棘手部分已被完全禁用，包括隱身，召喚和病房的放置，這些物品充當(dāng)遠(yuǎn)程攝像機(jī)，在高級(jí)游戲中至關(guān)重要。(正如一位游戲指南警告的那樣，“如果有任何話(huà)題讓新人感到困惑，那就太過(guò)分了。”)

OpenAI的代理商還擁有您對(duì)計(jì)算機(jī)的所有優(yōu)勢(shì)。他們的反應(yīng)時(shí)間比人類(lèi)快，他們不會(huì)錯(cuò)過(guò)點(diǎn)擊，他們可以即時(shí)，準(zhǔn)確地訪(fǎng)問(wèn)數(shù)據(jù)，如項(xiàng)目庫(kù)存，英雄的健康狀況，以及地圖上物體之間的距離，這對(duì)正確使用某些物品至關(guān)重要。法術(shù)。這是人類(lèi)玩家必須手動(dòng)檢查或本能判斷的所有信息。

所有這些似乎都是對(duì)機(jī)器人能力的起訴，但布羅克曼認(rèn)為這是一種分心。他表示，在Dota 2中玩平均持續(xù)45分鐘的整個(gè)游戲的能力確實(shí)使OpenAI的代理商與眾不同。這種長(zhǎng)期規(guī)劃被認(rèn)為很難甚至不可能通過(guò)強(qiáng)化學(xué)習(xí)來(lái)教授，但OpenAI的工作表明不然。布羅克曼說(shuō)，他們成功的主要原因只是他們帶來(lái)了更多的計(jì)算機(jī)能力來(lái)解決這個(gè)問(wèn)題。“這真的與規(guī)模有關(guān)，”他說(shuō)。

巴斯大學(xué)人工智能研究員安德烈亞斯·西奧多羅(Andreas Theodorou)表示，對(duì)5v5游戲的最新研究向前邁出了一大步，盡管他指出，最重要的成就可能是OpenAI使用可視化來(lái)調(diào)試他們的經(jīng)紀(jì)人 (這些交互式可視化可以在這里看到。)“這些技術(shù)顯示，一般來(lái)說(shuō)，強(qiáng)化學(xué)習(xí)和機(jī)器學(xué)習(xí)系統(tǒng)一般都是透明的，”Theodorou告訴The Verge。這些附加組件“增加了系統(tǒng)的價(jià)值”，他說(shuō)，特別是出于教育目的。

Theodorou說(shuō)，研究人員使用單獨(dú)的獎(jiǎng)勵(lì)功能來(lái)鼓勵(lì)機(jī)器人一起工作也是值得注意的。這個(gè)獎(jiǎng)勵(lì)功能被標(biāo)記為“團(tuán)隊(duì)精神”，并且在每場(chǎng)比賽的過(guò)程中都有所增加。機(jī)器人開(kāi)始每個(gè)游戲追求個(gè)人目標(biāo)，比如摧毀殺戮，但隨著時(shí)間的推移，他們更多地關(guān)注共同的目標(biāo)。

布羅克曼說(shuō)，與人類(lèi)玩家不同，這意味著絕對(duì)“沒(méi)有自我”。他告訴The Verge，“機(jī)器人完全愿意為了更大的利益而犧牲一條車(chē)道或放棄英雄。” “為了好玩，我們有一個(gè)人來(lái)幫助更換其中一個(gè)機(jī)器人。我們沒(méi)有訓(xùn)練他們做任何特別的事，但他說(shuō)他感覺(jué)得到了如此好的支持。他想要的任何東西，機(jī)器人都得到了他。“

OpenAI的機(jī)器人團(tuán)隊(duì)目前已經(jīng)與業(yè)余和半游戲團(tuán)隊(duì)進(jìn)行了五場(chǎng)多場(chǎng)比賽，贏得了四場(chǎng)比賽并贏得了一場(chǎng)比賽。但是他們最大的挑戰(zhàn)將在今年晚些時(shí)候在國(guó)際上展出。具有完美時(shí)間和沒(méi)有自我的機(jī)器能否與人類(lèi)專(zhuān)業(yè)人士的流暢和直觀的游戲相匹配?在這一點(diǎn)上，這是任何人的游戲。

標(biāo)簽：棋盤(pán)游戲