您的位置: 首頁 >互聯(lián)網(wǎng) >

在棋盤游戲中擊敗人類在AI世界中是過時的

2019-05-13 11:38:41 編輯: 來源:
導(dǎo)讀 在棋盤游戲中擊敗人類在AI世界中是過時的?,F(xiàn)在,頂尖的學(xué)者和科技公司希望在視頻游戲中挑戰(zhàn)我們。今天,由Elon Musk和Sam Altman創(chuàng)立的

在棋盤游戲中擊敗人類在AI世界中是過時的?,F(xiàn)在,頂尖的學(xué)者和科技公司希望在視頻游戲中挑戰(zhàn)我們。今天,由Elon Musk和Sam Altman創(chuàng)立的研究實驗室OpenAI宣布了其最新的里程碑:一個AI代理團隊,可以在流行的戰(zhàn)斗競技場游戲Dota 2中擊敗業(yè)余愛好者的前1%。

你可能還記得OpenAI 去年8月首次進入Dota 2 的世界,推出了一個可以在1v1比賽中擊敗頂級球員的系統(tǒng)。然而,這種游戲類型大大減少了Dota 2的挑戰(zhàn).OpenAI現(xiàn)在已經(jīng)升級其機器人在5v5對戰(zhàn)中扮演人類,這需要更多的協(xié)調(diào)和長期規(guī)劃。雖然OpenAI尚未挑戰(zhàn)該游戲最優(yōu)秀的玩家,但它將在今年晚些時候在The International舉行,這是Dota 2錦標(biāo)賽,這是電子競技日歷上最大的年度賽事。

像這樣的研究動機很簡單:如果我們能夠教授人工智能系統(tǒng)玩視頻游戲所需的技能,我們可以用它們來解決復(fù)雜的現(xiàn)實挑戰(zhàn),這些挑戰(zhàn)在某些方面類似于視頻游戲 - 例如,管理城市的交通基礎(chǔ)設(shè)施。

“這是一個令人興奮的里程碑,它真的是因為它是關(guān)于過渡到真實應(yīng)用程序,”OpenAI的聯(lián)合創(chuàng)始人兼首席技術(shù)官Greg Brockman告訴The Verge。“如果你有一個問題的模擬,并且你可以運行它足夠大的規(guī)模,那么你可以用它做什么就沒有障礙。”

從根本上說,視頻游戲提供了像國際象棋或Go這樣的棋盤游戲所面臨的挑戰(zhàn)。他們隱藏了玩家的信息,這意味著AI無法感知整個比賽場地并計算出最佳的下一步動作。還有更多要處理的信息和大量可能的動作。OpenAI表示,在任何時候,它的Dota 2機器人必須在1,000個不同的動作之間進行選擇,同時處理代表游戲中發(fā)生的事件的20,000個數(shù)據(jù)點。

為了創(chuàng)建他們的機器人,實驗室轉(zhuǎn)向了一種稱為強化學(xué)習(xí)的機器學(xué)習(xí)方法。這是一種看似簡單的技術(shù),可以產(chǎn)生復(fù)雜的行為。AI代理人被投入到虛擬環(huán)境中,在那里他們自學(xué)如何通過反復(fù)試驗來實現(xiàn)目標(biāo)。程序員設(shè)置所謂的獎勵功能(為諸如殺死敵人之類的東西授予機器人點數(shù)),然后他們讓AI代理人一遍又一遍地玩。

對于這批新的Dota機器人來說,自我玩耍的數(shù)量是驚人的。每天,機器人以加速的速度玩了180 年的游戲時間。他們在幾個月的時間里以這種速度接受訓(xùn)練。“它開始時是完全隨機的,在地圖上游蕩。然后,經(jīng)過幾個小時,它開始學(xué)習(xí)基本技能,“布羅克曼說。他說,如果需要12,000到20,000小時的人力來學(xué)習(xí)成為一名專業(yè)人士,那就意味著OpenAI的代理人“每天都會玩100次人類生活。”

一方面,這證明了當(dāng)代機器學(xué)習(xí)方法和處理大量數(shù)據(jù)的最新計算機芯片的強大功能。另一方面,它提醒人們?nèi)绾螐母旧嫌薮赖腁I代理人。如果人類花費數(shù)千年的時間來學(xué)習(xí)如何玩單個視頻游戲,那么我們就不會是一個物種。

OpenAI的機器人仍然受到限制。例如,他們只玩了115個英雄中的5個,包括Necrophos(如圖)。 圖片:閥門

雖然OpenAI的機器人現(xiàn)在正在玩5v5比賽,但他們?nèi)匀粵]有接觸到Dota 2的全部復(fù)雜性。存在許多限制。他們只使用了115位英雄中的5位,每位都有自己的打法。(他們的選擇:Necrophos,Sniper,Viper,Crystal Maiden和Lich。)他們的決策過程中的某些元素是硬編碼的,比如他們從供應(yīng)商處購買的物品以及他們使用游戲中體驗點升級的技能。游戲的其他棘手部分已被完全禁用,包括隱身,召喚和病房的放置,這些物品充當(dāng)遠(yuǎn)程攝像機,在高級游戲中至關(guān)重要。(正如一位游戲指南警告的那樣,“如果有任何話題讓新人感到困惑,那就太過分了。”)

OpenAI的代理商還擁有您對計算機的所有優(yōu)勢。他們的反應(yīng)時間比人類快,他們不會錯過點擊,他們可以即時,準(zhǔn)確地訪問數(shù)據(jù),如項目庫存,英雄的健康狀況,以及地圖上物體之間的距離,這對正確使用某些物品至關(guān)重要。法術(shù)。這是人類玩家必須手動檢查或本能判斷的所有信息。

所有這些似乎都是對機器人能力的起訴,但布羅克曼認(rèn)為這是一種分心。他表示,在Dota 2中玩平均持續(xù)45分鐘的整個游戲的能力確實使OpenAI的代理商與眾不同。這種長期規(guī)劃被認(rèn)為很難甚至不可能通過強化學(xué)習(xí)來教授,但OpenAI的工作表明不然。布羅克曼說,他們成功的主要原因只是他們帶來了更多的計算機能力來解決這個問題。“這真的與規(guī)模有關(guān),”他說。

巴斯大學(xué)人工智能研究員安德烈亞斯·西奧多羅(Andreas Theodorou)表示,對5v5游戲的最新研究向前邁出了一大步,盡管他指出,最重要的成就可能是OpenAI使用可視化來調(diào)試他們的經(jīng)紀(jì)人 (這些交互式可視化可以在這里看到。)“這些技術(shù)顯示,一般來說,強化學(xué)習(xí)和機器學(xué)習(xí)系統(tǒng)一般都是透明的,”Theodorou告訴The Verge。這些附加組件“增加了系統(tǒng)的價值”,他說,特別是出于教育目的。

Theodorou說,研究人員使用單獨的獎勵功能來鼓勵機器人一起工作也是值得注意的。這個獎勵功能被標(biāo)記為“團隊精神”,并且在每場比賽的過程中都有所增加。機器人開始每個游戲追求個人目標(biāo),比如摧毀殺戮,但隨著時間的推移,他們更多地關(guān)注共同的目標(biāo)。

布羅克曼說,與人類玩家不同,這意味著絕對“沒有自我”。他告訴The Verge,“機器人完全愿意為了更大的利益而犧牲一條車道或放棄英雄。” “為了好玩,我們有一個人來幫助更換其中一個機器人。我們沒有訓(xùn)練他們做任何特別的事,但他說他感覺得到了如此好的支持。他想要的任何東西,機器人都得到了他。“

OpenAI的機器人團隊目前已經(jīng)與業(yè)余和半游戲團隊進行了五場多場比賽,贏得了四場比賽并贏得了一場比賽。但是他們最大的挑戰(zhàn)將在今年晚些時候在國際上展出。具有完美時間和沒有自我的機器能否與人類專業(yè)人士的流暢和直觀的游戲相匹配?在這一點上,這是任何人的游戲。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。