研究人員使用視頻游戲解鎖新的AI水平

2019-06-06 17:10:27 編輯：來(lái)源：

導(dǎo)讀對(duì)人工智能的期望是非常真實(shí)和非常高的。福布斯項(xiàng)目的收入分析將從2018年的16 2億美元飆升至2025年的312億美元。報(bào)告還包括一項(xiàng)調(diào)查顯示，8

對(duì)人工智能的期望是非常真實(shí)和非常高的。“福布斯”項(xiàng)目的收入分析將從2018年的16.2億美元飆升至2025年的312億美元。報(bào)告還包括一項(xiàng)調(diào)查顯示，84%的企業(yè)認(rèn)為投資人工智能將帶來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì)。

“看到近年來(lái)取得的巨大成功和進(jìn)步令人興奮，”匹茲堡斯旺森工程學(xué)院工業(yè)工程助理教授Daniel Jiang說(shuō)。“為了延續(xù)這一趨勢(shì)，我們正在尋求開(kāi)發(fā)更復(fù)雜的算法方法，以學(xué)習(xí)最優(yōu)決策的策略。”

Jiang博士設(shè)計(jì)了在復(fù)雜和不確定環(huán)境中學(xué)習(xí)決策策略的算法。通過(guò)在模擬環(huán)境中測(cè)試算法，他們可以從錯(cuò)誤中吸取教訓(xùn)，同時(shí)發(fā)現(xiàn)和加強(qiáng)成功策略。為了完善這一過(guò)程，蔣博士和他所在領(lǐng)域的許多研究人員需要模擬現(xiàn)實(shí)世界。

“作為工業(yè)工程師，我們通常會(huì)處理以運(yùn)營(yíng)為重點(diǎn)的問(wèn)題。例如，運(yùn)輸，物流和供應(yīng)鏈，能源系統(tǒng)和醫(yī)療保健是幾個(gè)重要領(lǐng)域，”他說(shuō)。“所有這些問(wèn)題都是具有現(xiàn)實(shí)后果的高風(fēng)險(xiǎn)操作。它們沒(méi)有為嘗試實(shí)驗(yàn)技術(shù)創(chuàng)造最佳環(huán)境，特別是當(dāng)我們的許多算法被認(rèn)為是重復(fù)'試錯(cuò)'的巧妙方法時(shí)所有可能的行動(dòng)。“

準(zhǔn)備高級(jí)AI以應(yīng)對(duì)現(xiàn)實(shí)場(chǎng)景和復(fù)雜性的一種策略是使用歷史數(shù)據(jù)。例如，算法可以運(yùn)行數(shù)十年的數(shù)據(jù)，以確定哪些決策有效，哪些決策導(dǎo)致效果不佳。然而，研究人員發(fā)現(xiàn)很難測(cè)試僅使用過(guò)去數(shù)據(jù)來(lái)學(xué)習(xí)自適應(yīng)行為的算法。

蔣博士解釋說(shuō)：“歷史數(shù)據(jù)可能是一個(gè)問(wèn)題，因?yàn)槿藗兊男袨榭梢越鉀Q后果，也不會(huì)提出其他可能性。換句話說(shuō)，算法很難提出問(wèn)題'如果我選擇門(mén)會(huì)有什么不同的事情B代替門(mén)A?' 在歷史數(shù)據(jù)中，我們只能看到門(mén)A的后果。“

視頻游戲作為替代方案，提供了豐富的測(cè)試環(huán)境，充滿了復(fù)雜的決策制定，而沒(méi)有讓不成熟的AI充分掌控的危險(xiǎn)。與現(xiàn)實(shí)世界不同，它們?yōu)樗惴ㄌ峁┝艘环N安全的方法來(lái)從錯(cuò)誤中吸取教訓(xùn)。

“視頻游戲設(shè)計(jì)師并不打算以測(cè)試模型或模擬為目標(biāo)來(lái)構(gòu)建游戲，”江博士說(shuō)。“他們經(jīng)常設(shè)計(jì)具有雙重任務(wù)的游戲：創(chuàng)造模仿現(xiàn)實(shí)世界的環(huán)境，并挑戰(zhàn)玩家做出艱難的決定。這些目標(biāo)恰好與我們正在尋找的東西保持一致。此外，游戲也很多在幾個(gè)小時(shí)的實(shí)時(shí)中，我們可以評(píng)估數(shù)十萬(wàn)個(gè)游戲玩法決策的結(jié)果。“

為了測(cè)試他的算法，江博士使用了一種名為Multiplayer Online Battle Arena或MOBA的視頻游戲。諸如英雄聯(lián)盟或風(fēng)暴英雄等游戲是流行的MOBA，其中玩家控制幾個(gè)“英雄”角色中的一個(gè)，并試圖在保護(hù)自己的同時(shí)摧毀對(duì)手的基地。

用于訓(xùn)練游戲玩法AI的成功算法必須克服幾個(gè)挑戰(zhàn)，例如實(shí)時(shí)決策和長(zhǎng)決策視野 - 一個(gè)數(shù)學(xué)術(shù)語(yǔ)，用于何時(shí)直到很久以后才能知道某些決策的后果。

“我們?cè)O(shè)計(jì)的算法用于評(píng)估41條信息，然后輸出22種不同動(dòng)作中的一種，包括移動(dòng)，攻擊和特殊動(dòng)作，”江博士說(shuō)。“我們將不同的訓(xùn)練方法相互比較。最成功的玩家使用一種稱(chēng)為蒙特卡羅樹(shù)搜索的方法來(lái)生成數(shù)據(jù)，然后將其輸入神經(jīng)網(wǎng)絡(luò)。”

蒙特卡羅樹(shù)搜索是一種決策制定策略，其中玩家通過(guò)模擬或視頻游戲隨機(jī)移動(dòng)。然后，該算法分析游戲結(jié)果，以便為更成功的動(dòng)作賦予更多權(quán)重。隨著時(shí)間的推移和游戲的多次迭代，更成功的動(dòng)作持續(xù)存在，并且玩家在贏得游戲方面變得更好。

“我們的研究也給出了一些理論結(jié)果，表明蒙特卡洛樹(shù)搜索是一種有效的策略，可以訓(xùn)練代理人成功地做出艱難的決策，即使在不確定的世界中進(jìn)行操作，”江博士解釋說(shuō)。

江博士發(fā)表了他的研究成果與Emmanuel Ekwedike和Han Liu共同撰寫(xiě)的一篇論文，并于今年夏天在瑞典斯德哥爾摩舉行的2018年機(jī)器學(xué)習(xí)國(guó)際會(huì)議上公布了結(jié)果。

在匹茲堡大學(xué)，他繼續(xù)在博士學(xué)位的連續(xù)決策領(lǐng)域工作。學(xué)生Yijia Wang和Ibrahim El-Shar。該團(tuán)隊(duì)專(zhuān)注于與乘車(chē)共享，能源市場(chǎng)和公共健康相關(guān)的問(wèn)題。隨著行業(yè)準(zhǔn)備讓AI負(fù)責(zé)關(guān)鍵職責(zé)，蔣博士確?；A(chǔ)算法始終處于游戲的頂端。

標(biāo)簽：解鎖新的AI水平