AlphaZero AI系統(tǒng)能夠教會(huì)自己如何玩游戲

2019-06-05 17:33:03 編輯：來源：

導(dǎo)讀英國的DeepMind小組和大學(xué)學(xué)院的一個(gè)研究小組開發(fā)了一個(gè)人工智能系統(tǒng)，能夠教會(huì)自己如何玩和掌握三個(gè)困難的棋盤游戲。在他們發(fā)表在科學(xué)

英國的DeepMind小組和大學(xué)學(xué)院的一個(gè)研究小組開發(fā)了一個(gè)人工智能系統(tǒng)，能夠教會(huì)自己如何玩和掌握三個(gè)困難的棋盤游戲。在他們發(fā)表在“ 科學(xué) ”雜志上的論文中，該小組描述了他們的新系統(tǒng)，并解釋了為什么他們認(rèn)為這是人工智能系統(tǒng)開發(fā)的又一大進(jìn)步。美國TJ沃森研究中心的默里坎貝爾提供了關(guān)于團(tuán)隊(duì)在同一期刊中所做工作的透視作品。

自從一款名為Deep Blue的超級(jí)計(jì)算機(jī)擊敗世界象棋冠軍加里·卡斯帕羅夫以來已經(jīng)過去了20多年，向世界展示了人工智能計(jì)算的發(fā)展程度。在那之后的幾年里，計(jì)算機(jī)變得越來越聰明，現(xiàn)在在象棋，棋和圍棋這樣的游戲中擊敗了人類。但是這些系統(tǒng)都進(jìn)行了調(diào)整，以使它們?cè)谝粓?chǎng)比賽中表現(xiàn)出色。在這項(xiàng)新的努力中，研究人員已經(jīng)創(chuàng)建了一個(gè)人工智能系統(tǒng)，該系統(tǒng)不僅擅長(zhǎng)多個(gè)游戲，而且可以自行獲得這些專業(yè)知識(shí)。

這個(gè)名為AlphaZero的新系統(tǒng)是一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)，顧名思義，它意味著它通過反復(fù)玩游戲并從中學(xué)習(xí)經(jīng)驗(yàn)來學(xué)習(xí)。當(dāng)然，這與人類學(xué)習(xí)的方式非常相似。制定了一套基本規(guī)則，然后計(jì)算機(jī)自己玩游戲。它甚至不需要與其他合作伙伴一起玩。它反復(fù)發(fā)揮作用，注意哪些戲劇構(gòu)成了良好的動(dòng)作，從而獲勝，并且構(gòu)成了糟糕的動(dòng)作和失敗。隨著時(shí)間的推移，它會(huì)改善最終，它變得如此之好，它不僅可以擊敗人類，還可以擊敗其他專用棋盤游戲AI系統(tǒng)。該系統(tǒng)還使用稱為蒙特卡羅樹搜索的搜索方法。結(jié)合這兩種技術(shù)，系統(tǒng)可以自學(xué)如何在游戲中變得更好。研究人員給他們的測(cè)試系統(tǒng)提供了很大的力量，

到目前為止，AlphaZero已經(jīng)掌握了特別適合AI應(yīng)用的國際象棋，棋牌和圍棋游戲?？藏悹柦ㄗh，此類系統(tǒng)的下一步可能是擴(kuò)展到撲克游戲，甚至是流行的視頻游戲。