DeepMind AI MuZero可以學(xué)習(xí)和掌握國(guó)際象棋圍棋雅達(dá)利

2020-12-24 15:27:56 編輯：來(lái)源：

導(dǎo)讀今天，《自然》雜志上的一篇專(zhuān)題研究論文詳細(xì)介紹了機(jī)器學(xué)習(xí)算法MuZero。MuZero擴(kuò)展了AlphaGo，AlphaGo Zero和AlphaZero等系統(tǒng)的功能。每

今天，《自然》雜志上的一篇專(zhuān)題研究論文詳細(xì)介紹了機(jī)器學(xué)習(xí)算法MuZero。MuZero擴(kuò)展了AlphaGo，AlphaGo Zero和AlphaZero等系統(tǒng)的功能。每種新算法都使智能機(jī)器在掌握游戲方面變得更好，從Go開(kāi)始，然后是Chess和Shogi，現(xiàn)在是Atari!

什么是MuZero?

MuZero是一種機(jī)器學(xué)習(xí)算法。算法是計(jì)算機(jī)在需要學(xué)習(xí)新信息和/或?qū)π滦畔⒉扇⌒袆?dòng)時(shí)遵循的一組規(guī)則。當(dāng)MuZero用于具有機(jī)器學(xué)習(xí)功能的計(jì)算機(jī)上時(shí)，它就可以學(xué)習(xí)游戲和大師級(jí)游戲，例如Go和Chess。

創(chuàng)建像MuZero這樣的算法的過(guò)程很重要，因?yàn)樗梢詫?dǎo)致機(jī)器學(xué)習(xí)和人工智能能夠處理比過(guò)去任何計(jì)算機(jī)都無(wú)法破解的先進(jìn)的現(xiàn)實(shí)世界問(wèn)題。

AlphaGo，AlphaGo零，AlphaZero

AlphaGo算法于2016年公開(kāi)發(fā)布，似乎是第一個(gè)掌握GO *游戲的程序。* AlphaGo使用神經(jīng)網(wǎng)絡(luò)和樹(shù)搜索掌握了Go。它要求先植入人類(lèi)數(shù)據(jù)和領(lǐng)域知識(shí)，然后才能?chē)L試掌握Go。

在2017年，AlphaGo Zero系統(tǒng)超越了第一次迭代，現(xiàn)在能夠在不增加人類(lèi)數(shù)據(jù)和/或領(lǐng)域知識(shí)的情況下學(xué)習(xí)玩Go?？爝M(jìn)到2018年，AlphaZero超越了前兩個(gè)版本，掌握了Go，Chess和Shogi。同一小組中發(fā)布了其他小組的最新算法稱(chēng)為MuZero。

MuZero也可以學(xué)習(xí)

前三個(gè)發(fā)行版中的每個(gè)發(fā)行版都需要為每個(gè)游戲預(yù)先植入一套規(guī)則，然后將其繼續(xù)掌握。在2020年末，名為MuZero的系統(tǒng)取得了重大飛躍。該算法現(xiàn)在不需要預(yù)先植入的規(guī)則集-它可以實(shí)時(shí)學(xué)習(xí)所述規(guī)則。

MuZero既可以學(xué)習(xí)將要玩的游戲規(guī)則，又可以掌握所說(shuō)的游戲。正如其創(chuàng)造者所說(shuō)的那樣，“ MuZero可以學(xué)習(xí)游戲規(guī)則，還可以掌握動(dòng)態(tài)未知的環(huán)境。”

正如本周發(fā)表的研究指出的那樣，“當(dāng)在Go，國(guó)際象棋和將棋上進(jìn)行評(píng)估(用于高性能計(jì)劃的典型環(huán)境時(shí))，MuZero算法在沒(méi)有任何游戲動(dòng)態(tài)知識(shí)的情況下與所提供的AlphaZero算法的超人性能相匹配。遵守游戲規(guī)則。”

Atari作為證明

研究人員表明，MuZero能夠?qū)W習(xí)圍棋，國(guó)際象棋和將棋的規(guī)則，然后掌握這些游戲(同樣，無(wú)需預(yù)先植入規(guī)則)。此外，MuZero還針對(duì)57種不同的Atari電子游戲進(jìn)行了測(cè)試。MuZero能夠?qū)W習(xí)一套Atari游戲的規(guī)則并掌握大師所說(shuō)的游戲!

正如本周發(fā)表的研究報(bào)告所述，當(dāng)在57種不同的Atari游戲上進(jìn)行測(cè)試時(shí)，“當(dāng)在57種不同的Atari游戲上進(jìn)行評(píng)估時(shí)-MuZero算法是一種經(jīng)典的視頻游戲環(huán)境，用于測(cè)試人工智能技術(shù)，在這種環(huán)境中，基于模型的規(guī)劃方法歷來(lái)都在掙扎達(dá)到了最先進(jìn)的性能。”

標(biāo)簽： DeepMindAIMuZero