研究人員探索自然語(yǔ)言處理以評(píng)估國(guó)際象棋動(dòng)作

2022-06-25 03:52:01 編輯：蒲紅雄來源：

導(dǎo)讀國(guó)際象棋和人工智能再次出現(xiàn)在新聞中，這次是關(guān)于通過自然語(yǔ)言處理(NLP)探索國(guó)際象棋模型的團(tuán)隊(duì)的報(bào)道。學(xué)習(xí)機(jī)制是國(guó)際象棋喋喋不休 -

國(guó)際象棋和人工智能再次出現(xiàn)在新聞中，這次是關(guān)于通過自然語(yǔ)言處理(NLP)探索國(guó)際象棋模型的團(tuán)隊(duì)的報(bào)道。學(xué)習(xí)機(jī)制是國(guó)際象棋喋喋不休 - 精心挑選的聊天。他們預(yù)先訓(xùn)練了與國(guó)際象棋動(dòng)作相關(guān)的評(píng)論情緒。情緒引導(dǎo)了代理人的決策。

他們產(chǎn)生的國(guó)際象棋算法旨在通過分析專家評(píng)論員的反應(yīng)來評(píng)估國(guó)際象棋動(dòng)作的質(zhì)量。

倫敦大學(xué)學(xué)院的三位研究人員寫了一篇論文，描述了他們的方法和結(jié)果。Isaac Kamlish，Isaac Chocron和Nicholas McCarthy寫了“SentiMATE：學(xué)習(xí)通過自然語(yǔ)言處理來玩國(guó)際象棋”，它正在arXiv上。該文件于上個(gè)月提交。

“我們推出SentiMATE，一種新穎的國(guó)際象棋端到端深度學(xué)習(xí)模式，采用自然語(yǔ)言處理，旨在學(xué)習(xí)評(píng)估運(yùn)動(dòng)質(zhì)量的有效評(píng)估功能。該功能是根據(jù)與訓(xùn)練動(dòng)作相關(guān)的評(píng)論情緒進(jìn)行預(yù)先訓(xùn)練的，用于指導(dǎo)和優(yōu)化代理人的游戲決策。“

不要邀請(qǐng)AlphaZero和這個(gè)NLP模型參加同一個(gè)聚會(huì); 他們會(huì)呆在房間的兩邊。研究人員寫道，Deep Mind的AlphaZero在經(jīng)過數(shù)百萬次自我游戲并使用數(shù)千個(gè)Tensor Processing Units(TPU)之后取得了成功。新研究并非如此。

相反，他們說，他們的目標(biāo)是“通過使用自然語(yǔ)言處理來評(píng)估個(gè)人運(yùn)動(dòng)的質(zhì)量......來自不同國(guó)際象棋網(wǎng)站的數(shù)據(jù)被刪除，其中包括有關(guān)正在采取的行動(dòng)的信息，以及對(duì)定性評(píng)估由各種國(guó)際象棋選手撰寫的評(píng)論形式的動(dòng)作本身;導(dǎo)致一個(gè)大型的動(dòng)作數(shù)據(jù)庫(kù)，帶有注釋注釋。“

“它通過分析專家評(píng)論員的反應(yīng)來評(píng)估國(guó)際象棋動(dòng)作的質(zhì)量，” 麻省理工學(xué)院技術(shù)評(píng)論的 Will Knight說。

他補(bǔ)充說，研究人員修剪了與高質(zhì)量動(dòng)作無關(guān)的評(píng)論以及過于含糊不清的例子。“然后他們使用了一種特殊類型的遞歸神經(jīng)網(wǎng)絡(luò)和單詞嵌入(一種基于其意義連接單詞的數(shù)學(xué)技術(shù))，在另一種用于分析語(yǔ)言的最先進(jìn)模型上進(jìn)行訓(xùn)練。”

該算法稱為SentiMATE，它自己制定了國(guó)際象棋的基本規(guī)則以及幾種關(guān)鍵策略 - 包括分叉和鑄造。

該團(tuán)隊(duì)發(fā)現(xiàn)SentiMATE能夠“基于預(yù)先訓(xùn)練的情緒評(píng)估功能來評(píng)估國(guó)際象棋動(dòng)作”。他們的結(jié)論是，有強(qiáng)有力的證據(jù)支持自然語(yǔ)言處理用于訓(xùn)練國(guó)際象棋引擎中的評(píng)估功能。

他們解決方案的表現(xiàn)并不那么引人注目。奈特說，“它未能一直擊敗一些傳統(tǒng)的國(guó)際象棋機(jī)器人。” 但是，這不應(yīng)該分散SentiMATE工作的事實(shí)及其工作方式：

“SentiMATE讓研究人員感到驚訝，因?yàn)樗心芰χ贫▏?guó)際象棋的一些基本原則以及幾個(gè)關(guān)鍵策略，例如分叉(當(dāng)兩件或多件同時(shí)受到威脅時(shí))和鑄造(當(dāng)國(guó)王和城堡都移動(dòng)到作者說，在董事會(huì)的背后更具防守地位。

重要的是要努力設(shè)計(jì)這樣一個(gè)程序：語(yǔ)言是否可以用比傳統(tǒng)方法更少的練習(xí)數(shù)據(jù)來教授如何下象棋?

ZME Science的 Tibi Puiu 考慮到了這一點(diǎn)：

“只是這一次，他們的機(jī)器學(xué)習(xí)計(jì)劃沒有練習(xí)數(shù)百萬游戲來掌握國(guó)際象棋，而是分析了專家評(píng)論員的語(yǔ)言。有一天，研究人員說，類似的方法可以讓機(jī)器破譯情感語(yǔ)言并獲得可能具備的技能。否則無法通過'蠻力'進(jìn)入。“

至于模型不是超級(jí)國(guó)際象棋冠軍，他說，“高級(jí)別的表現(xiàn)不是它的目標(biāo)。在SentiMATE閃耀的地方在于它使用語(yǔ)言獲得技能而不是練習(xí)它的能力。”

在他們的論文中，作者談到了支持他們研究的最重要的數(shù)據(jù)集。“在根據(jù)評(píng)論對(duì)數(shù)據(jù)集進(jìn)行清理和分類，對(duì)國(guó)際象棋移動(dòng)進(jìn)行比較，并將情感分析應(yīng)用于評(píng)論時(shí)，我們向SentiChess提供了以比特格式表示的15,000張國(guó)際象棋移動(dòng)的數(shù)據(jù)集，以及他們的評(píng)論和情緒評(píng)估。此數(shù)據(jù)集在希望進(jìn)一步發(fā)展基于情感的國(guó)際象棋模型和統(tǒng)計(jì)移動(dòng)分析的工作。“

展望未來，Will Knight表示游戲相關(guān)的聊天可以幫助AI程序?qū)W會(huì)以新的方式玩游戲。除了象棋之外，“同樣的技術(shù)可以讓機(jī)器使用我們語(yǔ)言的情感內(nèi)容來掌握各種實(shí)際任務(wù)。”

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！