如何通過Facebook建立一個ace-hole AI機(jī)器人

2022-06-26 16:16:21 編輯：胥朗保來源：

導(dǎo)讀人工智能軟件可以在一對一的比賽中輕松勝過人類撲克職業(yè)選手和業(yè)余選手，這是眾所周知的?，F(xiàn)在，有史以來第一次建立了一個人工智能機(jī)器人

人工智能軟件可以在一對一的比賽中輕松勝過人類撲克職業(yè)選手和業(yè)余選手，這是眾所周知的。

現(xiàn)在，有史以來第一次建立了一個人工智能機(jī)器人，可以在六人無限制德州撲克牌桌上擊敗人類專業(yè)人士，并且已經(jīng)在周四發(fā)表在“科學(xué)” 雜志上的一篇學(xué)術(shù)論文中有所描述。

被稱為Pluribus的網(wǎng)絡(luò)鯊魚通過在八天內(nèi)反復(fù)播放數(shù)萬億的游戲來學(xué)習(xí)如何玩流行的紙牌游戲。當(dāng)它與五位精英撲克職業(yè)玩家(包括世界撲克系列錦標(biāo)賽冠軍克里斯弗格森和邁克爾加利亞諾)共同打出10,000手牌時，它果斷地獲勝。

根據(jù)該論文的第一作者諾姆·布朗(Noam Brown)的說法，如果人工智能機(jī)器人一直在玩真錢游戲，而不是玩籌碼，那么平均每小時可以獲得1000美元玩六人無限制德州撲克。Facebook AI Research的研究科學(xué)家。據(jù)我們所知，該軟件以10,000美元的買入價玩了50美元/ 100美元無限注德州撲克現(xiàn)金游戲。

Pluribus的核心是一種稱為反事實后悔最小化(CFM)的自我發(fā)揮算法，其他撲克機(jī)器人也使用它。

該軟件基本上反對自身的多個副本，以逐步提高其技能。創(chuàng)建虛擬玩家表并給出隨機(jī)策略。對于算法的每次迭代，選擇一個玩家作為所謂的遍歷者。

在迭代之間的每個模擬手之后，代碼會回顧遍歷者的表現(xiàn)，以及它是否可以針對其虛擬對手做得更好，因為他們已知的個人策略。該算法計算了遍歷者的反事實后悔，或者換句話說，遍歷者后悔沒有做出一個本來有益的舉動。在迭代結(jié)束時，這個反事實后悔被用來更新遍歷者的策略，以便在將來做出之前后悔沒有做出的動作時有更高的概率。然后它進(jìn)入下一次迭代并選擇另一個遍歷器。

它非常聰明，因為它意味著軟件從比較好的時候開始學(xué)習(xí)，當(dāng)它有好手時應(yīng)該調(diào)用，或者在需要強(qiáng)制推出其他播放器時提高，或者在調(diào)用的價格不是時折疊值得冒風(fēng)險。

在桌子上

在Pluribus按照描述進(jìn)行訓(xùn)練之后，它吸引了人類撲克專家。該軟件的決定在游戲過程中得到了改善，通過監(jiān)控其有血有肉的對手如何發(fā)揮作用。它會在游戲過程中考慮四種策略：一種是堅持一種稱為“藍(lán)圖”的預(yù)先計算的策略，一種是傾向于積極地提升而不是一種策略，一種是像尼特一樣經(jīng)常折疊并且更頻繁地折疊的策略。一個傾向于成為呼叫站的地方。

當(dāng)它看到桌子上已經(jīng)處理了哪些牌時，它忽略了它私下持有的兩張牌 - 它的底牌 - 而是考慮到牌桌上的社區(qū)牌，它可以通過它可能持有的所有可能的牌組合，并確定它們將采取哪些行動。

至關(guān)重要的是，它被編程為平衡其動作，以便它并不總是放棄其手的力量或弱點(例如總是用ac??es提升，或者總是折疊三種以下的任何東西)。

然后它查看了它的實際底牌，然后選擇了分配給該組合的動作。這確保了它的虛張聲勢，攻擊性，陷阱等等，以一種不明顯或不可預(yù)測的平衡方式。無論P(yáng)luribus是在一場比賽中對抗五個人類玩家還是五個機(jī)器人和一個人類，這種方法似乎運作良好。當(dāng)它與其他四個機(jī)器人和超過5000手的人類對戰(zhàn)時，它仍然令人信服地獲勝。

“與撲克機(jī)器人對戰(zhàn)并看到它選擇的一些策略令人難以置信，” 2016年贏得世界撲克錦標(biāo)賽手鐲的邁克爾加利亞諾說道。“有幾部戲劇人類根本就沒有制作，特別是與其下注大小有關(guān)。“

克里斯“耶穌”弗格森，一個眾所周知的緊身多手球運動員，補(bǔ)充說：“Pluribus是一個非常努力的對手。很難用任何一手牌將他擊倒。他也很擅長做出薄弱的賭注。這條河。他非常擅長從好人手中榨取價值。“

現(xiàn)在，讓我們做一些事情：一，是的，這不是真正的錢，這意味著人類沒有什么可失去的，因此可能有不同的表現(xiàn)，盡管對這些家伙來說10,000美元并不是很多，真實與否。此外，盡管人類在絕大多數(shù)撲克玩家之上都是首屈一指的，并且已經(jīng)贏得了數(shù)百萬美元，但卻不是世界上最好的。我們正在考慮Phil Ivey，Daniel Negreanu，F(xiàn)edor Holz，Erik Seidel，Justin Bonomo等等。我們的意思是，這個軟件并沒有完全擊敗人類。

除此之外，這是非?？岬募夹g(shù)：它可以看到激烈的專業(yè)人士。

不需要GPU

Pluribus在具有64個CPU內(nèi)核的服務(wù)器上進(jìn)行了培訓(xùn)，并在8天內(nèi)共運行了12,400個CPU核心小時。它需要不到512GB的內(nèi)存。它在Facebook和卡內(nèi)基梅隆大學(xué)(CMU)的主謀認(rèn)為，如果他們通過公共云實例租用計算資源，那么它的成本將低于150美元。

訓(xùn)練結(jié)束后，Pluribus在一個擁有兩個CPU并且需要不到128GB內(nèi)存的系統(tǒng)上運行人類對手。對于游戲中的每個動作，通常需要1到33秒的時間來執(zhí)行搜索操作。

“該領(lǐng)域的一些專家擔(dān)心未來的人工智能研究將由擁有數(shù)百萬美元計算資源的大型團(tuán)隊主導(dǎo)。我們相信Pluribus是強(qiáng)有力的證據(jù)，表明只需要適度資源的新方法可以推動前沿的AI研究，“布朗說。

降低撲克的復(fù)雜性

Pluribus與其前輩DeepStack和Libratus并沒有太大的不同。它仍然使用CFM算法，但不再依賴于計算納什均衡，這是一種在博弈論中提出的解決方案，它找到了最優(yōu)穩(wěn)定的策略，如果其他對手都沒有，則沒有動力偏離均衡。例如，搖滾剪刀游戲中的納什均衡是在三個選項之間隨機(jī)選擇，假設(shè)這也是你的對手所做的事情。

如果只有另外一個人可以對抗，那么計算納什均衡就沒那問題了。但是一旦游戲包含三個或更多玩家，計算機(jī)就會變得太多了。相反，Pluribus結(jié)合了從自我游戲中獲得的撲克知識，并將其與搜索算法相結(jié)合，該搜索算法只需考慮前面的幾個步驟而不是整個游戲。

進(jìn)一步簡化搜索過程以降低復(fù)雜性。不是每個動作都需要考慮，游戲中的類似決策點被拼湊在一起并被視為相同。研究人員將此描述為抽象，Pluribus在考慮應(yīng)采取的行動以及可獲得的信息時使用它。

“行動抽象減少了AI需要考慮的不同行動的數(shù)量。無限制德州撲克通常允許在100美元到10,000美元之間進(jìn)行任何全價。然而，在實踐中，200美元和201美元之間幾乎沒有區(qū)別。為了降低形成策略的復(fù)雜性，Pluribus在任何給定的決策點只考慮幾種不同的下注大小，“他們在論文中寫道。

當(dāng)涉及信息抽象時，雖然十個高直和九高直是一組不同的卡，但它們會產(chǎn)生類似的策略。AI機(jī)器人將這些組合在一起并將它們視為相同，因此不必為每個場景計算兩種不同的策略。

撲克是一個復(fù)雜的問題需要解決，因為每個玩家都無法看到其他玩家手中的牌，這使得它成為一個不完美的信息游戲。通過使用抽象，游戲的復(fù)雜性降低，并且可以有效地對抗多個對手。

在線撲克可能不會毀了?

代碼將不公開，謝天謝地，所以撲克愛好者將無法啟動他們自己的AI主機(jī)器人試圖在網(wǎng)上快速降壓。實際上，由于代碼的主要部分是由CMU在由計算機(jī)科學(xué)教授Tuomas Sandholm領(lǐng)導(dǎo)的實驗室中編寫的，因此該軟件的許可實際上屬于他創(chuàng)立的兩家公司：Strategic Machines和Strategy Robot。

為了研究目的，F(xiàn)acebook幫助建立在代碼之上。Sandholm告訴The Register，盡管Pluribus用于撲克，但它適用于具有不完全信息的類似場景。

Strategic Machine正在考慮將該技術(shù)應(yīng)用于一系列行業(yè)，包括游戲，金融和醫(yī)療保健。Strategy Robot以為重點，以智能和安全為目標(biāo)。

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！