您的位置: 首頁 >科技 >

如何通過Facebook建立一個ace-hole AI機(jī)器人

2022-06-26 16:16:21 編輯:胥朗保 來源:
導(dǎo)讀 人工智能軟件可以在一對一的比賽中輕松勝過人類撲克職業(yè)選手和業(yè)余選手,這是眾所周知的?,F(xiàn)在,有史以來第一次建立了一個人工智能機(jī)器人

人工智能軟件可以在一對一的比賽中輕松勝過人類撲克職業(yè)選手和業(yè)余選手,這是眾所周知的。

現(xiàn)在,有史以來第一次建立了一個人工智能機(jī)器人,可以在六人無限制德州撲克牌桌上擊敗人類專業(yè)人士,并且已經(jīng)在周四發(fā)表在“科學(xué)” 雜志上的一篇學(xué)術(shù)論文中有所描述。

被稱為Pluribus的網(wǎng)絡(luò)鯊魚通過在八天內(nèi)反復(fù)播放數(shù)萬億的游戲來學(xué)習(xí)如何玩流行的紙牌游戲。當(dāng)它與五位精英撲克職業(yè)玩家(包括世界撲克系列錦標(biāo)賽冠軍克里斯弗格森和邁克爾加利亞諾)共同打出10,000手牌時,它果斷地獲勝。

根據(jù)該論文的第一作者諾姆·布朗(Noam Brown)的說法,如果人工智能機(jī)器人一直在玩真錢游戲,而不是玩籌碼,那么平均每小時可以獲得1000美元玩六人無限制德州撲克。Facebook AI Research的研究科學(xué)家。據(jù)我們所知,該軟件以10,000美元的買入價玩了50美元/ 100美元無限注德州撲克現(xiàn)金游戲。

Pluribus的核心是一種稱為反事實后悔最小化(CFM)的自我發(fā)揮算法,其他撲克機(jī)器人也使用它。

該軟件基本上反對自身的多個副本,以逐步提高其技能。創(chuàng)建虛擬玩家表并給出隨機(jī)策略。對于算法的每次迭代,選擇一個玩家作為所謂的遍歷者。

在迭代之間的每個模擬手之后,代碼會回顧遍歷者的表現(xiàn),以及它是否可以針對其虛擬對手做得更好,因為他們已知的個人策略。該算法計算了遍歷者的反事實后悔,或者換句話說,遍歷者后悔沒有做出一個本來有益的舉動。在迭代結(jié)束時,這個反事實后悔被用來更新遍歷者的策略,以便在將來做出之前后悔沒有做出的動作時有更高的概率。然后它進(jìn)入下一次迭代并選擇另一個遍歷器。

它非常聰明,因為它意味著軟件從比較好的時候開始學(xué)習(xí),當(dāng)它有好手時應(yīng)該調(diào)用,或者在需要強(qiáng)制推出其他播放器時提高,或者在調(diào)用的價格不是時折疊值得冒風(fēng)險。

在桌子上

在Pluribus按照描述進(jìn)行訓(xùn)練之后,它吸引了人類撲克專家。該軟件的決定在游戲過程中得到了改善,通過監(jiān)控其有血有肉的對手如何發(fā)揮作用。它會在游戲過程中考慮四種策略:一種是堅持一種稱為“藍(lán)圖”的預(yù)先計算的策略,一種是傾向于積極地提升而不是一種策略,一種是像尼特一樣經(jīng)常折疊并且更頻繁地折疊的策略。一個傾向于成為呼叫站的地方。

當(dāng)它看到桌子上已經(jīng)處理了哪些牌時,它忽略了它私下持有的兩張牌 - 它的底牌 - 而是考慮到牌桌上的社區(qū)牌,它可以通過它可能持有的所有可能的牌組合,并確定它們將采取哪些行動。

至關(guān)重要的是,它被編程為平衡其動作,以便它并不總是放棄其手的力量或弱點(例如總是用ac??es提升,或者總是折疊三種以下的任何東西)。

然后它查看了它的實際底牌,然后選擇了分配給該組合的動作。這確保了它的虛張聲勢,攻擊性,陷阱等等,以一種不明顯或不可預(yù)測的平衡方式。無論P(yáng)luribus是在一場比賽中對抗五個人類玩家還是五個機(jī)器人和一個人類,這種方法似乎運作良好。當(dāng)它與其他四個機(jī)器人和超過5000手的人類對戰(zhàn)時,它仍然令人信服地獲勝。

“與撲克機(jī)器人對戰(zhàn)并看到它選擇的一些策略令人難以置信,” 2016年贏得世界撲克錦標(biāo)賽手鐲的邁克爾加利亞諾說道。“有幾部戲劇人類根本就沒有制作,特別是與其下注大小有關(guān)。“

克里斯“耶穌”弗格森,一個眾所周知的緊身多手球運動員,補(bǔ)充說:“Pluribus是一個非常努力的對手。很難用任何一手牌將他擊倒。他也很擅長做出薄弱的賭注。這條河。他非常擅長從好人手中榨取價值。“

現(xiàn)在,讓我們做一些事情:一,是的,這不是真正的錢,這意味著人類沒有什么可失去的,因此可能有不同的表現(xiàn),盡管對這些家伙來說10,000美元并不是很多,真實與否。此外,盡管人類在絕大多數(shù)撲克玩家之上都是首屈一指的,并且已經(jīng)贏得了數(shù)百萬美元,但卻不是世界上最好的。我們正在考慮Phil Ivey,Daniel Negreanu,F(xiàn)edor Holz,Erik Seidel,Justin Bonomo等等。我們的意思是,這個軟件并沒有完全擊敗人類。

除此之外,這是非??岬募夹g(shù):它可以看到激烈的專業(yè)人士。

不需要GPU

Pluribus在具有64個CPU內(nèi)核的服務(wù)器上進(jìn)行了培訓(xùn),并在8天內(nèi)共運行了12,400個CPU核心小時。它需要不到512GB的內(nèi)存。它在Facebook和卡內(nèi)基梅隆大學(xué)(CMU)的主謀認(rèn)為,如果他們通過公共云實例租用計算資源,那么它的成本將低于150美元。

訓(xùn)練結(jié)束后,Pluribus在一個擁有兩個CPU并且需要不到128GB內(nèi)存的系統(tǒng)上運行人類對手。對于游戲中的每個動作,通常需要1到33秒的時間來執(zhí)行搜索操作。

“該領(lǐng)域的一些專家擔(dān)心未來的人工智能研究將由擁有數(shù)百萬美元計算資源的大型團(tuán)隊主導(dǎo)。我們相信Pluribus是強(qiáng)有力的證據(jù),表明只需要適度資源的新方法可以推動前沿的AI研究,“布朗說。

降低撲克的復(fù)雜性

Pluribus與其前輩DeepStack和Libratus并沒有太大的不同。它仍然使用CFM算法,但不再依賴于計算納什均衡,這是一種在博弈論中提出的解決方案,它找到了最優(yōu)穩(wěn)定的策略,如果其他對手都沒有,則沒有動力偏離均衡。例如,搖滾剪刀游戲中的納什均衡是在三個選項之間隨機(jī)選擇,假設(shè)這也是你的對手所做的事情。

如果只有另外一個人可以對抗,那么計算納什均衡就沒那問題了。但是一旦游戲包含三個或更多玩家,計算機(jī)就會變得太多了。相反,Pluribus結(jié)合了從自我游戲中獲得的撲克知識,并將其與搜索算法相結(jié)合,該搜索算法只需考慮前面的幾個步驟而不是整個游戲。

進(jìn)一步簡化搜索過程以降低復(fù)雜性。不是每個動作都需要考慮,游戲中的類似決策點被拼湊在一起并被視為相同。研究人員將此描述為抽象,Pluribus在考慮應(yīng)采取的行動以及可獲得的信息時使用它。

“行動抽象減少了AI需要考慮的不同行動的數(shù)量。無限制德州撲克通常允許在100美元到10,000美元之間進(jìn)行任何全價。然而,在實踐中,200美元和201美元之間幾乎沒有區(qū)別。為了降低形成策略的復(fù)雜性,Pluribus在任何給定的決策點只考慮幾種不同的下注大小,“他們在論文中寫道。

當(dāng)涉及信息抽象時,雖然十個高直和九高直是一組不同的卡,但它們會產(chǎn)生類似的策略。AI機(jī)器人將這些組合在一起并將它們視為相同,因此不必為每個場景計算兩種不同的策略。

撲克是一個復(fù)雜的問題需要解決,因為每個玩家都無法看到其他玩家手中的牌,這使得它成為一個不完美的信息游戲。通過使用抽象,游戲的復(fù)雜性降低,并且可以有效地對抗多個對手。

在線撲克可能不會毀了?

代碼將不公開,謝天謝地,所以撲克愛好者將無法啟動他們自己的AI主機(jī)器人試圖在網(wǎng)上快速降壓。實際上,由于代碼的主要部分是由CMU在由計算機(jī)科學(xué)教授Tuomas Sandholm領(lǐng)導(dǎo)的實驗室中編寫的,因此該軟件的許可實際上屬于他創(chuàng)立的兩家公司:Strategic Machines和Strategy Robot。

為了研究目的,F(xiàn)acebook幫助建立在代碼之上。Sandholm告訴The Register,盡管Pluribus用于撲克,但它適用于具有不完全信息的類似場景。

Strategic Machine正在考慮將該技術(shù)應(yīng)用于一系列行業(yè),包括游戲,金融和醫(yī)療保健。Strategy Robot以為重點,以智能和安全為目標(biāo)。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。