面向智能博弈游戲的卷積神經(jīng)網(wǎng)絡(luò)估值方法

2020-07-13 12:56:32許華虎談廣云

計(jì)算機(jī)應(yīng)用與軟件 2020年7期

關(guān)鍵詞：模型

唐杰許華虎談廣云

1(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院上海 200444)2(杭州浮云科技網(wǎng)絡(luò)有限公司浙江杭州 310000)

0 引言

人工智能研究界中，機(jī)器博弈是一個(gè)廣受關(guān)注的領(lǐng)域。機(jī)器博弈具有一組有限的定義良好的規(guī)則，研究它們可以方便地測(cè)試新的方法，從而準(zhǔn)確地衡量新方法的好壞程度。測(cè)試是通過(guò)比較許多與基于其他方法的程序博弈或與人類選手博弈的結(jié)果來(lái)完成的，這意味著機(jī)器博弈擁有一個(gè)定義良好的用于測(cè)量其發(fā)展進(jìn)程的度量標(biāo)準(zhǔn)[1]，進(jìn)而可以更精確地判斷該解決方案是否是解決給定問(wèn)題的最佳解決方案。此外，機(jī)器博弈具有娛樂性，并且對(duì)娛樂行業(yè)的重要性日益增加，這一事實(shí)促進(jìn)了人們對(duì)該領(lǐng)域的進(jìn)一步研究。

機(jī)器博弈研究已經(jīng)取得了許多顯著的成果，比如著名的深藍(lán)計(jì)算機(jī)，這是第一臺(tái)擊敗人類象棋冠軍的計(jì)算機(jī)[2]。然而，對(duì)于非完備信息博弈，尚未取得這樣的成功。因?yàn)檫@類博弈的狀態(tài)并不完全可見，意味著存在隱藏的變量/特征。因此，在這類博弈中做出決策更加困難，必須對(duì)缺失數(shù)據(jù)做出預(yù)測(cè)，這使得獲得最佳解決方案幾乎不可能。

撲克是一款具有這種性質(zhì)的非常受歡迎的博弈游戲，因?yàn)橥婕也恢缹?duì)手的手牌。計(jì)算機(jī)撲克的研究在過(guò)去幾年一直很活躍。人們開發(fā)了一些撲克智能程序，但它們都沒有達(dá)到類似于專業(yè)人類玩家的水平。為了克服在先前開發(fā)智能程序過(guò)程中出現(xiàn)的問(wèn)題，本文提出了一個(gè)新的思路。該方法試圖利用現(xiàn)在很火的卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)人類專家經(jīng)驗(yàn)進(jìn)而讓程序接近或者達(dá)到專業(yè)人類玩家的水平。

1 背景

撲克是數(shù)百款具有相似規(guī)則游戲的通用名稱。計(jì)算機(jī)撲克研究的重點(diǎn)就是撲克的一種變體——德州撲克，它可能是當(dāng)今最受歡迎的撲克游戲。德州撲克具有使新開發(fā)的方法能夠以較少的成本便能運(yùn)用在其他種類撲克上的特性。

這個(gè)游戲是基于玩家打賭他們現(xiàn)在的手牌比對(duì)手的手牌要強(qiáng)的想法。整個(gè)游戲中的所有賭注都放在彩池里，游戲結(jié)束時(shí)，手牌排名最高的玩家獲勝。或者，也可以通過(guò)強(qiáng)迫對(duì)手下注他們不愿意比賽來(lái)贏得比賽。因此，由于對(duì)手的牌是隱藏的，用一只得分較低的手牌贏得比賽是有可能的，這是通過(guò)虛張聲勢(shì)——說(shuō)服對(duì)手自己的手牌是排名最高的一只。

1.1 手牌得分等級(jí)

德州撲克中，玩家的手牌指的是由定義玩家得分的5張撲克牌組成的牌組。在游戲的任何階段，手牌等級(jí)都是由2張底牌和5張公共牌的組合可能得到的最高得分給出的。可能的手牌等級(jí)排行是(從強(qiáng)到弱)：同花順(同一花色，順序的牌)，四條(四張同一點(diǎn)數(shù)的牌)，滿堂紅(三張同一點(diǎn)數(shù)的牌，加一對(duì)其他點(diǎn)數(shù)的牌)，同花(五張同一花色的牌)，順子(五張順連的牌)，三條(三張點(diǎn)相同的牌)，兩對(duì)(兩張點(diǎn)數(shù)相同的牌，加另外兩張點(diǎn)數(shù)相同的牌)，一對(duì)(兩張點(diǎn)數(shù)相同的牌)，高牌(不屬于上面任何一種牌型的牌，由不連續(xù)不同花的牌組成，以點(diǎn)數(shù)決定大小)。

1.2 德州撲克的規(guī)則

德州撲克采用52張撲克牌(除去兩張王牌),游戲玩家人數(shù)限制在2～9人。在牌局開始時(shí),荷官會(huì)給每個(gè)玩家發(fā)2張“底牌”(只有個(gè)人看到),桌面上會(huì)分三次陸續(xù)發(fā)出3張、1張、1張(共5張)的公共牌,在經(jīng)過(guò)四輪的“加注”、“跟注”和“棄牌”等押注圈操作后,若牌局存在至少兩名玩家仍然沒有棄牌的情況下,進(jìn)入“攤牌”階段,在自己的2張底牌和5張公共牌中挑選5張卡牌形成牌組,按照牌型大小規(guī)則分出勝負(fù),贏家拿下“彩池”中全部籌碼。

1.3 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)代表由卷積層、最大池層和完全連接層的各種組合組成的前饋神經(jīng)網(wǎng)絡(luò)，并通過(guò)在相鄰層神經(jīng)元之間實(shí)施局部連接模式來(lái)利用空間局部相關(guān)性。卷積層與最大聚集層交替，模擬哺乳動(dòng)物視覺皮層中復(fù)雜和簡(jiǎn)單細(xì)胞的性質(zhì)[3]。CNN由一對(duì)或多對(duì)卷積和最大池層組成，最終以完全連接的神經(jīng)網(wǎng)絡(luò)結(jié)束。典型的卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示[4]。

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

在普通的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network，DNN)中，一個(gè)神經(jīng)元與下一層的所有神經(jīng)元相連。CNN不同于普通神經(jīng)網(wǎng)絡(luò)，因?yàn)榫矸e層的神經(jīng)元僅根據(jù)相對(duì)位置稀疏地與下一層的神經(jīng)元相連。在完全連接的DNN中，每個(gè)隱藏節(jié)點(diǎn)的輸入都是通過(guò)將整個(gè)輸入乘以該層中的權(quán)重來(lái)計(jì)算的。然而，在CNN中，每個(gè)隱藏層節(jié)點(diǎn)的輸入都是通過(guò)將部分的局部輸入與權(quán)重相乘來(lái)計(jì)算的。然后在整個(gè)輸入空間中共享權(quán)重，如圖1所示。屬于同一層的神經(jīng)元具有相同的權(quán)重。權(quán)重分配是CNN中的一個(gè)關(guān)鍵原則，因?yàn)樗兄跍p少訓(xùn)練參數(shù)的總數(shù)，并產(chǎn)生更有效的訓(xùn)練和模型。卷積層之后通常是池化層。

池的作用是使特征在位置上保持不變，并通過(guò)池函數(shù)概括出卷積層中多個(gè)神經(jīng)元的輸出。典型的池函數(shù)是max pooling。max pooling將輸入數(shù)據(jù)劃分為一組不重疊的窗口，并為每個(gè)子區(qū)域輸出最大值，降低上層的計(jì)算復(fù)雜性，并提供一種形式的轉(zhuǎn)換不變性。為了用于分類，CNN的計(jì)算鏈以一個(gè)完全連接的網(wǎng)絡(luò)結(jié)束，該網(wǎng)絡(luò)集成了下面層所有特征圖中所有位置的信息。

2 相關(guān)工作

構(gòu)建計(jì)算機(jī)撲克程序的第一種方法是基于規(guī)則的方法，它涉及到為給定的游戲狀態(tài)指定應(yīng)該采取的操作[1]。以下方法基于模擬技術(shù)[1，5，7]，即生成隨機(jī)實(shí)例以獲得統(tǒng)計(jì)平均值并決定操作。這些方法指導(dǎo)產(chǎn)生了能夠擊敗弱小的人類對(duì)手的智能程序。

1951年Johanson[8]在其《非均衡博弈》博士論文中提出納什均衡理論。自此，計(jì)算機(jī)撲克研究開始有重大突破，基于納什均衡的方法出現(xiàn)了：最佳響應(yīng)[10]、受限納什響應(yīng)[1，11]和數(shù)據(jù)偏向響應(yīng)[12]。目前，最好的計(jì)算機(jī)撲克程序Polaris[12]使用這些方法的混合。

其他最近的方法是基于模式匹配[13-14]和蒙特卡洛樹搜索算法[14-15]。

與本文方法密切相關(guān)的成功工作是文獻(xiàn)[16]。它為另一個(gè)撲克牌變種——斗地主提供了深度學(xué)習(xí)方法。這種方法是從地主的角度出發(fā)使用卷積神經(jīng)網(wǎng)絡(luò)從一定數(shù)量的歷史卡片信息的基礎(chǔ)上，提取出地主的主要特征，并對(duì)農(nóng)民的手牌做出合理的預(yù)測(cè)。還有Clark等[17]針對(duì)圍棋問(wèn)題提出的一種方法。

盡管取得了所有的突破，但目前還沒有一種已知的方法能使智能程序在與人類玩家博弈時(shí)取得很好的成績(jī)。

3 基于卷積神經(jīng)網(wǎng)絡(luò)的估值算法

縱觀近幾年關(guān)于博弈問(wèn)題的研究，發(fā)現(xiàn)多數(shù)的研究者使用淺層人工神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)對(duì)手在博弈中的決策行為以此來(lái)建立對(duì)手模型，從而規(guī)避非完備信息博弈問(wèn)題中搜索空間過(guò)大以及部分信息不可獲取的難題。本文提出的方法是利用現(xiàn)在流行的卷積神經(jīng)網(wǎng)絡(luò)，學(xué)習(xí)博弈專家的博弈策略，使得估值算法模型得到的估值更加精確和可信。

3.1 網(wǎng)絡(luò)輸入的建模方法

如何對(duì)德州撲克棋局狀態(tài)建模使之能夠作為卷積神經(jīng)網(wǎng)絡(luò)的輸入是一大挑戰(zhàn)。與處理圖像問(wèn)題不同，圖像本身就是一個(gè)三維的矩陣，可以直接作為神經(jīng)網(wǎng)絡(luò)的輸入，但是德州撲克的棋局狀態(tài)則不同。因此，我們必須對(duì)其進(jìn)行建模，轉(zhuǎn)換成可以直接輸入的形式。

每副撲克牌不包括大小王共有52張牌，分為4種不同花色，分別是黑桃(Spade)、紅桃(Heart)、方塊(Diamond)、梅(Club)，每種花色有13張牌，分別是2、3、4、5、6、7、8、9、10、J、Q、K、A，可以用一個(gè)4×13的矩陣來(lái)表示每一張牌。但在實(shí)際工程中，為了方便卷積層做卷積，我們將這個(gè)矩陣用0填充擴(kuò)充成一個(gè)17×17的矩陣。

如圖2所示，在一個(gè)三維矩陣的[1,1,8]和[2,1,7]位置填充1，其他位置均為0，這代表牌局開始時(shí)，玩家拿到的手牌是黑桃8和黑桃9。

圖2 玩家底牌矩陣模型

阿爾伯塔大學(xué)的邁克爾·鮑林教授和他的團(tuán)隊(duì)曾經(jīng)對(duì)影響撲克決策的因素展開過(guò)研究。研究發(fā)現(xiàn)，自己手牌的牌值大小、當(dāng)前場(chǎng)上的公共牌、對(duì)手的動(dòng)作序列(比如是跟注和加注等行為)、當(dāng)前的博弈階段、自己對(duì)對(duì)手手牌的牌值估計(jì)、下注金額等因素都會(huì)對(duì)博弈的決策產(chǎn)生或多或少的影響。本文綜合考慮了上述的情況，最終得到一個(gè)16×17×17的三維矩陣作為CNN網(wǎng)絡(luò)的輸入。

表1顯示了二人德州撲克局面信息建模所得的矩陣的具體信息。

表1 二人德州撲克局面信息矩陣建模詳情

3.2 估值算法

博弈是一個(gè)狀態(tài)不斷變化的過(guò)程。實(shí)際的博弈過(guò)程中，第i層博弈局面的估值應(yīng)該是基于第i-1層博弈局面的估值，因此它們的估值應(yīng)該是相差不大的。基于以上的假設(shè)可以推出以下結(jié)論：

設(shè)S1,S2,S3,…,Sn是博弈初始狀態(tài)到終局狀態(tài)的狀態(tài)序列，其中S1代表博弈開始的時(shí)候的狀態(tài)，Sn代表博弈結(jié)束時(shí)刻的狀態(tài)。E(x)為博弈局面的估值函數(shù)，即t時(shí)刻的估值就是E(St)。在實(shí)際的博弈過(guò)程中，博弈體很難做到對(duì)所有的中間局面進(jìn)行準(zhǔn)確的估值，但可以輕松地確定終局時(shí)刻的博弈局面估值。例如可以設(shè)博弈終局時(shí)刻的估值為：

E(Sn)=1 代表獲勝

(1)

E(Sn)=0 代表失敗

(2)

第i層博弈局面的估值應(yīng)該是基于第i-1的。因此，在距離終局的前一時(shí)刻的Sn-1的估值可以由下式求出：

E(Sn-1)=γ·E(Sn)

(3)

雖然相鄰兩個(gè)狀態(tài)的估值相差不大，但也并非是完全相同，因此可以在式中加入一個(gè)參數(shù)γ滿足γ∈(0,1)，用來(lái)調(diào)整不同的博弈局面的估值。將該公式進(jìn)行推廣，可以得到：

E(St-1)=γ·E(St)t=2,3,4,…,n

(4)

對(duì)于人工神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)，在博弈終局時(shí)刻的期望輸出可以用式(1)或式(2)來(lái)表示，在前面的各個(gè)時(shí)刻，則可以通過(guò)式(3)計(jì)算出來(lái)。

本文認(rèn)為學(xué)習(xí)二維模式(花色和牌值)來(lái)代表?yè)淇耸呛苡杏玫摹D像識(shí)別的成功方法建議使用卷積濾波器識(shí)別二維圖像中的對(duì)象。在文獻(xiàn)[18-20]的啟發(fā)下，本文搭建了一個(gè)CNN模型，稱為Poker-CNN。文獻(xiàn)[20]采用的深度學(xué)習(xí)模型中所使用的估值網(wǎng)絡(luò)完全沒有做任何局部死活/對(duì)殺分析，純粹是用暴力訓(xùn)練法訓(xùn)練出一個(gè)相當(dāng)不錯(cuò)的估值網(wǎng)絡(luò)(需要三千萬(wàn)局自我對(duì)局)，而本文提出的估值算法模型考慮了局面因素，能很好地降低網(wǎng)絡(luò)訓(xùn)練所需時(shí)間。

3.1節(jié)中已經(jīng)說(shuō)明了影響撲克決策的種種因素，并對(duì)這些因素進(jìn)行建模最終得到一個(gè)16×17×17的三維矩陣作為輸入。網(wǎng)絡(luò)的輸出層則應(yīng)該包含3個(gè)節(jié)點(diǎn)，分別對(duì)應(yīng)博弈過(guò)程中玩家可以做出的3種選擇：棄牌、跟牌和加注。

網(wǎng)絡(luò)中設(shè)置三個(gè)卷積層：第一個(gè)隱層設(shè)有32個(gè)5×5的卷積核，步長(zhǎng)為2；第二個(gè)隱層設(shè)有64個(gè)3×3的卷積核，步長(zhǎng)為2；第三個(gè)隱層設(shè)有64個(gè)2×2的卷積核，步長(zhǎng)為1。與圍棋類似，矩陣中1的位置精確地代表手牌牌值的大小，因此我們必須要保留位置信息，所以本文也舍棄了傳統(tǒng)CNN模型中的pooling層。其后再接一個(gè)大小為256×1的全連接層，網(wǎng)絡(luò)的最后一層有三個(gè)節(jié)點(diǎn)。最后將加權(quán)輸出輸入到Softmax激活函數(shù)再歸一化，以輸出棄牌、跟牌和加注三種行為的概率。網(wǎng)絡(luò)的最終結(jié)構(gòu)如圖3所示。

圖3 Poker-CNN模型

本文使用ReLU(Rectified Linear Unit)作為卷積層的激活函數(shù)。函數(shù)形式如下：

(5)

因?yàn)榫W(wǎng)絡(luò)的輸入矩陣是非常稀疏的，所以本文選用在稀疏矩陣中應(yīng)用較多的Adagrad梯度下降算法。

設(shè)定評(píng)價(jià)函數(shù)為E(Si)=max(Y1,Y2,Y3)，它的涵義是取Y1、Y2、Y3三個(gè)輸出值中的最大值。針對(duì)德州撲克，不同的值可以用來(lái)代表玩家跟注、加注和棄牌這三個(gè)不同動(dòng)作。神經(jīng)網(wǎng)絡(luò)模型采用的是MSRA初始化方法，因?yàn)镸SRA可以加快網(wǎng)絡(luò)的收斂。

假設(shè)終局局面的狀態(tài)為Sn，首先根據(jù)Sn調(diào)整一次網(wǎng)絡(luò)的誤差，然后再根據(jù)終局前一時(shí)刻Sn-1的估值，計(jì)算誤差來(lái)調(diào)整網(wǎng)絡(luò)權(quán)值，逐步反向向前計(jì)算，直到學(xué)習(xí)過(guò)程結(jié)束。可見，由于要獲得終局時(shí)刻實(shí)際的網(wǎng)絡(luò)輸出，估值算法訓(xùn)練需要在一次完整的比賽記錄之上進(jìn)行。

(6)

可以通過(guò)的卷積神經(jīng)網(wǎng)絡(luò)的不斷學(xué)習(xí)(即修改期望值)來(lái)減小該誤差，綜上所述，可以得出估值算法訓(xùn)練的幾個(gè)主要步驟：

(3) 按照經(jīng)驗(yàn)初步設(shè)置系數(shù)γ和學(xué)習(xí)速率α(訓(xùn)練過(guò)程中可以修改)。

(4) 依次計(jì)算出隱藏層的輸出Cp、實(shí)際輸出Yn、期望輸出Yp的修正量并通過(guò)反向傳播更新網(wǎng)絡(luò)連接權(quán)值。

(5) 檢測(cè)學(xué)習(xí)過(guò)程是否結(jié)束。若結(jié)束則轉(zhuǎn)向步驟9；反之，則繼續(xù)執(zhí)行。

(8) 設(shè)p=p-1，轉(zhuǎn)步驟4。

(9) 結(jié)束。

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)環(huán)境

表2說(shuō)明了本文實(shí)驗(yàn)的硬件環(huán)境。

表2 實(shí)驗(yàn)環(huán)境

4.2 實(shí)驗(yàn)數(shù)據(jù)

美國(guó)人工智能會(huì)議(AAAI)或國(guó)際人工智能聯(lián)合會(huì)議(IJCAI)每年都會(huì)舉辦世界計(jì)算機(jī)撲克大賽，該比賽吸引了各國(guó)的高校及研究機(jī)構(gòu)參賽。他們中的一些競(jìng)賽程序具有很高的智能，達(dá)到了接近人類大師的程度。

每年比賽的所有比賽數(shù)據(jù)日志記錄，賽事官網(wǎng)都會(huì)保留下來(lái)并放在http://www.computerpokercompetition.org/downloads/competitions/供大家下載使用。本文下載了2017年世界計(jì)算機(jī)撲克大賽共2 809 000條二人限制型博弈比賽數(shù)據(jù)作為網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集。

典型的比賽數(shù)據(jù)如下所示：

STATE:0:cc/cc/cr200c/cr400f:7c4s|2hQh/Ac5h3c/4h/8h:-200|200:Slumbot_ 2pn_ 2017|SimpleRule_ 2pn_ 2017

STATE:1:f:JsTc|5s2d:50|-50:SimpleRule_ 2pn_ 2017|Slumbot_ 2pn_ 2017

STATE:2:cr300c/cc/cr2300f:TcTs|4d5c/5s2dAc/7h:-300|300:Slumbot_ 2pn_ 2017|SimpleRule_ 2pn_ 2017

一條數(shù)據(jù)表示一局比賽所有的局面狀態(tài)信息，例如每輪發(fā)的牌以及每輪博弈雙方采取的行動(dòng)以及最后的輸贏情況。圖4簡(jiǎn)要解釋了數(shù)據(jù)中各項(xiàng)的具體含義。

圖4 歷史比賽數(shù)據(jù)格式

對(duì)這些日志數(shù)據(jù)進(jìn)行清洗，然后寫成16×17×17三維矩陣的形式，最后給卷積神經(jīng)網(wǎng)絡(luò)作為網(wǎng)絡(luò)的輸入訓(xùn)練該模型。

4.3 結(jié)果分析

4.3.1算法預(yù)測(cè)準(zhǔn)確率分析

本文從數(shù)據(jù)集中隨機(jī)抽取200 000條數(shù)據(jù)作為訓(xùn)練集，再在剩余的數(shù)據(jù)中隨機(jī)抽取40 000條數(shù)據(jù)作為測(cè)試集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。將訓(xùn)練集分成4個(gè)子集，每個(gè)子集50 000條數(shù)據(jù)，對(duì)網(wǎng)路作交叉訓(xùn)練。選取下式作為結(jié)果的準(zhǔn)確率計(jì)算方法：

(7)

圖5 估值算法的準(zhǔn)確率

4.3.2智能體博弈結(jié)果分析

本文搭建了一個(gè)如圖6所示的智能體博弈系統(tǒng)，該系統(tǒng)通過(guò)Socket通信，服務(wù)器相當(dāng)于發(fā)牌員，負(fù)責(zé)發(fā)牌給智能體、判定輸贏等。

圖6 智能博弈系統(tǒng)

牌局初始化階段，每個(gè)智能體通過(guò)特定端口接入到服務(wù)器。牌局正式開始后服務(wù)器會(huì)把牌局各個(gè)階段的信息發(fā)送給雙方，比如手牌、公共牌、對(duì)手是跟牌還是棄牌以及最后的輸贏信息。同時(shí)，服務(wù)器會(huì)生成該局對(duì)戰(zhàn)日志放在log文件夾下。

進(jìn)行對(duì)比測(cè)試的其他智能體包括：ACPC官方提供的智能體、基于對(duì)手建模算法的智能體[21](獲得了2013年ACPC二人限制性德州撲克第四名)，以及基于CFR算法和對(duì)手建模的智能體[22](獲得2016年ACPC二人非限制性德州撲克第四名)。

為減少實(shí)驗(yàn)誤差，所有比賽都采用相同的種子，相同的種子玩家獲得的牌也是相同的，即輸贏完全取決于玩家的策略。

通過(guò)分析計(jì)算系統(tǒng)日志文件中各智能體的勝負(fù)以及輸贏籌碼數(shù)，可以得到圖7所示結(jié)果。圖7給出了本文的智能體與其他3個(gè)不同的對(duì)手進(jìn)行博弈時(shí)，每局博弈獲得的平均獎(jiǎng)勵(lì)(各局的平均獎(jiǎng)勵(lì)用現(xiàn)在手中的總籌碼除以當(dāng)前的局?jǐn)?shù)表示)。

圖7 實(shí)驗(yàn)智能體與其他智能體對(duì)弈每局獲得的平均收益

5 結(jié) 語(yǔ)

一個(gè)完整的非完備信息博弈系統(tǒng)，主要包括五個(gè)部分：博弈系統(tǒng)的表示方法、搜索引擎、估值算法、規(guī)則解釋器、通信系統(tǒng)。估值算法主要作用是評(píng)估博弈中每一步的好壞程度，因此估值算法是機(jī)器博弈程序的核心與關(guān)鍵。本文主要以德州撲克的二人限制型博弈作為研究對(duì)象。首先對(duì)牌局的狀態(tài)進(jìn)行建模，結(jié)合阿爾伯特大學(xué)團(tuán)隊(duì)對(duì)影響德州撲克博弈決策因素的研究，最終得到一個(gè)16×17×17的三維矩陣作為估值算法的輸入。估值算法模型的核心是卷積神經(jīng)網(wǎng)絡(luò)，結(jié)合文獻(xiàn)[20]的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)思想與文獻(xiàn)[18-19]的研究結(jié)論最終得到具體的卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)，并用人類大師歷史博弈記錄來(lái)訓(xùn)練該模型。最后將基于該模型的博弈程序與前人開發(fā)的博弈程序進(jìn)行博弈，實(shí)驗(yàn)結(jié)果顯示該模型擁有更高的收益。該估值算法模型為大規(guī)模機(jī)器博弈系統(tǒng)的實(shí)現(xiàn)提供了一個(gè)可行的方法，同時(shí)為將算法拓展到現(xiàn)實(shí)生活提供了可能。

雖然基于人類大師經(jīng)驗(yàn)的深度神經(jīng)網(wǎng)絡(luò)估值算法模型取得不錯(cuò)的成績(jī)，但是該模型還是要依賴人類的專家知識(shí)，并且德州撲克每輪的決策與上一輪的決策有關(guān)，也就是說(shuō)決策具有時(shí)序性，因此網(wǎng)絡(luò)模型應(yīng)該具備記憶性，而本文提出的網(wǎng)絡(luò)模型沒有解決這個(gè)問(wèn)題。克服以上兩點(diǎn)是下一步研究工作的重點(diǎn)，可以考慮采用強(qiáng)化學(xué)習(xí)[23]來(lái)減少對(duì)于人類經(jīng)驗(yàn)的依賴以及在不減少模型估值準(zhǔn)確率的情況下改善網(wǎng)絡(luò)結(jié)構(gòu)，同時(shí)可以結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)或者是長(zhǎng)短期記憶網(wǎng)絡(luò)使網(wǎng)絡(luò)模型具備記憶性，從而進(jìn)一步提高博弈程序的性能。