999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

麻將博弈AI 構建方法綜述

2024-01-15 14:36:52李霞麗王昭琦劉博吳立成
智能系統學報 2023年6期
關鍵詞:深度游戲方法

李霞麗,王昭琦,劉博,吳立成

(1. 中央民族大學 信息工程學院, 北京 100081; 2. 中央民族大學 民族語言智能分析與安全治理教育部重點實驗室, 北京 100081)

機器博弈是人工智能研究領域的一個重要分支,根據游戲參與者對他人信息的可知程度,機器博弈分為完備信息和非完備信息博弈。復雜條件下的多智能體博弈[1-3]是當前研究的熱點,對實踐和生產具有重要意義,可以提高交通決策、優化智能生產、甚至對軍事控制領域也有一定影響。麻將是典型的非完備信息博弈游戲,其隱藏信息復雜、隨機性強、參與者多,是研究復雜條件下多智能體博弈的基礎方向之一。麻將博弈AI(artificial intelligence)研究多以臺灣麻將、日本麻將為主,近年來也對中國的麻將展開了研究。麻將博弈AI 構建最初大多采用基于知識的方法,即將設計者的經驗和領域專家的理解編為計算機語言,指導AI 的決策。隨著神經網絡、機器學習、深度學習、強化學習等應用于機器博弈,麻將AI 構建發展為基于數據的方法,即從大量的數據中提取出特征,利用模型的模擬能力和自學習能力,通過不斷訓練得到穩定的決策模型。采用基于數據的方法訓練的AI 博弈水平越來越高,“爆打”[4]高于人類的平均水平,Suphx[5]超越人類高手的水平。

本文對麻將博弈的相關文獻進行梳理和分析,從基于知識和數據的角度進行分類論述,還分析了當前水平最高的麻將博弈AI Suphx 算法,以供其他復雜環境下智能體博弈的研究者參考。麻將博弈和其他復雜環境的多智能體博弈游戲一樣,其AI 構建面臨獎勵稀疏、算法通用性差、對手建模研究薄弱等科學問題。此外,麻將還面臨博弈水平的測試環境不完善等現狀。本文還指出了麻將博弈未來的研究重點所在,不僅推進麻將博弈的研究,也為解決復雜環境的多智能體博弈提供可行思路。

1 麻將博弈復雜度分析

麻將博弈具有玩家關系復雜、非完備信息龐大、博弈獎勵稀疏、得分計算復雜等特點。

一盤麻將的信息集數量I計算公式為

一盤游戲中,第1 輪每位玩家都擁有13 張手牌,其未知牌的數目為123 張,每個信息集的大小為約為1.52×1049;第2 輪,減去上一輪中公開的4 張牌,未知牌剩余119 張牌,每個信息集的大小約為3.23×1048。以此類推,最終得到信息集的平均大小約為1048。

由圖1 可以看出,國標麻將相對日本麻將有更長的出牌序列,相對信息集數目更大,但兩者的信息集平均大小一致。麻將的信息集平均大小遠高于德州撲克、橋牌等非完備卡牌類游戲。雖然信息集數目低于圍棋,但每次決策均需考慮1048種情況,因此,麻將博弈AI 構建更具有挑戰性,研究者不斷嘗試探索麻將博弈AI 構建的關鍵技術以在游戲策略、棄牌、吃牌、碰牌、杠牌、聽牌、和牌等決策中獲得更好的表現。

圖1 麻將與其他游戲的復雜度對比Fig. 1 Comparison of complexity among Mahjong and other games

2 基于知識的麻將AI 構建方法

基于知識的麻將AI 構建方法如圖2 所示,一般根據設計者的經驗對吃、碰、杠、棄等動作設計優先級和搜索算法指導AI 的決策。能否將人類玩家的知識總結成規則并恰當的表示影響AI 水平的高低。使用先驗知識構建的AI 雖然具備一定的水平,但不能真正地解決麻將博弈的問題。基于知識構建的AI 多傾向于快速聽牌、和牌、避免點炮等,靈活性較差,且智能普遍缺少高分牌型,在博弈中單局得分低。先驗知識與蒙特卡羅模擬、缺牌數、對手建模、攻防轉換等結合,在AI 的構建中應用得較多。構建方法對比如表1 所示。

表1 基于知識的麻將AI 構建方法對比Table 1 Comparison between the Mahjong AI construction methods based on knowledge

圖2 基于知識的麻將AI 構建方法Fig. 2 Mahjong AI construction methods based on knowledge

2.1 基于知識與決策模型方法

知識與決策模型結合是經典的方法。文獻[6]于2008 年提出了應用于臺灣麻將的博弈AI Long Cat,使用“上聽數”實現快速聽牌的目標。

上聽數T為當前手牌與幾種可能聽牌情況π0、 π1、 π2、···所缺牌數的最小值。中后期,Long Cat根據上聽數選擇防守策略或且戰且守的策略。為避免AI 點炮,使用蒙特卡羅模擬臨近終局時牌局。Long Cat 結合上聽數、有效牌、蒙特卡羅模擬等,構建了快速上聽、避免點炮的AI。但專家知識不全面,缺少可以獲得高分的特殊牌型,且策略單調,在游戲中容易被對手鉗制。

Long Cat 中缺牌數是基于經驗與統計隨機產生的,對手手牌的模擬較為隨機。為規避高隨機性帶來的誤差,文獻[7]構建了108 張牌麻將變體的博弈AI,僅對聽牌者的手牌進行模擬并計算決策,優化了Long Cat 使用的方法。此外,人工設定了棄牌優先級、吃牌優先級,對吃、碰、棄、聽等動作進行指導;設置了聽牌有效數對有效牌進行監測,以解決死聽問題。與Long Cat 相比,提高了勝率并且減少了點炮,但也存在特殊牌型知識不足的問題。

VeryLong Cat[8]連續多年獲得Computer Olympiad 麻將項目的冠軍。其將麻將概括為取牌和棄牌兩種動作交替的游戲,通過將對手取牌限制為摸牌、刪除對手的動作、將自己的動作限制為摸牌等方式對麻將動作進行簡化。使用最大期望搜索算法與搜索樹結合的搜索方法,并利用麻將轉換手牌進行搜索優化,以求快速和牌,但存在點炮次數較多的問題。LongCatMJ[9]、Mahjong DaXia[10]AI 也是在Long Cat 基礎上構建的,不再贅述。文獻[11]將和牌距離結合可用牌,實現了快速和牌。和牌距離越短,代表的線路更優。使用手牌信息集、缺牌集合、棄牌集合等對游戲路線進行剪枝。該AI 實現了快速和牌,但游戲前期信息集參考價值較差,AI 失誤較多。文獻[12]提出了一種在不同麻將變體中通用的、快速計算缺牌數[16]的算法。在傳統的四叉樹算法基礎上,引入分塊的方法,既能利用四叉樹精確地計算缺牌數,又能通過分塊算法克服四叉樹算法存在的計算空間巨大導致的響應速度慢的問題,加快了計算缺牌數的速度。將其應用于四川麻將博弈程序中,每次動作的響應時間小于1 s。

綜上可知,經典的基于專家知識與決策模型的麻將博弈AI 構建方法主要專注于自身手牌,普遍缺少高分牌型的專家知識,使得AI 錯失獲得高分的機會。目前的研究方法更關注于快速和牌與避免點炮的平衡,對快速和牌與等待高分的平衡探究較少。雖然采用“上聽數”“有效牌”“缺牌數”等指導AI 快速和牌,并在對弈后期模擬對手的手牌避免點炮失分,但博弈AI 整體水平不高。

2.2 對手建模及其他方法

文獻[13]提出了對手建模和博弈樹搜索結合的麻將博弈AI 算法-KF-TREE (knowledgebased formwork tree),獲得了2019 年Computer Olympiad 麻將項目銀牌。 KF-TREE 包含局面分析、對手建模、博弈樹搜索、評估決策4 個模塊。為充分地預測對手,KF-TREE 針對上家、下家、對家分別建模,并計算自身每張牌的風險概率:

有人聽牌時:

無人聽牌時:

式中:α表示有對手聽牌的概率,Ri表示其他三家需要這張牌的概率,RAA表示手牌被對手打劫形成刻子的概率。

在節點擴展時,除常用的出牌結點與摸牌結點探索外,還從高分牌型和優化手牌兩個角度進行擴展。在最后決策時,對獲得的搜索路徑從獲勝概率、風險概率、得分3 個角度進行綜合評估。KF-TREE 在快速獲勝、獲得高分、避免點炮之間形成了平衡,達到了專家水平。

人類玩家在麻將游戲中會根據當前局勢的好壞,調整自身的牌風。文獻[14]據此提出將人工提取出的攻防轉換策略加入麻將博弈AI。加入攻防轉換策略的AI 在防守階段表現良好,但由于博弈樹搜索層數受到時間限制,AI 的表現也受到限制。文獻[15]將麻將中快速獲勝和獲得高分抽象為多目標優化問題,基于限定回合的單人麻將展開研究。提出了根據手牌計算剩余回合以及平均得分的目標函數,并使用一種改進的模塊化拓撲神經網絡MM-NEAT(modular multi-objective neuro-evolution of augmenting topologies)[17]優化函數。但是由于輸入的知識僅包含手牌信息,未考慮役牌知識,AI 雖然能夠快速和牌,但獲得的積分并不理想。此外,多目標優化能否推廣至四人麻將仍需驗證。

綜上可知,加入對手建模或攻防策略轉換等方法的AI,除己方信息外開始關注對手的情況,博弈AI 整體水平有所提升。但是由于AI 構建依然主要依據人工設計專家知識,構建的AI 普遍水平較低。

3 基于數據的麻將博弈AI 構建方法

基于數據的麻將博弈AI 構建方法需從大量的數據中提取出特征,并通過不斷地訓練得到穩定的決策模型。訓練出地麻將博弈AI 水平普遍高于基于知識的麻將博弈AI 水平,部分AI 甚至可以媲美人類高手。目前最強的麻將博弈AI Suphx由微軟亞洲研究院聯合京都大學、中國科學技術大學共同研發,擁有超過人類高手的優秀戰力。基于數據的構建方法對比如表2 所示。

表2 基于數據的構建方法對比Table 2 Comparison between the construction methods based on data

3.1 基于深度學習的麻將博弈AI 構建方法

在完備信息博弈中,AlphaGo 利用深度學習與樹搜索[27]首次獲得了超越人類高手的成績,隨后引起了深度學習在計算機博弈中的研究熱潮。在非完備信息博弈中,使用深度學習的AI 在德州撲克[28]、斗地主[29]、六人德州撲克[30]、3D 視頻游戲“Blade & Soul”[31]中均取得了超越人類高手的成績。在麻將游戲中,深度學習也被廣泛應用,并取得了不錯的成績。

圖3 給出了基于深度學習的麻將博弈AI 構建基本模型。在輸入方面通常采用編碼的對戰數據,若坐莊、圈風等局面信息可得時則共同輸入。用于處理數據的神經網絡可分兩種:用于直接輸出決策的單神經網絡,單神經網絡的輸出通常為1×38 的數組結構,表示34 張牌與吃、碰、杠、棄4 個動作;分別輸出不同動作概率的多個神經網絡,由設計者寫出決策程序根據概率值進行決策。

圖3 基于深度學習的麻將博弈AI 構建方法Fig. 3 Mahjong game AI construction methods based on deeplearning

卷積神經網絡經常用于麻將博弈AI 中。文獻[18]將麻將游戲歸納為多分類問題,使用來自天鳳平臺的對戰數據,利用卷積神經網絡構建深度學習模型。其將模型劃分為棄牌網絡、動作網絡(吃、碰、杠等)、立直網絡,訓練后的AI 具有自主博弈能力,棄牌的準確率達到68.8%。該AI是在不使用任何人類知識的前提下訓練出的,其在輸入數據時考慮到牌局的基本信息,部分解決了基于知識的麻將博弈AI 中牌局信息無法參與決策的問題,但排名、輪數、分數、番數等信息仍未納入AI 決策模型。

文獻[19]使用卷積神經網絡進行監督學習,其其訓練多個網絡組合決策,并計算可能丟失的分數:

式中:i表示手牌序號,W表示等待預測網絡的輸出,D表示棄牌網絡的輸出,T表示手牌是否為對手等待牌預測值,R表示網絡預測的支付分數。訓練后的棄牌網絡的準確率為88.4%。天鳳平臺上的AI 水平測試結果顯示,該AI 的攻擊性較差。

文獻[20] 將卷積神經網絡模型DenseNet(densely connected convolutional networks)與XGBoost(extreme gradient boosting)模型結合,訓練四川麻將博弈AI。AI 經過簡單的訓練即可掌握四川麻將的規則,可以節約訓練前期較長的試錯時間,使得AI 迅速達到初學者水平。其實驗數據來自國內在線網絡血腥麻將游戲平臺,由于游戲平臺玩家來源復雜,可以組成的高質量數據集較小,經過充分訓練后能否成為高水平的麻將博弈AI 尚未可知。

文獻[21]率先將殘差神經網絡應用于中國江西省上饒地區的麻將變體。實驗所需數據來自在線的商業麻將游戲平臺,為保證數據集的質量,其選用了排名靠前的大師級玩家的游戲數據;人為地加入一些對局數據以平衡數據集中各動作的數量。使用一種不平衡的殘差網絡,由若干Inception+結構組成的殘差塊連接而成,采用非向量的原始數據作為輸入,使用低級語義特征對模型學習進行引導。游戲平臺的測試驗證該AI 可以學習到高分牌型并通過高分牌型贏得比賽。

文獻[22] 利用神經網絡將對手策略進行分類,使己方決策選擇更有針對性。文獻[32]基于支持向量機的方法估計玩家的棄牌目的,以便對初學者進行提示。文獻[18,33]對數據結構進行改進以提高模型訓練的準確率。

綜上,基于深度學習構建麻將博弈AI 主要從網絡模型、數據等方面開展研究,訓練后的AI 具有學習和決策能力,但其水平并未超越人類,且深度學習對數據集的質量、算力、測試環境等都具有較高的要求。

3.2 基于深度強化學習的麻將AI 構建方法

深度強化學習[34]是多智能體領域的常用的技術,結合了深度學習模型的強大模擬能力和強化學習強大的決策能力。其Q值也可通過網絡模擬預測:

深度強化學習方法在麻將博弈中得到驗證,Suphx 是典型代表。Suphx[5]是一款應用在四人日本麻將上的AI 系統,是基于深度強化學習訓練的目前最強大的麻將AI 系統,超過Bakuuchi[35]、NAGA[36]這兩個當時較強的麻將AI,在最大的日本麻將在線對戰平臺天鳳(tenhou.net)上超過了99%的人類玩家。Suphx 采用深度卷積神經網絡作為模型基礎,利用專業玩家的日志監督學習,形成基本博弈策略;再使用策略梯度算法進行自對弈強化學習來提升博弈水平。應用了全局獎勵預測、先知教練以及運行時策略適應等新技術。頂尖人類玩家與Suphx 均可達十段,但Suphx 的排名穩定性更強,在與人類對戰時,表現出很強防守能力和低點炮率。

3.2.1 Suphx 優點與局限性分析

通過分析微軟發布的Suphx 論文[5],發現Suphx 的成功是兩方面相輔相成的結果:一方面是對麻將的建模貼合實際,另一方面是深度強化學習的深入應用。貼合現實的決策流程建模使Suphx 的決策過程流暢且簡化,高度分工決策確保了每個決策的專業性。深度強化學習中將麻將的決策判斷全部交給神經網絡模型:決策模型、先知教練、全局獎勵預測。兩方面的創新使Suphx得到超越人類戰績,也成為Suphx 的枷鎖。

Suphx 具體決策流程如圖4 所示,其將麻將的決策判斷分為6 類,覆蓋了現實麻將博弈的各類決策,如黃色菱形表示。除和牌模型使用規則,其他模型使用神經網絡實現。多模型分工,降低了單模型決策時不同種類判斷之間的干擾。例如在吃碰杠等鳴牌決策時,當前棄牌對于自己手牌的價值越大,越傾向于鳴牌操作,而棄牌決策則是考慮當前14 張手牌中哪一張的價值最小。

圖4 Suphx 決策流程Fig. 4 Suphx decision flow

固定的決策流程,也造成Suphx 的局限性。其一,決策之間無法進行權衡比較。由于和牌、立直、吃、碰、杠的決策判斷是分開進行的,且只有是與否兩種結果,并非一個決策的評分。在決策時,一旦靠前的決策成立,靠后的決策即使收益更高也無法實施。其二,Suphx 的和牌模型基于規則實現,并未采用深度強化學習方法,全局獎勵預測器在訓練階段,并沒有成為和牌模型的一部分。如何訓練神經網絡使得AI 能夠根據當前牌局合理追求高分,是留待其他研究者探索的課題。

Suphx 的深度強化學習訓練原理如圖5 所示。訓練分為3 個步驟:通過監督學習掌握基礎游戲規則,再使用自對弈強化學習對棄牌模型的參數進行優化以增強魯棒性,最后使用改進的蒙特卡羅樹搜索算法增強運行適應能力。

圖5 Suphx 原理Fig. 5 Suphx schematic

麻將對局信息的手工特征提取是Suphx 成功的第一大保障,但也意味著模型在高概率獲勝牌型的推理方面存在一定不足。訓練采用天鳳平臺上頂級人類玩家對局數據,提取到的特征除常規的牌型特征、整數特征、類別特征,還加入基于樹搜索產生的前瞻特征(look-ahead features),實際上是將規則的專家知識輸入麻將博弈AI。模型只需要根據專家的特征信息做出判斷,缺少了理解、推理的過程。不同模塊的輸入輸出特征維度如表3。

表3 各模型輸入輸出維度Table 3 Input and output dimensions of each model

在強化學習階段,通過自對弈對模型進行改進,并引入全局獎勵預測和先知教練,增加AI 的全局觀與魯棒性。先知教練可以獲知其他三人手牌、牌墻等非公開信息。在掌控全局信息的訓練下,Suphx 形成獨特牌風:高染手率與門清防守。這也是區別于其他AI 和頂尖人類的地方。一方面染手的兩番彌補役牌副露打點不足的缺點,大量字牌又給手牌提供足夠的防守能力。另一方面門清防守使Suphx 在嚴密防守中兜牌又高效進攻,直至高分和牌。Suphx 根據自家手牌的向聽數確定安全牌數量,手牌優勢大則不保留安全牌進攻,手牌優勢小就留下安全牌防守。有別于其他AI 和頂尖高手,Suphx 不輕易放牌給其他玩家副露。

在麻將游戲中以多盤累計排名為目標,單盤得分無法完整評估每盤游戲的優劣。Suphx 引入全局獎勵預測器解決單盤與整局獎勵之間的問題,根據一盤的分數、當前累計的分數、莊家位置、連莊和立直賭注等信息,使用門控循環網絡、最小均方誤差來擬合并預測最終的游戲獎勵。全局獎勵預測器的訓練中,通過學習人類在非完備信息的條件下的自主判斷,模擬出一個合理的預測獎勵。使得Suphx 形成綜合考慮平和、七對、染手和防守的平衡打法。在與先知教練結合后,Suphx 變得更有進攻性。

在線游戲階段采用運行時策略適應,利用初始手牌快速進行對手建模。Suphx 提出了一種新的參數蒙特卡羅策略自適應方法(pMCPA),作為初始化手牌時的有限前瞻,調整適應對局策略。由于搜索模擬時間較長,決策時間有限,對搜索性能要求苛刻。亟待在有限硬件條件下減少運行時間,高效建模,實現根據每次手牌動態調整策略的構想。

Suphx 將麻將與深度強化學習的方法結合,但其手工制作特征、龐大的數據結構、復雜的架構、較高的計算資源消耗是許多研究人員與實驗室望而卻步的原因。文獻[37]提出一維數組的數據結構結合基于注意力的模型架構,解決了數據結構龐大,不利于在小規模硬件上重復實驗的問題。文獻[38]采用Ray 分布式訓練架構,優化特征工程以提高訓練效果。文獻[39]通過觀測公共信息與私密信息獲得替代特征,在更小的網絡結構訓練出相同的效果。目前在Suphx 基礎上的研究,目標是以更小的消耗或更簡便的方法使得模型的實驗室效果達到Suphx 水平,在線對抗中后續的AI 還未超越Suphx。

3.2.2 其他基于深度強化學習的研究

除Suphx 之外,有研究者利用深度強化學習訓練麻將博弈AI。將Expectimax 搜索與PER DQN[28]或Double DQN[29]算法結合,既保留了Expectimax 算法的高隨機性優勢,也增加了決策的準確性。雖然AI 的水平不高,但實驗采用的由德州農工大學實驗室開發的、支持多種非完備卡牌游戲進行深度強化學習的博弈環境RLCard[40]十分便捷。文獻[30]通過改進A3C 網絡模型,實現競爭策略,由于其未充分考慮對手的情況,模型僅達到中等水平。微軟亞洲研究院在先知教練的研究[31]中,基于貝葉斯理論提出了一種新的目標函數,并提出了一種適用于麻將游戲的通用強化學習框架,在特定情況下訓練出的AI 勝率超過了Suphx。

綜上,深度強化學習訓練的麻將博弈AI 平均水平高,并能產生超越人類高手的高水平AI,但對數據集、算力的需求更高。

4 麻將博弈AI 構建面臨的挑戰

本文對麻將模型構建的相關文獻進行梳理和分析,重點分析了Suphx 的原理。麻將博弈AI 的構建方法經歷了以專家知識到基于數據的轉變,大部分麻將變體被研究,但眾多麻將變體AI 的水平還有很大上升空間,AI 構建算法、麻將博弈AI 對戰水平的測試平臺等研究存在一些問題和挑戰。

4.1 麻將博弈AI 構建算法面臨的主要問題

1)人工設計的專家知識靈活性差。麻將規則復雜、博弈空間大,無法人工設計出完整的專家知識,知識的缺失會使AI 在某些時刻做出完全隨機的、錯誤的決定。此外,基于知識的AI 決策流程固定,決策模式單一容易被對手欺騙,決策流程過于復雜則速度較慢。

2)馬爾可夫決策過程建模受麻將博弈獎勵延時影響。在麻將博弈中約100 手之后才能獲得一次獎勵,終局時得到的獎勵并不能表示該局的每個動作都是正確(錯誤)的。這些使得馬爾可夫決策過程長時間難以收斂。

3)對手建模未被充分利用。目前,麻將博弈中對手建模多將三位對手視為單智能體統一建模,但三位對手的水平、決策風格、手牌狀態、動作意圖均有差異,統一建模不僅缺少針對性、也忽略了三家之間競爭與合作的關系,不能充分利用對手建模進行對手剝奪[41-42]。

4)麻將博弈AI 構建算法通用性差。麻將變體眾多,但核心規則如吃、碰、杠的條件、和牌規則等較為相似。當前的麻將博弈AI 構建多是針對于某一種麻將變體的專用算法,尚缺少能夠應用于不同麻將變體的通用算法。AI 在訓練過程如何將某一麻將中學習的知識和策略應用在其他麻將變體的游戲中,是面臨的一個挑戰。

5)麻將博弈AI 的決策邏輯可解釋性差[43],消耗計算資源多。現階段構建麻將AI 使用深度學習作為骨干網絡,導致研究者只能通過對戰最終結果,以及現有理論進行貼合,試圖理解AI 的決策思路。無法做到對AI 直觀理解、控制、優化。

4.2 麻將博弈AI 對戰水平測試存在的問題和挑戰

1)麻將博弈的評估標準不統一。歡樂麻將、天鳳平臺、深圳快樂麻將等在線游戲平臺均有自己的分級評估標準。但用于科學研究的麻將博弈AI 測試平臺的評估標準不統一。文獻[6,8]以獲勝次數和點炮次數來評價AI 的水平,文獻[23-24]以神經網絡在某一實驗的驗證集上的準確率作為評估標準,文獻[5,33]以某個在線的分級結果為標準。

2)適合學術研究的麻將博弈平臺缺乏。麻將游戲的商業化不能滿足博弈學術研究的需要,研究采用的平臺需要具備以下特點:①有大量的高水平用戶來保證對弈數據的質量②提供統一的API 接口,以便接入AI 程序進行訓練和測試③極高的平臺穩定性和安全性,保證研究的順利進行。滿足這些要求的、僅適用于單一麻將變體的平臺少之又少,麻將通用的大型專用平臺更是尚未出現。

3)缺乏高質量數據集。通過基于數據方法訓練麻將博弈AI,需要高質量對弈數據集支持。目前實驗所用對弈數據一般來自天鳳平臺[5,23-24,31]、在線麻將游戲平臺[25-26],缺少公開的、免費的、質量較高的對弈數據集來支持研究。日本麻將是當前在線數據最多的麻將變種,可以從天鳳平臺上下載到高手的對弈數據,但并未有經過預處理的測試數據集發布;其他變種尤其是國內的大眾麻將、四川麻將、各地的小眾麻將均未有大型的可供研究使用的數據集。

5 展望

麻將作為典型的非完備博弈,是復雜環境下多智能體博弈的簡單體現,解決麻將博弈智能體問題,對推進復雜環境多智能體的知識獲取、模型構建、決策研究等具有重要意義。麻將博弈AI 構建面臨的諸多挑戰,在其他復雜環境博弈中依舊存在[44-45],優化AI 構建算法和構建AI 對戰水平的測試環境是未來的重點研究所在。

5.1 優化麻將博弈AI 構建算法

利用人類的專家知識構建的麻將博弈AI 平均水平較低,靈活性差。使用深度學習和強化學習構建的麻將博弈AI 整體水平較高,甚至超越了人類高手,但是麻將博弈AI 構建算法研究仍然存在很大的提升空間。

麻將博弈狀態空間巨大,環境獎勵稀疏。經驗回放[46-47]、分層強化學習[48-50]、好奇心模型[51-53]能夠充分利用現有的數據信息來解決獎勵稀疏的問題。還可以引入認知行為模型[54],將先驗知識描述為人和AI 均能理解的格式,指導AI 選擇,加快前期訓練速度、減少失誤。

采用離線學習與在線學習結合的方法,通過在線對弈減少訓練后期的數據集需求。也可以利用小樣本機器學習中常用的元學習[55-57]、遷移學習[58-63]等方法,在數據集有限的情況下,訓練出更加強大的麻將博弈AI。此外,廣泛借鑒參考德州撲克中在線訓練過程采用演化學習與深度神經網絡結合的方法[64],調整麻將博弈算法訓練的架構,提高樣本利用率,最終達到提升麻將博弈AI 學習效率的目的。

針對麻將對手建模研究仍然很薄弱的現狀,從對手剝削[65]的角度著手,在實時在線對抗過程中,通過對手模型預測對手狀態及可能采取的行動,發掘可利用空間,增加己方收益。也可以采用分階段課程學習[66]、多樣性自主課程學習[67]等方法,通過種群課程訓練和演化選擇復雜規則之間的權重調配。使用集成學習[68]將多個對手模型納入強化學習過程,學習魯棒的策略。可以針對不同對手的缺陷,利用元學習[69]與不同風格的對手進行訓練。

對深度學習網絡進行優化。分布式的訓練架構是緩解高算力硬件需求的直接方法,采用輕量化的模型則是緩解硬件需求的有效方法。輕量化的模型在保持性能的條件下盡可能地減小網絡結構,甚至以一定的精度換取網絡的精簡。另外,引入擅長求解復雜優化問題的進化算法,優化神經網絡架構搜索[70]和深度學習超參數選取[71]等,也是加快訓練的可行方法。隨著神經網絡應用更深入,神經網絡可解釋性差的問題也隨之而來,如能對“黑盒”進行分析,也將對模型的優化起到相當大的作用。

5.2 構建麻將博弈AI 對戰水平的測試環境

建立統一的多元化的麻將博弈AI 評估指標。如何為麻將游戲制定一個多元化、標準化、統一的評估標準是一個重要而開放的問題。目前評估麻將AI 多是從勝率[6,8-9]、動作(吃、碰、杠、棄)準確率[30-31]、排名[5,39]等角度進行分析,評估方法不全面。可以考慮為在線博弈的AI 構建包含勝率、排名、響應速度、點炮概率的集成評估體系。

對于麻將等競技類游戲,一般借助技術等級分段與專業分來判斷。去年8 月,國際麻將聯盟和中國棋院杭州分院共同成立了麻將運動技術等級評定中心,同時出臺了《麻將運動技術技能等級評定管理辦法(修訂版)》的通知。對麻將運動員分級評定提出具體規則。借鑒此技能等級管理辦法,可以設置對應的麻將博弈AI 的等級管理辦法。

另外在分段的基礎上,為了更好地評估、了解個人風格,可采用雷達圖的方式統計個人的歷史表現。以國標麻將為例,一局為16 盤,統計AI 每盤的表現分可以簡要設計如下:

此處借鑒多人在線戰術競技(MOBA)類游戲KDA(kill dead aid)的計算思想,荒牌牌局的上聽數較小,則可能意味著錯失得分機會,但如果上聽數仍然較大,則認為避免了他人和牌,保全了自己的分數。

將表現分、累計和牌番數、累計搭子牌數(每盤終局時,已經成為搭子的牌數目)、累計未點炮數、累計扣牌數(終局時,手牌中包含其他玩家和牌所需牌的數目)組成雷達圖,如圖6 所示,集合5 個方面綜合表現一個麻將博弈AI 的實力。

圖6 麻將博弈AI 實力評估雷達圖示例Fig. 6 Mahjong game AI strength assessment radar graph

搭建通用對抗博弈環境。對抗博弈環境可分為線下麻將程序和線上公開的麻將服務器。線下麻將程序可安裝至本地,通過與標準程序比賽來評估AI 的能力。目前,開源的線下麻將程序有德州農工大學開發的RLCard[40],國內尚未發布開源且安裝便捷的麻將程序。線上的麻將服務器,人類和AI 均可注冊并參與比賽、獲得評分。麻將服務器通過互聯網提供水平更高、競技性更強的比賽,從而更易收集到高質量數據。線上服務器還能提供AI 在線訓練、在線權威評估等功能。線上麻將服務器的發展略好,天鳳平臺是針對日本麻將的成熟的國際博弈平臺。國內發展較好的平臺有北京大學創立的Botzone[72],該網站從2020年開始與IJCAI 會議合作舉辦Mahjong AI Competition 比賽。另外,競技世界公司的大眾麻將平臺,與中國計算機博弈大賽組委會合作提供麻將比賽平臺。麻將變體眾多,發布適用于某種變體的對抗環境,或開發適用較多變體的集成對抗環境,不僅利于統一麻將博弈AI 水平的評估標準,也是構建高質量數據集的有效途徑。

構建高質量數據集。目前,除日本麻將擁有大量的數據可以供研究人員使用外,其余的麻將變體數據較少且質量差,如何低成本且高效地構建高質量的數據集是也是未來待研究的方向。

猜你喜歡
深度游戲方法
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
數獨游戲
瘋狂的游戲
飛碟探索(2016年11期)2016-11-14 19:34:47
爆笑游戲
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
第八章直接逃出游戲
小學科學(2015年7期)2015-07-29 22:29:00
主站蜘蛛池模板: 国产人妖视频一区在线观看| 欧美一道本| 国产精品国产三级国产专业不 | 国产精品微拍| 一级毛片免费高清视频| 一级一毛片a级毛片| 91久久偷偷做嫩草影院| 国产成人精品一区二区不卡| 夜精品a一区二区三区| 国产亚洲精品97在线观看| 亚洲三级电影在线播放| 精品国产网站| 久久精品一卡日本电影| 在线国产综合一区二区三区| 喷潮白浆直流在线播放| 久久久久人妻一区精品色奶水| 成人av专区精品无码国产| 亚洲色图欧美在线| 久久五月视频| 高清无码手机在线观看| 国产在线视频二区| 大香伊人久久| 91丝袜在线观看| 91无码人妻精品一区二区蜜桃| 在线国产资源| 国产麻豆va精品视频| 国产精品天干天干在线观看| 国产又粗又爽视频| 美女一区二区在线观看| 精品国产Av电影无码久久久| 国产在线拍偷自揄观看视频网站| 国产人碰人摸人爱免费视频 | 久久久久亚洲Av片无码观看| 国产成人综合亚洲欧美在| 强乱中文字幕在线播放不卡| a毛片在线播放| 欧美精品在线看| 亚洲av日韩综合一区尤物| 无码综合天天久久综合网| 丁香六月综合网| 国产va免费精品| 国产高清免费午夜在线视频| 波多野结衣中文字幕一区| 久久综合AV免费观看| 激情五月婷婷综合网| 免费人欧美成又黄又爽的视频| 97视频精品全国在线观看| 永久成人无码激情视频免费| 伊人成人在线| 青草国产在线视频| 精品一区二区久久久久网站| 亚洲av成人无码网站在线观看| 日韩欧美国产中文| 狠狠色成人综合首页| 97视频在线精品国自产拍| 精品国产成人av免费| a网站在线观看| 国产9191精品免费观看| 日韩小视频在线播放| 国产91成人| 国产精品林美惠子在线播放| 香蕉久久国产精品免| 国内精品视频在线| 青青草国产在线视频| 久久永久免费人妻精品| 综合亚洲网| 国产精品丝袜在线| 欧美激情视频二区| 亚洲欧洲日韩综合| 亚洲啪啪网| 女人18毛片久久| 中文一级毛片| 麻豆精品国产自产在线| 久久久久久久97| 亚洲黄网视频| 男人的天堂久久精品激情| 亚洲高清无在码在线无弹窗| 欧美亚洲国产视频| 欧美亚洲欧美区| a级毛片在线免费观看| 又黄又爽视频好爽视频| 成人伊人色一区二区三区|