2019年8月,微軟公司曾推出一個名為Suphx的麻將人工智能系統,并在麻將游戲社區Tenhou中對其進行測試。據悉,Tenhou是世界上最大的麻將社區之一,擁有超過35萬活躍用戶。根據測試結果,Suphx最高成績為10段。這是目前為止,世界上第一個也是唯一一個達到10段水平的人工智能。
近日,微軟團隊發布了一份修訂版預印本文件,對Suphx進行了全面介紹。目前,這項研究發表在學術網站上,論文題目為《Suphx:用深度強化學習打麻將(Suphx:Mastering Mahjong with Deep Reinforcement Learning)》。
研究人員選擇用日本4人麻將(Riichi Mahjong)規則訓練Suphx模型,訓練數據來自Tenhou社區。培訓過程耗時兩天,研究人員在44個圖形處理單元上、用150萬個游戲對模型進行了訓練。Suphx學習了5種模式來處理不同的情況,分別是棄牌(discard)模式、Riichi模式、Chow模式、Pong模式和Kong模式。所有模式都用網絡結構表示。棄牌模式對應34張牌,有34個輸出神經元。其他模式僅有兩個輸出神經元,分別對應執行或不執行操作。
除上述設定外,研究團隊還引入了其他幾種技術:一是全局獎勵預測器(GRU網絡)。該預測器可以提前預測游戲的最終結局,提供有效的學習信號,從而使策略網絡可執行。二是Oracle代理。相比標準的深度學習過程,利用Oracle代理進行訓練可加速模型的學習過程。三是參數化的蒙特卡羅策略自適應算法(pMCPA)。pMCPA會不斷調整離線學習策略,使其能適應突發的游戲情節(比如4個玩家丟棄了公共牌)。