摘 要:本文針對博弈問題中博弈者的非理性問題,提出在博弈之前應用神經網絡對博弈方進行“類型”判斷之后,博弈方才能選擇對自身更有利的策略;當博弈問題中無法了解各博弈方的得益時,可應用神經網絡做出抉擇,進行之間的博弈,并得出了相應的結論。
關鍵詞:博弈論 神經網絡 非理性博弈
一、引言
博弈論(Game Theory)是現代經濟學最新發展中一個特別耀眼的新理論,特別是90年代以來,諾貝爾經濟學獎多次授予給研究博弈理論有杰出貢獻的學者,更將博弈論推向了新的高潮。
神經網絡(Neural Networks)是人類探索模仿腦神經系統信息處理的一個相當重要的領域。從1943年心里學家W.S.Mcculloch和數學家W.H.Pitts建立的M-P神經元模型到現在,神經網絡模型、學習算法、神經計算機實現和應用等取得了令人鼓舞的豐碩成果,神經網絡的發展具有強大的生命力。隨著神經網絡的進一步完善和發展,其必將在科學技術領域發揮更大的作用。
二、利用神經網絡對博弈方類型進行判斷
所謂博弈即一些個人、隊組或其他組織,面對一定的環境條件,在一定的規則下,同時或先后,一次或多次,從各自允許選擇的行為或策略中進行選擇并加以實施,并從中各自取得相應結果的過程。
從博弈的定義可以發現,一個典型的博弈應具有四個方面:(1)博弈的參加者,即各博弈方。(2)各博弈方的策略集合。(3)博弈的次序。(4)各博弈方的得益。其為了能求博弈的解(即納什均衡),有一個很關鍵的假設:各博弈方是完全理性的。但實際情況確不是總是如此的,很多情況下,各博弈方是部分理性(半理性)或完全非理性的。
“9.11”事件之后,美國在全球宣起反恐高潮,但恐怖襲擊仍然層出不窮,尤其是“人體炸彈”的恐怖襲擊更令人毛骨悚然。現在我假設恐怖分子與政府的博弈問題如圖1所示,恐怖分子的策略集合為 {進行“人體炸彈”的恐怖襲擊,不進行恐怖襲擊},政府的策略集合為 {采取防范措施,不采取防范措施},各博弈方的得益如圖。由于恐怖分子進行恐怖襲擊得益則為-100,不襲擊得益為0,一個理性的博弈者是不會選擇襲擊的,其納什均衡為(不襲擊,不防范),雙方得益為(0,0),即。但實際并非如此,原因在于博弈方(恐怖分子)是非理性的,如果政府根據經典的博弈理論選擇“不防范”的策略恐怕要吃大虧。實際生活中的雙方的博弈結果是(襲擊,防范),這里暫且把它看作是“半理性均衡”。
從上面的博弈問題可以發現,博弈前對博弈方進行類型判斷是十分重要的,判斷的結果直接影響博弈的過程和結果。那么判斷的方法和依據是什么呢?本文認為神經網絡是一種可行的方法。
以上面的博弈問題為例,博弈方的類型可以用競爭學習網絡來進行判斷,現在建立一個基本的競爭學習網絡。該網絡由兩層組成,第一層為輸入層,由接收輸入模式的處理單元構成;第二層為競爭層,競爭單元爭相響應輸入模式,勝者表示輸入模式的所屬類別。輸入層單元到競爭單元的連接為全互連方式,連接權是可調節的。
在上面的博弈中,通過搜集一定的信息就可確定相應的輸入模式,經過神經網絡對博弈的一方進行判斷之后,博弈的另一方就可選擇自己的策略,從而達到“半理性均衡”或“理性均衡”(納什均衡)。另外,本文認為自組織映射網(SOM)、對向傳播神經網絡(CP網絡)和自適應共振理論神經網絡(ART)等競爭學習網絡都能應用在這里。
三、利用神經網絡進行“順序”博弈
上面談到博弈論里一個重要的方面就是各博弈方的得益。其實現實生活中各方的得益是具有不完全信息的。所謂不完全信息的博弈問題也稱“貝葉斯博弈”,是指在博弈中至少有一個博弈方不完全清楚其他某些博弈方的得益或得益函數。雖然貝葉斯博弈對其他博弈方的“類型”所知不多,但一般來說,一個博弈方至少知道其他博弈方各種“類型”出現的大小,即對各種“類型”出現的概率分布有一個“判斷”。因此可以用“逆推歸納法”求出貝葉斯納什均衡。
如果各博弈方對其他博弈方得益根本無法做出判斷,或者做出的判斷和實際不符合,這時該如何處理呢?以賣瓜人和買者之間的博弈問題為例,對于一個賣瓜人和一個買瓜人的博弈問題可用圖2表示。當賣瓜人出高價時,買瓜人的得益如果有-1和1兩種,則博弈有兩種不同的納什均衡,即(低價,買)和(高價,買)。因此賣瓜人如果不知道他出高價時買方的得益,他就無法的做出選擇。而實際上,博弈還是在進行,即賣瓜人做出低價或高價的選擇并不是依據買瓜人的得益(因為他無法知道不同的買者對自己的得益判斷,或者說每個買瓜人的得益根本就不同),此時他是根據某些他已知的信息進行策略選擇,然后買瓜人才根據賣瓜人的出價選擇買還是不買。此時博弈實際上是“順序”博弈,即博弈結果并不能由“逆推歸納”得出,而是博弈方按一定的順序選擇自己的策略最后形成的。
四、結語
將神經網絡博弈論是博弈論發展的一個新的領域。本文針對博弈論中的一些不足,試圖運用神經網絡解決這些問題,并得出了相應結論。隨著人工智能的發展,神經網絡博弈將成為經濟學、信息學、人工智能的關鍵發展方向。第一個戰勝圍棋世界冠軍的人工智能程序阿爾法(AlphaGo)可以充分說明這點。希望基于神經網絡的深度學習中能得到更大的應用與發展,并在博弈論中開辟一片新領域。
參考文獻:
[1]劉偉兵,王先甲. 基于PSO神經網絡的進化博弈研究[J]. 系統工程與電子技術,2007,(08):1282-1284.
[2]Na Li; Zhiyong Yu, Recursive stochastic linear-quadratic optimal control and nonzero-sum differential game problems with random jumps, Advances in Difference Equations 2015-12-15.
[3]婁燕強,宋如順,馬永彩. 基于RBF神經網絡的攻防博弈模型[J]. 計算機應用與軟件,2011,(01):99-101.
[4]Sungwook Kim, Fog radio access network system control scheme based on the embedded game model, EURASIP Journal on Wireless Communications and Networking 2017-12-15.
作者簡介:葉佩(1982—)女。湖北孝感人。武昌工學院信息工程學院講師。江濤(1976—)男。湖北武漢人。武漢理工大學管理學院。
※基金項目:本論文由武漢理工大學自主創新基金(項目編號:2016VI034)資助.