張新立 張恰元 何麗紅 董婷婷
摘 要 利用演化博弈理論,對參與主體異質性條件下的囚徒困境模型進行了探討,求出了滿足不同條件下的演化穩定策略,并對種群中個體異質性對演化穩定策略的影響進行了分析,得出種群中選擇相同策略的個體異質性差異越大,參與個體選擇合作行為作為演化穩定策略的可能性就越大.極端地,當個體的異質性趨向于無窮大時,合作成為唯一的演化穩定占優策略,為現實大多數合作系統中能保持長期的一種合作穩定狀態提供了合理地解釋.
關鍵詞 博弈論;合作行為;合作演化博弈;囚徒困境;異質性
中圖分類號 N949 文獻標識碼 A
The Cooperative Evolutionary Game Model
of Prisoners Dilemma under Agent Heterogeneity
ZHANG Xinli, ZHANG Qiayuan, HE Lihong, DONG Tingting
(College of Mathematics, Liaoning Normal University, Dalian, Liaoning 116029, China)
Abstract This paper studied prisoner's dilemma model under agent heterogeneity by evolutionary game theory, solved evolutionary stable strategy under different conditions, and analyzed how the agent heterogeneity affects the evolutionary stable strategy. It points out that the cooperative behavior of evolutionary stable strategy will be increased with the addition of the difference of agent heterogeneity. Extremely, cooperation is the unique dominant strategy when the difference of agent heterogeneity approaches to infinite. It provides reasonable explanation that the most cooperative system can maintain a longterm cooperative stable state in the real world.
Key words game theory; cooperative behavior; cooperative evolutionary game; prisoners dilemma; heterogeneity
1 引 言
合作行為是自然界中最為普遍的現象,從微生物到高級動物,從社會性昆蟲到人類社會.生物之間個體的合作行為,增強了整個種群的生存能力.然而,根據達爾文的進化論,自然選擇是基于競爭性的,種群中的個體將會自私地最大化自身利益,這顯然不能解釋處處普遍存在的合作行為現象.為了解釋合作行為是如何從自私的個體之間演化產生的,演化博弈論為其提供了一個強有力的數學理論框架,囚徒困境則是演化博弈論被廣泛采用研究合作行為的一個最典型范例[1,2].在原始囚徒困境博弈模型中,采用純策略種群中的個體都有兩種選擇:合作(coorperation,C)與背叛(defection,D).D策略個體利用C策略個體,獲得T收益,而C獲得S.雙方都合作則獲得R,都背叛則獲得P(如表1所示),其中T>R>P>S,2R>T+S.在單輪博弈情況下,無論對手采取何種策略,個體的最佳策略總是選擇背叛.然而,在雙方都采取合作策略的情況下,二者總的收益才是最大的,這一現象說明了社會兩難問題的實質.解決的方案之一就是Axelrod提出利用迭代囚徒困境來解決合作行為的演化,其中又以Rapoport提出的TitforTat(TFT)策略和Pavlov提出的WinStayLose-Shift (WSLS)策略最為著名[3].姜殿玉等通過引入背叛函數及其嚴厲度和參與人的背叛愿意,給出了一種懲罰機制下一次性n人囚徒困境合作的可能性[4].李棟等人探討了一類具有兩種狀態名聲機制條件下的重復囚徒困境存在合作的可能性,得出有3個馬爾可夫策略時高效的強健完美納什均衡,與好名聲者合作與背叛壞名聲者的策略時最具吸引力的一個策略,此策略促進合作成功并能持續下去[5].王健探討了如何通過承諾在囚徒困境博弈中尋求合作共贏的新局面,并提出重復博弈下的聲譽機制是使承諾可信,促使囚徒困境合作的重要因素[6].廖列法等人針對規則格子上的節點的自私行為不能有效抑制問題,提出了一個結合個體移動和噪聲因素的演化囚徒困境模型,認為個體移動和噪聲對囚徒困境的演化博弈的合作行為產生影響[7].
經 濟 數 學第 32卷第2期
張新立等:基于參與主體異質性條件下囚徒困境合作演化博弈模型研究
表1 種群中參與個體的博弈支付表
盡管上述文獻在研究種群中參與個體的合作行為演化方面取得了重大進展,不同程度地提出了解決合作行為的方案與措施,但它們在研究種群中參與個體演化合作博弈的傳統方法通常假設種群內的個體是均勻同質的,即種群中的任何個體都是實力對等的,對其他個體的影響是一樣的,且都以獨立相同的概率和其他個體相遇并進行博弈.然而,這種模型假設過于理想化,因為現實種群中博弈雙方的個體實力時常不對等、具有異質性.種群中博弈雙方的異質性不僅影響博弈雙方個體的收益,而且也影響相應的采取策略,目前關于這方面的研究還鮮有學者涉及.基于此,本文把參與主體的異質性條件引入到囚徒困境博弈模型中,探討異質性條件下囚徒困境博弈中的種群能夠演化出與均勻同質性種群不同的一些行為模式,這些行為模式能夠促使異質性囚徒困境博弈模型演化出具有很高合作率的群體,從而有效地解釋了為何在現實中大多數合作系統中都能觀測到合作方和接收方之間存在長期的合作穩定狀態.
2 同質性條件下的囚徒困境演化博弈模型
考慮到種群中不同的參與個體可以利用各自對應不同的收益表來表示,又因原始囚徒困境中種群中的個體都有兩種選擇純策略:合作與背叛,收益表中的參數關系滿足T>R>P>S.為了減少收益表中自由參變量的個數,可以定義種群中個體采取合作行為付出的代價為c,此合作行為使對方獲得收益為b;個體采取背叛策略不付出任何代價,即P=0,也不分發任何利益給對方,收益表可以簡化為只含兩個參變量b和c的形式,且滿足關系式b>c>0.由于囚徒困境是對稱博弈,博弈雙方對應的收益表A與B有關系式BT=A.所以博弈雙方具有相同的性質.下面僅對博弈一方的演化性質進行討論.
C DC DCDRSTP=CDb-c-cb0.
現在考慮在一個種群中的個體間隨機配對進行博弈.假設在該種群中,采取C策略的種群比例為x,采取D策略的種群比例為y,x+y=1.由于假設該種群內的個體是同質的,實力對等,所以,不管它采取何種策略,種群個體采取的策略只會影響它的收益.此時采用兩種策略的參與個體的期望收益與種群的平均期望收益分別為
fC=(b-c)x-cy,fD=bx-0y,
φ=xfC+yfD. (1)
于是,一博弈方采取合作策略的復制子動態方程為
F(x)=dxdt=x[fC-φ]=
x(1-x)(fC-fD)=-cx(1-x). (2)
根據該復制子動態方程,x=0和x=1為2個穩定狀態.依據微分方程的穩定性定理及演化穩定策略的性質,當F′(x)<0時,x為演化穩定策略.因為F′(0)<0,所以,x=0為演化穩定策略.其動態趨勢和穩定性的相位圖如圖1所示.也就是說,不論博弈對方如何讓選擇,種群中一方博弈個體的最優選擇是背叛,而且是一個占優戰略均衡,所以也是演化穩定的.種群的所有個體最終由背叛個體組成.
圖1 一方博弈的策略穩定性相位圖
3 異質性條件下的囚徒困境演化博弈模型
在囚徒困境參與個體博弈過程中,博弈雙方的個體經常是異質的,雙方實力不對等,此時博弈雙方的策略選擇和獲得的收益顯然要受雙方異質性的影響[8].在此條件下,當博弈雙方都選擇背叛時,受到的傷害程度也是不同的,實力大的一方受到的傷害程度顯然比實力小的一方要小得多,尤其從長期來看,這種傷害程度對博弈雙方來說都要比實際顯現的要大;當雙方都選擇合作策略時,實力大的一方所選擇的策略更主動,得到的收益分配顯然比實力小的一方要高.為此,假設種群都選擇合作策略的博弈雙方實力差異為r1;一方選擇合作,另一方選擇背叛的實力差異為r2;雙方都選擇背叛策略的實力差異為r3.當r1=r2= r3時,囚徒困境顯然變為同質性的情形.當r1,r2,r3不全相等時,種群內的參與個體是異質的,異質性不僅對其采取的策略產生影響,而且對分配的收益也有影響.此時采用兩種策略的參與個體的期望收益與種群的平均期望收益分別為
圖2 兩個內點的演化策略穩定性相位圖
4 結束語
種群中的合作行為是自然界中最為普遍存在的規律,而種群中個體的異質性又是常見的.本文利用演化博弈的相關理論,對個體具有異質性的囚徒困境模型進行了分析,認為盡管種群個體一般都有背叛個體所組成,但是當異質性滿足一定的條件時,群體中背叛和合作的個體是可以共存的,而且伴隨著選擇相同策略群體異質性程度的不斷增加,群體中背叛個體逐漸向合作個體過渡,直至可以達到群體由完全的合作個體所組成,為自然界中最為普遍出現的合作行為現象提供了有益地詮釋,也為促進自然界群體中的有益合作提供了一定決策參考依據.
參考文獻
[1] MAYNARD SMITH. Evolution and the Theory of Games[M]. Cannbridge:Cambridge University Press, Cambridge, 1982.
[2] M A NOWAK. Five rules for the evolution of cooperation[J]. Science, 2006,5805(314): 1560-1563.
[3] R AXELORD. The Evolution of Cooperation [M]. New York: Basic Books,1984.
[4] 姜殿玉,鄭長波,許作銘. 一種懲罰機制下一次性n人囚徒困境的合作性[J].運籌與管理,2011,20(4):96-99.
[5] 李棟,蔣軍利, 唐曉嘉.基于名聲機制的重復囚徒困境合作博弈分析[J].計算機科學,2013,41(4):240-243.
[6] 王健.沖突與合作視角下的承諾及其可信性研究—以囚徒困境博弈為例[J].河南工業大學學報:社會科學版,2013,9(1):49-53.
[7] 廖列法,孫瑋,劉朝陽. 基于演化博弈研究移動和噪聲對合作的影響[J].物理學報,2015,64(3):53-56.
[8] C TAYLOR,M A NOWAK. Evolutionary game dynamics with nonuniform interaction rates[J] .Theoretical Population Biology, 2006,69(3): 243-252.