付子芮, 王新穎, 程 程, 張新立
(遼寧師范大學 數學學院,遼寧 大連 116029)
無論是自然界還是人類社會,合作現象都是普遍存在的,演化博弈理論為合作行為的研究提供了有效的理論框架。囚徒困境是博弈論中廣泛使用的范例,很多學者利用該模型討論合作演化的穩定性問題,其中以直接互惠來研究合作行為的演化穩定性最為常見。直接互惠的博弈論框架是迭代囚徒困境,Pacheco等[1]研究了動態結構種群中直接互惠下合作的演化,推導出演化穩定性的條件。Hilbe 等[2]以迭代囚徒困境為主要模型,討論得出當種群數量大且關系穩定時,直接互惠促進合作的演變。Ohtsuki等[3]拓展了囚徒困境的標準框架,讓參與人在合作、背叛和懲罰中做出選擇,得出在直接互惠的背景下自然選擇更傾向于合作。
上述文獻雖然已經從完全理性發展到了有限理性分析框架,但在刻畫參與人支付函數方面還是沒有突破經典博弈論所建立的期望效用理論范式。直接互惠可能在這種理論前提假設下使個體之間形成一個合作演化均衡,但卻很難解決合作系統內個體間爭奪公共資源、為公共資源的有限性而發生沖突從而導致合作系統解體等問題。Eisert等[4]提出了量子策略的概念,構建了一個特定的量子策略去解決經典博弈構成的困境。孫慶文等[5]基于不完全信息假設,對演化博弈均衡進行穩定性分析,并給出定性行為的拓撲等價分類。Du等[6]將量子囚徒困境推廣到玩家共享非最大糾纏態的情況,利用NMR實現了囚徒困境模型量子策略。
綜上,運用量子糾纏分析參與者的理性程度可為理性的定量研究提供新思路,也對博弈結果產生影響。對于經典囚徒困境模型,使用EWL量子化方案可以改變經典策略所產生的困境,使用合作機制可以促進參與者選擇合作。目前很多國內外學者將5種合作機制單獨或者多種機制共同引入囚徒困境模型中,而在量子策略中,目前鮮少有學者進行量子囚徒困境模型在合作機制作用下的演化博弈分析的研究。因此,本文將直接互惠引入量子囚徒困境中,建立了直接互惠下的量子囚徒困境模型,并進行演化博弈分析,討論出在這種策略下演化穩定性的條件。此理論不僅拓展了傳統博弈模型支付函數的表達形式,而且可在直接互惠和糾纏統一框架下解決人類社會普遍存在的競爭和沖突等問題,具有重要的現實指導意義。
囚徒困境中,個體有合作(C)和背叛(D)兩種選擇。當C與C相遇時,C獲得的收益是3;當C與D相遇時,C獲得的收益是0,D 獲得的收益是5;當D 與D 相遇時,D獲得的收益是1,收益矩陣如表1所示。
由表1可知,(背叛,背叛)是唯一的納什均衡。當雙方均選擇合作時集體收益最大,但每個參與人都從背叛中獲得更高的個人利益,反映出個人理性與集體理性的矛盾。為解決這一困境,Li 等[7]提出了量子囚徒困境博弈,引入量子糾纏度γ到經典的囚徒困境中,得到了量子囚徒困境的收益矩陣。王龍等[8]論述了量子博弈的研究現狀和最新進展,介紹了Eisert量子博弈模型。令2個主體的策略都是,即該博弈的狀態為,通過量子門?使得狀態糾纏在一起形成初始狀態,即2個主體的初始狀態形成糾纏狀態。2個主體A和B的策略分別為酉算子和,當進行一次博弈后,通過量子門J?來解糾纏,得到最終狀態。使用囚徒困境收益矩陣(表1),定義A的收益矩陣為:$A= 3?PCC+ 1?PDD+ 5?PDC+ 0?PCD。在這種情況下,存在一個量子策略使得均衡(Q,Q)是一個新的Nash均衡,并且是一個Pareto最優,因此困境在量子策略下消失了。糾纏程度也是影響量子博弈的一個重要因素,本文用新的Nash 均衡策略Q替換經典合作策略C,得到了量子囚徒困境博弈的收益矩陣。
從表2 可以看出,當γ= 0 時,量子博弈將回到經典博弈,經典囚徒困境模型是量子囚徒困境模型的一種特殊形式;當γ=時,量子策略Q 是唯一的Nash均衡,并且是Pareto最優解;當)時,隨著γ的增大,(背叛,合作)和(合作,背叛)的收益趨向于(合作,合作)的收益,(合作,合作)策略組合越來越穩定。因此,量子囚徒困境模型是經典囚徒困境模型的推廣。

表2 量子囚徒困境的收益矩陣Table 2 Payoff matrix of quantum prisoner′s dilemma
直接互惠被認為是一個強大的合作機制,許多學者研究了直接互惠在迭代博弈中促進合作的演化。Nowak[9]通過研究“總是合作”和“總是背叛”的相互作用,推導出合作在迭代囚徒困境演化中的必要條件,得出囚徒困境在直接互惠下的收益矩陣。Rand等[10]基于迭代囚徒困境模型構建了直接互惠下的合作者和背叛者的收益矩陣。直接互惠基于“你幫助我”和“我幫助你”的概念,在每一輪博弈中,兩名參與人必須選擇合作或背叛。設ω為下一輪相遇的可能性,其中ω∈(0,1),每一輪的平均數為,由此得到了直接互惠下的量子囚徒困境收益矩陣(表3)。

表3 直接互惠下的量子囚徒困境收益矩陣Table 3 Quantum Prisoner′s Dilemma payoff Matrix under direct reciprocity
在博弈過程中,博弈方1和博弈方2選擇合作的概率分別為x、y,選擇背叛的概率分別為1 -x、1 -y,其中x∈[0,1],y∈[0,1]。博弈方1采取“Q策略”和“D策略”的期望收益和二者平均收益分別為:
由于博弈是對稱的,博弈方2采取“Q策略”和“D策略”的期望收益和二者平均收益計算過程與博弈方1相同,因此博弈方1、2采取合作策略的復制子動態方程分別為
根據演化穩定策略的性質與微分方程的穩定性定理:若一個策略(x,y)是演化穩定策略,需要滿足
2.1.1 (合作,合作)是演化穩定策略
2.1.2 (背叛,背叛)是演化穩定策略
2.1.3 (合作,背叛)和(背叛,合作)為演化穩定策略
量子納什均衡點D的局部穩定性與ω、γ密切相關,其中x0=y0=,在其余參數不變的情況下,僅改變ω、γ的數值會使局部穩定區域發生變化。由于x0、y0相同,下面利用多元函數微分學討論參數ω、γ對x0的影響。
2.2.1ω對x0的影響
在參數γ不變的情況下,<0,x0為關于ω的減函數;當< sin2γ< 1,>0,x0為關于ω的增函數。綜上可知當0 < sin2γ<時,合作行為與直接互惠呈負相關,直接互惠行為抑制合作;當< sin2γ< 1時,合作行為與直接互惠呈正相關,即直接互惠行為促進合作。
2.2.2γ對x0的影響
在參數ω不變的情況下因此當<ω< 1時,合作行為與糾纏呈正相關,糾纏促進合作的演化;當0 <ω<時,合作行為與糾纏呈負相關,即糾纏抑制合作的演化。
現在研究O、A、B、C、D均衡點演化策略的漸近穩定性。為進一步驗證量子糾纏和直接互惠促進合作演化的問題,使結果更具直觀性,本文利用Matlab對均衡點進行模擬仿真分析,結果如圖1和圖2所示。

圖1 量子糾纏下ω對均衡點x0的影響Figure 1 The influence of ω on equilbrium point(x0) under quantum entanglement

圖2 直接互惠下sin2γ對均衡點x0的影響Figure 2 The influence of sin2γ on equilbrium point(x0)under direct reciprocity
從圖1可知,當sin2γ> 0.2時,合作行為與直接互惠呈正相關,即直接互惠行為促進合作;sin2γ< 0.2時,合作行為與直接互惠呈負相關,即直接互惠行為抑制合作,且糾纏γ越大,演化速度越快。從圖2可以看出,當ω>時,糾纏促進合作;當ω<時,糾纏抑制合作。數值仿真與本文理論內容符合。
本文基于演化博弈理論建立直接互惠下量子囚徒困境模型,通過求解均衡點和對均衡點的穩定性分析,討論合作策略和背叛策略為演化穩定策略的條件以及直接互惠參數和糾纏對均衡點的影響,得出結論:當直接互惠參數ω不變時,sin2γ> 0.2,直接互惠行為促進合作;當糾纏γ不變時,ω>,糾纏促進合作的演化。量子策略給博弈論提供了新的視角和思路,量子演化穩定策略的分析也為博弈均衡提供了新的途徑。