張良橋
(1.中山大學嶺南學院,廣東廣州 510275; 2.順德職業技術學院,廣東順德 528333)*
協調博弈均衡的穩定性研究
張良橋1,2
(1.中山大學嶺南學院,廣東廣州 510275; 2.順德職業技術學院,廣東順德 528333)*
針對不變突變率模型的缺陷,結合心理學、社會學等成果,通過在吸引域離開阻抗中引入意向因素而拓展了不變突變率模型,研究了意向因素影響下協調博弈均衡的穩定性,探討了均衡結果與影響因素之間的數量關系,模型可為決策者駕馭經濟演化系統提供理論依據。
協調博弈;意向因素;隨機穩定狀態
與新古典經濟學不同,進化博弈理論從有限理性參與人群體出發,強調均衡結果的過程依賴性,認為結果是過程的函數,進化博弈為解決均衡選擇及均衡穩定性提供了新的視角。到目前為止,在對均衡穩定性的研究中最有代表性的模型是協調博弈模型,最基本的概念是進化穩定策略及隨機穩定狀態,最核心的標準是風險占優與支付占優。已有對協調博弈均衡穩定性研究的文獻主要從實驗與理論兩方面來進行的:實驗研究是針對單個因素來設計情境并探討其對均衡結果的影響,研究表明,參與人行為選擇并不完全取決于基于博弈支付的理性計算,而是受到環境中諸多因素影響;理論研究則通過構建精美的數學模型從數理上探討參與人行為選擇的內在規律性,并用以解釋并預測參與人群體行為演化。本文擬在不變突變率模型基礎上,結合社會學、心理學及博弈理論的成果,通過引入意向因素來研究協調博弈均衡的穩定性。


圖1 支付矩陣
KMR在達爾文動態基礎上引入不隨系統狀態變化的背景突變因素,令st表示時期t選擇策略A的參與者個體數,這樣就在狀態空間S上定義了馬爾可夫鏈,顯然,該馬爾可夫鏈滿足遍歷性要求并存在唯一平穩分布。在此基礎上,KMR采用了Freidlin,M.and Wentzell,A.D.提供的“方向樹法”(directed-tree)計算動態過程的平穩分布,并得到“在確定性達爾文動態下,對任何群體規模N≥2,如果由博弈支付完全確定的突變邊界s*≠N/2滿足s* Young認為由于參與人有高昂的信息搜尋成本,每一個體只能依據非常有限的博弈歷史來進行決策[4],因此,均衡的穩定性是由參與人對其他人選擇相同行動的信念(即適應性學習過程)決定的。他通過引入參與人對有限博弈歷史作出最優反應的適應性動態,采用與 KMR的類似方法研究了離散條件下協調博弈均衡的穩定性,得到“適應性馬爾可夫過程的隨機穩定狀態一定包含在有最小隨機潛力的常返集中,并且充分持有的那些狀態與試驗概率及試驗分布無關。”即背景突變保證系統不會離開狀態空間的內部,狀態空間的邊界起著鏡面反射作用,在適應性動態下的馬爾夫過程滿足遍歷性要求而使得該過程存在不變分布。 Ellison則是基于標準進化模型即正則擾動而展開的[2]。他在定義常返集吸引域半徑及共軛半徑的基礎上進一步分析得到“如果常返集的并集Ω有R(Ω)>CR(Ω)②,那么,系統的進化穩定集一定包含在Ω中,并且對任何y?Ω,系統花費在演化路徑上的時間為W(x,Y,ε)=O(ε-CR(Ω))。”該結論可表述為:如果某常返狀態吸引域半徑大于吸引域共軛半徑,即離開吸引域的阻抗大于進入吸引域的阻抗(即離開的難度大于進入的難度)時,系統的隨機穩定狀態一定在此常返狀態集之中。協調博弈常返狀態集是由嚴格納什均衡組成,因此,具有最小隨機潛力的嚴格納什均衡狀態是隨機穩定的。 KMR,Young與Ellison都是在保證系統存在常返狀態的情況下,求出每個常返狀態吸引域的寬度(僅是計算方法不一樣),再根據“有最寬吸引域的常返狀態就是隨機穩定狀態”的結論來解決均衡的穩定性問題,其基本思路是: (2)隨機因素引入與遍歷性。KMR假定狀態轉移矩陣各元素不為零而保證系統不會被粘住; Young通過假定隨機因素的累積作用而保證動態過程滿足遍歷性要求;Ellison假定樣本不完全或者有限記憶保證系統不會被粘住而收斂到嚴格納什均衡。有了常返狀態存在性與遍歷性條件就能保證系統存在平穩分布,于是求隨機穩定狀態就轉化為求動態過程的平穩分布。 (3)形式不同,結論一樣。他們所得到的結論核心思想都是一樣的,即系統隨機穩定狀態完全取決于由博弈支付所確定的吸引域寬度。特別地在2×2協調博弈中,吸引域最寬的風險占優均衡是隨機穩定狀態。 不變突變率假定與現實并不相符合。如果突變來自于試驗,那么,有理由相信支付占優均衡會比其他均衡狀態的突變率更少;如果突變來自環境約束,那么,隨著參與人對環境熟悉程度的提高,其離開相應狀態的概率就應該更少;如果突變來自于參與人經驗不足,那么,博弈重復次數越多,策略選擇中隨機因素的影響就會越少,即突變率會隨著系統演化時間的推移而減少。博弈論實驗也表明參與人行為選擇結果會隨著環境因素的變化而變化,要更好地描述系統演化就必須基于可變突變率來研究。 首次對不變突變率假定提出挑戰的是Bergin and Lipman,他們認為系統在不同狀態的突變率應該是不同的,要準確地研究系統的穩定性就必須深入到系統突變產生的過程中去[5]。Bergin and Lipman構建了隨狀態變化且滿足遍歷性要求的突變模型,并得到“確定性動態與引入隨狀態變化突變率的隨機動態有相同極限分布”的結論。因此,在動態過程中引入突變是不會起到精煉納什均衡作用的。不過,他們的模型雖然得到了突變率影響均衡穩定性的結論,但并沒有考察突變過程與均衡結果之間的具體關系,缺乏應用性。 Jack Robles認為突變率趨于零的速度對均衡穩定性的影響是非常重要的[6],如果隨機動態滿足遍歷性要求,那么,突變率趨于零時系統就會達到長期均衡,其結論與常突變率模型的極限行為是一樣的。于是,他采用了非平穩馬爾可夫鏈及歷史依賴的遍歷性概念,來研究突變率隨時間變化的情形并得到“突變率并不能決定系統的最終狀態,隨機穩定狀態依賴于系統初始條件”的結論。然而,他并沒得出隨機穩定狀態與突變率收斂零的速度之間的具體關系。 盡管可變突變率模型可以更現實地考察參與人行為演化,但也存在固有缺陷:一是這些模型沒有區分不同影響因素;二是可變突變率模型沒能結合到現實中參與人行為,沒有結合社會學、心理學等的研究成果,僅僅從數理上給予描述,具有理論研究意義但難以解釋現實人的行為。 [48] Michael R. Pompeo, “America’s Indo-Pacific Economic Vision,” Indo-Pacific Business Forum, U.S. Chamber of Commerce, Washington D.C. July 30, 2018, https://www.state.gov/secretary/remarks/2018/07/284722.htm. 參與人之間兩兩隨機配對進行博弈,行動集為{A,B},博弈支付矩陣見圖1。作為基礎,假定系統僅存在不變的背景突變因素,根據進化穩定狀態的定義可以計算確定動態下系統的突變邊界 k*③的值,其中k*表示選擇策略A的個體數。由計算可知,突變邊界完全取決于博弈支付,并且在支付一定的情況下,博弈最終結果僅依賴于系統初始狀態。如果初始時選擇策略A的個體數少于 k*,那么,所有參與人最終都選擇策略B;反之,如果初始時選擇策略A個體數大于k*,那么,系統就會趨于所有人都選擇策略A。因此,在確定性動態下,演化系統的均衡結果依賴于系統初始狀態,這就是經濟學理論中所說的路徑依賴(見圖2)。 圖2 確定性動態下系統演化相圖 為了便于研究,把影響系統演化的因素分為背景突變因素與意向突變因素:(1)把使參與人行為發生非系統性偏離的因素稱之為背景突變因素。與生態演化現象相比,參與人決策系統會面臨更為復雜的確定性或隨機性因素影響。因此,在經濟系統中引入不隨系統狀態變化而變化的背景突變率是必要的。(2)把使參與人行為發生系統性偏離的因素稱之為意向突變因素。經濟系統中參與人的選擇是有設定目的的,并且目的性本身必須通過因果過程來解釋[7]。實驗研究也表明,參與人的有限理性、所處環境的復雜性及意識行為等都可能影響系統演化結果。為簡化處理,僅引入三類意向因素:一是參與者個體數。選擇某種策略的參與者個體數越多,參與人陷入信息陷阱而選擇同樣行動的可能性就越大,即個體離開當前狀態的概率與所處狀態個體數反相關(如羊群行為)。二是博弈支付。參與人傾向于選擇支付較高的狀態,個體離開當前狀態的概率與所處狀態支付反相關(經濟人假定)。三是偏好程度。參與人的偏好隨如廣告、輿論、宣傳等環境因素的變化而變化,狀態之間的轉移概率與參與人對所處狀態的偏好正相關。 分兩步引入隨機影響因素。第一步,引入不變的背景突變率ε,并由此得到突變邊界,即把非均衡路徑上的支付納入到模型中來;第二步,引入意向因素,得出不同常返狀態的離開阻抗。在分析方法上與傳統理論文獻一樣,假定進入常返狀態是由背景突變引起的,離開常返狀態取決于離開阻抗。圖1所示的協調博弈中嚴格納什均衡A與B就是動態系統的兩個常返狀態,參與人對兩個常返狀態A、B的偏好程度分別用λA、λB(λi>0;i=A,B)表示。偏好參數λ可隨廣告、宣傳、輿論等外界環境變化而變化,λi(i=A,B)值越大,參與人離開當前狀態的可能性就越少。 基于Ellison模型的研究思路,下面考察常返狀態A的離開阻抗。假定初始時所有參與人都處于狀態B,即系統穩定于常返狀態B,那么,第一個選擇狀態A的參與轉而選擇狀態B的突變率為μa×1×λA,其中μ(0<μ<1)是非常少的正數,第二個選擇狀態A的參與人轉而選擇B的突變率為μa×2×λA;第三個選擇狀態A的參與人轉而選擇狀態B的突變率為μa×3×λA,依此類推,第 k個選擇狀態A的參與人轉而選擇狀態B的突變率為μa×k×λA,a為參與人所處均衡狀態A的支付,k為選擇當前均衡狀態A的個體數, λA為參與人對狀態A的偏好程度。顯然,μ的指數越大,參與人離開當前狀態的可能性就越少。按同樣的推理邏輯,可考慮狀態B的情形,第k個選擇狀態B的參與人轉而選擇狀態A的突變率可以記為μd×k×λB。由 Ellison吸引域半徑的定義可知,μ的指數與相應狀態吸引域半徑及離開阻抗正相關。當模型中μ的指數為 1時,就對應于 KMR,Young及Ellison等不變突率理論模型。可以看出,按上述方法引進意向因素并不會改變有限狀態馬爾可夫過程正則性④的三個條件。首先,引入意向因素并沒有改變馬爾可夫鏈的齊次性;其次,背景突變率的存在保證了馬爾可夫鏈遍歷性要求;第三,意向因素引入只是使狀態之間轉移概率發生了線性變化,這就相當于對轉移概率進行重標度。所以,引入意向因素后的馬爾可夫過程存在平穩分布。 傳統動態模型引入隨機因素是為了使系統在常返狀態之間跳動,便于確定馬爾可夫鏈的平穩分布,但沒能把影響參與人行為的復雜因素納入到模型當中[8]。事實上,影響參與人行為選擇的因素是多種多樣的,系統隨機穩定狀態并不完全由博弈支付所確定,與其他許多因素相關。拓展后模型不僅把博弈均衡支付、非均衡支付納入到模型當中,還考慮到如廣告、輿論、宣傳等影響參與人均衡偏好程度的社會、心理因素,能夠更現實地考察群體行為演化規律。 傳統不變突變率模型引入隨機因素只是為了使得系統不會被粘住,無法給出狀態特別是中間狀態到意向狀態之間的轉移成本,上述拓展后模型可以很方便地計算系統所處中間狀態來到意向狀態的逆轉成本,為決策者選擇使系統向意向均衡演化的最低成本措施提供理論依據,如圖3。 圖3 中間狀態轉移圖 圖3中,C點表示目前有k 由此可得“系統偏離高效率常返狀態的個體數h越大、所處常返狀態的支付越大、對所處狀態的偏好程度越高,那么,要使系統轉向另一常返狀態的逆轉成本就會越大。”如果系統已經向非意愿均衡演化,那么,隨著時間的推進,選擇非意愿均衡的個體數就會不斷增加,有利于該狀態的利益集團就會慢慢形成,從而使系統轉向意愿均衡所需轉移成本就會越來越大。因此,管理者在采取措施時,不但要考慮到系統所處的狀態與意向狀態之間的關系,而且要及時糾正不利于系統演化的各種決策,做到防患于未然,使系統以最小成本達到最有效率的狀態。 不變背景突變率模型的結論表明:除博弈支付外,其他任何影響因素都不會使參與人行為發生系統性偏離。現實中體制轉軌、文化形成、時尚變化等影響因素的變化都會引起參與人行為發生系統性偏離。因而,把使參與人行為發生系統性偏離的因素納入到模型中會更現實,可以更好地描述經濟系統的演化規律。以上結合社會學的“慣習”、“羊群行為”等現象,通過引入影響離開阻抗的因素來改變系統常返狀態的吸引域寬度,進而確定系統的隨機穩定狀態,拓展了不變突變率模型,得到“均衡結果不僅依賴于博弈支付,而且依賴于達到均衡過程中的影響因素,不同影響因素會使經濟演化系統收斂到不同的均衡”的結論。拓展后模型引進了外生影響參數,增加系統的可駕馭性,為制度設計、戰略管理等提供理論依據。 值得一提的是,由于作者水平有限,這些模型還沒能一般化,有待于進一步探索,另外,使參與人群體行為發生非系統偏離的意向因素還有許多,針對不同的模型如何引進還需更詳細的探討與研究。 注釋: ①為便于說明,以下字母A既表示狀態(A,A),又表示策略A;字母B既表示狀態(B,B),又表示策略B。 ②其中R(Ω)為并集Ω的吸引域的半徑,Ω為共軛半徑。 ③k*包涵了非均衡路徑上支付對均衡的影響。 ⑤事實上,傳統方法通過折現因子把時間納入到模型中,并比較現值與收益流來決定參與人的行為選擇。 ⑥從狀態x首次回到常返狀態Ω的期望等待時間與maxx∈zW(x, Ω,ε)=limε→0Ο(ε-CR(Ω))正相關。其中 CR(Ω)表示常返狀態Ω的共軛半徑,也就是說,從常返狀態Ω外的任何狀態 x出發,都可以找到對應的 T,在 T時期回復到Ω的概率至少是ε-CR(Ω)階,花費在Ω之外的期望時期數至少大于 k2ε-CR(Ω)。直觀含義是,在兩常返狀態系統中,進入阻抗越大,花費在演化路徑上的時間就會越長。 [1]Kandori,M.,Mailath,G.J.,rob,R..Learning,Mutation, Long-run equilibria in games[J].Econometrica,1993,(61):29-56. [2]Ellison,G..Basins of Attraction,Long-run stochastic stability, and the speed of step-by-step evolution[J].Review of economic studies,2000,(67):17-45. [3]Freidlin,M.I,Wentzell.Random perturbations of dynamical systems[M].Berlin/New York:Springer-verlag,1984. [4]Young,H.P..The evolution of conventions[J],Econometrica,1993,(61):57-84. [5]Bergin,J.,Lipman,B..Evolution with state-dependent mutations[J],Econometrica,1996,(64):943-956. [6]Robles,J..Evolution with changing mutation Rates[J].Journal of economics theory,1998,(79):207-223. [7]Hodgson,G.M..Darwinism in economics:from analogy to ontology[J].Journal of Evolutionary Economics,2002,(12): 268-279. [8]張良橋.論博弈均衡與隨機穩定狀態[J].財經理論與實踐, 2007,28(4):87-91. On the Stochastic Stability of Equilibrium in Coordination G ame ZHANG Liang-qiao1,2 (1.L ingnan College,Zhongshan University,Guangzhou,Guangdong 510275,China; 2.Economic Department S hunde Polytechnic college,Shunde,Guangdong 528333,China) To overcome the shortcomings of constant mutation rate model,we extend traditional theoretical models by incorporating background mutation and deliberation mutation into resistance,which is suggested by literatures in psychology and sociology.Multiple equilibriums under the influence of stochastic deliberation factors are studied systematically as well.Afterwards, we investigate quantitively the relation between the equilibrium outcomes of coordination games and the corresponding affecting factors.Conclusions drawn from our model can offer theoretical foundations for decision makers to manage economic evolutionary systems. Coordination Game;Deliberation Factor;Stochastic Stability F019.1 文獻標識碼: A 文章編號:1003-7217(2010)06-0083-05 2010-04-19 國家社科基金(09ZDB17&09ZDB18)、廣東省自然科學基金(05300601) 張良橋(1968—),男,湖南祁陽人,中山大學經濟學博士生、順德職業技術學院副教授,研究方向:博弈論、進化博弈理論。 (責任編輯:子衿)三、可變突變率理論研究及其評述
四、基于背景突變因素與意向突變因素理論模型拓展



五、系統中間狀態到意向狀態的演化時間與演化成本



六、小結與后續研究展望
