摘要:以均衡思想演化為主線,從內涵、性質及穩定性等方面全面地比較了非合作博弈理論與進化博弈理論的基本均衡概念——納什均衡與進化穩定策略,在此基礎上探討了隨機穩定狀態在描述參與人行為演化的現實性,特別地給出了多常返狀態隨機穩定性的算法,例證并解釋了嚴格劣策略會影響系統常返狀態吸引域的寬度來影響隨機穩定狀態。
關鍵詞:納什均衡;進化穩定策略;隨機穩定狀態
中圖分類號:C93—03 文獻標識碼:A 文章編號:1003—7217(2007)04—0087—05
影響因素的不斷變化使得經濟系統可能長期無法達到均衡,但均衡作為一種參照,無論對理論研究還是實踐探索都具有十分重要意義。以互動為基礎的博弈理論(包括非合作博弈理論與進化博弈理論)較傳統經濟理論在研究方法上更進了一步,均衡思想貫穿于整個體系。為了更好地描述真實生活中參與人的行為,從納什均衡到進化穩定策略再到隨機穩定狀態等博弈理論的基本均衡概念也在發展中不斷完善,納什均衡只能描述均衡點的局部靜態性質,進化穩定策略可以描述系統的局部動態性質,隨機穩定狀態能描述系統的全局性質。本文在系統論述納什均衡、進化穩定策略的基礎上,重點研究了隨機穩定狀態及其所隱含的演化思想,同時運用Ellison(2000)的吸引域半徑法與Freidlin,M.AndWentzell,A.D.1984)的方向樹法分別給出了兩狀態與多狀態情形下的算法。
一、非合作博弈與進化博弈中的均衡思想
非合作博弈理論研究有利益沖突個體在互動時的策略反應,給定利益沖突的每一個體都有既定的選擇集,且對選擇集中的各個策略都有既定偏好,所有參與人的選擇決定博弈結果。該理論關心的問題之一是面對特定博弈,其解是什么?核心概念是Nash在研究非合作博弈問題時提出來的納什均衡。納什均衡是指在其他參與人選擇一定的條件下,每一個參與人都選擇獲得最大支付的策略,換句話說,納什均衡是任何參與人都不會單獨偏離的一種狀態。納什運用角谷靜夫不動點定理證明了“任何有限博弈都存在納什均衡”,解決了博弈論發展的核心問題,為非合作博弈理論的快速發展奠定了理論基礎。納什均衡是一個局部最優而非全局最優均衡概念,并不關注均衡效率。非合作博弈理論關心的問題之二就是參與人如何進行策略選擇,為什么會選擇納什均衡策略?非合作博弈理論假定參與人是完全理性的,在處理動態博弈時,還要求參與人滿足序貫理性這一更強要求。在完全理性假定下,參與人對世界任何變化都會作出最優反應,如果存在均衡,那么他們總會選擇均衡策略。但在處理多重均衡時,由于參與人難以推測對方的行為預期,因此,難以在多重均衡特別是多重嚴格納什均衡之間作出選擇。
非合作博弈理論存在著兩大致命缺陷:一是完全理性假定,二是多重均衡問題。完全理性要求使得研究對象脫離現實,多重均衡問題使得理論預測效果大打折扣。與傳統方法不同,進化博弈理論以參與人群體為研究對象,因為,參與人都是處于一定社會網絡之中,且基于經濟關系與其周圍的親戚朋友發生直接互動,參與人的直接互動被限制在一個小的群體范圍內,隨著時間演化,參與人可能在同一個商店購買物品、同一個企業工作、同一個旅館休息。進化博弈理論包含了一大類模型,這些模型的核心思想就是強調信念形成過程,并運用動態過程來描述參與人是如何在重復博弈中形成適應性行為的。動態過程可以描述年復一年的文化形成過程、可以描述參與人一代一代的學習過程、可以描述一輪一輪的試驗過程,能夠較好地解釋信念與行動之間的關系。進化模型主要基于兩個假設,一是假定每個參與人都通過與其他人行為互動的學習過程來改變其策略的,通過特定的方法來修正對其他參與人行為的預期,在細節上雖然此過程與適應性過程不完全相同,但是大量的結果表明博弈會收斂到納什均衡的;二是假定參與人進行隨機匹配博弈且沒有固定博弈對手。進化博弈理論的核心概念——進化穩定策略描述的是這樣一種狀態:假設存在一個全部選擇某一特定策略的大群體和一個選擇不同策略的突變小群體,突變小群體進入到大群體而形成一個混合群體。如果突變小群體在混合群體中博弈所得到的支付大于原群體中個體在混合群體中博弈所得到的支付,那么小群體就能夠侵入大群體,反之就不能夠侵入大群體而在演化過程中消失。如果一個群體能夠消除任何小突變群體的侵入,那么該群體達到了進化穩定狀態,此時該群體所選擇的策略就是進化穩定策略。
二、隨機因素影響下系統長期行為的穩定性

進化穩定策略概念要求突變因素不連續且不重疊,只能描述單個隨機因素影響下任何偏離均衡狀態的行為都會隨著時間的演化自動回復到原來的進化穩定狀態。進化穩定策略描述了局部動態性質,但沒有把更為現實的隨機因素影響納入到模型之中,難以準確地給出系統的全局性質。
(一)直面現實的隨機系統
現實中經濟系統常常會受到來自突變和其他偶然事件的隨機沖擊,這些隨機沖擊產生的原因是多方面的:第一,參與人隨機匹配的互動過程本身會對系統帶來隨機性影響;第二,參與人如果是采取混合策略,那么就會有意識地對系統產生隨機性影響;第三,博弈支付所受到的未被預期沖擊會對系統產生無意識的影響;第四,突變過程本身會對系統產生隨機性影響;第五,群體中個體的進入與退出會對系統產生隨機影響;第六,系統本身會被累積的隨機因素影響。當然,這些因素不是絕對的,但它的確能夠說明產生隨機影響的主要原因。早期有關進化博弈理論文獻表明,由于群體模型足夠大,基于個體水平上的隨機影響在群體中平均而變得可以忽略,不會對系統的選擇行為產生任何影響。這種考慮問題的思想對短期、中長期是有說服力的,但如果考慮一個很長時期,那么即使隨機沖擊的概率非常少,其累積效果也會對系統長期行為產生不可忽略的影響。Young and Foster首次把影響系統的隨機因素納入到進化模型之中,并提出了既不同于傳統ESS也不同于吸引子的隨機穩定性概念,使多重均衡問題轉變成不同均衡吸引域寬度的比較。隨機穩定狀態與系統所定義的動態有關,是一個全局動態概念。如果是支付單調動態并且有不變突變率,那么它直接由博弈常返狀態的吸引域寬度決定,計算方法源于“方向樹法”,其實質是通過比較不同狀態的吸引域半徑來確定系統的隨機穩定狀態。
(二)經濟系統的隨機穩定性
一般的進化模型中參與人都是選擇那些相對于群體分布的最優反應策略,群體分布隨著時間的演化而不斷變化,這是一種奈特不確定性,在支付單調動態下,系統一定會收斂到嚴格納什均衡,偶爾也可能出現極限環的情況,但從長期來看,運用進化穩定策略概念是無法在嚴格納什均衡之間作出選擇。下面以獵鹿博弈為例說明隨機穩定狀態的求法,支付矩陣表1。
考察由n個參與人組成的群體,用zt∈Z={0,1,2,∧,n}表示群體在時刻t所處的狀態,其中zt為時刻t群體中選擇獵鹿策略的人數,時間是離散的。假定群體共有10個人,如果系統有超過6個人選擇獵鹿策略,那么最優反應策略就是獵鹿;如果系統少于6個人選擇策略獵鹿,那么最優反應策略就是獵兔。如果系統恰好有6個人選擇獵鹿,那么系統達到內點均衡狀態,但此狀態是不穩定的鞍點均衡。

利用Ellison2000的吸引域半徑法求隨機穩定狀態的實質就是比較系統中兩個常返狀態吸引域的寬度,并由較寬吸引域來決定系統隨機穩定狀態。在上面例子中,獵鹿狀態吸引域就是6,7,8,9,10;而獵兔狀態吸引域是0,1,2,3,4,5,6;在不變突變率的條件下,由于獵兔狀態的吸引域比獵鹿狀態的吸引域寬,所以從長期來看,當突變率趨向于零時,系統將花費大部分時間于吸引域寬的獵兔狀態,因此,獵兔狀態是隨機穩定的,系統存在多個常返狀態時,就不能簡單地套用上述方法,而需要通過比較不同常返狀態所有路徑的最小阻抗來確定系統的隨機穩定狀態。
隨機穩定狀態是通過概率來度量系統長期行為的。如果系統是連續情形,那么可通過求隨機潛力的方法來確定系統的隨機穩定狀態,并且,有最小隨機潛力的狀態就是隨機穩定狀態。現實中,多數情況是離散的,需要根據“方向樹法”來計算有多個常返狀態的隨機潛力。如果每個參與人在任何狀態、任何時候都以相同且不為零的突變率選擇其他任何策略,就可以保證馬爾可夫鏈的遍歷性而使系統存在平穩分布。下面用一個例子來給予說明,假定系統有五個狀態,每兩個狀態之間的阻抗如圖2。
顯然:該系統有四個常返狀態。C1={x1},C2={x2},C3={x3},C4={x4,x5},由常返狀態之間的最短路徑所確定的最小阻抗如圖3。
四個常返狀態對應的隨機潛力分別為φ(C1)=1,φ(C2)=5,φ(C4)=3,φ(C4)=6。經過計算可以得到具有最小隨機潛力的狀態{X1}就是隨機穩定狀態。
三、嚴格劣策略對隨機穩定性的影響

非合作博弈理論認為,理性人是不會選擇嚴格劣策略的,因此,在作均衡分析時可以優先剔除。然而,有關重復囚徒困境博弈實驗研究表明,參與人常常會選擇嚴格劣的合作策略。實驗經濟學研究表明,在協調博弈中,支付優勢并不是均衡選擇的唯一標準,劣策略影響博弈的均衡結果,也就是說在博弈中參與人肯定以正的概率相信對手會選擇嚴格劣策略。因此,由博弈支付定義的劣策略可能對均衡選擇產生較大的影響,在某些情況下,優先剔除劣策略的分析方法是值得商榷的。
在現實經濟系統中,參與人行為受到確定的、隨機的等更復雜因素影響,因而,要更真實地描述參與人行為長期演化的合適概念就是隨機穩定狀態。根據前述定義,動態系統的隨機穩定狀態是由吸引域寬度或者最小隨機潛力來確定的,而吸引域寬度是由博弈支付確定的,在這里的支付不僅包括均衡支付也包括非均衡支付,因而,嚴格劣策略自然會影響吸引域的寬度,進而影響到系統的隨機穩定狀態。從理論上證明嚴格劣策略影響吸引域寬度比較復雜,下面將通過一個具體例子來給予論證,如表2所示的支付矩陣。
首先看支付矩陣左上方的協調博弈。從靜態來看,該博弈有兩個嚴格納什均衡與一個混合策略納什均衡。從動態來看,如果引入確定性動態或者單次、不重疊影響因素,該博弈兩個純策略嚴格納什均衡是進化穩定的,混合策略納什均衡是不穩定的鞍點均衡,因而,進化穩定策略是對納什均衡的精煉;如果引入不隨系統時間與狀態變化而變化的變突變率,則該博弈只有納什均衡B是隨機穩定的,因此,隨機穩定狀態是進化穩定策略的再次精煉。
在引入不變突變率的隨機動態下,加入第三個策略C,要使動態系統隨機穩定于狀態A,則參數需要滿足什么條件,根據Ellison的算法,只要計算狀態A的吸引域半徑與共軛半徑,再比較即可以得到相應的結論。由計算,狀態A的吸引域半徑為R(A)=5/11;而共軛半徑為CR(A)=6/(a+5),再由Ellison(2000)的定理1可知,僅當R(A)>CR(A)時才可使狀態A滿足隨機穩定性條件,滿足。
6/(a+5)<5/11→a>41/5
計算表明,只要支付a>41/5>4,那么狀態A是隨機穩定的,如圖4。
可以看出,使A為隨機穩定狀態的條件是a>41/5>5,也就是說策略C是嚴格劣策略的。本例說明,雖然嚴格劣策略C不會成為均衡策略,但它卻可以影響參與人的選擇,通過改變常返狀態的吸引域寬度而改變長期均衡。
從以上例證可以看出,論證嚴格劣策略影響系統隨機穩定狀態時,我們在系統中引入了隨機影響因素,那么為何要引入呢?下面給予解釋:考察表3的協調博弈,因為,1+8>6+2,因此,均衡B是風險占優的,由不變突變率模型結論可知,它就是系統的隨機穩定狀態。現在加入嚴格劣策略C。如果列參與人選擇策略B,那么行參與人的最優反應策略也是策略B;如果列參與人選擇策略A,那么行參與人的最優反應策略也是策略A;但如果列參與人由于錯誤地選擇了嚴格劣策略C,那么行參與人的最優反應策略又變成了A,同樣,如果行參與人錯誤地選擇了策略C,那么列參與人的最優反應策略就變成了A。在這里所說的錯誤就是隨機影響因素,在理性框架下,如果不引入錯誤,那么就不需要考察隨機穩定性,只用納什均衡即可以表示博弈結果;在模型中引入隨機因素使得系統在不同狀態之間跳躍,也就是說,系統不會被鎖定。結合上述例子,加入嚴格劣策略C與隨機因素以后就增加了行、列參與人選擇策略A的可能性,從而拓展了吸引域A的寬度,使得均衡A變成了系統的隨機穩定狀態。嚴格劣策略影響系統的隨機穩定性這一結論能夠解釋傳統理論下許多難以用數學模型來解釋的社會現象,如“迂回戰役”、“曲線救國”等等,因為正面攻擊無法使得博弈均衡發生改變,而通過非正面攻擊卻可以使得系統常返狀態的吸引域發生變化,進而改變博弈的隨機穩定性。
四、納什均衡、進化穩定策略與隨機穩定狀態的區別與聯系

納什均衡是指在其他參與人選擇不變時,每個人都選擇了最大化自己期望支付的策略組合。顯然,它是一個點的概念,因此,納什在證明“任何有限博弈至少有一個納什均衡”用到了不動點定理,它并不考慮均衡的穩定性,沒有把影響因素納入到模型當中。強調均衡點的不動性而不考慮穩定性,不需要引入外在沖擊。進化穩定策略是一種鄰域概念,要求對在突變邊界內一次性、不連續沖擊保持穩健性。引入了孤立的隨機沖擊,強調局部回復性與被粘性即路徑依賴,但它只考察系統進入到吸引域后的情況而把系統進入到吸引域歸結到突變。
隨機穩定狀態是描述系統長期行為的概念,它是指在隨機因素影響下,隨著影響趨向于零,系統幾乎一定回復到相應吸引域的任意少鄰域,即系統在該狀態出現的概率幾乎為1,它不僅是一個鄰域概念而且考慮到了鄰域的寬度。由于定義,隨機穩定狀態取決于系統回復到吸引狀態的次數,而次數與吸引域的寬度正相關,因此,隨機穩定狀態就是有最寬吸引域狀態。隨機穩定狀態納入了連續隨機沖擊,要求系統不被粘住,強調全局穩定性。為了更直觀地比較它們之間的區別與聯系,下面運用一個圖來給予描述。
顯然,從直觀上看圖中各個點都是納什均衡點,但只有B、D、F為進化穩定狀態點,又因為D的吸引域最寬,只有狀態D才是隨機穩定狀態,博弈支付完全確定的吸引域寬度決定了長期隨機穩定狀態。
五、結束語
本文在簡單地論述納什均衡與進化穩定策略概念以后,重點探討了描述動態系統長期均衡穩定性的概念——隨機穩定狀態所蘊含的基本均衡思想,并論證了嚴格劣策略可以影響系統均衡穩定性的結論,給出了計算隨機穩定狀態的方法,最后結合納什均衡與進化穩定狀態從直觀上區分了三大概念在描述均衡的區別與聯系。從均衡思想來看,由納什均衡到進化穩定策略再到隨機穩定狀態,均衡概念的適應條件越來越接近現實,預測結果也越來越準確。