完全理性到有限理性：博弈論理性基礎的變更

2015-10-08 13:19:50朱雅敏魏永波

科技視界 2015年27期

朱雅敏　魏永波

【摘要】“博弈參與人是完全理性的”，這是古典博弈論的基本假設，是博弈論發展的理性基礎。但是這個假設卻產生出一系列博弈困境和悖論。這促使古典博弈理論理性基礎的修正-有限理性下的博弈理論誕生。完全理性和有限理性，是劃分古典博弈論和現代博弈論的分水嶺。

【關鍵詞】博弈；完全理性；有限理性

0 引言

博弈論是1980年代以來經濟學中發展最迅速和影響最大的分支學科。在短短的20年時間里，博弈論從一種不為一般經濟學家知曉的應用數學理論，一躍變成主流經濟學最核心的內容，成為很多經濟學家的基本分析工具和共同語言。但是，博弈論在獲得巨大成功的同時，也逐漸暴露出它所隱含的一些問題，其中對博弈論的發展威脅最大最嚴重的問題是它的理性基礎，即古典博弈論假設“博弈參與人是完全理性的”。

1 “完全理性”的困境

“博弈參與人是完全理性的”，這是博弈論的公設，然而理性人假設卻導致了諸多博弈困境，這些困境主要體現為：

“完全理性”假設：

1）個體理性與集體理性的沖突

一個熟知的博弈困境是囚徒博弈。有一天，一位富翁在家中被殺，財物被盜，警察在此案的偵破過程中抓到了兩個犯罪嫌疑人，甲和乙，并從他們的住處搜出了被害人家中丟失的財物，但是他們都否認曾殺過人，辯稱是先發現富翁被殺，然后只是順手牽羊偷了點東西。于是警方將兩個人隔離，分別關在不同的房間進行審訊，由警察和他們兩個人單獨談話。警察說：“由于你們的偷盜罪已有確鑿的證據所以可以判你們一年的刑期。但是，我可以和你們做個交易。如果你單獨坦白殺人的罪行，我只判你半年的刑期，但是，你的同伴要被判十年。如果你拒不坦白，而你的同伙坦白，那么你將被判十年的刑期，而他只判半年的刑期。但是，如果你們兩個人都坦白交代，那么，你們都將判五年的刑期。”

眾所周知，這個經典博弈案例的結果是雙方從個人利益最大化出發，都選擇坦白，都判五年的刑期。

與囚徒困境類似的案例還有“公共地悲劇”，囚徒困境與公共地悲劇所反映的是個體的理性行為產生的集體的不合理性行為，體現了個體理性與集體理性的沖突。

2）過程理性與結果理性之間的沖突

有這樣一個動態博弈——A、B兩個人分100元錢。規則規定：A提出方案，B對之進行表決。如果B對A提出的方案表示同意的話，A、B就按照A提出的方案進行分配，如果B不同意A的方案，那么A和B均將一無所有。這是一個完全且完美信息動態博弈（dynamic game with perfect and complete information）。讓我們分析這個過程。

A提出方案時，他知道B是理性人。B的行為是可被A預測的。A將提出這么一個方案：A和B的所得比例為99.99：0.01，即給B留1分錢，而將其余99元9角9分留給自己。此時B面臨“同意”和“不同意”的選擇：如果B“同意”，B所得為1分錢；如果B“不同意”，他將一無所得。理性的B將選擇“同意”——這個選擇是A所能夠預測的。

因此在“最后通牒博弈”中，理性的B只能得到1分錢！而A正是根據B的理性的選擇而使自己利益最大。當然這不是實際情況，有博弈論專家對這個問題進行實驗研究（在經濟學中實驗研究已成時尚，2002年諾貝爾經濟學獎獲得者卡爾曼是實驗經濟學研究的先驅）。根據賓謨（K Binmore），“實驗結果呈現多樣化，但是參與人A提出的方案很可能在50：50附近；而對參與人B而言，如果其分配的數額不少于三分之一，他將趨向于接受。”

現在，我們假定B具有某種程度的非理性。他會向A發出威脅“如果你不給我足夠的份額，我將不同意。”A知道B確實不是完全理性的人。A想，如果不給B足夠數額的錢，B將不同意。因此，在提出分配方案時，A會考慮B的非理性的程度。一個極端的情況是，如果A是理性人，而B極端非理性，那么一個可能的分配方案比例將是0.01：99.99。即A得到1分錢，B得到99.99元！

這個例子中，我們看到，人的理性程度與其所得是呈反比關系的。在博弈論中理性人是努力使自己的收益最大的人，而在最后通牒博弈中，越理性的人得到的利益越低。

理性人假設導致如此多的困境，而這些困境好多與實際相違背。博弈論想要作為一門科學發展下去，除了能夠用它的理論解釋現實世界中的問題，還要能夠對個人或團體作出正確決策有理論指導。而單純的假設“博弈參與人是理性的”，顯然不能夠做到這一點。

2 完全理性的修正——有限理性下的博弈分析

20世紀80年代以后，實驗博弈和演化博弈進入博弈論，實驗博弈論用實驗研究策略行為的一般原理，而演化博弈則將達爾文的生物進化論引入博弈論，它假定參與人是有限理性的，由此與此前的假定人是完全理性的古典博弈論形成區別。

有限理性的概念最初是阿羅提出的，他認為有限理性就是人的行為“既是有意識的理性，但這種理性又是有限的”。而“有限理性”概念的主要提倡者是諾貝爾經濟學獎得主西蒙（Simon）。西蒙認為有限理性的理論是“考慮限制決策者信息處理能力的約束的理論”。

有限理性博弈分析的關鍵是確定博弈主體學習和策略調整的模式，或者說機制。由于有限博弈主體理性層次的多樣性，使得博弈主體的學習和策略調整的方式和速度相差甚遠，要對有限理性博弈做出有效的分析預測，必須發展適合分析博弈主體的學習和策略調整過程，適合分析這種學習和動態調整過程中的穩定性，必須用不同的機制來模擬博弈主體的策略調整過程。

目前，采用較多的兩種分析機制：一種是理性層次較高、學習能力較快的群體，其分析機制是“最優反應動態”；而對于理性層次較低、學習能力較差的行為主體，相應的分析機制是“復制動態過程”。事實上，不僅不同博弈的博弈主體的理性和學習能力有差異，需要多種動態機制來模擬，甚至同一個博弈中的不同博弈主體在理性方面也會有較大差異，同樣需要不同的動態機制來描述和分析。所以，生物進化中生物性狀和行為特征動態變化過程的“復制動態”，在有限理性博弈分析中正是模擬有限理性博弈主體學習和調整策略過程最主要的動態機制之一，而生物進化理論所具有的在動態調整過程中恢復或者達到的穩健性均衡——“進化穩定策略”，恰是有限理性博弈分析中最核心的均衡概念。

正因為上述有限理性博弈分析與生物進化理論的這種關系，所以這種博弈分析理論也稱為“進化博弈論”或“經濟學中的進化博弈論”。下面分析這個鷹（H）—鴿（D）進化博弈模型。在一個生態環境中的一群動物，可以采用兩種策略一鷹策略和鴿策略，圍繞著有限的生存資源進行博弈。其中的鴿策略（D）是指比較溫順，面對強敵就逃跑的策略，而鷹策略（H）是指比較強硬，碰到對手就一直與對方戰斗，直至對方逃跑，或自己受傷的策略。V代表雙方爭奪的利益，C是爭奪中失敗一方的損失。

這個博弈模型的得益矩陣表示如表1：

可以看出，如果雙方都采用鷹策略，那么雙方獲勝和失敗的概率都是1/2，因此各自的期望利益都是V—C/2；如果一方采取鷹策略，另一方采取鴿策略，則采取鷹策略的一方獲得全部的V，采取鴿策略方得0；如果雙方都采用鴿策略，那么雙方能夠分享利益或各有一半機會獲得利益但沒有損失，因此各有V/2單位得益。

設戰略分布已知，即集體內采取鷹策略的比率為P，采取鴿策略的比率為1-P，則采取鷹策略的個體的期望收益為：EU（H）=p（V-C）/2+（1-p）V；采取鴿策略的個體的期望收益為：EU（D）=p（1-p）V/2。

當V>C時，無論P為多少，EU（H）>EU（D），因而鷹策略為支配策略，所有個體均會采取鷹策略。這也是惟一的一個納什均衡，但它不是帕累托最優的均衡，類似于囚徒困境。

當v

（1）當PEU（D），采取鷹策略者將獲得更高收益，采取鷹策略的個體數目將會增加；

（2）當P>P﹡時，EUH

這里，P﹡為穩定地采取鷹策略的個體占總體的比例，可以證明P﹡=V/C。所以，當我們從最佳響應動力的角度出發，社會中的策略分布無論從哪一點出發，采取鷹策略的個體比率最終都將收斂到P﹡上來，從這個意義上說，P﹡具有進化穩定性。

上述進化博弈分析方法，可用來分析由有限理性博弈主體組成的群體成員的策略篩選、演進，特別是各個策略在群體成員采用頻率、比例意義上的動態穩定性；研究有限理性的博弈主體長期通過學習和模仿調整策略最終會達到的策略頻數意義上的均衡及其效率意義；在長期意義上或者對已經延續了相當長時期的問題，也可用于對相關問題的預測。這種進化博弈分析對完全理性博弈分析的納什均衡也有一種檢驗和篩選作用。進化穩定策略是納什均衡的一個精煉概念，進化穩定策略必然對應完全理性博弈中的納什均衡，包括純策略納什均衡和混合策略納什均衡，但完全理性博弈的納什均衡在進化博弈中并不一定是進化穩定策略。更重要的是，雖然完全理性是唯一的，但有限理性卻有多種情況和層次。對學習速度較快的小群體有限理性博弈主體的動態策略調整，描述他們的進化博弈過程的有效動態機制主要是“最優反應動態”。而在最優反應動態中還存在各博弈主體究竟是對哪個范圍的其他博弈主體的策略進行反應，是對其他博弈主體的前期策略進行反應還是對過去的平均策略進行反應等的區別。事實上，進化博弈的動態策略調整機制是很多的，究竟采用哪種應該根據對具體問題中博弈主體的理性和行為方式的判斷而定。

3 結論

由于對理性的假設，博弈論的發展受到了影響，引來了諸多的博弈論困境。于是有限理性應運而生，通過對目前有限理性的發展和現狀的分析說明，我們可以看出它的出現給博弈論的發展帶來了曙光。“有限理性”的博弈主體往往不能或不會采取完全理性條件下的最優策略。博弈主體間的策略往往是通過學習調整的結果，而不是一次性選擇的結果，并且即使達到了均衡也可能再次偏離。能夠更大程度的反應現實社會人類的文化傳承性對于人類做決策的影響。

【參考文獻】

[1]潘天群.博弈論中理性人假設的困境[J].經濟學家，2003（4）：99-104.

[2]肯·賓默爾.博弈論教程[M].謝識予，等譯.上海：格致出版社，上海三聯書店，上海人民出版社，2010.

[3]謝識予.有限理性條件下的進化博弈理論[J].上海：上海財經大學學報，2001，3（5）：3-9.

[責任編輯：劉展]

科技視界2015年27期

科技視界的其它文章: DM-10KW 中波發射機開關機邏輯故障; 芯塊-包殼間隙對燃料棒溫度場影響的數值模擬; 期刊微出版平臺淺析; 如何提高群眾文化的建設; 煤田地質勘查中的“三邊”工作準則及其核心內容探索; 尾吊布局民用飛機發動機側風進氣流場CFD數值模擬與分析