囚徒困境的破解

2011-12-31 00:00:00王健

商場現代化 2011年23期

基金項目:國家社會科學基金重點資助項目(10771021);華僑大學引進人才科研啟動項目(09Y0163)

[摘要] “囚徒困境”博弈反映出了人類社會中個人理性和集體理性的深層次矛盾。在囚徒困境博弈中，合作的是以自身利益為代價來提高別人利益的行為，它的存在可以提高整個社會的福利水平。通過基于Agent的復雜適應系統的計算機仿真，可以刻畫出有學習能力和適應性的微觀個體之間的互動，并進而反映出系統中合作行為的產生和發展機制。

[關鍵詞] 博弈系統仿真復雜科學

一 “囚徒困境”博弈

“囚徒困境”博弈反映了個人理性和集體理性的深層次矛盾，同時也揭示了個人理性本身的內在矛盾——從個人利益出發的行為，往往不僅不能真正實現集體利益的最大化，甚至也無法實現個人利益的最大化。

“囚徒困境”博弈對于人類行為的預測是灰暗的：在個人自由決策的市場經濟中，個人利益的最大化往往會導致合作的崩潰。如果確實如此，人類將陷入彼此為敵的霍布斯叢林而不可自拔，更無法創造出如此輝煌燦爛的文明世界。

放眼周圍的世界，生產的專業化分工和對合作的高度依賴已成為現代社會的重要特征。關于合作行為的產生機制，許多學者都進行了探討。其中主要的觀點有群體選（SoberWilson， 1998）、昂貴信號理論（Zahavi， 1997; Bliege Bird et al.， 2001）、馴順性理論（Simon， 1999）、強互惠理論（Gintis， 2000; Fehr， 2002）等。然而以上絕大多數的研究都僅僅是純粹理論上的探討。而筆者認為，合作行為不僅是個體之間的行為，還涉及到由個體組成的群體之間的關系，是一個多層次、非線性和不確定性的復雜動態系統。對此類復雜系統的研究方法目前主要有非線性動力學和計算機系統仿真，以下筆者將試圖使用系統仿真的方法來解決這個問題。

二“囚徒困境”的系統仿真

為了分析社會合作水平的演化，我們使用Java語言設計了一個多人“囚徒困境”博弈的仿真模型。在模型中我們設置了不同合作水平的策略（永遠合作的策略、以10%的概率背叛的策略、以20%的概率背叛的策略……依此類推，最后是永遠背叛的策略），目的在于分析不同合作水平的局中人在博弈中的收益水平。博弈的收益矩陣如表1所示：

在本文中，T=5，R=3，P=1，S=0

1.原始模型

博弈共分為100輪，在每輪中各種策略兩兩配對進行“囚徒困境”博弈。仿真結果如表2所示：

表2：原始模型中不同合作水平的局中人的平均收益

我們很容易發現，博弈中局中人的收益水平會隨著合作水平的提高而降低。

2.加入TFT策略后的模型

艾克斯羅德（Axelrod， 1985）在囚徒困境博弈錦標賽中發現，多人重復“囚徒困境”博弈中，TFT策略的收益水平是最高的。而以下我們將表明：TFT策略不但自身的收益水平較高，而且可以提高整個社會的收益水平。不僅如此，由于TFT策略可以與善良的策略合作，同時懲罰非善良的策略，從而有助于整個社會道德水平的提高。

我們在模型中加入采用TFT策略的局中人，結果表明：隨著采用TFT策略的局中人數量不斷上升，整個社會的平均收益水平會不斷提高，而且善良策略的收益水平會逐漸超越非善良策略的收益水平。

3.模型的動態演化

最后我們在模型中加入動態演化機制，即博弈分為n個階段，每個階段結束后，每種策略的局中人都以p的概率選擇比他的收益水平高一個檔次的策略。

對加入動態演化機制后的原始模型（n=20， p=0.5）并進行系統仿真。程序運行的結果表明，經過20個階段的博弈后，模型中只剩下了一種策略——“永遠背叛”，此時整個社會的平均收益達到了1的最低水平。這就是霍布斯所描述的世界——“一切人對一切人的戰爭”。

現在我們在模型中加入采用TFT策略的局中人。結果表明，博弈中非善良的策略很快就被淘汰了，20個階段過后，博弈中只剩下了TFT策略。而且我們發現，非善良策略被淘汰的速度隨著采用TFT策略局中人數量的增加而變得越來越快。

4.模型的結論

（１）如果沒有懲罰機制，社會中合作與非合作的個體被同等對待。由于合作行為的成本較高，在“逆向選擇”機制的作用下，合作的個體將越來越少。

這就是所謂的“道德悖論”——道德意味著以自身利益為代價來提高別人的利益。因此在一個社會中道德高尚的人往往處境艱難，而許多道德低劣的人卻可以身居高位。

（２）懲罰機制可以有效降低非合作個體的利益水平，促進道德的建立，并提高整個社會的利益水平。

懲罰機制可以導致合作行為的產生，但在很多情況下，懲罰行為本身是需要成本的。為了保證合作行為在演化中的遺傳優勢，社會中必須有一些人愿意犧牲自己的部分利益來懲罰不合作者，這就是Bowles和Gintis（2003）提出的強互惠（strong reciprocity）者。Gintis等人（2003）認為一個群體中只要有一小部分強互惠主義者，就足以使合作行為成為一個進化穩定均衡（ESS）。

三、模型結果的啟示

我們的模型表明，通過懲罰機制的引入，可以顯著提高群體的合作程度和福利水平。然而懲罰在很大程度上會降低懲罰者本身的利益，并導致“重新談判”等情況的出現（參見RubinsteinWolinsky ， 1992），從而給懲罰機制的實施帶來困難。政府作為社會規則的制定者，應當通過正確的政策引導達到懲惡揚善的作用，為重建社會道德履行自身的責任。

參考文獻：

[1]約翰·霍蘭，隱秩序[M]．上海：上海科技出版社，2000.

[2]汪丁丁，羅衛東，葉航．人類合作秩序的起源與演化[J]．社會科學戰線，2005（4）

[3]羅伯特·阿克塞爾羅德．合作的進化[M]．吳堅忠譯，上海：上海世紀出版集團，2007.

[4]黃少安，韋倩．合作行為與合作經濟學：一個理論分析框架[J]．經濟理論與經濟管理，2011（2）。

[5]Bowles， Samuel and Herbert Gintis， The Moral Economy of Communities: Structured Populations and the Evolution of Pro-social Norms[J]， Evolution and Human Behavior， 1998(19)

商場現代化2011年23期

商場現代化的其它文章: 英語專業國際貿易實務課程能力培養功能的發揮; 家紡類品牌企業電子商務發展應用趨勢分析; FDI在清遠資本形成效應分析; 產品外銷服務外包; 應屆大學生跳槽自身原因剖析及對策; 國內上市公司會計信息失真的相關思考