摘 要: 囚徒困境作為博弈論的經(jīng)典案例,說明了個人理性與集體理性之間的沖突。文 章將心理過程應(yīng)用于博弈分析,得出了不同于傳統(tǒng)囚徒困境的結(jié)論。在此基礎(chǔ)上提出博弈分 析中應(yīng)考慮心理、文化、制度的影響。這一研究對于博弈理論在社會科學(xué)中的應(yīng)用及實驗經(jīng) 濟學(xué)的理論發(fā)展具有一定的啟示。
關(guān)鍵詞:博弈論 囚徒困境 心理過程
中圖分類號:C912 文獻標(biāo)識碼:A
文章編號:1004-4914(2008)02-261-02
一、引言
囚徒困境可謂是博弈論的典型案例,幾乎每一本博弈論教材都用此案例說明個人理性與 集體理性之間的沖突。其模型如圖1所示,b>d>a>c,2d>b+c,即存在合作剩余。為便于分析 ,我們?nèi)=-8,b=0,c=-10,d=-1,將數(shù)字代入得到博弈矩陣如圖2所示,博弈的均衡解為 (背叛,背叛),即雙方都將面臨能否得到合作利益的囚徒困境。

囚徒是否總是處于困境之中?基于多重博弈條件下的囚徒?jīng)Q策機制的報復(fù)模型(Taylor ,1987)和聲譽模型(Kreps,1990)的研究認為存在促進合作的激勵,即通過報復(fù)、聲譽等 機制,能形成合作的均衡。然而,對于一次性博弈(這也許是最可能的情形),囚徒能否走 出困境?博弈論給出了否定的答復(fù)。而這一明確的結(jié)論似乎與審訊實踐的復(fù)雜性有一定出入 。要弄清楚這個問題,必須理解囚徒的決策機制。
在面臨圖2所示的決策時,有兩種極端的決策方案,其一是兩人都只關(guān)心自己的支付, 因(背叛,背叛)是均衡策略。另一極端則是根據(jù)演化穩(wěn)定策略即制度決定。如果合作是演 化穩(wěn)定策略,即選擇合作,否則,選擇背叛。
實際的囚徒?jīng)Q策過程可能較以上兩種方式更為復(fù)雜。一般而言,人在博弈中采取策略是 一個心理過程。囚徒在面臨審訊中不可能采用演化穩(wěn)定策略,因為對大多數(shù)囚徒而言,這是 一個一次性博弈,本次博弈對自己的影響重大。而囚徒只關(guān)心支付結(jié)構(gòu)而簡單選擇背叛也不 大可能,因為作為同案犯,他們會存在友情、共同利益等,也會存在對對方選擇的猜測,其 決策會是一個對于情感評價以及對對方?jīng)Q策的猜測的心理過程,因而進入決策的不僅是支付 ,也存在對于支付結(jié)構(gòu)的評價,這一決策的復(fù)雜性也得到了審訊實踐的檢驗。
二、影響囚徒?jīng)Q策的因素分析
本文從囚徒對本人支付、對方支付以及對于可能出現(xiàn)的均衡結(jié)果的主觀評價等因素分析 囚徒的決策。
(一)囚徒對于本人支付的主觀評價
囚徒對于處罰值的主觀評價即將外在的支付內(nèi)化為個人損益值的過程。對同一支付值 ,不同的人會有不同的主觀評價。比如1年的監(jiān)禁,對于有些人來說是很重的處罰,因為他 們在獄中會感到度日如年,而對于多次入獄的累犯形成的心理壓力要小得多。法律上有關(guān)累 犯從重處理便是這一問題的印證。
現(xiàn)在,我們將圖1所示博弈一般化為圖3,并對囚徒1,2對于支付的主觀評價分別賦予 權(quán)重α1,α2,(α1,α2>0),這個賦值過程將外在博弈內(nèi)化為內(nèi)在博弈,得到 圖4所示博弈支付結(jié)構(gòu) 。顯然,博弈的均衡策略沒有改變,因為博弈雙方對于自己在各種情況下的處罰值的評價為 同一系數(shù)。但由于博弈雙方心理特征的差異,使得博弈由對稱博弈轉(zhuǎn)化為非對稱博弈。

(二)囚徒對于對方支付的主觀評價
在絕大多數(shù)情況下,囚徒雙方都會對于對方支付賦予一定權(quán)重,內(nèi)化到本人的支付函數(shù) 中,這一心理現(xiàn)象可以理解為雙方的感情因素所致。一個極端的例子是父子同案,父親可能 會對兒子的支付賦予高于本人支付的權(quán)重,即自己即使受到處罰,也只是認為罪有應(yīng)得,而 兒子受到處罰,則會痛心不已。這里,假設(shè)囚徒1,2對于對方支付賦予權(quán)重β1,β2( β1,β2≥0),此時,支付矩陣如圖5所示。
為了便于分析,我們將外在博弈的支付代入得支付矩陣如圖6所示。

根據(jù)圖6,可以得出如下結(jié)論:
對于囚徒1,當(dāng)β1<1/9α1,無論對方作何選擇,都選擇背叛,這種情況可理解 為囚徒1雖然也同情和關(guān)心囚徒2,但更關(guān)心本人,因此,不會因為憐憫對方而改變自利的信 念;
當(dāng)1/4α1>β1>1/9α1時,對方合作就選擇合作,對方背叛選擇背叛。即具有互惠利 他的動機,但在對方不合作的情況下是利己的;當(dāng)β1>1/4α1時選擇合作,無論對方作 何選擇,都選擇合作。即具有純粹利他動機,即 使?fàn)奚救耍膊粫撑选?/p>
同樣,對于囚徒2,當(dāng)β2<1/9α2,無論對方作何選擇,都選擇背叛;當(dāng)1/4α2> β2>1/9α2時;對方合 作就選擇合作,對方背叛選擇背叛;當(dāng)β1>1/4α2,無論對方作何選擇,都選擇合作。 圖7給出了在各種情況下的均衡。可以看出,由于對他人支付的關(guān)切,使囚徒已部分走出了 困境。

(三)對于可能均衡結(jié)果的主觀評價
以上分析了囚徒對于本人支付及對方支付的主觀評價對于博弈的影響,這種評價只是對 于外在博弈的一種自然反應(yīng),即對于處罰值本身的敏感性,尚未涉及對于博弈結(jié)果的主觀評 價,即用道德和價值觀念對可能出現(xiàn)的均衡結(jié)果的評價。
囚徒在(背叛,背叛),(合作,合作)的均衡中不會有道德與正義的反差,而在兩人 做出不同的選擇時,這種社會道德價值會發(fā)揮評判作用。在自己選擇合作,對方選擇背叛時 , 會忌恨對方而后悔自己的選擇,后悔值與自己的損失成正比。而在他人選擇合作,自己選擇 背叛時會產(chǎn)生內(nèi)疚,內(nèi)疚值與對方的損失成正比。而后悔權(quán)重和內(nèi)疚權(quán)重受個體所處的制度 文化背景影響。這里,分別對囚徒1,2賦予后悔權(quán)重γ1,γ2,內(nèi)疚權(quán)重δ1,δ2 ,則對于囚徒1,其后 悔值為γ1(A11-A21),內(nèi)疚值為δ1(B22-B12)。同理得 囚徒2的后悔值γ2(B11-B12),內(nèi)疚 值為δ2(A22-A21)。由此得出博弈矩陣如圖8所示,將圖2所示外在博弈確 定的支付代入得博弈矩陣如圖9所示。

與圖6比較,圖9中的策略(背叛,背叛)與(合作,合作)的支付并沒有發(fā)生變化,策 略(背叛,合作),(合作,背叛)的支付變小,由此可以得出如下結(jié)論:由于對公平偏好 的影響,(背叛,背叛)與(合作,合作)的均衡概率增加。
三、結(jié)論與啟示
外在博弈確定的支付結(jié)構(gòu)不同于參與人面臨的博弈,參與人的內(nèi)在博弈是對外在博弈的 支付進行評價后形成的博弈。因此,對外在博弈求納什均衡解并無意義,因為對于同一外在 博弈,不同的決策者,其面臨的內(nèi)在博弈并不相同,因此,均衡解可能是多樣的。
從決策者的認知模式及情境出發(fā)求得特定的均衡解是博弈分析的關(guān)鍵,求解博弈的均衡 解需要了解人的心理過程。由于進入囚徒?jīng)Q策的不僅是支付,也包含他對于支付的主觀評價 ,所以決策過程是反復(fù)評價支付以確定其權(quán)重的過程,囚徒面臨的困境是權(quán)重的確定。一旦 各種權(quán)重確定,均衡隨之確定。
應(yīng)用博弈論分析社會現(xiàn)象要充分考慮社會現(xiàn)象的復(fù)雜性。一個博弈中支付的主觀評價的 權(quán)重往往外生于本博弈,它可能是由制度文化確定,或者說由其它相關(guān)博弈(特別是發(fā)生頻 率較高的博弈)的均衡策略確定,即流行規(guī)范內(nèi)部化為個人的偏好。因此,博弈之間具有關(guān) 聯(lián)性,非均衡結(jié)果在其它博弈的影響下可能成為均衡結(jié)果。本文仍以完全信息為前提,不完 全信息條件下的囚徒?jīng)Q策更為復(fù)雜。
[本文為中國制度經(jīng)濟學(xué)會2007年年會暨海峽兩岸經(jīng)濟發(fā)展學(xué)術(shù)研討會入選論文]
參考文獻:
1.薩繆#8226;鮑爾斯.微觀經(jīng)濟學(xué):行為,制度和演化.北京:中國人民大學(xué)出版社,2006
2.張維迎.博弈論與信息經(jīng)濟學(xué).上海:上海三聯(lián)書店,上海人民出版社,1996
3.青木昌彥.比較制度分析.上海:上海遠東出版社,2001
4.Kreps, David M. 1990.” Corporate Culture and Economic Theory.” pp.90-14 3 in Perspectives on Positive Political Economy. James Alt and Kenneth Shepsle,eds. Cambridge : Cambridge University Press
(作者單位:華中農(nóng)業(yè)大學(xué)經(jīng)濟管理學(xué)院湖北武漢430070)
(責(zé)編:紀(jì)毅)