[收稿日期]2008年6月10日
[作者簡介]周雪梅(1978~ ):女,四川綿竹人,四川大學經濟學院西方經濟學專業微觀經濟分析方向2006級碩士研究生。蔡越(1982~ ):男,遼寧沈陽人,四川大學經濟學院西方經濟學專業微觀經濟分析2007級碩士研究生。
[摘 要]囚徒困境是在一系列的假設條件下的靜態一次博弈。囚徒困境在經濟學中運用廣泛,信息經濟學,公共財政學,新制度經濟學,市場營銷學等研究都有涉足。
[關鍵詞]囚徒困境 博弈論 納什均衡
[中圖分類號]F74
[文獻標識碼]A
[文章編號]1009-5489(2008)07-0071-02
囚徒困境是博弈論里非常有名的例子。博弈論,是研究決策主題的行為發生直接相互作用時候的決策以及這種決策的均衡問題。可以分為合作博弈和非合作博弈。現在一般談到的博弈論主要指非合作博弈。合作博弈和非合作博弈的區別主要在人們的行為相互作用時,當事人能否達成一個具有約束力的協議。塔克在1950年提出的“囚徒困境”與納什在1950年和1951年發表的關于非合作博弈的文章基本奠定了現代非合作博弈的基石。非合作博弈強調的是個人理性、個人最優決策,其結果可能是有效率的,也可能是無效率的。
一、博弈要素、假設及囚徒困境的內容
任何一個博弈都包括參與者、規則、策略、收益四個基本要素。
參與者:指博弈中選擇行動以最大化自己效用的決策主體,博弈論分析對參與者有兩個基本假設:第一,理性人;第二,共同知識,指“所有參與人知道,所有參與人知道所有參與人知道,所有參與人知道所有參與人知道所有參與人知道……”的知識。共同知識是博弈論中一個非常強的假定。規則:參與者每個步驟的時機與順序,參與者在每個步驟所能采取的行動,參與者在每個步驟時擁有的信息。策略:是參與者選擇行動的規則,如“人不犯我,我不犯人;人若犯我,我必犯人”就是一種策略。收益:有的也稱支付,指在特定的策略組合下參與者得到的效用或預期效用。收益可為正值,也可為負值,它們是分析一個博弈模型的標準和基礎。
囚徒困境的博弈講的是兩個嫌疑犯A、B作案后被警察抓住,分別被關在不同的房間中審訊。警察告知他們:如果兩人都坦白,各判刑8年;如果兩個都抵賴,各判1年;如果其中一人坦白,而另一人抵賴,坦白方將被釋放,而不坦白方將獲罪10年。
囚徒A、B該作何選擇?顯然最好的策略是兩人都抵賴,各判1年。但由于雙方是在被隔離的情況下,如果對方選擇坦白,自己選擇抵賴將會受到10年的監禁。那么他們到底選擇坦白還是抵賴?這就是囚徒的兩難境地。
由于假定每個人都是理性的,都是從自己的利益最大化出發來做決策,在該例子里面,納什均衡(就是給定對方選擇,不管對方選什么我所選擇的都是最優的)就是(坦白,坦白):給定B坦白的情況下,A的最優選擇是坦白,這樣都判8年,否者B被釋放而A將判10年;假定B抵賴,A的最優選擇是還是坦白,他將無罪釋放。反之,對B來說也是如此,不管A選什么B的最優選擇還是坦白。所以雖然抵賴對雙方來說都是最好的但理性的選擇最后均衡是兩人都坦白。
“囚徒困境”反映了一個深刻的問題,這就是個人理性與集體理性的矛盾。兩個理性地追求利益最大化的人,卻沒有得兩人共同的最優的結果。
二、公共產品的供給——個人理性與集體理性的矛盾
公共產品的供給是一個囚徒困境問題。由于公共產品具有非競爭性和非排他性的特點,一旦生產出來,消費者不付費也能從中獲益,即存在搭便車問題。經濟學家常用“公共地悲劇”、“囚徒困境”和“集體行動的邏輯”這三個理論模型來論證市場自發條件下公共品私人供給的無效性以及政府提供的必要性。奧爾森在《集體行動的邏輯》中,對個人追求他們集體利益的困難性,作了一個與囚徒困境博弈密切相關的考察,對集團理論中“具有共同利益的個人會自愿地為促進他們的共同利益而行動”的樂觀主義提出了挑戰。他認為,在一個集團范圍內,集團收益是公共性的,即集團中每一個成員都能共同且均等地分享它,不管他是否為之付出了成本。集團收益的這種性質使集團每個成員都想搭便車而坐享其成。除非一個集團中人數很少,或者除非存在強制或其他特殊手段以使個人按照他們的共同利益行事,有理性的、尋求自我利益的個人不會采取行動以實現他們共同的或集團的利益。
由此,政府對公共產品的提供進行強制性干預是必然的。公共產品理論也因此成為政府微觀經濟干預最充分的理由。因為,理性經濟人的決策和行為是以個人自身利益最大化為根本目標,一般情況下,集體利益最大化本身不是博弈參與人的根本目標,參與人在博弈中的選擇是個體理性而非集體理性。正如有學者所說:“如果某種制度安排不能滿足個人理性的話,就不可能實行下去。所以解決個人理性與集體理性之間沖突的辦法不是否認個人理性,而是設計一種機制,在滿足個人理性的前提下達到集體理性。”如果博弈中存在“有約束力的協議”,使得參與人采取符合集體利益最大化同時又可以滿足個人利益最大化的策略時,那么個體利益和集體利益之間的矛盾就可以得到有效的解決,從而參與人就會采取既滿足個人利益最大化又使集體利益最大化的策略。
三、競爭與合作
行業間的價格和產量的競爭也屬于囚徒困境的問題。
價格戰博弈,在生活中經常見到。降價是廠家、商家為了占領市場常采用的戰略,用利潤以換取市場。以彩電、空調價格戰為例,由于過度的價格戰,使許多廠家基本上沒有利潤,甚至虧損,結果最終影響企業自身的長遠發展。
寡頭企業產量的博弈,如OPEC組織成員國之間的合作與背叛。如果幾個企業聯合起來形成卡特爾,選擇壟斷利潤最大化的產量,每個企業都可以得到更大的利潤。但卡特爾不是一個納什均衡,因為在對方遵守協議的情況下,自己增大生產將是很有利的,結果是每個企業都增大生產,最終每個企業只能得到納什均衡產量時的利潤,它低于卡持爾產量時的利潤。但是人與人之間,企業與企業之間難道只有競爭沒有合作?答案是否定的。因為前面的囚徒困境的問題是基于囚徒兩人間的一次博弈,研究發現在多次重復博弈的情況下,雙方有合作的可能。假如兩人出獄以后再次作案,這次大家死守不坦白的同盟,警方在沒有充足證據的情況下要么釋放兩人,要么各判1年,囚徒從而走出兩難選擇的困境。現實中也存在相同的情況,多次重復博弈時,人們就有了合作的可能性。囚徒困境就有可能破解,連續的合作有可能成為重復的囚徒困境的均衡。
四、重復博弈的雙邊與多邊聲譽機制
重復博弈又分為有限重復博弈和無限重復博弈。在囚徒困境的無限重復博弈中,當具有完全信息的博弈雙方采用觸發戰略時,如果博弈參與者有足夠的耐心,為了最大化個人收益,合作行為將出現。觸發戰略是指如果對方選擇合作,合作將一直持續下去,一旦有人選擇不合作,就會觸發其后所有階段都不再相互合作。在觸發戰略下,交易雙方就有動力建立自己的聲譽,以獲得長期利益,即“雙邊聲譽機制”。拓展開來,一個參與人與多個人進行重復博弈時,盡管他與每個人可能只進行一次博弈,但同樣有激勵建立聲譽,即“多邊聲譽機制”。一般來說,無限重復博弈的條件比較嚴格,為克服這一點,克瑞普斯、米爾格羅姆、羅伯茨和威爾遜證明在不完全信息條件下,只要博弈的次數足夠多(不一定要求無限),囚徒博弈中的合作行為也會出現從而實現博弈的帕累托改進,這就是“KMRW”聲譽機制。概括的說,在重復博弈下,聲譽機制將促進合作行為的出現。而聲譽機制的關鍵在于交易者聲譽信息的傳遞,以及對不良聲譽懲罰的可置信性。
五、制度
從囚徒困境中還有一個重要結論:就是一種制度安排,要發生效力,必須是一種納什均衡,否者這種制度安排便不能成立。通過制度建設,引導并強化個體的行為選擇,從而走出囚徒困境。現實世界中的“囚徒困境”并非一次性博弈,往往是重復博弈。重復博弈可能“催生”某種合作的制度。盛洪在《新制度經濟學在中國的應用》中說到,制度是多個遵循同一規則的交易的集合,是經過交易多次重復形成的。因此,制度是在多人、多次重復的情境中的人與人之間的行為規范;或者按博弈論的說法,制度是N人博弈的均衡解。
制度在現實中運用也比較廣泛,激勵制度是現代組織中常見的一種制度。它是重塑偏好的重要手段。理想的激勵制度應該能消除雇員的偷懶行為。但理想與現實相去甚遠。深層的原因在于任何激勵制度都有無法避免的局限性。但在信息不對稱(以及團隊生產外部性)前提下,雇員和雇主都可以對激勵制度做出策略性應對。任何一種激勵安排,一旦一方依賴激勵計劃而透露了私人信息,則他將在隨后的討價還價博弈中處于被動。因而在信息足夠充分的情況下,理性人為了自己的效用盡可能大,有效的制度安排通過多次的重復博弈是可能達到均衡的。
[參考文獻]
[1]張維迎:《博弈論與信息經濟學》,上海三聯出版社2004年11月版。
[2]馬本江、邱菀華:《論擺脫囚徒困境的途徑》,《生產力研究》2004年第10期。
[3]許征文、劉敏:《囚徒困境的合作解》,《統計與決策》2007年第6期。
[4]賈生華、吳波:《基于聲譽的私人契約執行機制》,《南開經濟研究》2004年第6期。
[5]劉志銘:《公共物品的私人提供與合作生產:理論的擴展》,《生產力研究》2004年第3期。
[6]陸培澤:《從囚徒困境看價格戰》,《商業經理人》2004年第7期。
[7]盛洪:《新制度經濟學在中國的應用》,《天津社會科學》1993年第2期。
[8]郝云:《團隊精種與企業——評德姆塞茨的企業理論》,《經濟論壇》2005年第8期。