非合作博弈均衡與合作博弈均衡之研究
——博弈均衡的裂變分析

2012-12-15 06:50:14陳建先

重慶行政 2012年5期

關(guān)鍵詞：策略

□ 陳建先

□ 陳建先

一、非合作的博弈均衡

傳統(tǒng)均衡和博弈均衡是均衡理論發(fā)展中的不同階段，也是均衡由靜態(tài)轉(zhuǎn)變?yōu)閯?dòng)態(tài)的一個(gè)過程。傳統(tǒng)均衡概念是以靜態(tài)的理論來分析社會(huì)狀況，而現(xiàn)代社會(huì)是動(dòng)態(tài)的和發(fā)展的，因此需要運(yùn)用博弈均衡來思考、探討社會(huì)均衡問題。

博弈論中小約翰·福布斯·納什 (JohnForbes NashJr)首先提出對(duì)博弈進(jìn)行分類，即非合作博弈均衡和合作博弈均衡，而非合作均衡博弈理論的核心是“納什均衡”。因?yàn)榧{什提出的均衡理論對(duì)學(xué)界影響極大，由此獲得1994年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)。納什均衡是經(jīng)濟(jì)學(xué)的一個(gè)重要概念，也是博弈論的一個(gè)重要概念，同時(shí)也是均衡理論的一個(gè)重要概念。諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者薩繆爾森曾說過：你可以將一只鸚鵡訓(xùn)練成經(jīng)濟(jì)學(xué)家，因?yàn)樗枰獙W(xué)習(xí)的只有兩個(gè)詞：供給與需求。博弈論家坎多瑞引申說：要成為現(xiàn)代經(jīng)濟(jì)學(xué)家，這只鸚鵡必須再多學(xué)一個(gè)詞“納什均衡”[1]。所謂納什均衡是指博弈行動(dòng)的穩(wěn)定狀態(tài)，在此狀態(tài)下，每一個(gè)參與人都擁有對(duì)其他參與人行動(dòng)的正確預(yù)期，并且能理性行動(dòng)。這是博弈論中最基礎(chǔ)、最基本的均衡。也就是說，在給定別人戰(zhàn)略不變的情況下，沒有任何人可以通過選擇其他戰(zhàn)略獲得更多支付，從而沒有任何人有積極性打破這種均衡。“給定你的策略，我的策略是我最好的策略；給定我的策略，你的策略也是你最好的策略”，這正是 “納什均衡 ”概念在兩人博弈情況下最通俗直觀的表達(dá)方式[2]。納什均衡認(rèn)為，因?yàn)槊恳环竭x擇戰(zhàn)略時(shí)都沒有共謀，他們只是選擇對(duì)自身最有利的戰(zhàn)略，而不考慮社會(huì)福利或任何其他群體的利益。納什均衡就是博弈中每個(gè)博弈方的策略構(gòu)成的一個(gè)策略組合。其中每個(gè)博弈方的策略，都是根據(jù)針對(duì)所有其他博弈方的策略構(gòu)成的，并且是最佳反映。過去，“囚犯困境”是一個(gè)難題，但用納什均衡理論就迎刃而解了。

在納什均衡概念提出之前，美國(guó)經(jīng)濟(jì)學(xué)家霍特林（HaroldHotelling）探討兩個(gè)商鋪如何定位的問題，后稱為霍特林模型[3]。即在一個(gè)1000米的沙灘上，兩個(gè)小商販，賣的商品和服務(wù)質(zhì)量都是一樣的。按照一般概念設(shè)想，商販A應(yīng)該將其位置安置在250米的這個(gè)點(diǎn)上，可以方便0~500米的消費(fèi)者；商販B應(yīng)該將其位置安置在750米的這個(gè)點(diǎn)上，可以方便500~1000米的消費(fèi)者（見圖1）。

這樣的位置安置，商販A和商販B的收益都是均等的。人是“經(jīng)濟(jì)人”，要追求個(gè)體利益最大化。假設(shè)商販A將其位置由250米處往前移動(dòng)100米（即350米處），那么，就意味著500~600米的消費(fèi)者有一半屬于他的，也就是說，他的收益是0~500米，加上500~600米的一半消費(fèi)者，其收益高于商販B；商販A這么做，商販B也可以這樣做，將其位置向前移動(dòng)100米（即650米處），此時(shí)，商販A和商販B的收益又均等了；假設(shè)商販A又將其位置移動(dòng)到500米處，那么，他的收益又比商販B的大了。商販A怎么做，商販B也可以這樣做（將其位置移動(dòng)到500米處），此時(shí)商販A和商販B的收益又均等了。他倆不斷的移動(dòng)位置，最后在500米處，找到了倆人的均衡點(diǎn)（見圖2）。霍特林模型是典型的非合作均衡博弈，模型表明：雖然人們都在追求個(gè)體利益最大化，但最終還是會(huì)形成均衡。

二、博弈均衡演變條件

博弈視角背景下的社會(huì)均衡，最重要的是要實(shí)現(xiàn)從理性到有限理性的轉(zhuǎn)變，從零和博弈到變和博弈的轉(zhuǎn)變，從非合作博弈到合作博弈的轉(zhuǎn)變。這種轉(zhuǎn)變是基于有限理性理念、變和博弈理念和合作博弈理念的重塑。

有限理性理念。1978年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者西蒙認(rèn)為，人的理性能力是有限的，不可能對(duì)所有的可能選擇作出精確的利益計(jì)算。人在作決策時(shí)，采用的是由局部到整體的實(shí)驗(yàn)方法，這時(shí)要求集體選擇達(dá)到個(gè)體都無法到達(dá)的理性是不可能。原因是人的理性能力是有限的：信息是不完備的，個(gè)人不知道全部備選方案；環(huán)境存在不確定性，外生事件隨時(shí)可能發(fā)生；人的認(rèn)識(shí)能力和計(jì)算能力是有限的。而且，人的理性在政治領(lǐng)域表現(xiàn)得更加弱化，其一是與經(jīng)濟(jì)活動(dòng)相比，政治活動(dòng)有更大的不確定性，人的政治行為難以理性化；其二是與經(jīng)濟(jì)活動(dòng)相比，人們?cè)谡位顒?dòng)中對(duì)自己行為結(jié)果所承擔(dān)的責(zé)任并不總是直接的，而且往往不是很確定的，這也淡化了人們進(jìn)行理性計(jì)算的動(dòng)力[4]。博弈界中有一個(gè)著名的“最后通牒”實(shí)驗(yàn)[5]，在經(jīng)過長(zhǎng)達(dá)十年時(shí)間，選擇15個(gè)不同文化背景的民族而進(jìn)行的。實(shí)驗(yàn)規(guī)則：如兩人分一筆財(cái)產(chǎn)（1000元），由第一個(gè)人對(duì)第二個(gè)人提出自己的分配方案（如“我得995元，你得5元”）。若第二個(gè)人同意，就按此方案實(shí)施；如拒絕則1000元全收回，兩人均分文沒有。實(shí)驗(yàn)結(jié)果表明：其一，在現(xiàn)實(shí)社會(huì)中，人們并非都是在個(gè)體追求利益最大化，與囚徒困境中的納什均衡并不相吻合。實(shí)驗(yàn)中按照“經(jīng)濟(jì)人”假設(shè)理論判斷，第二個(gè)人的理性選擇是：只要有1元就應(yīng)該選擇同意，而不是選擇拒絕。但是實(shí)驗(yàn)結(jié)果：大部分的實(shí)驗(yàn)里，第一個(gè)人提出的方按是“5∶5”和“6∶4”分。“人是理性的”這個(gè)基本假設(shè)在理論上是成立的，但在現(xiàn)實(shí)社會(huì)中，人們不可能這樣追求利益最大化，即有限理性；其二，盡管民族、地域、國(guó)家和文化等存在諸多差異，但是卻存在相對(duì)一致的“公平”理念。

變和博弈理念。相對(duì)變和博弈而言，零和博弈（博弈方各自收益之和為零）在分析問題上進(jìn)行了簡(jiǎn)化，這對(duì)于理性的分析問題帶來一些便捷途徑（尤其二人零和博弈，是博弈理論中研究最早的、最多的博弈），也成為研究其它博弈的基礎(chǔ)，為復(fù)雜的博弈研究提供了基石。但零和博弈的基本出發(fā)點(diǎn)是理性的追求利益最大化，而這種理性在現(xiàn)實(shí)社會(huì)中是難以到達(dá)的，所以往往可能會(huì)出現(xiàn)偏離現(xiàn)實(shí)社會(huì)中人們的真實(shí)活動(dòng)。美國(guó)《時(shí)代周刊》著名撰稿人羅伯·賴特在其名著《非零和年代——人類命運(yùn)的邏輯》中談到：人類命運(yùn)的昌盛必然要懂得從零和年代走向非零和年代[6]（所謂非零和博弈，如一個(gè)博弈的博弈各方之得益總和不總是保持為零的博弈）。零和博弈觀念正逐漸被變和博弈（博弈方有各自的收益值）理念所取代。因?yàn)椋藗冋J(rèn)識(shí)到“利己”不一定要建立在“損人”的基礎(chǔ)上，通過有效合作仍然可能出現(xiàn)“雙贏”的局面。在一個(gè)“非零和”博弈中，贏得良好的結(jié)果往往不是靠戰(zhàn)勝對(duì)方，而是靠引導(dǎo)對(duì)方做出對(duì)雙方都有利的行為[7]。行為科學(xué)研究表明，對(duì)未來的預(yù)期是影響人們行為的重要因素：一種是預(yù)期收益：這樣做將會(huì)有什么好處；一種預(yù)期風(fēng)險(xiǎn)：這樣做將會(huì)面臨什么問題，這樣會(huì)影響人們的現(xiàn)實(shí)選擇。納什認(rèn)為：“在這個(gè)理論中，‘預(yù)期’的概念是重要的。”[8]對(duì)未來沒有明確的預(yù)期，是引發(fā)機(jī)會(huì)主義的關(guān)鍵要素。而只有在穩(wěn)定性機(jī)制作用下的未來，才會(huì)有較為明確的未來，才會(huì)有相對(duì)確定的預(yù)期。因而，人們應(yīng)塑造博弈的新理念——由單向的零和博弈轉(zhuǎn)變?yōu)榛?dòng)的變和博弈，追求均衡合作、雙方共贏的新范式。

合作博弈理念。合作博弈與非合作博弈之間的區(qū)別在于，博弈方的行為相互作用時(shí)，博弈方能否達(dá)成一個(gè)具有約束力的協(xié)議，如果能就是合作博弈，否則就是非合作博弈。非合作博弈強(qiáng)調(diào)的是個(gè)體理性、個(gè)體最優(yōu)策略，其結(jié)果往往是低效率的甚至是無效率的；而合作博弈強(qiáng)調(diào)的是團(tuán)體理性、效率、公正、公平，合作博弈實(shí)際上就是一種“雙贏”或“多贏”的策略，它通常能獲得較高的效率。其實(shí)，博弈是一種“理念”，而非合作與合作方法是其兩個(gè)“影子”[9]。當(dāng)代社會(huì)正進(jìn)入利益共享的競(jìng)爭(zhēng)-合作時(shí)代，單純強(qiáng)調(diào)競(jìng)爭(zhēng)或合作都是不妥的：與對(duì)手“你輸我贏”的競(jìng)爭(zhēng)只會(huì)破壞社會(huì)的發(fā)展，最終自己也將是一無所獲；合作也不是不考慮自身利益，而去創(chuàng)造一個(gè)自己不能把握的社會(huì)，也是不明智的。合作過程中不是沒有競(jìng)爭(zhēng)，而是合作中的競(jìng)爭(zhēng)，既積極合作，又要爭(zhēng)取自身的最大合作利益。合作競(jìng)爭(zhēng)戰(zhàn)略強(qiáng)調(diào)競(jìng)爭(zhēng)與合作的并重，強(qiáng)調(diào)合作不是不考慮自己利益，其最終的目標(biāo)仍然是使自己能夠在社會(huì)競(jìng)爭(zhēng)中獲益。對(duì)于游戲參與者來說，最大的機(jī)會(huì)和最豐厚的利潤(rùn)并非來自于參與游戲，而是來自于改變游戲本身，使游戲向有利于自己的方向發(fā)展，這是合作競(jìng)爭(zhēng)戰(zhàn)略的核心。《圣經(jīng)》中有“天堂與地獄”的故事：在地獄，桌上擺滿了美味的食品，但他們總是吃不到，因?yàn)樯系劢o他們的是長(zhǎng)長(zhǎng)的勺子，始終無法喂進(jìn)自己的嘴里，所以在地獄的人都是黃皮刮瘦；在天堂，桌上擺滿了美味的食品，他們用長(zhǎng)勺將食物送進(jìn)對(duì)方的嘴里，所以在天堂的人都紅頭花色。這個(gè)故事給人們得出一個(gè)道理：合作就是“天堂”，不合作就是“地獄”。在合作博弈中，贏得一個(gè)好的結(jié)果，往往不是如何去戰(zhàn)勝對(duì)手，而是設(shè)法引導(dǎo)對(duì)手做出對(duì)雙方都有利的行為，而到達(dá)博弈均衡的狀態(tài)。同時(shí)，應(yīng)該明確的是劃分非合作博弈和合作博弈不是從參與人的態(tài)度來考慮的，并不是非合作博弈中的參與人就不合作。恰恰相反，非合作博弈要回答的是當(dāng)無法達(dá)成有約束力的合作協(xié)議時(shí)，參與人之間如何通過理性行為的相互作用達(dá)成合作的目的。并且，合作博弈還需運(yùn)用非合作博弈方法（無限重復(fù)博弈、談判博弈等）來到達(dá)合作之目的。

三、合作的博弈均衡

2005年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)之所以授予兩位博弈論專家羅伯特·奧曼(RobertJ.Aumann)和托馬斯·謝林（ThomasC.Schelling），是因?yàn)樗麄冊(cè)诓┺木饫碚撝刑岢隽撕献骶饫碚摗跋嚓P(guān)均衡”和“聚點(diǎn)均衡”。

“相關(guān)均衡”是羅伯特·奧曼的核心理論之一，即人們根據(jù)博弈策略以外的特定相關(guān)信號(hào)機(jī)制進(jìn)行決策選擇實(shí)現(xiàn)的均衡。相關(guān)均衡在某種意義上是納什均衡之后的又一個(gè)重要的均衡概念，是以博弈策略中統(tǒng)計(jì)意義上存在相關(guān)性為前提。要達(dá)到相關(guān)均衡，最為重要的是在信念和信息方面能夠有共同接受的東西，才能達(dá)成合作聯(lián)盟。如A、B二人各自獨(dú)立地將“法國(guó)、中國(guó)、德國(guó)、印度”等四個(gè)國(guó)家進(jìn)行兩兩組合，然后將A、B二人的選擇放在一起，看是否是相同的。如相同則說明他們的想法是一樣的，反之則然。如何才能尋求到策略的均衡點(diǎn)？可以看到，A、B二人各自的選擇方式有三種，如果兩者要選擇正確，其概率只有11%左右。筆者曾經(jīng)在多次的培訓(xùn)中做過實(shí)驗(yàn)，只要把思維方式、理念確立好了，往往只作一次就能獲得成功。即需要著重思考兩點(diǎn)：一是對(duì)方怎么做，我就怎么做；二是根據(jù)屬性作策略。對(duì)方會(huì)怎么做，從理性的角度思考，是因?yàn)檫@樣做屬性多，對(duì)方就會(huì)這樣思考。整個(gè)選擇共有三種，如果將“法國(guó)——中國(guó)，德國(guó)——印度”或“法國(guó)——印度，中國(guó)——德國(guó)”組合在一起，其屬性只有“一東一西”。而如果將“中國(guó)——印度，法國(guó)——德國(guó)”放在一起，其屬性有“一東一西”、相鄰國(guó)家、發(fā)展國(guó)家與發(fā)展國(guó)家。很顯然，后者選擇的屬性要多一些，而這就是此策略的均衡點(diǎn)。而之所以這樣選擇，是因?yàn)樗麄冞x擇的共同依據(jù)——地理常識(shí)。而這就是此博弈的一個(gè)相關(guān)均衡點(diǎn)。在博弈存在多重均衡時(shí)，也就是人們有多重選擇，但需要協(xié)調(diào)時(shí)，相關(guān)均衡理論就是解決策略選擇方面協(xié)調(diào)困難和避免沖突的重要機(jī)制之一。

聚點(diǎn)均衡是托馬斯·謝林的核心理論之一，即在效率曲線中，博弈者的利益是對(duì)立的，沒有帕累托改進(jìn) （如何一個(gè)人的趨利變動(dòng)都會(huì)損害另一個(gè)人的利益），這種對(duì)立只是一種邏輯上的可能性，在效率曲線中必然存在一點(diǎn)，使得博弈者的利益是一致的[10]。由于導(dǎo)致聚點(diǎn)產(chǎn)生的因素?zé)o法用數(shù)理模型來表達(dá)，所以數(shù)理模型分析方法往往忽視“聚點(diǎn)”的分析，而聚點(diǎn)的分析方法是博弈中的精髓之一。聚點(diǎn)均衡強(qiáng)調(diào)協(xié)調(diào)，而協(xié)調(diào)需要彼此之間的交流，如果交流是認(rèn)同的，就會(huì)產(chǎn)生合作。如兩個(gè)人在1到100這100個(gè)整數(shù)中進(jìn)行選擇，A選一個(gè)數(shù)，B選一個(gè)數(shù)，如A和B所選的數(shù)相同，二者將獲得獎(jiǎng)勵(lì)，否則一無所獲。在這個(gè)策略選擇中，均衡點(diǎn)有100個(gè)，那么實(shí)際會(huì)出現(xiàn)哪一個(gè)均衡點(diǎn)呢？初看這個(gè)選擇難度非常之大，用數(shù)理進(jìn)行分析，選中的概率只有萬分之一。筆者在做這方面的培訓(xùn)時(shí)，引導(dǎo)學(xué)員的思路，他們很快會(huì)思考到，策略選擇會(huì)集中在：“1”、“50”、“100”，這三個(gè)數(shù)。最終，大多數(shù)人選擇1，因?yàn)?是最小數(shù)、人位數(shù)、起始數(shù)和奇數(shù)。而學(xué)員們能在很短是時(shí)間里尋求到均衡點(diǎn)，其最關(guān)鍵的是要有均衡的理念及其方法。在博弈中，博弈各方同時(shí)選擇一個(gè)聚點(diǎn)所構(gòu)成的納什均衡就是聚點(diǎn)均衡。聚點(diǎn)對(duì)各博弈方都有吸引力，它是由歷史、文化、道德、習(xí)慣或純偶然的因素產(chǎn)生。聚點(diǎn)均衡是建立在雙方都滿意的“聚點(diǎn)”上的均衡，是納什均衡而且是多重納什均衡中比較容易被選擇的納什均衡，這種均衡在現(xiàn)實(shí)社會(huì)中比較普遍。

（本文為2009年度國(guó)家社會(huì)科學(xué)基金項(xiàng)目 “我國(guó)政府公共決策利益博弈的路徑和機(jī)制研究”的階段性成果，項(xiàng)目號(hào)：.09XZZ011；論文作者為項(xiàng)目負(fù)責(zé)人）

[1]白波.圖說博弈論pM].哈爾濱:哈爾濱出版社,2009.6.36.

[2]喬林碧.政府經(jīng)濟(jì)學(xué)[M].北京:中國(guó)國(guó)際廣播出版社,2002.3.275.

[3]王則柯，李杰.博弈論教程[M].北京:中國(guó)人民大學(xué)出版社,2010.4.254.

[4]臧傳琴.從”經(jīng)濟(jì)人”假設(shè)到”政府失靈”[J].江漢論壇,2007.2.50.

[5]丁社教.法治博弈分析導(dǎo)論[M].西安:西北工業(yè)大學(xué)出版社,2007.4.169.

[6]孫恩棣.生活中的博弈[M].北京:京華出版社,2008.1.35.

[7]白波.圖說博弈論[M].哈爾濱:哈爾濱出版社,2009.6.15.

[8]何勤華.法治的追求[M].北京:北京大學(xué)出版社,2005.5.

[9]董保民等.合作博弈 [M].北京:中國(guó)市場(chǎng)出版社,2008.4.6.

[10]趙英軍，陳宇峰[M].沖突與合作世界中的博弈新視界.浙江:商業(yè)經(jīng)濟(jì)與管理,2005.11.11.

作者：重慶行政學(xué)院公共管理教研部教授

責(zé)任編輯：馬健

非合作博弈均衡與合作博弈均衡之研究——博弈均衡的裂變分析

一、非合作的博弈均衡

二、博弈均衡演變條件

三、合作的博弈均衡

非合作博弈均衡與合作博弈均衡之研究
——博弈均衡的裂變分析