博弈論中“一報還一報”策略與國際合作

2013-12-31 00:00:00徐愷

經濟研究導刊 2013年23期

摘要：分析了囚徒困境、重復囚徒困境之間的納什均衡是不同的，因此，對國際合作的影響也是不同的。由此引出“一報還一報”的策略對促進合作的影響。進而提醒在運用博弈論分析國際合作時需要注意中偏好假設的質疑與回應。

關鍵詞：博弈論重復囚徒困境 “一報還一報策略”

中圖分類號：F270 文獻標志碼：A 文章編號：1673-291X（2013）23-0022-03

一、重復囚徒困境與合作

囚徒困境博弈可以說是國際政治、國際政治經濟學研究中運用最多的博弈模型了。但是囚徒困境博弈模型的一些重要特征并沒有被完全分析過。因此，首先，我們來具體分析囚徒困境的基本假設、收益結構等。在囚徒困境博弈中，有兩個國家S1、S2。他們有兩種選擇：合作與背叛。假設他們不能通過言語溝通（這個假設也不是完全不合理的，例如雙方裁軍，雙方語言溝通也未必能阻止背叛），因此，各國都是在不知道對方選擇的情況下做出自己的選擇。如果兩國都合作，得到收益為3；如果兩國都背叛，將都得到收益1；如果一方合作，另一方背叛，那么合作的一方就由于被對方欺騙，收益為0。其收益矩陣為：

圖1 囚徒困境

注 R：對雙方合作的獎勵，T：對背叛誘惑的收益，S：給笨蛋的得益。P：雙方背叛的得益。

其中，下標1、2分別S1、S2的選擇。表示括號內的左邊的數字代表S1的收益，右邊代表S2的收益。S1的偏好順序是D1C2> C1C2> D1D2> C1D2。由于博弈的對稱性，S2的偏好也是一樣。由于雙方占主導的策略是背叛。因此，納什均衡就是相互背叛。

但是，在重復囚徒困境博弈時，還要假定以下幾個條件：

1.假定S1或者S2不能輪流使用合作和背叛來得益。其含義就是交替地背叛對方和被對方背叛的收益沒有雙方合作好。用公式表示就是R>（T+S）/2。

2.參與人之間沒有什么手段可以用來實施威脅和做出承諾。① 這一條要求就是參與人可以自由選擇策略。

3.假定不能在博弈之前確定對方會如何選擇。對對方選擇的認識只能來自于與對方的博弈過程。

4.不能消滅對方，也不能放棄對局。因此，對策者在每次對局中時選擇合作和背叛。

5.不能改變對方的收益值。這個收益值已經包含了每個對策者關于對方利益的考慮。②

根據博弈重復的次數，合作的可能性是有差別的。如果囚徒困境博弈進行有限次，那么，雙方沒有合作的動機。因為，最后一次大家顯然不合作，由于預先知道雙方在最后一次要背叛，倒數第二次也就沒有合作的動機。那么兩個自私者從第一步起就會背叛。

但是博弈進行無限次時，情形就不同了。這里涉及未來的折現（the shadow of future）。未來折現是在重復博弈中一個很重要的概念。在阿克塞爾羅德看來，參與人傾向于認為未來所得的價值隨著時間的推移而減少。其次，參與人總會有些機會不再相遇。因此，下一步的收益總是被看做比當前一步少。未來的序列收益可以通過折現系數（假定為w）而計算出來。假如每一步得到收益，那么下一步的收益也是1，但是只值現在的w（即1·w），依次類推，一般情況下，每一步收益為1分那么就有1+w+w2+w3+…=1/（1-w）。在無限次囚徒困境中，由于有可能當前都背叛而得到的收益不能超過一直合作所能得到的收益，那么，理性的行為者就會選擇合作。這里問題的關鍵就在于折現系數的大小了。

例如，兩個參與人，假定另一個選擇“一報還一報”策略。這一個參與人選擇“一直背叛”策略或者選擇“一直合作”策略，那么，選擇“一直背叛”策略的收益為V1=T+wP+w2P+…=T+wP/（1-w）。如果這個選擇“一直背叛”策略的人改變策略，選擇一直合作，那么收益為V2=R+Rw+Rw2+…=R/（1-w）。那么這個參與人就會比較兩者的收益，如果為V2>V1，即R/（1-w）>T+wP/（1-w）或者w>（T-R）/（T-P），，那么這個就會選擇一直合作。

從這里我們可以看出，一是在“囚徒困境”中，表現最好的策略也要取決于對方的策略。二是折現系數w很大，那么合作的可能性就是存在的。這也就否定了一直背叛是最優策略。

在重復囚徒困境中，既然沒有獨立于對方的最好策略，那么，什么策略表現得較好呢？阿克塞爾羅德利用計算機進行兩次競賽（the tournament approach），①發現最為簡單的策略贏得了比賽；并且第二次計算機競賽中，在大家知道第一次競賽結果的基礎上，還是取得了勝利。他得出結論：“一報還一報”策略在競賽中勝出。

二、“一報還一報”策略（TIT-FOR-TAT Strategy）

（一）策略定義與特征

“一報還一報”策略在國內大部分人都理解為“以其人之道，還治其人之身”、“以牙還牙”等，但這些詞語都是貶義詞，就有誤解“一報還一報”策略的意義。因此，有必要說明“一報還一報”策略的真正含義。“一報還一報”的策略很簡單，就是首先第一步選擇合作，其后的每一步都選擇跟對方上一步相同的策略。但是“一報還一報”策略卻具有一般策略所不具有的優點。

阿克塞爾羅德給出了“一報還一報”策略6種優良特征：一是具有善良性，它不首先背叛。在計算機競賽中，凡是善良的規則之間相處得很好，也就是能得到較高收益。只要對方不背叛，每個善良的規則一定是持續合作直到最后一步。二是具有寬容性。就是別人只背叛一次，“一報還一報”只報復別人的一次。而那些不太寬容的規則有可能會在報復別人的同時，也是在自我報復，姑而在計算機競賽中這些不太寬容的規則收益也較低。因為，“一旦一方的背叛誘發一長串的報復和反報復，雙方都要吃虧。”這是人們考慮“反射效應（echo effect）”不深入的緣故。一般的人都會想第一層次，“即選擇的直接效果，那就是背叛比合作來得收益高。第二層次是選擇的間接效果，即考慮對方是否會出發自己的背叛。但是第三層次就很少有人考慮了，即為了反應對方的背叛行為，有人就會重復甚至擴大自己以前的挑釁性選擇，……一個孤立的背叛變成了一連串無休止的報復。”②三是具有韌性（robustness）。就是“一報還一報”策略不僅能夠跟那些不太善良的策略相處而得到較高的收益，而且也能夠跟那些善良的策略相處而得到較高的收益，這就表明它在很大的環境中表現極佳。四是策略具有明晰性，在使用“一報還一報”策略時，別人能夠很快識別出你的策略。五是不占他人便宜。從兩次競賽的結果，“一報還一報”策略并不比其他的策略的收益高多少。因為，試圖占便宜可以引起如下的風險：一種是如果一個策略用背叛試探是否可以占便宜，它就得冒被那些可激怒的規則報復的風險；另一種是雙方反擊一旦開始，就難以擺脫僵局；第三種是放棄了其他的一些合作機會。③六是報復性，而且是即刻報復。在某些情況下，即刻報復比等一段時間才報復是有好處的，因為即刻報復，可以讓對方知道背叛是會受到立即懲罰的。

那么既然“一報還一報”策略自身有如此多的優點，但也還是一個缺點，那就是報復性可以形成惡性循環。比如對方由于一次疏忽而選擇了背叛，那么“一報還一報”策略也就是背叛，這樣對方可能又會選擇背叛，于是就有可能形成了惡性循環。

雖然有形成惡性循環的可能性，但是“一報還一報”策略還是一個善良的策略。那么合作如何建立，又如何維持了？

（二）合作的建立和集體穩定性

一般說來，合作分為三個階段：起始階段、中間階段和最后階段。起始階段在無條件背叛的世界里合作如何產生的問題。中間階段是基于回報的策略能夠在許多不同類型的策略組成的環境中成長起來。最后階段是，基于回報的合作一旦建立起來，就能防止其他不太合作的策略的侵入。

第一，侵入和集體穩定性。整個群體都采用一個策略，而一個新的策略的個體進入這個群體中來，這個新來者將只和原有群體中的個體相遇。而原來群體中的個體可以看作只和原有群體中的另一些個體相遇，因為這個新來者只是群體中的個體可以忽略的部分。因此，如果新來的個體在與原來的個體相遇時比兩個原有的個體相遇時收益高，那么就稱新來的策略可以侵入原有策略。由于原有的個體幾乎占有整個群體，所以侵入的概念等價于這個變異的個體干得比群體平均要好。如果一個策略不能被其他策略侵入，這個策略就是集體穩定的。

第二，“總是背叛”策略總是集體穩定的。“總是背叛”的集體穩定性就是意味著沒有任何單一的個體可以指望比繼續背叛和不合作做得更好。如果對方一定背叛，你合作就一定吃虧，你的收益為0。在一個都采取“總是背叛”的群體，一個人每一步收益都是1，如果沒有其他人愿意合作的話，那么任何都不可能得到更高的收益。如果你合作的話，你被對方剝削。因此，在這樣的群體中，任何個人合作是沒有用處的。這個情形最為典型的是第一次世界大戰之前歐洲各國之間的軍備競賽。如果大家都在擴充軍備，而你不擴充軍備的話，那就等于自殺。這一點我們可以在丘吉爾的回憶錄中清晰的可見的。

第三，當未來足夠重要時，“一報還一報”是集體穩定的。并且未來重要性跟囚徒困境中收益結構有關系。這一命題也是國際關系中論證國際合作是可能出現的重要證據之一，特別是新自由制度主義。因為在國際關系中，國家消失的可能性很小，這樣就滿足了無限次博弈的條件，而且隨著國際交往的增多，一次合作收益的損失（相對于背叛而言）可以在將來一次合作中彌補起來，于是未來就會變得重要。于是采取“一報還一報”的策略就不會有其他的策略可以侵入。

第四，只有當未來足夠重要時，任何可能首先合作的策略才可能是集體穩定的。因為一個策略是要集體穩定時，就必須保護自己不受任何策略包括“總是背叛”策略的侵入。這里是很直觀的，比如你在首先合作時被欺騙了一次，你要有報復的機會來懲罰對方。這樣對方會盤算如果遭到報復后其收益是否能大過一直合作，這也就命題的前提條件：未來足夠重要。

第五，對于善良的策略，如果是集體穩定的，它就必須能被對方的第一個背叛激怒。“如果一個善良的策略不被在第n步所激怒，那么它就不是集體穩定的，因為它能被只在第n步背叛的策略侵入。”這一命題初看起來有點不好理解，其實道理還是明白的。比如，一個侵入的策略在第n步背叛，因為前面n-1步合作的收益和加上這一背叛的收益，以及雙方一直背叛的收益不能超過了這個侵入策略一直合作所能得到的收益，那么原來的策略就是一個穩定的策略。

第六，能以一個特定小概率的小群體侵入“總是背叛”的策略，那是那些具有最大識別力的策略，如“一報還一報”。即是只要“一報還一報”策略與“一報還一報”策略相遇的比例為p，那么，它與“總是背叛”策略相遇的比例就是1-p。只要p值達到能滿足“一報還一報”策略之間的平均收益超過了原來“總是背叛”策略與“總是背叛”相遇的收益，那么采用“一報還一報”策略的小群體就能侵入“總是背叛”群體。

第七，如果一個善良的策略不能被單個個體侵入，那么它也不能被這類個體的小群體侵入。一旦合作建立起來，不遵守合作一個小的新來者群體不能改變其原來合作的情形。例如在美國眾議院中議員之前的合作，由于新來的議員的人數較少，這就不會改變原來的情形。

通過以采取特殊的策略，可以證明在無條件的背叛情形下也能出現合作，這是第一層意思。這也否定了現實主義在無政府狀態下不可能合作的結論。當然，這樣的合作是要有條件，如果由一些散亂的個體去努力，合作不可能建立。因為，他們沒有足夠的機會相遇與再相遇。第二層意思是只要具有識別能力的個體之間有即使是很小的比例彼此相遇，合作也可能小群體內先建立起來。第三層次是在小群體內的合作可以擴展到更大的群體中去。這些命題構成阿克塞爾羅德的理論核心。而且命題6和命題7使阿克塞爾羅德成為博弈演化論中的先驅之一。那么，合作既然能夠在自私者之間出現，我們如何培育合作呢？

（三）合作的培育

博弈論從兩個方面來提出建議來促進合作。認為在“重復囚徒困境”中，應該遵行四個原則：

一是不要嫉妒。博弈論認為，在現實生活中，多大數情況都是非零和的。但是人們喜歡比較，經常拿別人的成功跟自己比較，這樣就容易導致嫉妒。在國際關系理論中，其實就是相對收益與絕對收益的爭論。而在“囚徒困境”的形式下，抵消對方的優勢只能通過背叛來實現。但也會造成惡性循環，背叛導致更多的背叛和對對方的懲罰，這樣在給別人懲罰的同時，也傷害了自己。因此，在一個非零和的世界里，為了自己做得好，你沒有必要非得比對方做得更好。特別是當你要和許多不同的對手打交道時。① 但是，這里只是不要更別人比較，但要跟自己比較，要讓自己做得最好。

二是不要首先背叛。這一點博弈論成為善良性規則。首先，不善良的規則有兩個壞處。第一是一些運用相當復雜的策略來試探是否可以欺騙而能逃脫懲罰，但是計算機競賽的結果其收益都不是很好，因為有些情愿報復而不被占便宜的策略存在。第二是根據命題7，不善良的規則很難在采用善良策略的群體中存在下來。由于較差的策略由于演進的關系而被淘汰，剩下的就是較為善良的策略，這樣，也就不能生存下來了。那么，是否可以先背叛再合作呢？當然是可以的，正所謂是“不打不相識”，但這是一個很有風險的策略。容易導致惡性循環。值得注意的是這里不要首先背叛是有前提的，一是要能有較長時間的接觸（the future of shadow）。其次，在“總是背叛”等群體的情況下，合作是沒有回報的。因此，其結論就是分清其具體情形，在決定是否首先背叛，而不是只做“好好先生”。從這里我們也可以看出，國際關系是復雜的，相對收益和絕對收益的強調是應該的，而且也是可能的，只是要區分具體的情形，具體問題具體分析。

三是對合作和背叛都要給予回報，這一點可以從“一報還一報”優越性中看出。“一報還一報”策略就是不管合作和背叛都給以同樣的回報。因為給予合作以回報，這在倫理上是很正常的。但是，在給予惡人時，倫理上都是要仁慈、寬恕。但正是這樣，才給惡人以欺負好人的機會。比如，像采取“兩報還一報”策略，如果對方違反兩次，就給予報復；如果只違反一次，那么寬恕。這樣，就會給惡人有空子。因此，博弈論總結到，最優寬恕水平與環境有關。特別是如果主要的危險是來自那些善于占“好說話”規則便宜的策略，那么，太多的寬恕就要付出代價。對背叛類似一對一的反應可能在大多數情況下都是相當有效的。

四是不要耍小聰明。計算機競賽的結果說明，策略復雜不一定能贏得勝利。因為在“囚徒困境”中，雙方的行為都是相互影響的，自身的行為會影響到別人對你的預期（expectation），在決策時需要知道對方的行為，而對方行為的形成有來自于對你的預期，如果你給對方的預期是不清楚的話，這樣，你也就不能清晰地判斷對方行為，這樣就像是害人反而害己。所以，“一報還一報”策略具有清晰性，讓對方了解你的行為，這樣你也更好地形成對對方行為的判斷。

博弈論是可以在國際關系理論運用，論證合作在無政府狀態下合作是可能的，為新自由制度主義的產生和發展提供重要的理論支持。雖然也遭到一些批評，但對于研究國際合作還是具有重要的理論意義。

經濟研究導刊2013年23期

經濟研究導刊的其它文章: OECD范本中常設機構的定義研究; 刑事附帶民事訴訟賠償問題探析; 論原產地規則的協調進程及前景; 民族地區礦產資源生態補償法律保障論略; 優化法治環境實現龍江經濟社會大發展快發展; 農民環境知情權的法律保障研究