城市群府際環境治理合作的博弈態勢

2019-05-22 08:12:20王玉明

南都學壇 2019年3期

關鍵詞：困境

王玉明

(廣東行政學院行政學教研部，廣東廣州 510053)

博弈論研究的是理性決策主體之間直接相互作用時，如何進行決策選擇及決策均衡的問題[1]。城市群府際環境治理中既有競爭也有合作，是一個相關參與者博弈的過程。利用博弈論研究政府間的競爭合作關系具有很強的解釋力。本文通過對府際環境治理中的博弈態勢進行分析，以論證府際環境治理中的合作模式、合作條件和變量。博弈方是指博弈分析中的決策主體，本文泛稱中央政府和作為城市群成員的地方政府。從某種意義上說，地方政府負責人是府際環境治理中的實際博弈方。另外，還有污染企業也是重要的博弈方。在城市群府際環境治理中，參與博弈各方的利益訴求不同、實力和地位不同、地理區位不同、話語權不同，以及所掌握的信息不同等，每個參與者的行為決策或策略具有很大的選擇空間。在城市群府際環境治理中，中央政府強調城市群生態文明建設增長，實現國家利益最大化。地方政府主要目標是區域性和轄區內的生態環境保護和可持續發展，實現地區和轄區利益最大化。不論哪種類型博弈的結果都是趨于均衡，即所有博弈者達成一種最佳策略或行動的組合，如納什均衡注1951年納什(J.Nash)提出博弈中的均衡概念，這種均衡往往就是各個博弈方參與博弈后所獲得的相對穩定的博弈結果，而且如果這種結果為多數博弈方所接受，即具備一定的穩定性，這種穩定性的結果，稱之為“納什均衡”(Nash Equilibrium)。。納什均衡狀態就是一種博弈者單獨改變決策誰就要蒙受損失的情形，沒有一方愿意打破這種狀態。

城市群府際環境治理是一個相關利益主體之間的博弈過程，這種博弈主要體現為中央政府與地方政府之間、地方政府之間、政府與污染企業之間的博弈。博弈可分為合作博弈和非合作博弈、單次博弈和重復博弈、動態博弈和靜態博弈等形式。合作博弈討論的是各博弈主體在何種約束條件下進行結盟，而非合作博弈探討的是各博弈主體如何為各自利益最大化而開展討價還價[2]。合作博弈和非合作博弈的區別在于參與博弈各方之間有沒有一個具有約束力的協議，如果有，就是合作博弈，如果沒有，就是非合作博弈[3]。從博弈論上講，合作性的集體行動主要有保證型博弈、討價還價博弈，合作博弈中各方進行信息交流或達成具有約束力的契約，各方的利益都有所增加，或者至少是一方利益增加，另一方利益也不受損。非合作博弈不存在有約束力的協議，博弈者都以自身收益最大化為出發點選擇策略，如典型的囚徒困境博弈。城市群府際環境治理中也存在合作博弈和非合作博弈。美國學者安妮特·斯坦尼克在《大都市治理：沖突、競爭與合作》一書中分析了大都市合作的四種典型博弈——囚徒困境博弈、重復的囚徒困境博弈、討價還價博弈、保證型博弈[4]31-43。本文借鑒這四種博弈模型探討城市群府際環境治理中博弈態勢，進而解釋政府間合作的可能性及其相關條件。

一、單次囚徒困境博弈及破解之策

博弈論所涉及的一個最典型的模型就是“囚徒困境博弈”模型，也就是單次囚徒困境博弈。單次囚徒困境博弈是用來研究府際間關系最常用的分析模型，它的解釋力主要是其支付結構(收益矩陣)抓住了政府間關系所固有的競爭屬性。囚徒困境最早是由美國數學家艾伯特·培克(Albert tucker)于1950年提出來的，它講的是A與B兩個共同盜竊犯罪嫌疑人作案后被警察抓獲，分別被隔開審訊。A與B都面臨著“坦白”還是“抵賴”兩個選擇，而每個人行為選擇的結果又取決于另一人的行為選擇。如果兩個人都坦白，那么每人判刑8年；如果兩個人都抵賴，因為沒有足夠證據，判刑1年；如果其中一方坦白，另一方抵賴，坦白的一方當場釋放，抵賴的一方判刑10年。對于每個囚徒來說，這四個結果按對自己有利的排序依次是：自己坦白對方抵賴—雙方都抵賴—雙方都坦白—自己抵賴對方坦白。囚徒困境的收益矩陣如圖1所示。

囚徒B囚徒AB1(坦白)B2(抵賴)A1(坦白)(-8,-8)??(0,-10)A2(抵賴)(-10,0)(-1,-1)

圖1單次囚徒困境型博弈

A在進行決策時，他會發現如果B選擇“抵賴”，則自己的最優選擇就是“坦白”；而如果B選擇“坦白”，則自己的最優選擇也將是“坦白”，承擔8年刑期，相對于選擇“抵賴”而獲刑10年相對較短。因此，作為任何一個理性的嫌犯來說，無論對方的選擇“坦白”還是“抵賴”，自己的最優選擇都是“坦白”。這樣一來，最后的結果就是A與B都選擇“坦白”，各判刑8年，收益矩陣中的“(-8，-8)**”就是囚徒困境模型的納什均衡解(用星號標出，文中其他收益矩陣也一樣)。實際上，即使兩個囚徒事先訂立了攻守同盟，他們也會有背叛同盟的可能。因為每個囚徒都追求個體利益最大化，都希望對方抵賴，自己坦白獲釋。在上述收益矩陣中，對博弈方而言，“坦白”策略都是在考慮自身利益最大化基礎上的最佳策略。這是典型的單次囚徒困境博弈，是一個典型的個體理性導致的集體非理性的完全不合作博弈[5]。

城市群府際環境治理中也面臨著這種囚徒困境的難題。假定有兩個地方政府：地方政府A和地方政府B，每個地方政府都有合作和背叛兩種行動策略(見圖2)。

地方政府B地方政府AB1(合作)B2(背叛)A1(合作)(A1,B1)(A1,B2)A2(背叛)(A2,B1)(A2,B2)??

圖2地方政府間單次囚徒困境型博弈

當雙方都選擇合作時，處于一個雙方都有收益的均衡解(A1，B1)；但因各個地方政府都要有理性經濟人屬性，希望選擇背叛或“搭便車”以使自己的利益最大化，都寄希望于其他地方政府選擇合作，而自己盡量少地付出或不付出。但如果地方政府A選擇背叛，而地方政府B選擇合作，那么結果為(A2，B1)；如果地方政府B與地方政府A一樣也選擇背叛，故而最終的均衡解是(A2，B2)。在這種狀態下，地方政府的利益表現或行動決策的結果，最終導致的是一個納什均衡，但是這個納什均衡不是帕累托最優境界，而是博弈結果最差的一種(A2，B2)。如果所有的地方政府都選擇合作，任何一方的獲益都將比背叛這樣的情況要好。然而，相互合作的結果不是納什均衡，因為如果地方政府A選擇合作，地方政府B能夠通過背叛而使他境況更優，最壞的結果也能保持原有的收益不變，反之亦然。對每位博弈地方政府而言，選擇背叛策略將使之至少不會落到只有支付治理成本而無收益的境地，這是一種完全不合作博弈。就城市群環境治理來說，如果一個地方政府選擇背叛策略或“搭便車”，那么它不要投入或者境況更佳。每個地方政府都做同樣的算計，所以每個地方政府最后都選擇背叛策略或“搭便車”。特別是政府間雙方因信息不對稱而無法準確判斷對方的行為策略條件下，各自最優的策略選擇必然是不合作，即收益組合(A2，B2)。

單次囚徒困境博弈是一個典型的非合作博弈，即該模型中各方采取的以背叛為主導的行為決策。這種博弈模型取決于幾個基本假設：一是靜態性博弈；二是博弈者之間沒有交流，不能從重復博弈中進行學習；三是沒有制裁或外部強制；四是博弈者的對稱性，偏好一致。因而這種博弈模型在解決博弈者偏好分歧、地位不對稱和博弈穩定性等方面的解釋能力非常有限。該模型的靜態性沒有考慮到重復博弈或者隨時間推移而出現變化的影響，而這些將影響政府間合作的可能性。如果出現重復博弈和博弈方之間可以面對面地溝通，博弈態勢就會改變。在府際博弈中，博弈者有同樣的發展偏好和平等的政治權力，這種假設是很難存在的。

雖然單次囚徒博弈會出現最差的均衡結果，但并不意味著合作障礙是不可能克服的，因為博弈雙方的決策選擇是互相依賴的，所以在囚徒困境模式中存在著合作的空間和可能性。克服非合作的囚徒困境的關鍵問題在于，如何使個體理性與集體理性統一起來。安妮特·斯坦尼克提出通過三種方法得以解決，每種方法都導致了一種新的博弈模式：第一，改變支付結構，導致了保證博弈；第二，引入重復博弈，導致了重復的囚徒困境博弈；第三，在討價還價博弈中，加入了博弈者偏好和政治權力的變化[4]36。這三種博弈模型后文會詳細分析。除了這三種方法外，針對囚徒博弈的局限，需要突出強調以下對策。(1)引入選擇性激勵。奧爾森認為，克服集體行動困境的辦法，需要特權勢力的存在，或者是通過制度設計提供有選擇性的激勵[6]41。選擇性激勵既可以是積極的，也可以是消極的，就是說，它們既可以通過懲罰那些沒有承擔集團行動成本的人來進行強調，或者也可以通過獎勵那些為集體利益出力的人來進行誘導[6]42。選擇性激勵是一套鼓勵合作，促進個體行為與集體利益相一致的賞罰分明的制度。這個制度設計通過凌駕于雙方之上的第三方來實現，雙方必須遵循第三方的規則，如果有人違反了承諾或規定必須進行懲罰，迫使雙方向著集體理性方向選擇行動策略。(2)制度規范硬約束。具有強制性約束力的制度規范是克服囚徒困境的一個重要途徑。博弈內生理論指明制度既是博弈規則，也是博弈均衡[7]。均衡的制度和法律才是符合各方利益的規范，均衡制度為府際環境治理中的囚徒困境的解決提供了規范和新思路[8]。在城市群環境治理中，破解囚徒困境需要加強制度規范建設，如相關法律規范、環境合作協議、合作規約等。經驗也證明，如果沒有相應的法律規范，府際間合作就會充滿不確定因素，合作成本和風險一定會提高。府際合作所要遵循的制度還包含合作契約、績效考評制度、責任追究制度等。這些制度規范在主體間的合作過程中，起到約束合作行為、協調利益關系、預防合作風險的功能。(3)克服信息不對稱。信息在博弈中具備非常重要的地位，博弈方掌握的信息直接影響決策的選擇，信息不對稱增加了合作的難度，博弈方不清楚對方的策略，會產生不信任危機。囚徒困境博弈狀態下存在信息溝通障礙，倘若囚徒之間有信息的溝通，雙方很有可能會攻守同盟，雙方會選擇抵賴。在城市群府際環境治理中，加強環境合作信息溝通，建立環境信息共享系統尤其必要。

二、重復囚徒困境博弈及其格局優化

重復囚徒困境博弈是指固定的博弈者會不斷重逢,不斷重復相同或相似的選擇條件的博弈，實質上是同一個博弈反復進行所構成的博弈過程。囚徒困境是一次性博弈，基于個體利益最大化，囚徒往往選擇坦白，如果是多次博弈，就可能會在各成員之間產生合作，如果博弈是無限次的，考慮到長遠利益，選擇持續合作才是明智的。羅伯特·艾克斯羅德在其《合作的進化》一書中用實驗證明，如果博弈一方采用背叛策略，則另一方在下一局立即采用相同的策略，如果博弈一方開始采取合作策略，另一方會馬上效法。這種“一報還一報”或“針鋒相對”的多次重復博弈就會促進相互間的合作。羅伯特·艾克斯羅德的結論肯定了突破單次囚徒困境，建立互惠合作關系的可能性[9]。弗里德曼也提供了一個嚴格的證明:如果博弈者比較重視自己未來的收益，那么合作就能夠在不定次的重復囚徒困境中自我實現[10]。在重復囚徒困境博弈中,有條件的合作策略將是理性經濟人的最優選擇，因為每個博弈者都有機會去懲罰前一回合的不合作行為，理性博弈者會認識到，如果自己選擇背叛，在下一輪博弈中會遭到其他博弈者的報復，選擇合作是明智之舉。由于未來收益或長期利益的存在，如果博弈者一方有任何合作的可能性，那么另一方將使用包括合作在內的行動策略來改善他的總收益。因此,當博弈重逢的次數足夠多的情況下,合作可能會作為均衡的結果出現。當重復博弈的次數接近無限的數量，納什均衡趨向于帕累托最優。城市群環境治理中政府間的博弈是長期的、多次的和動態的，即存在重復囚徒困境博弈態勢，這就為克服單次博弈的囚徒困境提供了一定可能性。

假設以單次囚徒困境為原博弈G，如果G重復進行T次，那么G(T)就表示重復進行T次的有限重復博弈。用逆推法來分析有限次重復博弈的過程，研究發現，如果階段博弈G有唯一的納什均衡，則對任意有限的T，重復博弈G(T)有唯一的子博弈完美納什均衡，即G的納什均衡結果在每一個階段重復進行。博弈者若明確知道合作到了最后一輪，以后不會再有重復博弈，那么，最后一輪的博弈和單次囚徒困境博弈就沒有區別，博弈者的欺騙和違約行為不可能被報復，結果最后一輪每個博弈者的占優策略就是不合作。逆推到前一期，每個博弈者都推知以后將不合作，所以也不會合作。因此，在有限次重復博弈中，囚徒困境博弈的納什均衡是參與者的不合作。由此可見，影響重復博弈均衡結果的主要因素是博弈的重復次數。本文假設按單次囚徒困境模型重復博弈兩次，第一階段和第二階段的收益矩陣分別如圖3、圖4。根據以上分析，第一階段的納什均衡為(坦白，坦白)即(-8，-8)。

囚徒B囚徒AB1(坦白)B2(抵賴)A1(坦白)(-8,-8)??(0,-10)A2(抵賴)(-10,0)(-1,-1)

圖3第一階段囚徒困境型博弈

第二階段，即將最后階段的收益(-8)添加到第一階段的矩陣中，發現第二階段的納什均衡為(坦白，坦白)，即(-16，-16)。兩次重復囚徒困境博弈的均衡組合都是選擇(坦白，坦白)，即在有限次重復博弈G(T)中，如果原博弈G存在唯一的純策略納什均衡組合，則重復博弈的唯一的子博弈完美納什均衡解為各博弈方在每階段都采取了原博弈納什均衡策略。這意味著在原博弈具有唯一均衡的有限次重復博弈中，由于完全理性的博弈方具有“共同知識”的分析推理能力，因此在從最后階段開始的逆推過程中，仍然無法擺脫囚徒困境。羅伯特·艾克斯羅德的實驗結果表明，當博弈重復無限次時的情形，假定兩個囚徒A和B的貼現因子為相同的常數δ，當δ充分大時，合作均衡結果每階段都為(抵賴，抵賴)，將是一個子博弈精煉均衡。

囚徒B囚徒AB1(坦白)B2(抵賴)A1(坦白)(-16,-16)??(-8,-18)A2(抵賴)(-18,-8)(-9,-9)

圖4第二階段囚徒困境博弈

重復囚徒困境博弈建立在以下假設基礎上，一是相同的參與者重復博弈；二是存在交流的可能性；三是對稱的博弈者，即博弈者在偏好、地位、信息獲得、資源配置等方面基本上是平等的。重復囚徒困境博弈的最突出特征是將未來收益對參與者的影響考慮進去，拋棄了靜態假設，開啟了合作的可能性。如果我們相信城市間的某種競爭水平比以協議為基礎的保證博弈收益更適當，那么重復的囚徒困境博弈框架將是一個更準確的方法。這種博弈能夠提供完整的信息、允許從某次博弈中受益而在另一次博弈中付出更多、包含有防止博弈者隨時間推移而出現的地位或偏好的變化的保護措施。重復的囚徒困境博弈的最大局限仍然是關于博弈者完全一樣的假設，包括他們有相同的貼現率[4]43。相比單次囚徒困境博弈，重復囚徒困境博弈包含更多政府間合作和政策的特性，但該模型仍然很難把博弈者的多樣性和博弈者地位隨時間推移的變動性概括進去。現實中，對等博弈只是在少數情形下才存在，政府間的地位和實力存在差異，即使合作的潛在總收益很大，收益分配沖突也會阻止這種合作。

重復的囚徒困境博弈存在多種均衡狀態，博弈合作是一種可能的納什均衡，這種納什均衡的可能性受諸多因素的影響。理查德·C.菲沃克認為，在重復博弈過程中，幾個參數影響最優策略選擇以及合作的水平，主要是博弈終結點的不確定性、博弈者的貼現率，以及收益的相對規模能夠導致在最初幾輪上的合作，以及強制實施的可信的內外制裁也能夠發揮作用以保持合作策略。其中當前條件對博弈者影響越大，貼現率越高，博弈者越希望從當前博弈輪次中獲得最大可能的收益。當前收益對博弈者越重要，就越可能選擇背叛策略。因為對于博弈者來說，較低但確定的收益比未來較高卻有風險的收益更有價值[4]38。阿克塞爾羅德認為，合作的基礎不是真正的信任，而是關系的持續性。他提出合作博弈存在以下基本條件：一是個體有足夠大的機會相遇，并使雙方相互作用更持久和使相互作用更頻繁；二是回報原則，互惠是交換關系的基本原則，每次讓渡都包含著獲得相應回報的預期；三是建立合作的規范，防止其他不太合作的侵入，合作就能夠產生、成長并保持穩定[11]。結合以上論述，本文將重復囚徒困境博弈格局優化的途徑概括為以下幾個方面。(1)導向長遠利益。在重復博弈環境下，理性的參與者能夠為了未來的長久利益而支持當前不利的政策主張。參與者可能不急于獲取眼前的利益，而是著眼于在未來獲取更大的累積性收益。對博弈輪數的期望值影響到博弈者的決定，博弈者越是認為博弈行將結束，越是看重當前的收益。應用該模型于城市群府際環境治理的分析需要測定博弈本身以決定其參數值(收益和貼現率)，評估這些參數在現實世界中的價值排列即可測定城市間合作的可能性。這種方法的主要困難在于多個納什均衡，又有體系中必須要解決的精確的參數估計[4]39。需要強調的是，博弈者合作的前提是合作的未來收益高于背叛的收益，讓博弈者看到合作的未來收益會比當前選擇背叛的收益更大。假如短期誘惑過大或者缺乏足夠耐心，違約行為就會發生。保護城市群生態環境是區域發展的長遠利益、整體利益和共同利益，政府要摒棄短視的發展模式，協調經濟發展與環境保護的關系，處理好短期利益與長遠利益、局部利益與整體利益、個體利益與共同利益的關系，將發展目標導向長遠和未來。(2)持續性互動。重復的囚徒困境博弈突出特征是博弈者試圖在依靠多次反復的互動使自己的收益最大化。博弈理論對于平行組織之間合作問題最常提供的對策，就是長期的互動。這種長期交往使部門間與政府間得以建立名聲以增進互信，進而建立相互間對于合作事宜的互動模式與心理上的互相期望。城市群府際環境合作的成效不僅包括短時期內的直接影響，具有持續性是合作成功的更為重要的標志。城市群各成員城市處于一個生態共同體之中，環境污染治理和生態文明建設需要長期行動，政府間需要持續性的長期合作[12]。為此，在城市群區域建立一種制度化的商談會晤機制，即程序性的會商機制。程序性的會商其實質是一種基于交往理性的主體間關系，只有在這種主體間基礎上才能形成有效的規則或長效機制[13]。通過制度化的程序化的商談會晤，加強相互之間的政策學習、交流經驗和共享知識。(3)建立聲譽機制。單次囚徒困境博弈之所以會出現互不誠信的結果,最主要的原因在于雙方是“一錘子買賣”,博弈雙方都從各自的眼前利益出發,選擇不守信和欺騙，聲譽機制就無法形成。在重復囚徒困境博弈中，要維持聲譽，強調對失信的懲罰，加大失信的成本,否則就等于縱容背叛，從而迫使其行為趨向誠信。這種懲罰可能會促使每個參與者都在第一回合選擇合作，或在幾個回合之后采取合作。同時，博弈者的失信或背叛信息能及時被觀察到，并且該信息能夠快速準確地傳播出去，如果失信或背叛不能被人觀察到，當事人就可能不講信譽，一般來說，信息觀察越滯后，信譽的建立就越難[14]。因而聲譽機制的建立還要解決重復博弈中所需的信息不對稱問題。

三、討價還價博弈及其共識基礎

討價還價博弈模型避免了煩瑣的公理假設和數學定義，具有較好的適用性。該模型考慮到了博弈者實力和地位的不同，考慮到了博弈者不對稱的偏好，考慮到了重復博弈和隨時間推移而出現的變化性，考慮到了風險規避和時間偏好的重要性。該模型不僅包括決定制度性合作能否發生的因素，還包括決定合作協議條款的因素，所以它是最具彈性的一種模型[4]39。城市群府際環境合作是利益協調的動態博弈過程，是中央政府與地方政府之間、地方政府之間不斷協商或討價還價的過程，需要在協商一致的基礎上達成合作共識和利益協調。城市群府際環境治理的合作收益就像一塊蛋糕，需要合理分配，環境治理的成本需要合理分攤，以討價還價博弈模型分析城市間利益協調的過程有較強針對性和應用性。府際合作收益分配是一個復雜的談判過程，幾個城市間通過討價還價最后達成協議，可能導致實力或地位較強的城市接受當前的較少收益，并遵守其他城市所提出的公平觀念，以尋求在未來更好合作。因為未來的互動可能降低違反當前協議的可能性[15]88-95。

討價還價博弈關鍵是建立博弈方之間的共識基礎。(1)外部選擇權。外部選擇權是指如果談判破裂，博弈者能夠得到的東西，往往是指現狀的價值，這些價值暗示了每個博弈者對合作協議的需要。在政府間的合作談判過程中，每個政府都將要求從協議中獲取的價值不能少于其外部選擇權的收益，或者不少于單獨行動的收益。每個政府從合作協議中獲取的收益至少要與沒有協議時一樣多，如果這個條件不能達到，很難實現合作。如果政府間的外部選擇獲得的總和收益比合作收益分配的收益大得多，那么很難達成環境合作協議。一旦每個博弈者都收到了其外部選擇的價值，共同收益的剩余將會按博弈者風險規避和時間偏好的相對價值來分配。這種分配偏愛更有可能遭受風險的以及未來貼現率較低的博弈者[16]。外部選擇權的大小實質上反映機會成本大小，機會成本是指博弈者能找到相似或相同成交條件的可能性，如清潔水源的替代性、產業發展對水源的依賴度等。如果機會成本小，意味著外部選擇權小，達成協議的可能性就大。(2)未來貼現率。在討價還價博弈模型中，貼現因子表示討價還價的時間成本，也是博弈者耐心程度的反映。對未來貼現率[注]貼現因子在數值上可以理解為貼現率，就是1個份額經過一段時間后所等同的現在份額。這個貼現因子是由參與者的“耐心”程度所決定的。由于貼現因子的作用，參與者在本期所得的份額X和下期所得同樣份額的X在價值上是不相等的，下期的X經過貼現只能等于本期的δx，要小于本期的X。很高的政府來說，只有當前能夠實現的交易才是有價值的，談判中處在一個較弱的位置。若時間對某個政府越重要，那么其貼現因子就越小，在討價還價中就越處于不利位置。或者說，風險厭惡度小的博弈者，其貼現因子較大，在討價還價中處于較有利的地位，同時引發談判破裂的可能性也較大；風險厭惡度大的博弈者，其貼現因子較小，在討價還價中處于較被動不利的地位，但引發談判破裂的可能性也較小。如果雙方都是風險接受者并有低貼現率，引發談判破裂的可能性也較大，因為雙方都以一個高要求開始且在談判過程中沒有明顯地作出調整[15]。如污染河流的上下游政府關于生態補償的談判就面臨這種情形，下游政府的未來貼現率高，帶來的損失比上游政府要大，治理河流污染比上游政府要緊迫，所以談判中處于較弱位置。(3)磋商談判的規范性。城市群府際環境治理中，政府的討價還價能力對合作影響很大，由于政府間基礎條件的差異，各自的行動策略也不盡相同，從環境合作中獲取的收益也不同。那些討價還價能力占優勢的博弈者從協議當中收益較多，而不占優勢的則收獲較少。一般來看，城市群中核心城市往往從城市共同體中分到更大利益，一般城市收益則相對越少，這導致一般城市在區域合作中更愿采取“搭便車”策略[16]。小城市傾向于選擇等待策略，傾向于跟隨并參與環境合作，等待核心城市或中央政府啟動合作。因此，規范討價還價的過程，維護弱勢方的利益是解決博弈方非合作的關鍵。為此，建立城市群環境問題磋商機制，通過政府間的有效磋商，協調彼此的利益訴求和政策立場，最終達成區域共同認可的合作協議。磋商機制實際上是一種公共對話機制，公共對話可以促進博弈方進行自我反思，消除彼此之間的認識差距、利益沖突和利益張力，增加共享性思維[17]。政府通過正式或非正式的方式進行公共對話與磋商，加強溝通，在一定游戲規則下達成合約。磋商談判機制的建立，應當注意參與主體的平等性和代表性，城市群環境治理在哪些方面、在哪里進行合作，如何進行合作，地方政府都應該享有同等的發言權和表決權，因此，建立一種使各地方政府都有機會表達不同意見的正式程序，如建立聯席會議、聽證會，通過調解、均衡，形成以國家利益為主，反映地方利益的協議或規則[18]。(4)合作協議的公平性。討價還價博弈的一個重要特征是以協議為基礎。在討價還價博弈中，對雙方最不利的結果是談判的失敗，合作成功需要依賴的分配協議，達成什么樣的協議是個復雜的討價還價和談判的過程，這里面關鍵是存在收益分配和成本分攤問題，以及如何保證弱勢方政府的話語權、發展權，確定環境合作協議的公平公正和順利實施。在磋商談判中，應當重視參與方意見表達，確保協商的廣泛性、公正性和持續性，通過協商、談判，建立起互惠合作的關系，明確協議方之間的利益獲得和責任承擔方式。

四、保證型博弈及其維持條件

保證型博弈是一種靜態博弈，博弈者之間存在可能的交流，博弈者之間偏好是完全聚合的，合作會增加收益，并存在幾種納什均衡狀態。保證型博弈的決策結構可用以圖5來表述。

城市B城市AB1(合作)B2(不合作)A1(合作)(5,5)??(1,3)A2(不合作)(3,1)(2,2)??

圖5保證型博弈

圖5是典型的保證型博弈格局圖。假設A和B兩個毗鄰城市都面臨著比較嚴峻的跨界環境污染問題，每個城市都有實施合作或不合作兩種決策選擇。在這種博弈中，雙方都不存在自己的主導決策選擇(合作或不合作)，博弈中各自的決策隨對方的決策而定。假設預期收益的最大值是5，最小值是1。A和B城市如果分別單獨地去治理，則獲得的收益各為2；兩個城市如果合作治理，則各自的收益可達到最大值5；如果一個城市實施環境治理，而另一個城市不實施，則實施的城市獲得收益為3，不實施的城市收益為最小值1。可見，保證型博弈存在兩種納什均衡：一是合作治理即均衡A1B1(5，5)；二是各自單獨治理即均衡A2B2(2，2)。博弈中只要地方政府A選擇第一種決策A1(合作)，地方政府B也就選擇同樣的決策B1(合作)，反之亦然。那么博弈中平衡的結果就會是A1B1，地方政府A與B都能實現各自最大的收益5，這是理想的帕累托最優均衡。如果地方政府A與B同時選擇自己的第二種決策A2B2時，表面上看，地方政府A在選擇第二種決策A2(不合作)時，其收益是3，而地方政府B的收益為1，同樣道理，地方政府B選擇第二種決策B2(不合作)時，其收益是3，而地方政府A的收益為1。而事實上由于各方在決策上存在相互依賴性，因此，當地方政府A與B同時選擇第二種決策時，它們的收益結果正好會成為另一個納什均衡解，這種納什均衡結果對兩者來說都是次優或者是最差的[4]37。

從圖5可以看出，如果一方選擇合作的話，每個博弈者將更愿意合作，如果都選擇合作的話將有一個清晰的帕累托最優結果，這是一種納什均衡。如果一方選擇不合作，每個博弈者將選擇不合作策略，這種結果與囚徒困境博弈相同。在這種博弈中，博弈雙方采用第一種決策(合作)無疑就是一種最優的決策選擇，因為欺騙與背叛的收益總量是要小于合作的收益。所有參與者都希望達到一種相互合作的納什均衡狀態——如果城市A知道城市B會選擇合作策略，那么它將沒有動機去選擇背叛策略，而且選擇合作策略將使收益最大。相反，如果城市A知道城市B將選擇背叛策略，那么它將選擇背叛策略。這樣的收益小于都選擇合作策略，但卻大于自己選擇合作策略而另一方選擇背叛策略的情況[4]36。保證型合作博弈的核心特征是會出現帕累托最優的博弈結果。在保證型博弈中，收益結構被改變，因此背叛不再是優勢策略。盡管相互背叛在保證型博弈中也能構成一個納什均衡解，但并非最優的決策選擇。面對保證型合作博弈中兩個納什均衡，最終的策略選擇是由兩個支付結構的收益大小來判斷，合作的收益比不合作要大得多。在這種情況下，選擇合作的納什均衡比不合作的納什均衡具有帕累托優勢。另外，在保證型合作中，博弈方處于基本平等和相互依賴的地位，是一種對稱的靜態博弈。在保證型博弈中，集體利益與個體利益是相容性的，個體理性與集體理性并不突出，個體利益與公共利益間并不存在嚴重的背離狀況[19]。在城市群府際環境治理中，由于區域生態環境的整體性，環境問題的跨界性和關聯性，環境治理的復雜性和緊迫性，環境合作治理將是理性選擇，隨著生態文明建設和生態城市群建設的推進，城市群環境治理中的政府合作也存在保證型博弈的態勢。通過地方政府間資源整合和利益共享促成城市群共同利益的增長，從而達到帕累托最優。在帕累托最優均衡解中，各控制變量的總體邊際收益等于其總體邊際成本，不僅對單個城市的利益來說是最優的，而且對整個城市群來說也是帕累托最優的。當然，保證型博弈確實增加了合作的機會，但城市群政府間的實力、地位存在較大差異，博弈者的偏好仍然是變化的。因而，該模型的應用將受到一定限制。

保證型博弈中存在完全合作的可能性。完全合作是指最大化總體福利的充分合作，在完全合作狀態下，如果存在相應的權威機構，擁有必要的信息和權力來化解不合作的阻力，那么這個解是可以得到的。保證型合作博弈需要一定條件才能維持。(1)充分的信息交流。這種博弈往往容易受到信息不完全的影響，陷入集體行動的困境。面對博弈中有兩種納什均衡，如果博弈者必須同時決策且不能交流，那么不能確定每個博弈者都會選擇合作。如果博弈者能夠交流，那么博弈的合作承諾不是一個問題。因此，信息的溝通與交流是關鍵性的合作條件。在組織關系中，溝通是合作的基本前提，溝通可以拓寬信息渠道，可以更好表達意愿和要求，及時了解其他參與者的行為選擇。良好的信息溝通，能夠促進協調，有效地減少和緩和沖突，增進信任。因此，建立有效的溝通交流機制和信息交流平臺，拓寬政府間的信息溝通渠道；建立城市群環境信息通報制度，定期通報環境政策、環境污染現狀、監測數據和防治的重點工作；建立環境信息公開制度，降低信息交流成本，保證信息能夠及時、準確地在區域之間傳遞并得到利用；建立政府間定期磋商機制；建立區域環境動態信息數據庫，以便及時有效地了解城市群環境變化狀態及趨勢。(2)必要的制度約束。對城市群府際環境治理來說，關鍵問題在于如何使博弈雙方的合作承諾與合作行為處于相互保證的狀態。保證博弈符合于偏好完全聚合的情況，當公共物品的屬性決定著囚徒困境結構的時候，政策建議往往是使之轉變為保證博弈，其方式是通過制裁來降低背叛的收益或者通過激勵來提高合作的收益[4]39。城市群環境治理過程中，治理合作需要必要的制度基礎。環境合作開展中的很多內容都需要相應的規則和制度予以明確的規定及限制，同時，還需要常設性的權威機構對地方政府合作進行監督和管理[20]。埃莉諾·奧斯特羅姆認為，對于如何實現公共池塘資源占用者之間的合作，需要解決“新制度的供給問題”“可信承諾問題”“相互監督問題”[21]。城市政府之間的環境合作，如果沒有嚴格的制度予以監督約束，那么很難保證合作協議和合作行動的執行實施。

五、結語

城市群環境治理是一個多元主體參與，既有競爭也有合作的博弈過程。其中府際環境治理中存在囚徒困境博弈、重復的囚徒困境博弈、討價還價博弈、保證型博弈等典型的博弈態式或模式，這四種態式反映了城市群環境治理中政府關系的基本狀態，反映政府環境合作需要的條件基礎和影響變量。在四種博弈中，囚徒困境博弈是一種典型的非合作博弈，保證型博弈是一種典型的完全合作博弈，重復的囚徒困境博弈和討價還價博弈是有條件的合作博弈。每種博弈具有自己的特征、形成條件和收益結構。在城市群環境治理中，這四種博弈在不同城市群、不同政府間、不同時期都可能出現。我們需要弄清每種博弈的基礎條件和形成邏輯，弄清每種博弈的基本特征和主要局限。針對單次囚徒困境博弈，通過引入選擇性激勵、制度規范硬約束、克服信息不對稱等措施來破解囚徒困境；針對重復囚徒困境博弈，通過導向長遠利益、持續性互動、建立聲譽機制來優化博弈格局；針對討價還價博弈，通過明確外部選擇權、未來貼現率，規范磋商談判，保證合作協議的公平性來達到博弈均衡；針對保證型博弈，通過充分的信息交流、必要的制度約束來維持博弈秩序。