主體間性與囚徒困境

2009-04-29 00:00:00潘一平

文教資料 2009年14期

摘要：通常我們所考慮的“囚徒困境”博弈均為一次性的完全信息的靜態(tài)博弈。著名學者阿克塞爾羅德所舉辦并研究的“重復(fù)囚徒困境”競賽，從一方面揭示了在囚徒困境這個博弈中采取怎么樣的策略可以使博弈雙方從對抗走向合作，但是也潛在的使一次性完全信息靜態(tài)的囚徒困境博弈從規(guī)則上發(fā)生了改變——主體間性在博弈參與人中日益顯得重要起來。參與博弈的理性人是否能夠像人工智能體Agent那樣具備主動交互并改變自己策略的能力？如果可以，也許將在囚徒困境這種模型的博弈研究中做出一點貢獻。

關(guān)鍵詞：囚徒困境規(guī)則主體間性理性

一、關(guān)于理性人和囚徒困境的介紹

囚徒困境這個事例常常在有關(guān)博弈論的討論中出現(xiàn)，它最主要貢獻是突出反映了個體理性與群體理性的沖突，并且在目前學界的討論下，這一沖突似乎尚未能得到完美的解決。造成這一沖突的原因，并不是由于該博弈的前提——理性人假設(shè)出現(xiàn)了問題，而是基于囚徒困境中或者博弈論中理性人的假定在不同條件（規(guī)則）下的作用。正是由于沒有分清這一前提在不同背景知識下的運用，一方面保證了囚徒困境這個博弈能夠用邏輯的或者說是理性的方式解決（找到這個博弈的納什均衡點），另一方面也導(dǎo)致了事件的解決結(jié)果并不是那么的令人滿意（因為我們面臨的是不同的條件與知識背景）。“‘博弈參與人是理性的’是博弈論的公設(shè)，然而理性人的假定存在許多博弈困境。囚徒困境與公地悲劇反映的是個體理性與集體理性之間的沖突”（潘天群《博弈論中理性人的假設(shè)困境》，《經(jīng)濟學家》2003.4，）。

起初，博弈論專家假定博弈中的參與人是理性的——具有使自己效用最大化的推理能力，然而，奧曼等人發(fā)現(xiàn)，這樣的假定是不夠的，我們必須假定，“一個博弈中的每個參與人都是理性的”是該博弈所有參與人組成的“群體”所知道的，即每個人都是理性的是群體中的“公共知識”（或翻譯成共同知識）。（潘天群《群體推理的邏輯與群體理性》，《東南大學學報（哲學社會科學版）》，2007年7月第9卷第4期）。

有關(guān)囚徒困境我們可以這樣表述。

假設(shè)有A、B二人，因為偷盜被警察抓捕歸案。為了防止兩人串供，因此將兩人分開審問。這時A、B二人均面對了兩種選擇，一是招認，二是不招認。例如，對于A來說，A面臨著招認與不招認的選擇。我們可以假設(shè)，如果A招認，B可以選擇招認，也可以選擇不招認。當A招認B不招認時，A當場釋放B判刑8年；當A招認B也招認時，各判刑5年。如果A不招認，B也可以選擇招認或者不招認。當A不招認B招認時，B當場釋放，A判刑8年；當A不招認B也不招認時，兩人各判刑1年。

同理，當審問B的時候，只需要參考上面的過程就可以很容易地得到答案。

我們可以簡單地列一個表，用來表示上述的過程：

以A為例，對該博弈進行分析。

由于參與博弈的雙方均為理性人，且為公共知識，那么A會有如下的思考：

當B招認時，A可以選擇招認或者不招認。

當B招認而A不招認的時候，B被當場釋放，A被判刑8年；當B招認A也招認時，B與A各判刑5年。判刑5年遠遠好于判刑8年，因此，當B招認時，基于理性人的假設(shè)要使自己的收益最大并且損失最小，A會毫不猶豫地選擇招認。

當B不招認時，A也可以選擇招認或者不招認。

當B不招認并且A也不招認時，兩人各判刑1年。當B不招認而A招認時，B被判刑8年，A被當場釋放。A基于理性人假設(shè)作出了以上的推理，顯而易見的是，當場釋放要好于判刑1年。為了使自己收益最大并且損失最小，A會毫不猶豫地選擇招認。

因此，不管B是否招認，A都會毫不猶豫地選擇招認。

同理，作為一個理性人，B也會按照A的思維模式那樣作出選擇，答案是——毫不猶豫地招認。

兩人均招認就是囚徒困境這個博弈的納什均衡點。很明顯也很抱歉，通過理性手段進行推理，想使自己的收益最大而損失最小，但是結(jié)果卻不是那么的令人滿意。在我們看來，兩者均不招認各判刑1年的損失要遠遠小于兩人各判刑5年，或者單就A或B一個人來說，當場釋放的收益要明顯地大于個人的判刑5年，因此，在某些人看來，理性的參與人在這個博弈中并不能使自己的收益最大損失最小，相反的，個人理性在這個囚徒困境的博弈中成為了獲得最大利益的障礙，在這樣的情況下，就出現(xiàn)了“兩難”決策。

二、“囚徒困境”博弈的潛在規(guī)則，以及阿克塞爾羅德的實驗及其規(guī)則變動

應(yīng)該得出的一個認識就是，上文所提到的那個“囚徒困境”博弈屬于一次性的完全信息靜態(tài)博弈，它本身所具備的規(guī)則與阿克塞爾羅德所做的實驗有著顯著的區(qū)別——一次性的囚徒困境博弈與重復(fù)性的囚徒困境博弈的規(guī)則區(qū)別。為了便于分辨，我們依次將上文的兩個囚徒困境博弈分別簡稱為Game1與Game2。

G1應(yīng)該具備以下的這些規(guī)則。

（1）對策者（謀求合作的雙方）沒有什么手段可以用來實施威脅或作出許諾。由于對策者不會許諾他們自己采取某種特定的策略，因此每個人都得考慮對方可能采取的所有策略。此外，每一個對策者都可以使用所有可能的策略。（2）沒有什么辦法能夠確定對方在某個特定的對局中將如何選擇，這就消除了使用元對策”分析的可能。“元對策”允許諸如“選擇與對方相同的策略”的選擇，同時也消除了通過觀察對方與第三者局而形成某種信譽的可能。因此對策者唯一可利用的信息（積累的知識）是他們相互作用的歷史。（3）不能消滅對方，也不能放棄對局，因此對策者在每次對局時只能選擇合作或背叛。（4）不能改變對方的收益值。這個收益值已經(jīng)包括了每個對策者關(guān)于對方利益的考慮之中。（周海林《“合作”的條件與機理——從囚徒困境談?wù)効沙掷m(xù)發(fā)展的制度基礎(chǔ)》，《軟科學》2001年第15卷第3期）

我們可以試著列出一個表格，以更清晰地對幾個步驟中的規(guī)則的區(qū)別作出清晰的劃分。

博弈前（step1）→博弈中（step2）→博弈后（step3）

［?搖?搖?搖?搖?搖?搖一次博弈的完成?搖?搖?搖?搖］

對于G1的第一條規(guī)則，G2由于是重復(fù)多次的囚徒，將會出現(xiàn)一些不同的情況。阿克塞爾羅德所提出的例如寬容性和可激怒性就可以在step3之后體現(xiàn)出來。可激怒性可以簡單地看成是規(guī)則1中所說的實施威脅。當參與博弈的雙方A和B進行一次博弈時，A作出不合作的決定時（第一次博弈），B在step3得知了這個消息之后，也就是下一次博弈時（第二次博弈），可以選擇不合作，對A進行威脅，表示自己是可激怒的。這里的威脅，是分屬于兩次博弈的，而這在一次性博弈中明顯無法做到。寬容性也同樣如此，當A表示悔過（在第三次博弈選擇合作時），B可以立即在step3中得知，并在第四次博弈時原諒A，作出合作的選擇。當然，如果僅從理性人的角度出發(fā)，在有限次的囚徒困境博弈中，次次不合作才應(yīng)該是這個博弈的納什均衡，但是在阿克塞爾羅德的試驗中，次次不合作這個策略的得分明顯低于某些策略，并且選擇這個策略的人并不是絕大多數(shù)，理論和現(xiàn)實有著明顯的差異。

對于G1的第二條規(guī)則，同樣也是如此。一次性的囚徒困境G1作為某個特定的對局（特地被警察隔離開而無法串供），博弈雙方都無法確定對方將采取何種策略，從而致使使用“元策略”的可能性變?yōu)?。G2作為多次重復(fù)的囚徒困境，由于能夠清楚地知道對方在每一輪的選擇（指已經(jīng)選擇過的步驟），因此可以對接下的自我的選擇和他人的選擇做出推斷。甚至像“一報還一報”策略直接選擇與對方上一步策略相同的策略。還有的參與者對博弈對手的合作與不合作的次數(shù)進行概率計算，并由此作出自己的選擇，如道寧策略，這在G1中是無法出現(xiàn)的。阿克塞爾羅德甚至做了兩次重復(fù)多次的囚徒困境實驗，這樣對于G2的參與者來說，他們的選擇不僅僅可以基于與自己的博弈對手相互作用的歷史，更可以基于博弈對手與參與這次試驗的每一個人的相互作用的歷史。道德博弈中所說的個人信譽問題在這里凸顯出來。

總的看來，在step1中，作為囚徒困境的博弈參與者A可以了解到B以往的策略選擇以及信譽問題，并可在一定程度上影響到自身策略的選擇。例如貪婪的策略在面對比較仁慈的策略時，總是比較占優(yōu)勢。并且在step2中，A與B可以看到對方是如何選擇，并進一步影響到step3之后，選擇寬容還是懲罰——合作還是不合作。

從step1到step3就顯示出主體交互性在博弈中的重要作用，因為G1中，G1（step1）到G1（step3），A與B做為博弈參與者并沒有真正的形成交互（雙方被隔離了），即主體間性。而在阿克塞爾羅德的試驗中G2（step1）到G2（step3）中，博弈的雙方A和B不但互有信息交流，而且在一定程度上影響到自我決策的選擇。

三、主體間性對囚徒困境的影響

主體間性從定義上來說是主體與主體之間的統(tǒng)一性，但在不同的領(lǐng)域中，主體間性的意義是有差異的。

在主體間性概念的形成歷史過程中，事實上涉及了三個領(lǐng)域，從而也形成了三種涵義不同的主體間性概念，這就是：社會學的主體間性、認識論的主體間性和本體論（存在論、解釋學）的主體間性。這里就不一一詳細敘述。

博弈論是交互的決策論。2005年諾貝爾經(jīng)濟學獎的獲得者奧曼曾經(jīng)給博弈論下過一個非常描述性的定義：博弈論是“交互的決策論”，其定義十分簡潔凝練。展開來說，博弈論是研究發(fā)生直接相互作用的行為者采取的決策以及這種決策的均衡問題。換言之，一個經(jīng)濟主體（行為者）在決策時必須考慮到對方的反應(yīng)，所以用“交互的決策論”來描述博弈論可謂言簡意賅。（張踐明《“囚徒困境”·理性悖論·交互認知論》，《湘潭大學學報（哲學社會科學版）》，2007年11月第34卷第6期）

而交互認知是主體間性的具體化例證。在重復(fù)囚徒困境這個博弈中，就充分地體現(xiàn)出交互認知的重要性。

如step1的中，博弈的雙方可以對彼此過去的決策選擇進行詳盡的考察，基于生存博弈的道德博弈也可因此而建立起來。雙方的私有信息（在這里可以簡單地看做自己和對方的博弈歷史選擇）是否可以交換，交換的方式與程度，均可在一定程度上影響到后來的決策。阿克塞爾羅德進行第二次重復(fù)囚徒困境博弈的一部分原因也在此——建立在雙方知己知彼的基礎(chǔ)上的合作應(yīng)該如何產(chǎn)生，知己知彼是源于上一輪的博弈參與者參與博弈并決策的歷史。這樣就把雙方的私有信息公開化，變成了公共知識。

在step2中，G1博弈雙方從完全不知道對方做出什么決策發(fā)展到G2可以看到對方的決策，這又是一次交互的行為，由于是多次重復(fù)博弈，step2的交互致使博弈雙方A和B不僅僅看重眼前的利益，更會看中將來的利益，從而使合作有可能發(fā)生，當然其中也包括從不合作決策與報復(fù)性決策等。

在G2（step3）中，A或者B完全可以借由這個環(huán)節(jié)來告訴對方自己對于對方的選擇是滿意還是不滿意，并在以后的多次博弈中體會到對方的感受，對方同樣可以表達出來并由此形成第三次交互。

還是拿一報還一報策略進行說明。A使用策略未知，而B使用的是一報還一報策略。設(shè)在第200次博弈中（我們稱為N1、N2、N3……），A選擇不合作，B選擇合作，G2（N200（step3））中，B發(fā)現(xiàn)A不合作，并想表達自身的不滿，因此立即在G2（N201（step2））中選擇不合作以此來警告A。A在G2（N201（step3））中感受到了B的不滿，如果雙方進行了重復(fù)多次的博弈，A通過G2（N202（step1））回顧雙方合作的歷史發(fā)現(xiàn)，B對于犯錯的人具有寬容性，于是立即在G2（N202（step2））中選擇合作表示自己悔過，B在接下來的步驟中感受到A的悔意，在下一次的博弈中選擇合作表示自己知道并安慰A……從而形成了重復(fù)性的三次交互、信息交換。當然，以上的只是基于交互理論的假想，但是在阿克塞爾羅德的實驗中，我們不應(yīng)該僅僅把雙方固有的策略選擇看作是電腦程序的自動化，而應(yīng)該看作是在理性人基礎(chǔ)上的信息交互，從而修正自己的策略。

四、結(jié)語

可否像人工智能體Agert那樣在博弈中具備自主交互的學習參與博弈的理性能力，并由此改變自己的策略？

有關(guān)新型智能體Agent的設(shè)定，有這么幾條可以作為囚徒困境這個博弈的參考：

①能夠面向陌生狀態(tài)與不確定性，積極主動地進行認知與行動。②每個智能體都有自己不同的知識背景、心智品質(zhì)、能力與個性，甚至具備諸如友善性、真誠性等人類特征。它的這些能力與特征都不是被設(shè)定為一成不變的，它可以隨著情況的變化而不斷地進行能動的自我更新。它不是在一個一步到位的、靜態(tài)的模式中模擬智能，而是在一系列過程性的、動態(tài)連續(xù)的進程中發(fā)展智能。

如果在多次重復(fù)的囚徒困境的理性人設(shè)定中附加如上的設(shè)定，是否可以使G2更加地清楚明白，更容易地走向合作？

當然，以上的附加只是基于多次重復(fù)囚徒困境的假設(shè)。面對G1的一次性的完全信息靜態(tài)博弈，我們只能持以悲觀的態(tài)度。

賓默說，理性參與人的獨立選擇行為又會產(chǎn)生非帕累托效率的結(jié)果，這并不存在任何自相矛盾的地方。囚徒困境的規(guī)則不利于實現(xiàn)理性合作，就像把一個人雙手反綁之后要他表演手技一樣。因此，不要希望在囚徒困境規(guī)則約束下理性參與人會成功地達成合作。

參考文獻：

［1］羅伯特·阿克塞爾羅德.合作的進化.合作的復(fù)雜性——基于參與者競爭與合作的模型.

［2］賓默.博弈論與社會契約.

［3］格若赫姆·羅鉑.博弈論導(dǎo)引及其應(yīng)用.

［4］張踐明.“囚徒困境”·理性悖論·交互認識論.湘潭大學學報（哲學社會科學版），2007.11.

［5］項后軍，周昌樂.人工智能的前沿——智能體（Agent）理論及其哲理.自然辯證法研究，2001.10.

［6］周駿宇.艾克斯羅德重復(fù)博弈實驗及其應(yīng)用.自然辯證法研究，2005.3.

文教資料2009年14期

文教資料的其它文章: 完善我國高校貧困生認定機制的思考; 海門市初高中音樂教師現(xiàn)狀調(diào)查研究; 關(guān)于高校實驗室建設(shè)與管理的一些思考; 案例教學法在《思想道德修養(yǎng)與法律基礎(chǔ)》課教學中的應(yīng)用; 以積極組織行為學為視角探析大學生的學習行為; 主觀真理的價值之維