倫理學視角下的囚徒困境
——博弈論在倫理學應用一例

2017-05-03 01:57:26鄒崇理

重慶理工大學學報(社會科學) 2017年4期

關鍵詞：困境策略

趙靚，鄒崇理

(中國社會科學院 a.研究生院, 北京 102488; b.哲學所, 北京 100732)

倫理學視角下的囚徒困境
——博弈論在倫理學應用一例

趙靚a，鄒崇理b

(中國社會科學院 a.研究生院, 北京 102488; b.哲學所, 北京 100732)

基于倫理學視角分析囚徒困境的博弈論模型及其拓展形式，利用博弈論的語言例示“集體利益”和“個人利益”的關系，否證“每個人追求個人利益最大化就可以實現集體利益最大化”這一論斷。并將其推廣到未知次數的重復囚徒困境的動態博弈問題，得出“首善”和“寬容”是成功策略的兩個重要因素的結論。

納什均衡；囚徒困境；合伙人博弈；利他；倫理學；博弈論

一、引言：倫理學與博弈論

借助效用理論的公理、利用博弈論的方法給倫理學中的問題建模，這種倫理學研究路徑在20世紀50年代開始活躍起來[1]。本文涉及的領域是博弈論和倫理學的交叉領域，具體來講就是使用博弈論的方法研究倫理學中的問題，也就是說，倫理學中的倫理問題是研究對象，而博弈論是研究手段和方法。

我們首先來看一下傳統倫理學中的一些問題。倫理學也稱為“道德哲學”，倫理學要研究的問題也就是所謂的“道德問題”。本文所講的“道德”是如下定義的：

一個社會群體中所認可的所有行為準則就是這個群體的道德。

比如說，“在一個群體內任何個體都不應剝奪另一個個體的生命”是一條“道德準則”，一個群體內所有的道德準則就是這個群體的道德。如前文給出的這個道德準則就是對個體行為的一個“道德判斷”，確切地講，是一個可以判斷一類行為是否“應該”的模態判斷。但是，這條看似很理想的道德判斷標準有個很嚴重的問題，就是應該發生的行為不一定真實發生，而不應該發生的行為也可能真實發生。一個行為發生之后，行為準則只能判斷這個行為的“對錯”，或者說這個行為符合或不符合道德。而我們人類社會顯然并不完全采用上面那條道德判斷標準，比如說，正當防衛中剝奪了對方的生命這種行為通常被認為是符合道德的，甚至是符合法律的。“死刑”的執行過程實際上是在剝奪一個個體的生命，而這種行為通常被認為是符合道德和法律的。

從上面簡單的定義和事例分析看，倫理學已經很有博弈論的味道了。倫理學研究的是某個群體中的個體之間的互動行為，個體就對應于博弈論中的“參與人”，而個體可能發生的行為就對應于博弈論所說的“策略”。但是，博弈論關心的是在參與人確定、策略空間確定和支付函數確定的條件下追求自身利益最大化的參與者們將會采取哪種策略，或者說博弈論是對行為的預測，而倫理學是對行為“應該”與否的判斷。博弈論在參與人都追求自身利益最大化這個假設下預測到的將會發生的行為往往不是道德判斷“應該”的行為，所以道德判斷標準背后的根本標準肯定不是追求個體利益最大化，否則道德判斷將和博弈預測完全一致。但是，人們更容易忽視的是：在個體追求利益最大化這個假設下，參與人會做出看似“合作”“公平”“正義”，甚至“犧牲”這些在道德上認為是“應該”的行為。

比如說兩個追求自己利益最大化的小偷，準備分贓偷來的1萬元，如果分錢的規則已經確定，一個人把這1萬元鈔票分成兩疊，而另一個人可以從兩疊中選擇一疊。在這個規則下，最終結果一定是這1萬元被等分成了5 000元一疊的兩疊鈔票，每人都得到一樣多的贓款，即5 000元，這個結果絕對不會出現意外。如果分鈔票的人沒有平均分成兩疊，一疊錢多，另一疊錢少，而對方也是追求利益最大化的個體，對方一定會選擇錢多的那一份，那么自己只能選擇錢少的那一份。由于分錢的那個人也是追求利益最大化的個體，而且他知道對方也是追求利益最大化的個體，并且兩個人“都不傻”，所以分錢的人只能把錢平均分成兩份。在這個最簡單的博弈中，出現了“盜亦有道”中所謂的“公平”。

實際上，在個體追求利益最大化這個假設下所預測的參與人的行為并不總是和“道德”標準所提倡的“應該”行為相矛盾。但是，很多道德標準并不是從個體利益最大化來判斷的，而是從群體利益最大化來判斷的，所以這兩個標準往往會發生沖突。直白地講，每個個體的利益都想實現最大化，但是把這些最大化的個體利益求和卻往往不是整體利益最大化；并且，個體追求自身利益最大化更不可能實現個體之間的“公平”。但是，通過剛才的例子已經看到：只要對博弈規則進行設定，就可以在維持個體追求自身利益最大化這個前提下實現個體之間的“公平”這個道德所提倡的“應該”行為[2]。

二、兩人博弈中合作關系的形成

(一)囚徒困境及其拓展形式

下面我們通過對比囚徒困境、性別博弈以及合伙人博弈來說明：如何在維持個體追求自身利益最大化這個前提下實現或者盡可能實現“公平”“合作”和群體利益最大化。

下面分析博弈論中典型的囚徒困境(圖1)[4]：

參與人2αβ參與人1αβ-1,-1-9,00,-9-6,-6

圖1 囚徒困境的博弈論模型

其中，α代表“沉默”策略，β代表“坦白”策略。這個博弈中只有一個唯一的納什均衡，也即(坦白，坦白)，而這個博弈結果對于兩個人的總收益而言是最低的，即-12，而一方坦白一方沉默的雙方總收益是-9。事實上，雙方都選擇“沉默”的總收益是-2，對于雙方總收益而言，這是最好的結果，但是這不是一個納什均衡，所以不能實現。需要注意的是，(沉默，沉默)這個結果不僅僅對于雙方總收益來講是最好的策略，而且對于各個參與人而言，所得的收益也比(坦白，坦白)要好，因為都坦白每個人要被判6年徒刑，而都沉默的話，由于證據不充分，每個人只能判一年。兩個囚犯能否形成一個(沉默，沉默)的協議來避免囚徒困境中最糟糕的情況出現呢？要注意的是，這個協議并不是為了共同受益最大，而是為了各自能夠獲得比納什均衡更大的利益。事實上，按照博弈的規則，這個協議不能達成。換言之，(沉默，沉默)并不是一個納什均衡，因為當對方的策略是“沉默”的時候，對自己而言“沉默”就不是最佳策略，因為雙方沉默，每個人仍然會被判刑一年，但是對方“沉默”，而自己“坦白”就是更好的策略，因為這樣自己就無罪釋放了。也就是說，策略組合(沉默，沉默)中雙方都會后悔自己的策略，因為如果知道了對方的策略是沉默，按照定義，追求利益最大化的參與人都會選擇坦白策略獲得最大收益。當然一方“沉默”，另一方“坦白”的那兩個策略組合更不是納什均衡，因為被坦白的沉默一方肯定更后悔。只有(坦白，坦白)這個策略組合才是納什均衡，因為即使雙方后來知道了對方的策略，也都不會后悔，因為面對對方“坦白”的策略，自己也只有選擇“坦白”這個策略才是最佳對策。

如果我們把這個博弈中的支付矩陣改變一下，(沉默，沉默)的結果都是證據不足，無罪釋放(圖2)。

參與人2αβ參與人1αβ0,0-9,00,-9-6,-6

圖2 囚徒困境的博弈論模型的拓展

此時，“沉默”對每個參與人而言并不是嚴格劣策略，(沉默，沉默)和(坦白，坦白)都是納什均衡。此時的博弈已經不是“囚徒困境”，而是更接近兩個納什均衡的“性別戰爭”：參與人知道對方的策略之后，將會直接影響到自己的策略，具體來說，如果對方采用的是“坦白”策略，那么參與人自己就只能也選擇“坦白”策略；而如果對方采用的是“沉默”策略，那么參與人無論選擇“沉默”還是“坦白”，自己的收益都是一樣的，都是0。換言之，如果我知道對方保持沉默，沒有坦白，那么我坦白后也不會給我帶來任何好處，因為在對方選擇“沉默”之后，此時參與人自己的收益都是一樣的，所以參與人知道對方選擇“沉默”之后沒有動力去“坦白”，這是和上面囚徒困境完全不同的結論。也就是說，此時彼此沉默的協議可以達成，而且協議達成之后雙方都沒有動力去破壞這個協議。由于(0,0)和(-6,-6)相比不但是雙方最好的收益，也是各自最好的收益。唯一可以使納什均衡從(沉默，沉默)變為(坦白，坦白)的方法就是要設法讓參與人知道對方選擇了“坦白”策略。

在性別博弈[3]中也有兩個納什均衡，但是這兩個納什均衡是不對稱的(圖3)。

參與人2αβ參與人1αβ2,10,00,01,2

圖3 性別博弈模型

其中，α代表“看球賽”策略，β代表“看電影”策略。總之，兩個人在一起約會是重點，看球賽還是看電影是次要的。在這個博弈中，(看球賽，看球賽)和(看電影，看電影)都是納什均衡，但是和上面的那個博弈比較，這里面有兩點不同：一是兩個均衡的總收益都是3，并不存在一個均衡的總收益比另一個均衡更好的情況；二是兩個納什均衡的參與人的收益不同，也就是說不管哪個均衡，都必須有人讓步吃虧。但是，上面無論是(沉默，沉默)還是(坦白，坦白)，雙方在任意納什均衡中的收益都是一樣的，而且(沉默，沉默)的總收益高于(坦白，坦白)，所以相比較而言，性別博弈中的協議更不容易達成。

(二)合伙人博弈

下面分析“合伙人博弈”的博弈模型[5]。這個模型實際上是“囚徒困境”的博弈模型的一種推廣。

參與人：1和2

策略空間：S=[0,4]

支付函數：

在這個博弈中，兩個參與人合伙開了一家公司，公司收入按照五五分成。每個人的付出被設定為一個連續閉區間[0,4]。這里的“付出”是抽象的概念，包括時間、體力、腦力等個人工作付出，不包括資本的付出。通過支付函數可以反向推出整個公司的收入是4(s1+s2+bs1s2)。其中，b是一個大于0小于1的常數，bs1s2代表兩個人共同協作產生的額外價值，如果兩個人協作之后創造的價值和兩個人各自創造的價值相等，那么兩個人就沒有合作的必要。下面求出兩個參與人彼此相對的BR(Best Response)，在u1(s1,s2)中對s1求導得到導函數:

當這個導函數等于0時，解得s1相對s2的最佳對策BR(s2)：

同理可得s2相對s1的最佳對策BR(s1)：

圖4 參與人彼此相對的BR的圖像

兩條線的交點就代表納什均衡NE，可以計算出這個納什均衡就是：

(1/(1-b), 1/(1-b))

s1=s2= 2/(1-2b)，

從合伙人博弈中我們看到，為了“集體”或“利益共同體”而勸說參與方付出盡可能大的努力很可能是失敗的，這是典型的“集體利益”和“個人利益”發生沖突的現象。當每個參與人都追求各自利益最大化時，并不能導致集體利益最大化，所以鼓吹人人為己、人人都追求自身價值最大化就能帶來社會價值最大化的論調是站不住腳的。

三、連續囚徒困境博弈中合作關系的形成

(一)囚徒困境的悖論

前面講的是兩人博弈中合作關系是如何形成的，下面要分析的是多人博弈中，互助關系是如何形成的。多人之間的互助關系和兩人博弈的合作關系最大的不同，是多人之間的互助并不一定及時發生在兩個人之間，也就是說在多個博弈參與人構成的群體中，其中某個體向另一個體做出的利他行為往往不能得到對方的及時回報，而有可能是群體中另外的個體向這個利他主義行為人做出回報，最終在形成互助關系的群體中，從整體平均的角度看每個博弈的參與人個體都得到了比自己單獨生存更大的利益。

關于囚徒困境，需要指出的是這個博弈并不是零和博弈。也就是說，博弈中一方的獲益并不需要以另一方的損失為代價。實際生活中，囚徒困境是普遍存在的，甚至可以說是隨處可見的。中國動畫片里面最具代表性的 “一個和尚挑水喝，兩個和尚抬水喝，三個和尚沒水喝”就很能說明問題。因為水挑回來之后不能私自存放，只能放到公共的儲水池中，所以讓對方挑兩桶水，自己白喝是自己收益最大、對方收益最小。兩個人每人挑兩桶水是共同利益最大，但是有一個人挑兩桶水，另一個人的最佳策略就是歇著不挑水。而兩個人一起挑水反而只能用一根扁擔挑一桶水。這里，利益來源是大自然的水，并不是一方的利益來自另一方的損失，所以這不是零和博弈。如果沒有來第二個和尚，那么一個和尚一趟可以挑兩桶水，而來了另一個和尚之后反而兩個和尚一趟只能一起挑一桶水了。

反復被研究的囚徒困境之所以被稱為“困境”，是因為如果考慮共同收益，那么(沉默，沉默)是共同收益最大的情況，即收益為(-1)+(-1)=-2，而(坦白，坦白)這個博弈解確是使共同收益最小的情況，即收益為(-6)+(-6)=-12(見圖1)。這使得囚徒困境看上去是一個悖論。博弈的納什均衡解只保證了每個參與人看到解之后不會后悔自己的策略，也即在這個解中，在其他人的策略不變的情況下，自己也沒有更好的策略。但是，每個人追求自己利益最大化的結果卻使得博弈雙方共同利益最小化。

實際上，囚徒困境中共謀的兩個罪犯如果能夠合作，雙方都保持沉默的話，那么不但可以實現共同收益最大，并且單方面收益也好過雙方都坦白。要建立合作關系，打破囚徒困境這個悖論的一種方式是連續無限次的囚徒困境。如果兩個參與人重復同一個囚徒困境博弈有限次，那么仍然每次都會陷入(坦白，坦白)的結果。比如，假設前面的囚徒困境重復兩次，那么第二次囚徒困境就是最后一次囚徒困境，而最后一次囚徒困境必然的結果是雙方坦白。每個參與人都知道第二次也即最后一次的結果，那么第一次囚徒困境實際上也就成了最后一次，雙方也只能坦白。也就是說重復兩次的囚徒困境，每次都是同樣的共同收益最低、個人收益次低的雙方坦白的結果。

關于非零和博弈的囚徒困境，可以換成另一種故事背景。假設兩個博弈的參與人在賭場進行賭博，而游戲規則非常簡單，每個參與人手上有兩張卡片，上面分別寫著“合作”與“不合作”，每次兩個參與人背扣其中一張卡片，賭場坐莊的莊家同時翻開兩個人給出的卡片。如果兩個參與人給出的都是“合作”卡片，那么莊家支付每個人300元，如果一方是“合作”，另一方是“不合作”，那么打出“合作”卡片的參與人支付給莊家100元，而莊家支付給打出“不合作”卡片的參與人500元。如果雙方都是打出“不合作”卡片，那么每個參與人都支付給莊家10元錢(圖5)。

參與人2合作不合作參與人1合作不合作(300,300)(-100,500)(500,-100)(-10,-10)

圖5 賭博博弈模型

在這個博弈中看上去賭場的莊家要賠死了，而兩個參與人要賺翻了。但是仔細想一下就會發現，如果兩個參與人只進行這個游戲一次就再也不見面了，那么沒有人會冒損失100元的風險打出“合作”的卡片；即使對方確實打出的是合作的卡片，那么己方打出“不合作”的卡片會賺500元，而不是也打出“合作”卡片只賺300元；所以最終博弈雙方都會打出“不合作”的卡片，每個人給莊家10元錢。

這個博弈實際上只是換了數字的囚徒困境，單次博弈或者有限次的博弈結果都是雙方不合作這個結果。明明可以雙方合作每人都賺賭場莊家300元，但結果一定是每個人每次博弈都賠給賭場莊家10元。那么，雙方在博弈之間彼此交流、互相保證的話能否建立起合作關系呢？答案是否定的，因為即使交流中彼此相互保證，這個保證也是不可置信的。因為博弈模型中參與人之間只進行有限次的博弈，所以食言失信也不會影響追求利益最大化的參與人選擇“不合作”的策略。

那么，在囚徒困境中必須要放棄追求利益最大化這個前提假設才能建立合作關系嗎？未必。實際上如果兩個參與人之間要進行無限次囚徒困境博弈，或者說進行“未知次數”的囚徒困境博弈時，即使保留追求利益最大化這個前提，也仍然能夠建立起“長期”的彼此合作關系。關于重復無限次或未知次數的囚徒困境，Axelrod 和 Hamilton在1981年的論文TheEvolutionofCooperation[6]中第一次給出了比較詳盡的論述和計算機模擬結果。下面對這篇論文中的一些結果進行討論。

(二)未知次數連續囚徒困境博弈

下面的討論將涉及到“善”“惡”“寬容” “報復”“信任”等倫理和認知中常見的概念，但是要強調的是，這些概念在不限次重復的囚徒困境博弈中可以給出不依賴心理認知的客觀定義。比如上面提到的和賭場莊家一起進行的游戲，當有一方打出“合作”的卡片，就可以認為在此輪博弈中“信任”了對方，而不去考慮行為人的真實內心活動。

并且，這里假設在連續的重復博弈中參與人都可以觀察到以前博弈的結果，也就是說，對方前幾次是否“合作”，另一方都看在眼里記在心里。實際上參與人只有兩個策略，即“合作”與“不合作”。如果不限定次數的話，那么博弈雙方的參與人將有無限多更復雜的策略：比如最簡單的“永遠不合作”和“永遠合作”這兩個策略；比如說第一次“合作”，然后觀察對方的策略，對方“合作”那么下一次我也“合作”，對方”不合作”那么下一次我也“不合作”，這個策略可以叫“模仿策略”(Tic for Tat)。“模仿策略”是無限次囚徒困境博弈要重點討論的策略。實際上對應于博弈的解，連續博弈也叫動態博弈，而這里給出的“模仿策略”可以近似地看成這個動態博弈的“解”，但是對于動態博弈而言并不是要去尋找一個靜態的解，而是觀察這個博弈中是否有策略會趨于穩定。當然，還可以有更復雜的策略，比如一開始“合作”，然后按照某種概率“不合作”，或者一開始“不合作”，然后采用“模仿策略”一樣的策略。或者“合作”，或者“不合作”，完全采用隨機策略。

我們看到無限次囚徒困境博弈中的策略也是無限多的，而且可以復雜可以簡單。這里把所有對方沒有使用過“不合作”卡片而自己首先使用“不合作”卡片的一類策略叫做“始惡策略”。相應地，當對方沒有使用“不合作”卡片而自己也不首先使用“不合作”卡片的一類策略叫做“始善策略”。這樣無限多的策略就分成了“始善策略”和“始惡策略”兩大類。

在Axelrod第一次的計算機模擬實驗中，包含隨機策略、模仿策略等共15個不同策略。這些策略兩兩之間(包括同一個策略自己和自己)進行不限定次數的重復囚徒困境博弈。其中設定的數值見圖6的博弈矩陣。

參與人2合作不合作參與人1合作不合作(3,3)(0,5)(5,0)(1,1)

圖6 博弈矩陣

任何兩個策略之間連續進行上述博弈200輪，并按照圖6的博弈矩陣累積收益，從理論上講，博弈中兩個參與人之一有可能得到最高積分1 000，也有可能得到最低積分0，但是這需要一方永遠合作，一方永遠不合作，顯然這15個策略中沒有這種策略。而如果模仿策略自己和自己博弈，第一輪博弈雙方都是合作各取3分，隨后一直按照上一輪博弈對方的策略來進行，也就是說隨后也只能都是合作，從而200輪博弈之后分別得到600積分。值得注意的是，這15個不同策略兩兩博弈200輪的積分都沒有超過模仿策略自己跟自己博弈的600分。實際上，可以把這個積分看成基準來衡量策略的優劣。

下面考慮一個“始惡的模仿策略”，也就是說這個策略除了第一輪采用“不合作”，之后和模仿策略完全一樣，只是完全按照上一輪對方的策略進行，那么一個始善的模仿策略和一個始惡的模仿策略進行博弈情況就有意思了。按照(始善模仿策略，始惡模仿策略)的形式，第一輪結果是(合作，不合作)，收益是(5,0)。第二輪結果是(不合作，合作)，收益是(0,5)。如此往復下去，進行200輪之后，雙方各自的積分都是500。也就是說從沒有成功地進行過一次雙方都合作的博弈。而我們前面看到始善的模仿策略，自己和自己博弈的時候是每次都成功地進行雙方合作的博弈。而如果兩個始惡模仿策略自己進行博弈的話，那么情況就更糟，因為此時第一輪結果是(不合作，不合作)，收益是(1,1)，此后完全按照上一輪對方的策略進行將一直都是(不合作，不合作)的結果，那么200輪博弈之后雙方各自的收益都是200。也就是說兩個始惡的模仿策略博弈將會只得到基準600積分的三分之一。當然，始惡的模仿策略還可以進一步修改，因為發起了一次“不合作”這個始惡。但是，如果能夠允許對方“不合作”報復一次后，下一輪仍然進行合作，那么和模仿策略博弈的時候仍然可以回到(合作，合作)的結果上來。雖然前面有兩次一方合作、一方不合作，但是這僅僅把各自的積分拉低了1個點。

實際上，這個實驗中15個不同的策略，每個策略包括自己在內的兩兩配對進行博弈，最終前8名都是“始善”策略，而后7名都是“始惡”策略。而得分最高的就是始善的模仿策略(Tit for Tat)

模仿策略看上去像是“始善”策略外加“以其人之道，還治其人之身”策略。但是，模仿策略中有一個關鍵的要素，就是下一次博弈只跟上一次博弈有關，因而可以說模仿策略的記憶只有一次博弈。雖然睚眥必報，但是只是對上一次對方的不合作進行“報復”，而更早之前對方的策略選擇并不會影響模仿策略下一次的策略選擇。也就是說，模仿策略是有限度的“寬容”和有限度的“報復”。在模仿策略基礎上，還可以給出更寬容的策略，比如說“對方”出現連續兩次“不合作”，然后報復一次“不合作”。這個寬容兩次的模仿策略雖然一開始沒有出現在Axelrod的計算機模擬試驗中，但是增補進去模擬后發現，這個更加寬容的策略甚至超過了模仿策略得到最高的積分。

四、結語

廣義的“囚徒困境”實際上就是博弈的解雖然是一個納什均衡，博弈各方沒有意愿改變自己的策略，但是這個納什均衡并不是“共同利益”最大化的結果，這就是所謂的困境。

本文提倡把倫理學看成理性行為理論的一個分支。實際上，倫理學要解決的問題是群體理性行為和這個群體中的個體理性行為之間的矛盾。但是，我們發現，通過干預博弈中的條件，比方說，合伙人博弈中一方付出比納什均衡更多的努力雖然不是個體理性的決策，但是可以有效提高群體利益，而且帶動對方參與人也投入更多努力。注意，如果參與人投入了超出納什均衡的努力，那么這是非個體理性行為，可能是這個參與人計算失誤，也可能是這個參與人出于“善意”，具體是哪個原因我們可以不管，只從最終收益的結果來評價。相應地，如果一方付出比納什均衡更少的努力，也就是說在對方選擇納什均衡的最佳策略后自己并沒有選擇最佳策略，而是選擇了付出更少努力的策略，那么自己的收益也會小于納什均衡中的收益。這個結果可能是這一方參與人計算失誤，也有可能是這個參與人故意作惡報復對方，甚至自己遭受損失也要報復對方，但是這種心理活動我們也可以不予考慮，僅從收益看是否“利他”還是“利己”。

從Axelrod的計算機模擬試驗中的策略對比看，模仿策略之所以能夠勝出，一個條件是“始善”，這樣可以避免陷入循環的報復中。另一個條件是有限報復，只對上一輪“不合作”的對手報復一次，這樣可以避免利益長期受損。而結果比較出乎意料，給我們的啟示是所有“始善”策略都勝過所有“始惡”策略。這說明在人際交往過程中，從長期來看，“始惡”的代價是非常大的。

實際上，倫理學中的始善、始惡、報復、寬容，以及認知領域的欺騙、信任等概念，可以拋開執行這些概念的個體的心理因素，而將其單純看成是一種行為來進行分析，這些概念可以用收益來定義。

[1] HARSANYI J C.Handbook of game theory with economic applications vol.1[M].North Holland:Elsevier Science Ltd,1992：671.

[2] BINMORE K.Game theory and the social contract vol.2 just playing[M].[S.l.]:Massachusetts Institute of Technology,1998:16-20.

[3] 羅伯特·吉本斯.博弈論基礎[M].高峰,譯.北京：中國社會科學出版社，2011:6-7.

[4] BINMORE K.Game theory and the social contract vol.1 playing fair[M].[S.l.]:Massachusetts Institute of Technology,1998:301.

[5] 讓-雅克·拉豐，大衛·馬赫蒂摩.激勵理論[M].陳志俊，李艷，單萍萍，譯.北京：中國人民大學出版社，2002:145-187.

[6] AXELROD R,HAMILTONW D.The evolution of cooperation[J].Science,New Series,1981,211(4489):1390-1396.

(責任編輯張佑法)

Prisoner’s Dilemma in Ethics Perspective:Application of Game theory in Ethics

ZHAO Lianga, ZOU Chong-lib

(a.Graduate School, Chinese Academy of Social Sciences, Beijing 102488, China;b.Institute of Philosophy, Chinese Academy of Social Sciences, Beijing 100732, China)

The paper analyzes the mode of game theory and expansion form of the Prisoner’s dilemma from the perspective of the ethics; it illustrates the relationship between the “collective interests” and “private interests” by means of the language of the game theory and refutes the claim that every one pursues the maximization of the personal interests and this can maximize the collective interests. By generalizing it into unknown frequent dynamic problems of the repeated prisoner’s dilemma, it concludes that first kindness and tolerance are the two important factors for the successful strategies.

Nash Equilibrium; the Prisoner’s Dilemma; partnership game; altruistic; ethics; game theory

2017-02-22 基金項目：國家社會科學基金重大項目“基于多學科視域的認知研究”(12&ZD119)

趙靚(1982—)，男，河北石家莊人，博士研究生，研究方向：現代邏輯；鄒崇理(1953—)，男，四川成都人，研究員，博士生導師，中國邏輯學會會長，研究方向：自然語言邏輯。

趙靚，鄒崇理.倫理學視角下的囚徒困境——博弈論在倫理學應用一例[J].重慶理工大學學報(社會科學)，2017(4):6-13.

format：ZHAO Liang, ZOU Chong-li.Prisoner’s Dilemma in Ethics Perspective: Application of Game theory in Ethics[J].Journal of Chongqing University of Technology(Social Science)，2017(4):6-13.

10.3969/j.issn.1674-8425(s).2017.04.002

中國邏輯學會會長鄒崇理研究員

B81

1674-8425(2017)04-0006-08

主持人語：

《倫理學視角下的囚徒困境——博弈論在倫理學應用一例》一文采用數學方法給出了囚徒困境的博弈論模型及其拓展形式，從倫理學的視角分析了“集體利益”和“個人利益”的關系，對“每個人追求個人利益最大化就可以實現集體利益最大化”這一論斷給予了否定性的證明，最后得出“首善”和“寬容”是成功策略的兩個重要結論。該結論在倫理學和科學方法論等領域無疑會產生影響。

《超越經典博弈思維形式之量子博弈的思維形式》一文從思維形式的定義出發，闡述經典博弈思維形式的形成機制及其困境，剖析量子博弈思維形式的優勢、有效性，并對博弈思維形式做出修改、完善和發展。論文值得一讀。

《概念隱喻理論視角下的經驗真理觀》一文討論邏輯真理的隱喻因素，涉及語句的解釋功能對于表述功能的輔助與修正。論文選題新穎，涉及“真理”這個邏輯學的核心概念，論文依據的文獻也比較前沿。論文值得關注。