999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

試析博弈困境的兩種解決方案?
——以旅行者困境為例

2015-03-16 08:45:22郭美云黨學哲
西南大學學報(社會科學版) 2015年2期
關鍵詞:困境策略

郭美云,黨學哲

(西南大學邏輯與智能研究中心,重慶市400715)

試析博弈困境的兩種解決方案?
——以旅行者困境為例

郭美云,黨學哲

(西南大學邏輯與智能研究中心,重慶市400715)

在博弈困境中,納什均衡所預測的博弈解與人們的直觀相矛盾,而且越來越多的博弈實驗表明,這與現實博弈的結果也存在巨大反差。博弈困境的出現引起了人們對經典博弈論理性預設的質疑,從而提出不同的邏輯模型和解決方案。本文以旅行者困境為例,對Halpern&Pass提出的重復后悔度最小化模型和Capraro提出的基于聯盟與合作的概率推理模型兩種方案進行分析比較,考察它們是如何成功地解釋和預測旅行者困境中選手實際博弈行為,并對這兩種方案的普適性問題和應用前景進行了展望,同時對博弈論的基礎進行了哲學反思。

博弈困境;旅行者困境;解決方案;重復后悔最小化模型;概率推理模型

納什均衡(Nash Equilibrium)概念的提出和存在性證明[1]奠定了博弈論這門學科的基礎,為理解和預測人們在策略互動中的行為提供了強而有力的工具。但是,隨著博弈論的發展,人們普遍意識到,甚至通過實驗研究也發現,在有些博弈中,納什均衡所預測的博弈結果并不符合人們的直觀和各種實驗研究的結果。人們把這些納什均衡與直觀或現實嚴重沖突的博弈稱為博弈困境,著名的例子有囚徒困境(Prisoner's Dilemma)、旅行者困境(Traveler's Dilemma)、蜈蚣博弈(Centipede Game)、納什討價還價問題(Nash bargaining problem)、伯川德悖論(Bertrand competition)、公共物品供給博弈(Public Good Game)、最后通牒博弈(Ultimatum Game)和獨裁者博弈(Dictator Game)等。

旅行者困境是由著名經濟學家Kaushik Basu于1994年[2]提出來的博弈中的一個新的困境。正如他本人所說:“旅行者困境是一個特殊的并且令人信服的悖論,在這里,無情的博弈論理性和直覺觀念無法保持一致。”[2]391該困境融合了以往困境中具有代表性的一些主要特征,從而使博弈論中的根本問題更為集中地得到展現。

旅行者困境的發現和提出,立刻引起了學術界的廣泛關注,國際上不少博弈論學家和邏輯學家從理論和實驗兩個方面分別展開研究[3-7]。與此相反,國內學者雖然對一般意義上的博弈困境及其產生原因已有所關注[8-9],但是對針對博弈困境的各種解決方案缺乏細致而深入的學理分析和研究。對解決方案的深入研究可以加深我們對人類社會中各種博弈困境的理解的同時,有助于尋找新的理論和現實解決方案,還可以避免對博弈論泛泛而談的批評和指責。本文以旅行者困境為例,對Halpern&Pass提出的重復后悔度極小化模型[3]和Capraro提出的基于聯盟與合作的概率推理模型[4]兩種方案進行分析比較,以窺它們是如何成功地解釋和預測旅行者困境中選手實際博弈行為的,并分析這兩種方案各自存在的問題。

一、旅行者困境的產生

關于旅行者困境的描述有很多不同的變種,其中最主要的變化是提供賠償的范圍和罰金的比重不同。以下給出賠償范圍為2~100、罰金為2的版本:

假設有兩名乘客從太平洋的某個島上度假后乘同一個航班返回自己的國家。不幸的是,他們的行李箱被航空公司弄丟了。兩個行李箱裝的都是他們在島上購買的同一種古董。航空公司答應給予他們賠償,但因為很難評估古董的實際具體價值,兩位乘客可以在2美元和100美元這個區間中任意選取一個數值要求賠償。但為了保證乘客提出合理的賠償價格,航空公司特地制定了賠償規則如下:如果他們要求賠償的數值一樣,那么航空公司就直接按這個數值提供賠償。如果他們要求賠償的數值不一樣,則按照要求少的那位乘客提出的價格標準進行賠償,但要求少的那位乘客將獲得額外2美元的獎勵,而要求多的那位乘客則在要求少的那位乘客提出的價格基礎上減少2美元作為罰金。例如,兩位乘客提出的賠償分別為98美元和100美元,則他們獲得的賠償各自為100美元和96美元。

直觀地看,兩位乘客應該都提出最高的賠償要求即100美元,因為這樣的話,他們都可以獲得100美元的賠償,或者至少雙方都應該提出較高水平的索賠,因為這樣的話,即使獲得的賠償沒達到100美元,仍可以達到較高水平。

但是如果按照經典博弈論的假設,兩位乘客都是追求個人的收益最大化的理性人并且是能進行任意有限步推理的高手,那么在給定其中一方提出100美元的賠償的情況下,另一方會選擇放棄索賠100美元而只索賠99美元,因為那樣的話,他就可以直接獲得101美元。但是另一位乘客也知道這一點,則他會放棄索賠99美元而提出98美元的索賠,因為這樣的話,他將獲得100美元的賠償,而不是97美元。以此類推,按照這個邏輯,他們最終都只會選擇2美元的賠償要求,從而陷入每人只能得到2美元的困境。實際上這正是博弈論中運用重復剔除被弱占優策略算法(Iterated Removal of Weakly Dominated Strategy,簡寫為IRWDS)和納什均衡所預測的結果。雖然整個推理過程無懈可擊,但結果卻與人們直觀嚴重沖突,并且與現實中人們的行為選擇也不相符合。

國際上有不少研究者針對不同版本的旅行者困境展開實驗研究[5-7]。例如,在賠償范圍為2~100美元之間,罰金為2美元的情況下,Becker[6]等在博弈論學會的會員中間所做的調查表明,45名選手中只有3名選擇了納什均衡所預測的博弈結果(2,2),有38名選手選擇了90美元以上的索賠要求,而這38名中有31名甚至提交了96美元以上的索賠。實驗還表明,45名選手中提交97美元索賠的選手最后獲得的收益最高,平均每人有85.09美元。而提交2美元索賠的兩名所獲得的收益是最低的,平均每人只有3.92美元。

有意思的是,實驗研究還表明,人們實際的選擇范圍會隨罰金比重的變化而不同。Capra[5]等所做的重復博弈(Repeated Game)實驗表明,在罰金很低的情況下,人們傾向于提出較高的索賠要求,并在重復博弈實驗中保持這一較高的索賠要求。而在罰金較高的情況下,人們開始也提出較高的索賠,但經過幾輪之后,最后會提出納什均衡所預測的2美元。這些實驗數據均從不同程度上驗證了人們的直觀預測,確證了旅行者困境中人的行為選擇與納什均衡的嚴重偏離,更重要的是它們為新理論提供了模型檢驗的重要標準。

二、旅行者困境的解決方案

經典博弈論對旅行者困境中人們的行為預測是令人失望的,它所預測的結果不僅不符合直觀,更與實驗數據嚴重偏離。這一理論與實踐之間的反差表明,旅行者困境不僅是局中人的困境,也是博弈理論的困境。為此,不少博弈論學家開始從不同的角度提出不同的邏輯模型,試圖對實驗中看似非理性的行為尋找理性的解釋方案,從而對現實中人們的博弈行為作出更好的預測。

目前比較成功的解決方案有兩種:一種是后悔理性的角度,即一個理性選手總是讓自己的后悔最小化,如Halpern&Pass(2011)提出的重復后悔最小化(Iterated Regret Minimization)解決方案。另一種則從理性選手會試圖尋求結成聯盟以達成合作的角度,在期望效用理論(Expected U-tility Theory)的基礎上,Capraro提出的基于聯盟與合作的概率推理模型的解決方案。

(一)重復后悔最小化方案

后悔最小化是決策論中用來解釋選手如何進行理性決策的一個重要概念。要把后悔這一概念引入到博弈論,必須考慮如何給出兩個不同的后悔概念,一個是在給定其他選手選擇的情況下,如何給出一個選手當前選擇的后悔程度。另一個是不管其他選手作何種選擇,如何比較兩個不同策略自身的后悔程度。Halpern&Pass(2011)成功地解決了以上兩個問題,從后悔的角度定義出一種與經典理論不同的理性概念,從而給出了一個理性主義的解決方案。

后悔度最小化方案是對經典博弈論中重復剔除被弱占優策略算法的改進。為具體說明這一點,表1給出旅行者困境的矩陣式表達:

表1 旅行者困境的矩陣式表達

一個選手如果在給定其他選手選擇的情況下,自己單方面偏離這個選擇并不能獲得更好的收益,那么當前選擇就是最佳反應(Best Response)。一個博弈結果是納什均衡,當且僅當各個選手的當前選擇都是最佳反應。

在表1中,畫線的向量表示其中一個乘客在給定另一個乘客選擇的前提下其當前選擇是最佳反應。不難看出,只有在(2,2)中,兩位乘客的當前選擇都是最佳反應,因此是納什均衡。在納什均衡中各個選手都安于現狀,沒有動力偏離當前的選擇,因此是個均衡狀態。

納什均衡只是從靜態的角度對一個穩定的博弈結果所應該具有的性質的描述。它并沒有對各個選手如何通過推理理性地到達這個均衡狀態的過程進行說明。因此后來博弈論又發展出求解納什均衡的重復剔除被弱(強)占優策略算法。

一個選擇或者行動又可被稱作一個策略。一個當前策略是被弱占優的(Weakly Dominated),當且僅當該選手存在另一個策略,該策略一定和當前策略至少一樣好,并且在一些情況下該策略還比當前策略嚴格好。因此,一個理性的選手是不會選擇一個被弱占優的策略的。

我們看到,在旅行者困境中,乘客A的100美元這個策略就是被弱占優的,因為從表1可以看出,在乘客B做任意選擇情況下,乘客A選擇99美元的收益總是不少于選擇100美元的收益,并且在乘客B選擇99美元和100美元這兩種情況下,乘客A選擇99美元的收益嚴格高于選擇100美元的收益。因此,作為理性選手的乘客A不會選擇100美元的索賠要求。同理,乘客B也不會提出100美元的索賠要求。因此,如果兩位乘客都足夠理性并且知道對方也是理性的話,那么他們都會確信對方不會提出100美元的這個索賠要求。

因此,雙方都會把100美元這個被弱占優策略剔除掉,從而進入表2的子博弈中。

表2 旅行者困境第一個子博弈的矩陣式表達

同樣,不難發現,在這個子博弈中99美元對雙方來說也是一個被弱占優策略。因此,乘客A、B都會剔除索賠99美元這一被弱占優策略,從而進入下一個子博弈當中。以此類推,如果兩位乘客足夠理性并且知道對方也是理性的話,根據重復剔除被弱占優策略算法,最后一個子博弈為表3:

表3 旅行者困境最后一個子博弈的矩陣式表達

不難看出,最后一個子博弈具有和囚徒困境相同的博弈結構。在這個子博弈中,3美元是一個被強占優策略(Strongly Dominated Strategy),因為無論一方作何選擇,另一方選擇2美元得到的收益都嚴格高于選擇3美元的收益。因此,理性選手不會選擇被強占優策略,最后雙方博弈的結果為(2,2)。事實上,這也正是納什均衡理論所預測的結果。

與囚徒困境不同的是,在旅行者困境的納什均衡求解過程中,融合了博弈論中重復剔除被弱占優策略和重復剔除被強占優策略兩種經典算法。因此,旅行者困境是比囚徒困境更為復雜和嚴重的困境。

在給定其他選手選擇的情況下,Halpern&Pass(2011)將當前策略的后悔程度定義為選擇最佳反應策略所獲得的收益與采取當前策略下所獲得收益的差值。據此,我們可以將旅行者困境的博弈模型轉換為表4所示的后悔度模型:

表4 旅行者困境的后悔度模型

不難看出,一個選手策略的后悔度是隨著對方選擇的不同而發生變化的,那么如何評估一個策略本身的后悔指數呢?直觀來說,一個理性的選手應該盡可能地避免最大后悔事件的發生。因此,可以將一個策略的后悔度定義為它在所有情況下的最大值。例如,選擇策略2的最大后悔度對于雙方來說都是97(見表4)。因此,在考慮后悔理性的背景下,選手所面臨的形勢發生了根本的變化。選擇策略2成為后悔指數最高的一個策略,任何一個理性的選手都會首先將其剔除掉。因此,博弈雙方可以進入一個沒有策略2的子博弈之中,從而不會陷入納什均衡所預測的博弈困境當中。

在確定選手不同策略的后悔程度之后,根據Halpern&Pass(2011)確立的一個理性原則:一個理性的選手總是選擇使得他后悔程度最小的一個策略。因此,在這一理性原則是各個選手公共知識(Common Knowledge)的前提下,兩位乘客可以只將后悔程度最小的策略保留,這在表4中表現為只將后悔度為3的策略保留,從而進入下一個子博弈當中。

值得注意的是,經過剔除后,在子博弈中各個選手的策略的后悔度會產生變化,博弈雙方需要重新計算各個策略的后悔度,再次保留后悔度最小的策略,一直重復這一過程直到不能剔除為止,最后達到的狀態就是后悔度最小化方案所預測的結果。

事實證明,這是一個非常高效率的算法,并且最后保留的策略是和罰金的相關性與經驗研究相符合。若設罰金為p,則在第一輪當中,兩位乘客只會保留[100-2p,100]這一范圍的索賠要求。本例中罰金P=2,因此經過第一輪剔除后兩位乘客只會保留[96,100]范圍的索賠要求,重復這一過程到不能剔除為止,最后雙方博弈的結果為97美元,這與Becker和Capra等人的實驗數據是一致的。

(二)基于聯盟與合作的概率推理模型

基于聯盟與合作的概率推理方案從大量實驗數據偏離納什均衡的現象中總結出人不是絕對自私的,而是具有聯盟和合作傾向這一重要特征。

為采用聯盟與合作的思想研究像旅行者困境那樣的非合作博弈中的合作式均衡,Capraro提出一個合作原則作為預設[4]6:

如果選手在博弈中結成一個聯盟的話,那么他們會據此來預測博弈的走向并且按照那個最好的預測進行博弈。

在旅行者困境中,作為一個理性的選手,他們可以清醒地意識到,如果雙方都絕對自私的話,那么他們會意識到自己會逐步陷入到納什均衡所預測的困境當中。因此,考慮結成各種聯盟以尋求潛在的合作是他們擺脫困境的出路之一。

在博弈論中,任何一部分選手都可以組成一個聯盟,但一個選手只能加入一個聯盟,并且所有聯盟合起來應該剛好是全體選手。特殊地,每個選手本身也可以看作一個聯盟。當然,所有選手也是一個聯盟。值得注意的是,這里所說的聯盟都是一種虛擬的聯盟,聯盟內部不允許交換任何信息或者達成任何轉移支付的協議。在旅行者困境中,因為只有兩個選手,恰好無外乎這兩種聯盟,我們不妨把它們分別稱作自私聯盟和合作聯盟。如果形成合作聯盟的期望效用高于形成自私聯盟的期望效用,則顯然選手會傾向于形成合作聯盟。

根據合作原則,在旅行者困境中,選手們如果按照自私聯盟,則顯然他們可以預測并且按照這個預測進入納什均衡(2,2)的博弈結果當中。(2,2)是納什均衡,意味著沒有選手有動力改變當前選擇,因此自私聯盟是一個穩定的聯盟。按照自私聯盟博弈的結果,最后雙方的收益都是2美元。換句話說,2美元是他們結成自私聯盟的期望效用。因此,我們可以把2看做是自私聯盟對于這兩位乘客的價值。

現在假設兩位乘客結成合作聯盟,即他們共同提出100美元的索賠要求,則他們在結成合作聯盟時的最大收益是100美元。但100美元并不能成為合作聯盟對于他們的價值。因為這是一個不穩定的聯盟,其中任何一個選手如果提出99美元的賠償要求,則他可以得到101美元的收益。因此,我們可以說他脫離聯盟的動力是1個單位。但是作為一個理性的選手,他除了計算自己脫離聯盟的動力外,還須評估脫離聯盟所產生的風險。其中最大的風險是如果對方依然堅持自私原則或者他預測到自己會脫離聯盟的話,則對方可以提出98美元的索賠要求,在這種情況下自己只能得到96美元的索賠,從而比原來結成聯盟的情況下損失4美元。因此,我們可以說他脫離聯盟的風險是4個單位。

從乘客A的角度看,如果他選擇堅守合作聯盟,在他對乘客B脫離聯盟的動力和風險進行上述評估之后,他就可以據此對乘客B是否也會堅守合作同盟這兩個事件發生的概率進行評估。因此,根據概率理論,乘客A在自己堅守聯盟的條件下,他可以推斷出乘客B脫離合作聯盟這一事件的概率是1/(1+4)=1/5,而乘客B堅守合作聯盟這一事件的概率則是4/5。

在沒有人會脫離合作聯盟的情況下,乘客A的預期收益顯然為100美元。而乘客B脫離合作聯盟這一事件可以有兩種情況,即乘客B可以提出99和98美元的索賠要求,因為在這兩種情況下,他都可以獲得不少于堅守合作聯盟中100美元的收益。其中最壞的情況是乘客A選擇100美元索賠而乘客B選擇98美元索賠這種情況,這時乘客A的收益僅為96美元。因此在乘客B脫離合作聯盟這一情況下,乘客A的預期收益最壞且為96美元。

使用概率工具計算選手的期望效用并使其最大化是博弈論中用來預測選手理性行為的另一個非常有力的工具。根據乘客A對于乘客B堅守合作聯盟和脫離合作聯盟這兩個事件發生的概率評估,乘客A不難計算出自己在堅守聯盟條件下的期望效用,即100×(4/5)+96×(1/5)≈99。同理,乘客B計算出自己在堅守聯盟條件下的期望效用也是99。因此,我們可以把99看做是合作聯盟對于這兩位乘客的價值。顯然,99遠遠大于3,這就是在旅行者困境中人們傾向于合作的原因所在。

目前為止,在基于聯盟的背景下,我們只是得出了在旅行者困境中形成合作聯盟的價值遠遠高于形成自私聯盟的價值,從而人們會傾向于合作這一結論。但這并不意味著,兩位乘客一定都會提出100美元的索賠要求,因為我們前面提到,合作聯盟并不是一個穩定的聯盟。但是,我們可以把合作聯盟中計算出來的期望效用看做是兩位乘客的公共信念(Common Belief)。根據形成合作聯盟所計算的期望效用,兩位乘客會合理地預期博弈只會發生在一個各方收益都不會低于合作聯盟價值的子博弈當中,從而聚焦①焦點(Focal Points)理論是2005年諾貝爾經濟學獎獲得者Thomas C.Schelling提出的在博弈論中用來解釋選手在實際博弈中選擇均衡的一個重要方法。于如表5所示的一個子博弈之中。

表5 合作聯盟公共信念下誘導出的子博弈

在選手根據合作聯盟計算出期望效用誘導出來的子博弈中的納什均衡就被稱作是合作式均衡。在本文給出的旅行者困境的例子中,可以看出(97,97)正是合作式均衡。另外,隨著罰金的提高,雙方堅守合作聯盟事件的概率變低,從而使堅守合作聯盟條件下的期望效用變低,進而導致合作式均衡越來越接近納什均衡。可見,無論是對結果的預測還是罰金的相關性而言,合作式均衡方案的預測結果和Becker與Capra等人的實驗數據也是一致的。

三、兩種解決方案的評價

與其他方案將選手在博弈困境中偏離納什均衡歸因于犯錯[11]和有限理性[12]不同,這兩種方案依然高舉理性主義的旗幟,在堅持經典博弈論理性人假設的同時,還在此基礎上增加了諸如后悔與合作等更多的理性概念。因此,這兩種方案都是在堅持理性主義路線的基礎上,在原來非合作博弈理論框架下,對經典博弈理論的豐富和完善。

在重復后悔最小化方案中,選手通過分別計算給定對方選擇前提下當下選擇的后悔度和策略本身的后悔度,從而將整個博弈中各個博弈結果收益之間的差異納入理性決策的考慮之中。而在基于聯盟與合作的概率推理方案中,選手則綜合考慮對方脫離聯盟的額外收益和風險,通過比較合作聯盟與自私聯盟的價值,對對方關于合作聯盟的忠誠度進行全面評估,從而形成自己的合理預期,最后做出理性決策。因此,與傳統博弈論對選手收益只側重于質的研究不同,這兩種方案都將選手收益在博弈中量的差別考慮進來,這在模型中是通過求差、取最大值和最小值等方式來實現的,從而將各個博弈結果中收益的差距在模型中體現出來,更能全面反映博弈中選手理性決策的實際情況。可以說,這兩種方案是在經典博弈論質的方法的基礎上,質的方法與量的方法相結合的兩個成功案例。

重復后悔最小化方案繼承了經典博弈論中重復剔除被弱占優策略算法的一些缺點。在重復后悔最小化方案的剔除過程中,我們是一次性選擇后悔度最小的策略。另外一種選擇是只剔除后悔度最大的策略,因為在不同的子博弈中后悔度會發生改變,因此這會導致不同的博弈結果。也就是說,剔除順序的不同,該方案會預測出不同的博弈結果。這表明這種方案所預測的結果并不具有唯一性,從而使其精確性受到影響。

更為嚴重的是,這揭示出重復后悔最小化方案并不具有“無關選項獨立性”(Independence of Irrelevant Alternatives)這一重要性質,即一個博弈從后悔理性的角度看,如果加上一個完全應該被剔除的選項,反而會對博弈的結果產生影響,其根本原因在于在這種后悔度計算方式下,無關選項的加入會讓原本的策略的后悔度發生變化。Halpern等人雖然也意識到這一內在缺陷,但他們將其歸因于人們在實際博弈中同樣會受到無關選項的心理干擾[3]18。這種求助于心理學的解釋當然是不能讓人滿意的,因為這與該方案所秉承的理性主義風格相沖突。

重復后悔最小化方案和基于聯盟與合作的概率推理方案都想將其解決方案應用到更多的博弈困境當中。但是,這兩種方案對于囚徒困境都是失效的。因為在囚徒困境中,背叛對于雙方都是強占優的策略,而強占優策略的后悔度為零。因此,雙方選擇背叛正是重復后悔最小化方案所預測的博弈結果,從而不能解釋人們在囚徒困境中會有合作的現象。而根據基于聯盟與合作的概率推理方案,所計算出來的合作聯盟的價值并不具有參考意義,因為所得到的子博弈和原博弈是一樣的。如果將子博弈中的納什均衡當作合作式納什均衡,則同樣不能解釋囚徒困境中的合作現象。

相比較而言,基于聯盟與合作的概率推理方案普適性更強。例如,重復后悔最小化方案不能解釋協同博弈(Coordination Game)中人們為何偏向于選擇對雙方結果都最好的納什均衡,而基于聯盟與合作的概率推理方案卻能很輕松做到這一點。因為在協同博弈中,合作聯盟的價值遠高于自私聯盟的價值,而博弈雙方脫離合作聯盟的動力為零。因此,基于聯盟與合作的概率推理方案更能解釋協同博弈中的合作現象。

基于聯盟與合作的概率推理方案也存在不足之處。從前面的分析中可以看到,該方案沒有將概率的思想貫徹到底。在求解均衡的前期,我們通過概率手段計算出合作聯盟對雙方的價值,從而使博弈進入一個雙方收益都不低于合作聯盟價值的子博弈中,但在子博弈中又使用納什均衡來求解合作式均衡。更大的問題是,在基于聯盟與合作的概率推理方案中,Capraro對所計算出來的合作聯盟的價值作多種解讀,他有時甚至直接將合作聯盟的價值看作該方法所預測的博弈結果[13]8。同時也為了處理囚徒困境一類的困境,Capraro后來提出在子博弈中計算混合策略納什均衡①在沒有純策略納什均衡的博弈中,可以將選手的選擇看做是純策略上的概率分布,因而是非決定性的。混合策略納什均衡的提出就是為這些博弈的穩定狀態構建模型。(Mixed Strategy Nash Equilibrium)[3]42。求解子博弈混合策略納什均衡的方法雖然在囚徒困境中有一定作用,因為在囚徒困境中,每位選手只有合作與背叛兩個選項,但在旅行者困境中的子博弈中,往往每位選手都有多種索賠策略,所以在旅行者困境中是難以計算的。這種不一致的做法表明基于聯盟與合作的概率推理方案不具有統一性,從而對其普適性產生影響。這也是過分依賴概率這種量的方法的一個內在缺陷。

總的來看,概率方法是更具普適性的一種方法。因為納什均衡的存在性定理表明,任何一個有窮策略式博弈總是存在混合策略的納什均衡[1]。Halpern等人后來也不得不結合概率的方法,將混合策略考慮進來[3]20,從而得以將其方法應用到協同博弈當中。

四、結 語

針對人們在博弈困境中并不是如經典納什均衡所預測的那樣,而是存在大量偏離納什均衡的選擇行為的現象。我們有必要對博弈論的哲學基礎進行反思,一方面,這涉及博弈論這門學科的性質和定位:博弈論是一門規范性(Normative)學科,還是一門描述性(Descriptive)學科?將這些博弈困境定義為困境的一個預設是博弈論至少應該具有描述性學科的特點,即它應該能夠對博弈中的選手做出的選擇進行解釋,從而對人們應該如何理性選擇提供決策參考。另一方面,博弈困境的產生使得我們必須重新反思非合作博弈論中的理性人假設,即每個選手都是只追求自身利益最大化的,并且能夠進行任意有限步的推理。但選手不僅是一個理性人還是一個社會人,人們在實際博弈中的行為選擇還受選手類型、收益敏感度、期望、相互間的信任和社會規范等理性因素甚至犯錯等非理性因素的影響。但是,一個理論往往出于簡單或便于研究的需要,又不可能考慮所有這些因素的影響。這也是許多社會科學研究中面臨的理論困境。

進入21世紀以來,世界形勢和利益格局變得日益紛繁復雜,特別是像中國這樣的發展中國家又處于社會的劇烈轉型之中,各個國家、社會群體和利益階層的沖突和斗爭日益激烈,人們越來越意識到在國家戰爭、地區沖突和利益紛爭中,通過相互合作達到共贏往往是解決問題的最佳選擇。對博弈中的合作進行研究一直是博弈論研究中的難題。目前博弈論對合作博弈論的研究還非常有限,圍繞博弈困境的解決主要還是在非合作博弈的理論框架下進行的。因此,如何在非合作博弈的理論框架下對選手博弈困境中實際存在的合作行為提供理論解釋和更為準確的預測模型是博弈論中的一個巨大挑戰。在這個意義上說,重復后悔最小化方案和基于聯盟與合作的概率推理方案不僅是博弈論理論研究中取得的重要進展,還為人們在社會行為中普遍存在的合作和共贏現象提供了理論支撐和理論指導。

[1]Nash J F.Equilibrium points in n-person games[J].Proceedings of the National Academy of Science of the United States,1950,36 (1):48-49.

[2]Basu K.The Traveler's Dilemma:Paradoxes of Rationality in Game Theory[J].American Economic Review,1994,84(2):391-395.

[3]Halpern J Y,Pass R.Iterated Regret Minimization:a new solution concept[J].Games and Economic Behavior,2012,74(1):184-207.

[4]Capraro V.A solution concept for games with altruism and cooperation[EB/OL].http://arxiv.org/pdf/1302.3988v2.pdf.2013.

[5]Capra M,Goeree J K,Gomez R,Holt C A.Anomalous Behavior in a Travelers Dilemma?[J].American Economic Review,1999 (89)3:678-690.

[6]Becker T,Carter M,Naeve J.Experts Playing the Travelers Dilemma[R].Discussion Paper 252,Institute for Economics,Hohenheim University,2005.

[7]Basu K,Becchetti L,Stanca L.Experiments with the Travelers Dilemma:welfare,strategic choice and implicit collusion[J].Social Choice and Welfare,2011,37(4):575-595.

[8]潘天群.博弈論中理性人假設的困境[J].經濟學家,2003(4):99-104.

[9]袁藝,茅寧.從經濟理性到有限理性:經濟學研究理性假設的演變[J].經濟學家,2007(2):21-26.

[11]Mc Kelvey R,Palfrey T.Quantal response equilibria for normal form games[J].Games and Economic Behavior.1995(10)1,6-38.[12]Stahl D,Wilson P.Experimental evidence on player's models of other players[J].Economic Behavior and Organization,1994(25) 3:309-327.

[13]Capraro V.A Model of Human Cooperation in Social Dilemmas[R].PLoS ONE 2013,8(8):e72427.doi:10.1371/journal.pone.0072427.

責任編輯 劉榮軍

B815

A

1673-9841(2015)02-0018-08

10.13718/j.cnki.xdsk.2015.02.003

2014-09-02

郭美云,哲學博士,西南大學邏輯與智能研究中心,副教授。

重慶市人文社會科學重點研究基地重點項目“博弈的邏輯與認知基礎研究”(14SKB047),項目負責人:郭美云;國家社會科學基金重點項目“現代邏輯視野的認知研究”(11AZD57),項目負責人:何向東;中央高校基本科研業務費專項資金資助項目“博弈中互動認知的邏輯研究”(SWU1309380),項目負責人:郭美云。

猜你喜歡
困境策略
基于“選—練—評”一體化的二輪復習策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
困境
文苑(2020年12期)2020-04-13 00:54:08
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“鄰避”困境化解之策
我國霧霾治理的困境與出路
環境科技(2016年3期)2016-11-08 12:14:20
論狹義平等理論的三重困境
社會科學(2016年6期)2016-06-15 20:29:08
中國“富二代”家庭教育的困境
人生十六七(2015年2期)2015-02-28 13:08:04
主站蜘蛛池模板: 亚洲人成网站色7777| 国产成人在线无码免费视频| 国产精品福利社| 毛片在线播放a| 亚洲看片网| 日本免费福利视频| 国产va欧美va在线观看| 一级毛片在线直接观看| 在线看AV天堂| 国产成人精品一区二区免费看京| 精品人妻AV区| 国产精品不卡永久免费| 久久精品国产国语对白| 视频一区视频二区中文精品| 国产精品免费p区| 国产精品无码在线看| 日韩麻豆小视频| 国产swag在线观看| 国产91在线|日本| 国产成人午夜福利免费无码r| 欧美特黄一级大黄录像| 久久毛片网| 手机精品视频在线观看免费| 婷婷综合缴情亚洲五月伊| swag国产精品| 亚洲成a人片在线观看88| 玖玖精品在线| 国产精品va| 热久久国产| 蜜桃视频一区二区| 亚洲va在线∨a天堂va欧美va| 久久性视频| 亚洲精品另类| 久久久久88色偷偷| 欧美在线导航| 久久精品国产一区二区小说| 有专无码视频| 亚洲看片网| 日韩精品毛片| 五月天丁香婷婷综合久久| 四虎影视无码永久免费观看| 久青草免费在线视频| 国产女主播一区| 精品一区二区无码av| 在线视频亚洲色图| 第一区免费在线观看| 中国丰满人妻无码束缚啪啪| 亚洲欧美另类日本| 无码内射中文字幕岛国片| 亚洲娇小与黑人巨大交| 久久99精品国产麻豆宅宅| 国产精品大尺度尺度视频| 本亚洲精品网站| 26uuu国产精品视频| 国产亚洲精品yxsp| 毛片免费网址| 精品久久777| 欧亚日韩Av| 99热国产这里只有精品9九| 亚洲成人黄色在线| 黄色一级视频欧美| 亚洲人成网站色7799在线播放| 97视频在线精品国自产拍| 黄色在线不卡| 波多野结衣一区二区三视频| 国产91蝌蚪窝| 99热这里只有精品在线播放| 久久久久国产精品免费免费不卡| 国产免费观看av大片的网站| 国产欧美视频一区二区三区| 福利国产在线| 国产女人爽到高潮的免费视频| 五月天丁香婷婷综合久久| 四虎永久免费地址| 夜夜拍夜夜爽| 日韩欧美色综合| 亚洲男人的天堂网| 国产又黄又硬又粗| 国产女人在线视频| 人妻丰满熟妇αv无码| 亚洲男人的天堂视频| 欧美日韩综合网|