

在面對選擇困境時(shí)如何科學(xué)決策是人們長期探討的話題。其中一類是類似“囚徒困境\"這樣的選擇難題,探討的是力量對等條件下的個(gè)體如何作出更優(yōu)選擇;還有一類便是紐科姆難題,探討個(gè)體面對諸如“智能生物”這樣強(qiáng)大的主體(規(guī)則制定者)時(shí)如何作出最優(yōu)選擇。囚徒困境與紐科姆難題雖然在形式上不同,但本質(zhì)上卻有相通之處。
當(dāng)囚徒困境里的博弈雙方都具有相同的理性、智力水平,并且都處于“對稱思維\"模式(彼此都意識到對方會作出與自己相同的博弈選擇從而成為自己的“鏡像”時(shí),就會自然而然地形成“利益共同體”,從而作出“都不招認(rèn)\"的相同選擇而走出“囚徒困境”。而走出困境的囚徒又會面臨新的議題—與造成“困境”的規(guī)則制定者間的較量,這也是紐科姆難題所要解答的問題。關(guān)于紐科姆難題的研究不僅可以在哲學(xué)層面深化對決策理論范式的理解,而且在實(shí)踐維度,尤其是在當(dāng)前極端復(fù)雜的國際政治經(jīng)濟(jì)環(huán)境下,也可以為非對稱競爭環(huán)境中的策略選擇提供方法論參照。
一、紐科姆難題爭議的焦點(diǎn)
(一)決策模型概述
紐科姆難題由美國物理學(xué)家威廉·紐科姆(WilliamNewcomb)于1960年設(shè)計(jì),由諾齊克最初予以報(bào)道和討論1:假定一個(gè)擁有超能力的“智能生物”,他能夠預(yù)測你的選擇;你知道這個(gè)生物過去常常正確預(yù)測你的選擇,并且相信這個(gè)生物對你的選擇的預(yù)測都是正確的;現(xiàn)在有兩個(gè)盒子:透明盒子B1和不透明盒子B2;B1里面有1萬美元(你可以直接看到),B2里面有100萬美元或者什么也沒有(你看不到);你有兩個(gè)選擇,同時(shí)拿走兩個(gè)盒子,或者只拿走B2;此外,你知道這個(gè)生物知道你知道:(1)如果該生物預(yù)測你會拿走兩個(gè)盒子,他就不放100萬美元到B2盒子;(2)如果該生物預(yù)測你只拿走第二個(gè)盒子,他就會放100萬美元在B2盒子里。接下來首先由“超級生物”作出預(yù)測,再選擇是否把錢放進(jìn)B2盒子里。然后輪到你來決策,你會怎么做?
根據(jù)諾齊克的觀點(diǎn),在解決紐科姆難題時(shí)出現(xiàn)了兩個(gè)對立但同樣合理的論點(diǎn),導(dǎo)致了不同的決定。一是基于效用最大化原則,由于“智能生物\"對你的選擇作出正確預(yù)測的概率接近 100% ,所以,你選擇一個(gè)盒子的效用(100萬 ×100% )遠(yuǎn)遠(yuǎn)大于選擇兩個(gè)盒子的效用(100萬 ×0+1 ,因此選擇一個(gè)盒子是明智的。二是基于強(qiáng)占優(yōu)原則,無論“智能生物\"作出何種預(yù)測,并且已經(jīng)作出了放錢或者不放的選擇,那么在此基礎(chǔ)上,選擇兩個(gè)盒子比選擇一個(gè)盒子多獲得1萬美元的收益,因此選擇兩個(gè)盒子才是更明智的。于是便出現(xiàn)了效用最大化原則與占優(yōu)原則相沖突的局面。
部分學(xué)者質(zhì)疑經(jīng)典貝葉斯理論在紐科姆難題中的應(yīng)用,認(rèn)為其在處理這類復(fù)雜因果關(guān)系和預(yù)測性決策時(shí)暴露了局限性。然而,對于這一批判,尚缺乏足夠的、能夠普遍接受的論證去徹底否定貝葉斯理論在決策分析中的基本地位。部分學(xué)者,以巴希爾(M.Bar-Hillel)和瑪格麗特(A.Margalit)為代表,則轉(zhuǎn)向關(guān)于占優(yōu)原則適用局限性的研究,認(rèn)為占優(yōu)原則是有適用范圍的,或者說是有條件的。[2]當(dāng)決策者相信可能行動(dòng)會對世界的可能狀態(tài)產(chǎn)生影響時(shí),或與任何其他決策者的可能行動(dòng)有因果關(guān)系時(shí),就不能適用占優(yōu)原則。
然而,作為博弈論中理性決策的基礎(chǔ)理論,占優(yōu)原則提供了確定最優(yōu)行為的可靠方法,使得博弈參與者在不確定環(huán)境中能夠通過理性分析找到不受對手策略影響的最優(yōu)應(yīng)對方式,進(jìn)而實(shí)現(xiàn)自我利益的最大化。從數(shù)學(xué)角度來看,通過對比各策略對應(yīng)的期望收益值,可以確定是否存在嚴(yán)格占優(yōu)策略。從邏輯分析視角看,一旦確定某策略嚴(yán)格占優(yōu),那么選擇此策略就是最優(yōu)決策,這是由博弈論模型本身的邏輯推導(dǎo)得出的結(jié)論。而從理性行為假設(shè)看,如果存在一個(gè)無論如何都不會被對手的任何策略所超越的最優(yōu)選擇,那么根據(jù)理性行為原則,參與者必然選擇這個(gè)占優(yōu)策略。因?yàn)槔硇詡€(gè)體在面對既定的策略選擇時(shí),會排除那些在任何情況下都不如占優(yōu)策略的選項(xiàng),確保自己獲得最優(yōu)結(jié)果;甚至在多階段博弈中,即使博弈重復(fù)多次,占優(yōu)策略也能保持動(dòng)態(tài)一致性,即每次選擇占優(yōu)策略并不會導(dǎo)致未來境況惡化,反而可能有利于建立可信的威脅或承諾,從而在未來博弈中獲取更大利益。
隨著紐科姆難題的多層面、跨學(xué)科研究價(jià)值不斷顯現(xiàn),更多的學(xué)者,如諾齊克本人指出“我們暫時(shí)可以把我們的討論限制在最大化 (條件)期望效用的兩個(gè)原則內(nèi),這兩個(gè)原則分別是由因果決策理論和證據(jù)決策理論所表述的”[3]。索貝爾(J.H.Sobel)也認(rèn)為紐科姆難題并非“效用最大化”與“占優(yōu)\"兩個(gè)原則間的沖突,而是“證據(jù)決策理論(EDT)\"與“因果決策理論(CDT)\"的沖突。4]這兩種理論框架從紐科姆難題情境中推演出截然不同的行為策略,凸顯了它們之間根本的方法論分歧。
(二)紐科姆難題的EDT與CDT方案
倫納德·薩維奇(LeonardJ.Savage)認(rèn)為,一個(gè)理性的決策者在面對不確定性時(shí),應(yīng)選擇那個(gè)能最大化其效用的行動(dòng)方案。[5這里的“效用\"是指決策結(jié)果對決策者主觀價(jià)值的度量,它可以是金錢、滿意度、幸福感等任何可評估的收益?!靶в肻"可用公式表述為:
,即一個(gè)可能的行動(dòng) ai 的效用是各種可能狀態(tài)下效用 Ωu
的加權(quán)之和,其中的權(quán)重是各種可能狀態(tài)的可信度 c(sj) 。效用最大化原則就是指在一個(gè)給定的決策情境D中,決策者X應(yīng)當(dāng)選擇具有最大效用的行動(dòng) ai°
根據(jù)對上述公式的不同理解,形成了兩種理性決策理論,即證據(jù)決策理論和因果決策理論。一種是考慮到?jīng)Q策者認(rèn)為在世界的可能狀態(tài)和可能行動(dòng)之間存在證據(jù)關(guān)系的決策理論,稱為證據(jù)決策理論,即如果將
替換成
(\"|\"表示“有條件\"或“給定\"),那么就可以反映決策者認(rèn)為世界的可能狀態(tài)和決策者的可能行動(dòng)之間要么存在概率上的獨(dú)立性,要么存在概率上的依賴性。另一種是考慮到?jīng)Q策者認(rèn)為世界的可能狀態(tài)和可能行動(dòng)之間具有因果關(guān)系的決策理論,稱為因果決策理論,即如果把
替換為
)那么這就反映了決策者相信世界的可能狀態(tài)與決策者的可能行動(dòng)之間存在因果獨(dú)立性或者因果依賴性。證據(jù)決策理論與因果決策理論的效用公式可分別表示為:
(1)證據(jù)決策理論:
(20即行動(dòng) ai 的預(yù)期效用 Σ=Σ 在行動(dòng) ai 被實(shí)施的情況下可能狀態(tài) sj 發(fā)生的概率,乘以該狀態(tài)下效用的加權(quán)和。
(2)因果決策理論:
(20
即行動(dòng) ai 的預(yù)期效用
行動(dòng) ai 導(dǎo)致可能狀態(tài)s發(fā)生的概率,乘以該狀態(tài)下效用的加權(quán)和。
證據(jù)決策理論和因果決策理論之間最大的差異,就是證據(jù)決策理論并沒有使用“因果關(guān)系”術(shù)語;而在因果決策理論里,“因果關(guān)系”是最重要的術(shù)語。紐科姆難題有兩個(gè)關(guān)鍵點(diǎn),即預(yù)測者的預(yù)測和決策者的決策之間的概率依賴性,以及預(yù)測者的預(yù)測和決策者的決策之間的因果獨(dú)立性。對證據(jù)決策理論來說,概率依賴性比因果依賴性更重要,而因果決策理論賦予因果依賴性比概率依賴性更多的權(quán)重。可借助“自然分區(qū)\"理論詳細(xì)說明EDT與CDT對紐科姆難題的不同解決方案。
1.EDT方案
紐科姆難題中博弈人在世界可能狀態(tài)分區(qū)中的決策情況如表一所示。博弈人有兩種選擇: a1 和 a2;S1 和 S2 是盒子B1、B2的兩種可能狀態(tài);“智能生物\"在T1時(shí)作出預(yù)測,并根據(jù)預(yù)測選擇“放\"還是“不放\"100萬美元;博弈人在T2時(shí)(T2在T1之后)選擇拿“一個(gè)盒子\"還是“兩個(gè)盒子”

證據(jù)決策理論并不考慮“博弈人在T2時(shí)的行動(dòng)\"會不會對T1時(shí)的“世界狀態(tài)\"產(chǎn)生因果影響(因?yàn)闀r(shí)間的不可逆性,二者顯然沒有因果關(guān)系),而只考慮既往的“證據(jù)”,即題設(shè)“智能生物過往對博弈人的預(yù)測的概率”。根據(jù)題設(shè)“智能生物過去常常正確預(yù)測博弈人的選擇”,有理由相信“智能生物\"對博弈人行為預(yù)測的準(zhǔn)確率接近1。因此,上述\"分區(qū)\"的概率分布如表二所示(\"[]\"表示“幾乎\"):

由此可以得出博弈人在 a1 和 a2 不同選擇下的行動(dòng)效用:
U(a1)=[1]1+[0]101=1
U(a2)=[0]0+[1]100=100
U(a2)gt;U(a1) ,因此,證據(jù)決策理論認(rèn)為“只拿走一個(gè)盒子”是更優(yōu)選擇。
2.CDT方案
根據(jù)因果決策理論,博弈人在行動(dòng)之前首先要考慮的是自己在“T2的行動(dòng)\"會不會對T1時(shí)的“世界狀態(tài)\"產(chǎn)生影響。根據(jù)時(shí)間的不可逆性,博弈人在T2時(shí)的行動(dòng)不會對T1的“既成事實(shí)\"產(chǎn)生影響;無論博弈人選擇“一個(gè)盒子\"還是“兩個(gè)盒子”,盒子B2的狀態(tài)在“智能生物\"作出選擇之后不會發(fā)生任何改變(行動(dòng)a與S之間是因果獨(dú)立的)。也就是說,不管博弈人T2時(shí)作出何種選擇,“智能生物\"T1時(shí)的預(yù)測都不會為之改變。
因此可以假設(shè),“智能生物\"T1時(shí)預(yù)測博弈人只會拿走一個(gè)盒子并往B2中放100萬美元的概率為p,那么,其預(yù)測博弈人同時(shí)拿走兩個(gè)盒子且不放錢到B2中的概率就為 1-p 。于是“行動(dòng) ai 導(dǎo)致可能狀態(tài) sj 發(fā)生\"的概率分別為:
如表三所示:

分別計(jì)算博弈人在 a1 和 a2 不同選擇下的行動(dòng)效用:
U(a2)=p(0)+(1-p)100=100-100p
U(a1)gt;U(a2) ,據(jù)此,因果決策理論認(rèn)為“拿走兩個(gè)盒子\"才是更優(yōu)選擇。
因此,證據(jù)決策理論與因果決策理論爭論的焦點(diǎn)就在于博弈人決策與“智能生物\"預(yù)測之間是否具有因果獨(dú)立性1,也就是“智能生物\"歷史上的預(yù)測準(zhǔn)確率能否作為博弈人現(xiàn)在決策的依據(jù)。因果決策理論認(rèn)為,歷史的預(yù)測數(shù)據(jù)即使對現(xiàn)實(shí)決策情境具有參考意義,也僅限于“參考”,在作出最后的博弈決策時(shí),依然只考慮因果關(guān)系。而對于處于T2時(shí)刻的博弈人,T1時(shí)刻發(fā)生的事情是無法改變的“沉沒成本”
退一步講,假如存在“不確定的世界狀態(tài)”,其時(shí)間是可逆的,“智能生物”可以通過穿越回去改變之前的選擇或者“在過去的時(shí)間點(diǎn)直接可以看到未來”,那么他預(yù)測的準(zhǔn)確率就為 100% 。此時(shí)“智能生物\"預(yù)測概率“分區(qū)\"如表四所示:

博弈人在 a1 和 a2 不同選擇下的行動(dòng)效用分別為:
U(a1)=1×1+0×101=1
U(a2)=0×0+1×100=100
U(a2)gt;U(a1) ,因此,此時(shí)應(yīng)該只拿走一個(gè)盒子。雖然表面上看上述結(jié)論與證據(jù)決策理論結(jié)論一致,但本質(zhì)上仍是“因果關(guān)系\"在發(fā)生作用,即a的未來行動(dòng)影響了S的過去狀態(tài);在該“因果關(guān)系\"被發(fā)現(xiàn)之前,只能以“證據(jù)”的形式表現(xiàn)出來。因此,所謂的“證據(jù)”或許只是尚未被發(fā)掘的“因果”,或是表面相關(guān)的“巧合”;而“因果”,也可能只是更復(fù)雜因果網(wǎng)絡(luò)鏈條的一個(gè)組成部分,而非完整的圖景或全部的真相。
在不考慮“時(shí)間逆轉(zhuǎn)”這一“不確定世界狀態(tài)\"的前提下,因果決策理論與證據(jù)決策理論得出了相反的結(jié)論,而與占優(yōu)原則指向了一致的行動(dòng)(拿走兩個(gè)盒子)。但相對而言,占優(yōu)原則是一種簡單的決策規(guī)則,它基于比較不同選擇在所有可能情況下的預(yù)期結(jié)果。這個(gè)原則只關(guān)注即時(shí)的、可量化的效益,通常不考慮決策行動(dòng)背后的因果關(guān)系或長期后果。相比之下,因果決策理論更深人地探討了決策過程中的因果關(guān)系,認(rèn)為決策者應(yīng)該選擇那些能夠通過因果關(guān)系帶來最佳預(yù)期結(jié)果的行動(dòng),包括對決策行動(dòng)如何影響未來事件的預(yù)測,以及對這些事件可能產(chǎn)生的結(jié)果的評估;并主張決策應(yīng)該基于行動(dòng)與其結(jié)果之間的直接因果聯(lián)系,而不是僅僅依賴統(tǒng)計(jì)相關(guān)性。因此,從某種程度上講,因果決策的理論依據(jù)和邏輯建構(gòu)比占優(yōu)原則更為精細(xì)和全面,這使得因果決策理論在應(yīng)對錯(cuò)綜復(fù)雜的決策情境時(shí)尤為有效,尤其是在決策的最終結(jié)果由多種變量交織影響的情況下,它能提供更為嚴(yán)謹(jǐn)和系統(tǒng)化的分析途徑。[6]
雖然因果決策理論的建議與經(jīng)典決策理論(效用最大化原則)的“一盒論\"觀點(diǎn)相反,但并不意味著因果決策理論從根本上與經(jīng)典決策理論形成對抗。事實(shí)上,上述因果決策推理路徑恰恰是在期望效用理論的基礎(chǔ)上的深化應(yīng)用與補(bǔ)充擴(kuò)展。那么,這是否意味著因果決策理論的“兩盒論”便是紐科姆難題的終極答案呢?
(三)“不假思索\"的直覺觀
一部分學(xué)者認(rèn)為,因果決策理論的結(jié)論與大多數(shù)人的“直覺”是背離的。論證過程如下:
前提1:我作選擇時(shí),常常不假思索。
前提2:“智能生物\"對我的預(yù)測極其準(zhǔn)確。
前提3:我“聽說\"存在兩種情形(而非親眼看到):如果“智能生物\"預(yù)測我只拿走盒子B2,他就在B2放100萬美元;如果“智能生物\"預(yù)測我會拿走兩個(gè)盒子,他就在B2放0美元。
結(jié)論:我不假思索便能作出“一個(gè)盒子相當(dāng)于100萬美元,兩個(gè)盒子相當(dāng)于1萬美元\"的判斷。因此,我應(yīng)當(dāng)選擇一個(gè)盒子。
“不假思索”的直覺論認(rèn)為,雖然因果決策理論“兩盒論\"推理過程更加嚴(yán)謹(jǐn)科學(xué),但是并不能徹底推翻“直覺\"論的觀點(diǎn)?!爸庇X”與理性并非完全割裂,它是一個(gè)哲學(xué)和心理學(xué)概念,用以描述人們在認(rèn)識事物或決策時(shí),超越純粹邏輯推理,依賴內(nèi)在感知或直接洞察力的一種能力。這種能力允許個(gè)體在沒有經(jīng)過詳細(xì)分析或有意識的推理的情況下,直接“感覺”到問題的答案或事物的本質(zhì)。而從心理學(xué)角度來看,“直覺\"也是一種快速、自動(dòng)的認(rèn)知過程,它基于個(gè)人的經(jīng)驗(yàn)、情感以及潛意識中的模式識別,更強(qiáng)調(diào)在某些情境下個(gè)體能夠迅速且準(zhǔn)確地作出判斷或決策,這種能力背后往往包含了深層的邏輯和經(jīng)驗(yàn)積累。
在此可以借助斯科姆斯(B.Skyrms)構(gòu)建的“紐科姆難題變體”7]反駁上述觀點(diǎn)。斯科姆斯對紐科姆難題作了修改:假設(shè)B1和B2是由玻璃制成的,但B2被黑色天鵝絨布覆蓋;由于決策者還沒有決定,預(yù)測者為他提供了第三種可能的行動(dòng),即他可以在決定之前看一下布的下面;盡管如此,預(yù)測者仍然非??煽俊D敲丛谶@個(gè)紐科姆難題的變體中,一個(gè)“不假思索\"的直覺論者會作出怎樣的判斷?
(1)假如他親眼“看到\"B2中有100萬美元,那么他會毫不猶豫地選擇兩個(gè)盒子,因?yàn)椤把垡姙閷?shí)”;相比只拿走100萬美元,拿走101萬美元顯然更具誘惑力。
(2)假如他看見B2中沒有錢,那么他更不會只拿走B2;因?yàn)槟米邇蓚€(gè)盒子至少可以獲得1萬美元。
因此,在這個(gè)紐科姆難題的變體中,一個(gè)“不假思索\"的直覺論者最終會選擇“兩個(gè)盒子”。其背后的邏輯在于,“親眼所見\"相較于“聽聞的信息”給人更強(qiáng)的信任感;基于“聽聞的信息”直覺判斷的依據(jù)主要是“智能生物過去的預(yù)測準(zhǔn)確無比\"的經(jīng)驗(yàn);而當(dāng)親眼見證盒內(nèi)內(nèi)容后,另一種過去的經(jīng)驗(yàn)占據(jù)了上風(fēng)一—現(xiàn)實(shí)的不可逆性。當(dāng)這兩種經(jīng)驗(yàn)出現(xiàn)矛盾時(shí),決策者就要依據(jù)“可信度”進(jìn)行取舍。這實(shí)際上彰顯了直覺在處理復(fù)雜情境時(shí)尋求最穩(wěn)定可靠的路徑的傾向,而可靠路徑的來源便是經(jīng)驗(yàn)。
為什么同樣的“不假思索”會根據(jù)不同的經(jīng)驗(yàn)作出不同的選擇呢?事實(shí)上前一種“不假思索的直覺\"來源于證據(jù)決策經(jīng)驗(yàn);后一種“不假思索的直覺”來源于因果決策經(jīng)驗(yàn),也就是所謂的“不假思索\"直覺。歸根結(jié)底,“不假思索的直覺”還是證據(jù)決策與因果決策理論之爭,決策者最終作何選擇,既取決于不同情境(耳聽的“傳聞\"還是眼見的“事實(shí)\"),也取決于個(gè)體的差異。
二、“智能生物\"視角下的紐科姆難題
鑒于因果決策、證據(jù)決策抑或直覺推理路徑未能提供一致或令人信服的方案,且都是從單向的“博弈人\"視角進(jìn)行的研究,不妨嘗試一種逆向解題思路。從“智能生物”視角出發(fā),與其考慮博弈人該選擇“一個(gè)盒子\"還是“兩個(gè)盒子”,不如先來探討一下“智能生物\"如何預(yù)測、是“放錢\"還是“不放錢”,通過將紐科姆難題由“單向\"的選擇困境向“雙向\"的互動(dòng)博弈轉(zhuǎn)化,從而為難題的消解尋找一條新的路徑。
(一)“智能生物\"效用類型
紐科姆難題的提出過程并未預(yù)設(shè)“智能生物\"的目標(biāo)及效用,只是將其作為一個(gè)客觀條件。要從“智能生物”視角思考紐科姆難題,就必須將“智能生物\"拉入與決策者的博弈中,首先就要明確“智能生物”的目標(biāo)或效用。根據(jù)紐科姆難題的定義,“智能生物”主要做出兩種行動(dòng):一是預(yù)測,二是放錢或不放錢。根據(jù)行為的結(jié)果可以推斷其可能存在兩個(gè)目標(biāo):一是盡可能準(zhǔn)確地預(yù)測,以維持自身聲譽(yù);二是盡可能少損失錢。根據(jù)這兩個(gè)目標(biāo)組合,可以得出四種類型的“智能生物”一“現(xiàn)實(shí)\"型、“理想\"型、“貪婪”型、“超脫\"型。如表五所示:

不管決策者選擇一個(gè)盒子還是兩個(gè)盒子,“現(xiàn)實(shí)型智能生物\"都不會往盒子B2里放錢,因?yàn)樗辉诤踝约旱念A(yù)測是否準(zhǔn)確,也不在乎預(yù)測失誤對自身聲譽(yù)的影響?!俺撔椭悄苌铩辈磺宄约旱哪繕?biāo)是什么,他是否往B2中放錢無從推測,決策者也就失去了博弈的可能性。而“貪婪型智能生物”既要維持自己預(yù)測準(zhǔn)確的聲譽(yù)又要盡可能地少損失錢,既要權(quán)衡決策者的選擇又要在聲譽(yù)與金錢之間取舍。其目標(biāo)收益“分區(qū)”如表六所示(“√\"表示預(yù)測正確,“ x ”表示預(yù)測錯(cuò)誤):

如果“智能生物\"認(rèn)為其“聲譽(yù)”價(jià)值小于“1萬美元”,那么此時(shí)它相當(dāng)于變成了“現(xiàn)實(shí)型智能生物”;如果它認(rèn)為“聲譽(yù)”價(jià)值大于100萬美元,那么又相當(dāng)于變成了“理想型智能生物”。因此,只有其聲譽(yù)價(jià)值介乎1萬美元和100萬美元之間才能充分與前兩種類型相區(qū)分,姑且將這種情形定義為“貪婪\"型。此時(shí),其目標(biāo)收益的排序則為: Πgt;IIgt;Ngt;I 。由于Ⅱ、Ⅲ均對應(yīng)S,IⅣ、I均對應(yīng) S2 ,也就是“不放錢始終優(yōu)于放錢”。因此,與“現(xiàn)實(shí)型智能生物”一樣,“不放錢到B2”成為“貪婪型智能生物\"的必然選擇。
綜上,“現(xiàn)實(shí)\"\"貪婪\"“超脫\"型“智能生物\"均不會造成紐科姆難題的選擇困境。那么,純粹為了自身聲譽(yù)而戰(zhàn)的“理想型智能生物”,最終會如何選擇?
(二)CDT、EDT\"世界模型\"的局限
“理想型智能生物”的“世界\"應(yīng)當(dāng)是怎樣的?紐科姆難題預(yù)設(shè)了兩個(gè)重要前提,一是“極其聰明的智能生物”幾乎總能準(zhǔn)確預(yù)測一個(gè)人的選擇,二是“他相信這個(gè)生物對他選擇的預(yù)測都是正確的”。第一個(gè)前提,“智能生物”總能準(zhǔn)確作出預(yù)測的原因無非兩個(gè),一是洞察力強(qiáng)、對決策者的心智研究非常透徹;二是“智能生物”具備超能力,可以逆轉(zhuǎn)過去或者看見未來。因果決策與證據(jù)決策產(chǎn)生分歧的根源,也是與占優(yōu)理論得出一致結(jié)論的關(guān)鍵,就在于默認(rèn)“時(shí)間不會逆轉(zhuǎn)、現(xiàn)實(shí)世界是確定的”。既然“理性人\"堅(jiān)信時(shí)間不可逆、現(xiàn)實(shí)世界是確定的,那么“拿走兩個(gè)盒子”是合乎邏輯的不二選擇。同樣,“智能生物”因?yàn)閷θ说男闹茄芯康猛笍匾膊粫凶覤2中放錢。最終,紐科姆難題實(shí)現(xiàn)了“雙贏\"結(jié)局,“智能生物\"維持了其預(yù)測準(zhǔn)確的“聲譽(yù)”,理性人也獲得了此種情形下的最大收益。這一論證看似合理,但忽略了紐科姆難題成立的第二個(gè)前提一“他相信這個(gè)生物對他選擇的預(yù)測都是正確的”。
“相信世界是確定的”與相信“智能生物預(yù)測的準(zhǔn)確性”是不相容的。如果預(yù)測者幾乎總是正確,那么選擇只拿封閉的盒子(即“單盒派\")似乎是理性的;而相信現(xiàn)實(shí)世界的確定性意味著選擇應(yīng)該基于當(dāng)前可確認(rèn)的信息,選擇兩個(gè)盒子(即“雙盒派\")則是基于確定性收益的邏輯,因?yàn)闊o論如何至少可以獲得透明盒子里的1萬美元。兩者的矛盾在于:如果你相信預(yù)測者的準(zhǔn)確性,那么你的選擇實(shí)際上會影響封閉盒子中的內(nèi)容,這意味著你的選擇不是獨(dú)立的,而是受預(yù)測者影響的;如果你相信現(xiàn)實(shí)世界的確定性,那么你的選擇應(yīng)該基于當(dāng)前已知的事實(shí),而不是對未來的預(yù)測。
因此,因果決策模型基于“現(xiàn)實(shí)世界的確定性\"得出的“兩盒論\"結(jié)論是有局限性的,并不完美。這并非因果決策模型本身存在問題,而是“因果鏈條”比較難以捉摸,你并不清楚當(dāng)前所發(fā)掘的因果鏈究竟是終極原因,還是表面現(xiàn)象或者巧合,抑或更復(fù)雜因果鏈條中的一個(gè)環(huán)節(jié)(而非完整圖景),背后真正的因果關(guān)系可能更加復(fù)雜和深刻。同理,證據(jù)決策視角完全不考慮“現(xiàn)實(shí)世界的確定性”,使得紐科姆難題成了一個(gè)純粹基于“虛擬世界”的思想實(shí)驗(yàn)。
(三)“理想型智能生物\"的\"混合世界\"模型
不排除“世界的不確定性”,“智能生物”的能力構(gòu)成可能有三種來源:長期觀察獲得的洞察力、可以“看見未來\"的預(yù)見力或者“逆轉(zhuǎn)時(shí)空”的超能力。無論哪種單一的能力都不是紐科姆難題真正的情境,它的能力更像是“不確定\"的綜合能力—有看見未來或者逆轉(zhuǎn)過去的“超能力”,但不知道什么時(shí)候可以發(fā)揮出來。此時(shí),博弈雙方的收益 (a,b) 分區(qū)可以表示如表七。
對“智能生物”而言,當(dāng)超能力失效時(shí),預(yù)測出錯(cuò)的情形為Ⅲ和V;而當(dāng)超能力成功發(fā)揮時(shí),之前錯(cuò)誤的預(yù)測會被糾正,雙方的收益隨之變?yōu)镮和VI。如果對每種情形分配相同的發(fā)生概率,那么不管博弈人選擇 a1 還是 a2 ,“智能生物\"預(yù)測的準(zhǔn)確率都是 75% ,尚達(dá)不到維持其“智能”聲譽(yù)的要求(預(yù)測準(zhǔn)確率接近1)。因此,“智能生物\"還是會試圖預(yù)測博弈人的選擇,設(shè)想假如博弈人面對上述8個(gè)區(qū)間時(shí)會如何抉擇。具體而言:

(1)最簡單直接的計(jì)算方式:
“博弈人\"會分配相同的概率給這8個(gè)區(qū)間, 然后分別計(jì)算 a1,a2 的收益
a1 :“拿走兩個(gè)盒子\"的收益是 (1+101+1+1)/ 4=26 ,
a2 :“拿走一個(gè)盒子”的收益是( 0+100+100+ 100)/4=75 ,
a2gt;a1 ,因此,選擇“一個(gè)盒子\"是明智的。
(2)概率計(jì)算方式:
博弈人一旦看到“智能生物\"存在“超能力”的可能性,便不會僅僅基于“現(xiàn)實(shí)世界\"的確定性進(jìn)行決策,而會將“智能生物預(yù)測的準(zhǔn)確率”作為決策因子。假設(shè)“智能生物預(yù)測的準(zhǔn)確率\"為p,雙方博弈情形的概率分布如表八所示:

博弈人拿走“兩個(gè)盒子\"或“一個(gè)盒子\"的收益可表示為:
V(a1)=p(1)+(1-p)(101)=101-100p
V(a2)=(1-p)0+p100=100p
當(dāng) p?0.5005 時(shí), V(a2)?V(a1) 。因此,博弈人選擇“一個(gè)盒子\"的必要條件是 pgt;0.5005 。根據(jù)紐科姆難題的定義,這一條件幾乎就是預(yù)先設(shè)定的,只有當(dāng)封閉盒子里的金額越來越大,對“智能生物\"預(yù)測準(zhǔn)確率的要求才會越來越高。(因此,對“智能生物”而言,不是要考慮“放錢\"還是“不放錢”的問題,而是要考慮如何才能讓博弈人看到其超能力存在的可能性,進(jìn)而將預(yù)測準(zhǔn)確率納入“決策情境”,最終實(shí)現(xiàn)“一個(gè)盒子\"的共贏選擇,如表九。
博弈人的“現(xiàn)實(shí)世界\"情境只會是Ⅲ、IV、V、VI這4個(gè)區(qū)間,“智能生物\"的“虛擬世界\"情境只會是I、ⅡI、VII、VⅢ這4個(gè)區(qū)間。只有“既不排除超能力存在的可能性又允許其發(fā)揮失常\"的“混合世界\"情境,才會是I、II、Ⅲ、IV、V、VI、VII、VⅢ這8個(gè)區(qū)間,這種“混合世界\"情境才是紐科姆難題的真正決策情境。這一情境下,“智能生物”與博弈人之間的\"力量不對等”博弈,反映了現(xiàn)實(shí)中強(qiáng)弱對抗的普遍情形。因此,紐科姆難題的解決對經(jīng)濟(jì)、政治、軍事等多個(gè)領(lǐng)域的決策具有重要的現(xiàn)實(shí)指導(dǎo)意義。
三、紐科姆難題的邏輯重構(gòu)
對博弈人而言,上述的\"混合世界\"情境是一個(gè)認(rèn)知盲點(diǎn)。關(guān)于“盲點(diǎn)\"的含義,最早是由羅伊·索恩森(R.A.Sorensen)提出的:對某人 X 而言,要合理地相信命題 P 是不可能的,而此時(shí) P 可能為真,那么命題 P 對 X 而言就是“信念盲點(diǎn)”。[8]索恩森基于“認(rèn)知盲點(diǎn)”概念開發(fā)了一種新型悖論解決方案一認(rèn)知盲點(diǎn)理論,并經(jīng)過羅伯特·孔斯(R.C.Koons)等人的改進(jìn)逐步趨于完善。[9]因此,可以將該理論運(yùn)用于紐科姆難題的消解。

首先要將紐科姆難題塑造為一個(gè)嚴(yán)格的邏輯悖論。一個(gè)真正嚴(yán)格的邏輯悖論,必須滿足三個(gè)條件:公認(rèn)正確的背景知識、經(jīng)過嚴(yán)密無誤的邏輯推導(dǎo)、建立矛盾等價(jià)式。[0根據(jù)上述對紐科姆難題的分析,這個(gè)“公認(rèn)正確的背景知識\"便是對“混合世界\"模型的信念。
令 jIp 表示:博弈雙方 i (\"智能生物\"或博弈人對命題 p 的信念。令 K 表示主觀命題:當(dāng)前所處的世界是不排除“超能力\"存在的“混合世界”只有堅(jiān)信 K 命題為真,博弈人才會在8個(gè)區(qū)間中進(jìn)行選擇,進(jìn)而將“智能生物\"預(yù)測的準(zhǔn)確率納入決策范疇,最終得出“選擇一個(gè)盒子\"的最優(yōu)方案;“智能生物”也才會據(jù)此做出“放錢\"到盒子里的行動(dòng)。因此,“堅(jiān)信 K 命題為真\"是“一盒論\"結(jié)果對“智能生物”及博弈人的共同要求。
令博弈人為A,“智能生物\"為B。當(dāng)博弈人A相信 K 并且選擇了“一個(gè)盒子\"時(shí),B如何選擇,不僅取決于B是否相信 K ,還取決于對A的信念。假如B不相信 K(?JbK) ,或者B不認(rèn)為A相信 K(?JbJaK) ,他就無法確定A會將“智能生物B預(yù)測的準(zhǔn)確率”納入決策范疇而選擇一個(gè)盒子,仍然會認(rèn)為A會基于“現(xiàn)實(shí)世界\"情境選擇兩個(gè)盒子,最終不會放錢到封閉盒子中。因此,如果B不相信 K ,或者B不認(rèn)為A相信 K,K 為假,即
。相反,如果B認(rèn)為A相信 K(JbJaK) ,并且自身也堅(jiān)信 K(JbK) ,那么“智能生物\"就會與博弈人一樣,只在\"混合世界”情境下作決策,最終共同選擇“一個(gè)盒子”。因此,如果B相信 K ,并且B也認(rèn)為A相信 K ,則 K 為真,即JbK∧JbJaK→K。由此可以得到等值條件命題: JbK∧JbJaKK. 。同理,也可以得到等值條件命題: JaK∧JaJbK?K? 由此,通過引入 K 命題,從博弈雙方關(guān)于對方信念假設(shè)的角度將對紐科姆難題的分析轉(zhuǎn)化成了一個(gè)真正的狹義邏輯悖論。孔斯在說謊者悖論研究中提出了一個(gè)新穎的解決方案,他構(gòu)造了一種算法為語句殊型或所謂的“指針\"(pointers)之網(wǎng)進(jìn)行賦值,從而為紐科姆難題的消解提供了可能。
四、結(jié)語
學(xué)界對紐科姆難題的探討歷經(jīng)兩個(gè)階段,從“效用最大化\"原則與“占優(yōu)\"策略的沖突,到EDT與CDT理論的對立,無一例外都是從單一的“博弈人\"角度去尋求最優(yōu)解決方案。從“智能生物”視角出發(fā),通過對“智能生物”目標(biāo)效用類型的分析,可以將紐科姆難題從“單向\"的選擇困境轉(zhuǎn)變?yōu)椤半p向\"的強(qiáng)弱博弈。通過對“智能生物\"能力結(jié)構(gòu)的分析發(fā)現(xiàn),紐科姆難題的真實(shí)環(huán)境既不是EDT下的“純粹虛擬\"世界,也不是CDT下的“完全現(xiàn)實(shí)”世界,而是一個(gè)既不排除“智能生物\"超能力存在可能性,也不否定其可能無效的“混合世界”。紐科姆難題消解的關(guān)鍵在于,“智能生物”與博弈人都知道所處的情境是“混合世界\"情境,并且也都知道對方知道這一情境,同時(shí)還知道對方也知道自己知道這一情境通過認(rèn)知的層層推進(jìn),最終消除盲點(diǎn)實(shí)現(xiàn)共贏。
紐科姆難題的重構(gòu)及逆向思考為我們提供了關(guān)于強(qiáng)弱博弈的重要啟發(fā)?!爸悄苌铩贝砹藦?qiáng)勢一方,博弈人代表了弱勢一方,“混合世界”情境代表了強(qiáng)勢一方能力的“不可知\"以及弱勢一方認(rèn)知的“不確定”。對弱勢一方而言,構(gòu)建博弈的“情境\"比單純作出正確選擇更為關(guān)鍵。唯有深入理解強(qiáng)勢一方的動(dòng)機(jī)、能力和預(yù)期目標(biāo),才能彌補(bǔ)信息的不對稱。通過重塑“情境”,將強(qiáng)勢一方引入更高維度的競爭環(huán)境,才能將單方面的被動(dòng)決策轉(zhuǎn)變?yōu)槠降鹊碾p向博弈,從而重新評估原本失衡的力量對比。一旦博弈成為可能,信任便成為合作的核心要素,強(qiáng)勢一方需要建立一種機(jī)制,以使博弈參與者確信其“自我實(shí)現(xiàn)\"(即博弈者收益及實(shí)驗(yàn)成功率的最大化)的預(yù)言。正如“時(shí)間的可逆性”是紐科姆難題的核心紐帶,“重復(fù)博弈”則是強(qiáng)勢與弱勢雙方實(shí)現(xiàn)共贏的關(guān)鍵。通過重復(fù)博弈,強(qiáng)勢一方能夠依據(jù)參與者的行為反饋動(dòng)態(tài)調(diào)整并更新其預(yù)測模型;同時(shí),弱勢一方也有機(jī)會逐步提高自身地位,經(jīng)過雙方多輪的博弈互動(dòng),雙方因此建立起長期的信任與合作關(guān)系。
紐科姆難題促使我們重新審視因果決策與證據(jù)決策之間的關(guān)系:“證據(jù)”可能只是尚未揭示的“因果”關(guān)系,或者是表面上看似相關(guān)但實(shí)際上獨(dú)立的“巧合”;而“因果\"本身也可能只是更大因果網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),并非完整的圖景或全部的真相。在紐科姆難題中,因果決策理論忽視了“智能生物”的預(yù)測能力和世界本身的不確定性,實(shí)際上等于將“智能生物”的“理性”降低到了博弈參與者的水平,從而將問題簡化為類似“囚徒困境\"的情景。相反,證據(jù)決策理論基于對虛擬世界不確定性的認(rèn)識,完全信賴“智能生物\"預(yù)測的準(zhǔn)確性,這在某種程度上又是一種“決定論”的觀點(diǎn)。紐科姆難題不僅僅是一個(gè)關(guān)于選擇的問題,更是對信念和邏輯一致性的探討。它提醒我們,在面對“不確定性”—強(qiáng)弱博弈最為真實(shí)的體現(xiàn),或在遭遇復(fù)雜、未知乃至超自然的情境時(shí),需要超越簡單的二元對立思維,發(fā)展出更為靈活和適應(yīng)性強(qiáng)的決策策略,以便更好地應(yīng)對現(xiàn)實(shí)世界中的各種挑戰(zhàn)。
注釋:
(1)“因果獨(dú)立性\"是一個(gè)概率論概念,它描述了兩個(gè)事件或變量之間不存在因果關(guān)系的狀態(tài)。具體來說,如果兩個(gè)變量X和Y是因果獨(dú)立的,那么知道X的信息并不會改變我們對Y發(fā)生的概率的信念,反之亦然?!耙蚬?dú)立性\"可用數(shù)學(xué)語言表達(dá)為: .P(Y|X)=P(Y) 。這里,P(YIX)表示在已知X發(fā)生的條件下Y發(fā)生的概率,而P(Y)是Y發(fā)生的無條件概率。當(dāng)這兩者相等時(shí),說明Y的概率不受X的影響,二者獨(dú)立。因果獨(dú)立性與統(tǒng)計(jì)獨(dú)立性有所不同,統(tǒng)計(jì)獨(dú)立性僅指兩個(gè)變量的聯(lián)合分布可以由各自的邊緣分布得到,即P (X,Y)=P (X)P(Y)。統(tǒng)計(jì)獨(dú)立不一定意味著因果無關(guān),因?yàn)?/p>
還可能存在未觀察到的潛在變量的影響,使得在觀測上呈現(xiàn)統(tǒng)計(jì)獨(dú)立性,但實(shí)際上存在因果關(guān)系。(2)當(dāng)封閉盒子中放置的是10萬美元時(shí), p=0.55 ;是50萬美元時(shí), p=0.75 ;是100萬美元時(shí), p=1 。
參考文獻(xiàn):
[1]Nozick R.Newcomb's Problem and Two Principles ofChoice [C]//N.Rescher,D.Davidson,and C.G. Hempel,eds.Essays in Honor of Carl G.Hempel. Dordrecht:D.Reidel,1969:114-146.
[2]Bar-Hillel M.,MargalitA.Newcomb’s Paradox Revisited[J].British Journal for the Philosophy of Science,1972(23):295-304.
[3][美]羅伯特·諾齊克.合理性的本質(zhì)[M].葛四友, 陳昉,譯.上海:上海譯文出版社,2016:71-75.
[4]Sobel J.H.Partition Theoremsfor Causal Decision Theories[J].Philosophy of Science,1989(56):71-93.
[5]Savage L.J.The Foundations of Statistics[M].Wiley,NewYork:Dover,1972:120.
[6]李莉,李子毅.因果決策理論視野下的紐科姆難題 [J].湖南科技大學(xué)學(xué)報(bào)(社會科學(xué)版),2023(6): 39-43.
[7]SkyrmsB.Pragmaticsand Empiricism[M].Yale: YaleUniversityPress,1984:155.
[8]Sorensen R.A.Uncaused Decisions and Pre-decisionalBlindspots[J].Philosophical Studies,1984 (1):51-56.
[9]Robert C.Koons.Paradoxes of Belief and Strategic Rationality [M].Cambridge:CambridgeUniversity Press,1991:39.
[10]張建軍.邏輯悖論研究引論[M].南京:南京大學(xué) 出版社,2002:8.
(責(zé)任編輯 吳勇)