通用智能框架下的紐康姆難題

2019-09-27 08:56:18李熙

邏輯學研究 2019年4期

李熙

對于一個理性的主體來說，如果已知每個行為可能帶來的后果，他會選擇能夠帶來最大期望效用的行為。但如何精確地刻畫并計算期望效用卻是一個難題，尤其在涉及不確定情境下的決策時，對于如何用概率刻畫可能后果的不確定性，并不是一件平凡的事。證據決策論與因果決策論是兩種比較主流的決策理論，在分析紐康姆難題時，通常認為，證據決策論采用期望效用最大化進行決策，因果決策論采用“占優原則”進行決策，事實上，通過合適的概率計算，“占優原則”可以看作特殊的期望效用最大化，也就是說，兩種決策論都通過期望效用最大化進行決策，但二者對于“期望”的計算方式不一樣。比如在紐康姆難題中，證據決策論（[4]）與因果決策論（[5]）導出了兩種完全不同的行為方式。

紐康姆難題最初由物理學家紐康姆提出、由哲學家諾齊克（R.Nozick）發表（[8]），它指如下這種謎題：

一個女巫向你展示了兩個箱子a和x，其中a透明x不透明。透明箱子a中有很少的錢（L元），不透明箱子x中可能有很多錢（B元，B?L），也可能什么都沒有，你可以兩個箱子都拿走也可以只拿不透明的箱子x。

女巫聲稱她可以提前預測你的行為，如果她預測到你會兩個箱子都拿，她就讓x空著，如果她預測到你只拿x，她就會放很多錢（B元）在里面。你們已經玩了好多回合了，女巫每次都猜對。下一次你該怎么選？1在原始的紐康姆難題（[8]）設定中，你看到女巫跟很多人玩，她幾乎從來沒輸過?，F在輪到你了，你該如何選擇？本文對此做了微小的改動。之所以稱其為紐康姆“難題”，是因為，根據主流的決策理論，比如證據決策理論，你最好只拿一個箱子；而根據因果決策理論，兩個箱子都拿是一種“占優”策略。這在一定程度上非常反直觀，所以雖然不構成一個悖論，卻是一個難題。雖然本文對游戲設定略有修改，但這種反直觀的情形依然存在。關于紐康姆難題更細致的哲學分析可以參看張建軍（[15]）。

這個難題涉及到因果決定論與自由意志這一宏大哲學主題，所以倍受哲學家關注。除了因果決策論和證據決策論，為了解決這個難題，甚至產生了幾個專門的決策理論。比如連貫決策論（[1]），無時間決策論（[14]），無更新決策論（[10]），量子決策論（[3]）等等。從結果來看，這些決策理論要么支持選擇一個箱子，要么支持選擇兩個箱子。但還有另外一種消解難題的方式，那就是徹底否定這個游戲本身的合理性，認為這不是一個嚴格定義的博弈框架，不同的解讀可以導出不同的博弈，比如[13]。

一般認為，證據決策論采用經典的條件概率，因果決策論采用反事實條件概率，其他形形色色的決策理論也基本是在設計各種“條件概率”。采用“消解”方案的人一般認為，經典的條件概率理論已足夠，對游戲的不同解讀方式對應不同的條件概率計算方式。本文也認為，發展一套專門的反事實條件概率或其他形式的條件概率的理論是不必要的，本文將從胡特爾（M.Hutter）的通用智能模型AIXI2關于AIXI的詳細知識請參考[2]和[6]，其中涉及到的關于柯爾莫哥洛夫復雜性的知識請參考[7]，博弈論的知識請參考[9]。入手，認為在紐康姆難題中，關鍵在于如何用概率論刻畫未知的“因果性”，從算法概率的角度看，關鍵在于，環境類/假設空間如何設定。

1 通用智能模型AIXI簡介

記號.字母表X上的有窮序列記為X?，無窮序列記為X∞，記X#:=X?∪X∞，空序列記為?。有窮序列x∈X?的長度記為|x|，Xt:={x∈X?:|x|=t},X≤t:=長度為n的序列x1x2...xn簡記為x1:n，類似的，xt:n:=xtxt+1...xn?1xn，x

字母表X上的全序<可以誘導出有窮字符串X?上的準字典序，

艾佛森括號

記?(X)為X上的概率分布的集合。

在強化學習框架中，主體與環境不斷交互，在第k個回合，主體向環境采取動作ak∈A，環境反饋給主體一個觀察xk∈X，主體感知到xk的同時體驗到效用u(ax1:k)，然后進入第k+1個回合，如此循環往復。形成的交互歷史是(A×X)?的一個元素。一個策略是一個函數π:(A×X)?→?(A)，它映射一個歷史ax

一般默認用μ作為真實環境，如果真實環境μ已知，那么一個理性的主體會采取某個能使其獲得最大的期望效用的“最優”策略

其中策略μ在環境μ中的期望效用為，

其中u:(A×X)?→[0,1]是效用函數，γ是貼現函數，滿足為貼現歸一化因子。

假設M:={ν1,ν2...}是下半可計算的環境集。其中對每個環境ν∈M，主體都有一個相信其為真實環境的先驗信念w(ν)，即w∈?(M)，那么對所有可能環境的貝葉斯混合就是

所以，可以不區分確定性環境還是不確定性環境，而追求最大化。AIXI可以看作在各種可能的環境中以算法概率追求期望效用最大化的主體。

2 AIXI與紐康姆難題

紐康姆難題的原始版本中，主體對于女巫勝率的估計是題目直接給定或基于頻率的。雖然紐康姆難題涉及因果性的話題，但對于概率本身的理論基礎卻不做討論。事實上，紐康姆難題的關鍵是因果性，或主體做決策時眼中的主觀因果性，對這個因果性的刻畫恰恰應該被囊括在主體對于女巫勝率的主觀信念之中，體現為某種主觀概率。而在AIXI的框架中，AIXI是以所羅門諾夫先驗概率作為評估各種可能性的初始信念，用貝葉斯混合或與其等價的算法概率為基礎進行決策，因果性體現為可計算函數或可計算概率分布。下面對比證據決策論和因果決策論分析AIXI在紐康姆難題上的表現。

根據證據決策論，行為a帶來的期望效用為

而根據因果決策論，行為a帶來的期望效用為

二者的差別僅在于，證據決策論采用條件概率P[x|a]，而因果決策論采用反事實條件概率P[a>x]。在紐康姆難題中，條件概率與反事實條件概率并不相等。但不管條件概率還是反事實條件概率，背后起作用的都是因果性。

如果你相信女巫的說辭，那么你就會相信女巫是通過某種你不知道的策略進行預測然后據此決定放不放錢

根據AIXI的框架，你的博弈環境可以看作

你在博弈環境P中的期望效用為

在紐康姆博弈中，主體把每一局都當做最后一局來玩，不考慮未來的情況，所以雖然不考慮未來可能繼續的博弈，但計算概率時，整個的過去歷史在起作用，主體所能依賴的也只有過去歷史。

因為無法判斷a（選擇箱子）和x（放錢）的先后順序，所以根據時間順序誰先誰后有兩種分解方式，一種我們稱它為“證據/因果”的分解方式，另一種稱它為“自由意志”的分解方式。3根據我們的分解方式，一種情況下可以討論女巫的行為多大程度上影響主體選擇箱子的動作，這跟主體的自由意志相關，所以我們稱這種分解方式為“自由意志”分解。另一種情況下可以討論選擇箱子的動作是否可能影響女巫的行為，而這種情況下又可以分別討論證據決策者和因果決策者的不同選擇，所以我們稱這種分解方式為“證據/因果”分解。

按“自由意志”的分解方式，

自認為擁有自由意志的人會認為自己的行為完全獨立于女巫的行為P[at|h

也就是說，不管女巫放沒放錢，她的行為的結果都是已經確定無法更改的了，所以自己兩個箱子都拿可以多賺L，是一種“占優”策略。

而相信自己不完全擁有自由意志、自己的行為部分受女巫的控制的人會認為這時，選擇一個箱子還是兩個箱子就取決于女巫的預測行為和自己擁有多少自由意志。比如，假如你認為自己沒有任何自由意志，這意味著你的行為將完全被女巫決定那么，

替換P進行估測，其中q?h指程序q輸出歷史h。雖然放錢xt發生在選擇箱子at之前，但AIXI在做出選擇之前完全看不到箱子里是否放了錢xt，所以他只會根據他已有的經驗h

按照“證據/因果”的分解方式，可區分證據決策與因果決策兩種決策方式，

對于因果決策者來說，他相信自己的選擇行為發生在女巫的預測行為之后，所以對女巫的預測沒有影響，所以，

所以，

所以，雖然對放錢x和選擇箱子a的“時序”的理解與自由意志的情形完全相反，但結果跟完全相信自由意志的情況一樣，都認為拿兩個箱子是“占優”策略，可以多賺L，必須兩個箱子都拿，

而對于證據決策者來說，他不確信自己的行為是否影響女巫的預測，所以會認為，

所以，是否只拿一個箱子取決于二者相差多少，

因此，因果決策與證據決策的區別就在于對條件概率P[x|ha]的賦予方式不同；而對于AIXI來說，他會用算法概率M來逼近P(xt|h

3 小結與討論

紐康姆難題是一個有哲學韻味的決策難題。面對紐康姆難題，主流的決策理論出現了分歧，采用期望效用最大化原則和占優原則分別會導向兩種不同的選擇。證據決策論者會拿一個箱子，因果決策論者會拿兩個箱子。拿一個箱子的一般是宿命決定論者，拿兩個箱子的一般是自由意志論者。一般來說，證據決策論采用經典的條件概率，因果決策論采用反事實條件概率。本文認為，解決紐康姆難題的關鍵在于，如何用概率方法刻畫其中隱藏的因果性。如果用經典概率論可以刻畫出其中的因果性，那么發展一套專門的反事實條件概率或其他形式的條件概率的理論是不必要的。本文通過對聯合概率進行的“證據/因果”和“自由意志”兩種不同的分解方式，說明不同的分解方式組合，會產生不同的期望效用。占優原則可以看作一種極端的期望效用最大化原則。所以，決策理論的基礎——追求效用最大化并不與占優原則沖突。問題是——如何計算期望效用。本文主要從胡特爾的通用智能模型AIXI出發，從AIXI與女巫博弈的視角分析紐康姆悖論。AIXI采用算法概率計算期望效用，因為算法概率可以用來處理序列預測問題，而序列預測在一定程度上是對因果性的反映。而從算法概率的角度看，計算概率的關鍵在于，環境類/假設空間如何設定。借助通用智能模型AIXI，我們可以清楚地看出，基于什么樣的環境類/假設空間，主體會采取什么樣的選擇。當環境類/假設空間足夠大到包含類似于“自己的行為可能會影響女巫的決策”的可能假設時，主體都會傾向于選擇一個箱子。

另外，如果AIXI的源代碼和內存可以被修改，而且它自己也知道可以被修改（即，假設空間中包含自己的源代碼和內存可以被修改的環境），那么，這就類似于主體不具有完全的自由意志的情形，也會傾向于只選擇一個箱子。

如果AIXI意識到自己是完全內嵌于真實環境之中的，自己對真實環境的理解只是一種虛擬建模，主體完全是環境的一部分，環境可以修改主體的任何部分，環境執行主體的代碼，主體所能做的頂多是在模擬環境的時候能夠同時模擬主體在模擬環境中的表現。這種完全內嵌于環境的主體跟內存和源代碼可以被修改的主體類似，都會考慮到自己不完全具有自由意志，都可能傾向于選擇一個箱子。

雖然AIXI的“算法概率”對于估測“女巫”的預測行為有著重要作用，但是，在AIXI的框架中，盡管信息是不完全的，但時序關系是嚴格確定的，所以“主體”與“環境”的博弈可以看作“可觀察行為的貝葉斯擴展博弈”。但在紐康姆難題中，對于“女巫”的預測行為“主體”無法觀察到，所以無法確定自己的“選擇”行為是否會影響“女巫”的“預測”、或“女巫”的“預測”是否會影響自己的“選擇”。從AIXI的角度看，這就要慎重對待“女巫”給出的先驗信息。因果決策者相當于把“女巫”的說辭理解為“自己的行為與女巫的行為完全獨立”，所以，凡是模型類中自己的行為與女巫的行為不獨立的所有假設都提前剔除了。而證據決策者只重視博弈的交互過程本身，不會把“女巫”的說辭作為先驗信息從而據此提前對假設空間做那么大的刪減。因此，二者的差別源于對“游戲設定”本身的理解不同。如何“合理地”對待游戲設定本身的不確定性已經超出了算法概率所能處理的不確定性的范疇，因為算法概率僅僅以“簡單性”為先驗，而不會考慮“游戲設定”給出的先驗信息。

另外，一個有意思的問題是，假如跟你博弈的不是女巫而是AIXI，而且你知道跟你博弈的是AIXI，并且你知道自己是某個可計算的策略，那么，你會選一個箱子還是兩個箱子？因為AIXI能夠逼近任何可計算的策略，而且逼近的誤差大小與可計算策略的柯爾莫哥洛夫復雜度相當，根據胡特爾（[2]），

這意味著，AIXI可以近似正確地預測你的選擇。所以，這種情況下最好永遠只拿一個箱子。