?
因果強度推理的貝葉斯模型綜述*
劉雁伶1,黃仁輝2,胡竹菁3
(1.江西科技師范大學教育學院,南昌 330013;2.宜春學院心理教育中心,宜春 336000;
3.江西師范大學心理學院,江西省心理與認知科學重點實驗室,南昌 330022)
摘要:因果強度推理的貝葉斯模型以因果協(xié)變關(guān)系、貝葉斯定理和因果圖形模型為基礎(chǔ),借助蒙特卡洛算法實現(xiàn)模型對被試因果強度估計的預(yù)測。通過選用不同的先驗分布、似然函數(shù)、蒙特卡洛取樣方法和基于后驗分布的預(yù)測方法,因果強度推理的貝葉斯模型可以精確預(yù)測很多以往模型不能解釋的實驗結(jié)果,并對被試的推理過程提出有價值的見解,還可推廣到對因果結(jié)構(gòu)判斷的預(yù)測和對多原因(結(jié)果)交互作用的解釋;但需要在如何選擇先驗分布和似然函數(shù)、解釋被試如何表征與作答、擴大單個模型解釋范圍和簡化計算等方面繼續(xù)完善。
關(guān)鍵詞:因果強度推理;貝葉斯模型;先驗分布;綜述
因果推理的貝葉斯模型是認知計算心理物理學方法在因果推理領(lǐng)域的實踐(Lu,Yuille,Liljeholm,Cheng,& Holyoak,2008),是貝葉斯推斷統(tǒng)計與因果推理理論相結(jié)合獲得的先進的研究成果。貝葉斯推斷統(tǒng)計是與經(jīng)典推斷統(tǒng)計同時誕生但直到近100年才逐步發(fā)展起來的推斷統(tǒng)計方法,它與經(jīng)典推斷統(tǒng)計最重要的區(qū)別就在于經(jīng)典推斷統(tǒng)計將總體參數(shù)視為一個未知的常數(shù),使用樣本統(tǒng)計量去估計它,而貝葉斯推斷統(tǒng)計將總體參數(shù)視為隨機變量,使用先驗分布來約束它(韋來生,2008)。正是先驗分布的使用使得貝葉斯推斷統(tǒng)計可以在少數(shù)幾個觀測值的基礎(chǔ)上得出合理有效的結(jié)論,而不必像經(jīng)典推斷統(tǒng)計那樣必須以大量的觀測數(shù)據(jù)為基礎(chǔ)。因果推理往往就是必須在少數(shù)幾個觀測值的基礎(chǔ)上得出有效結(jié)論的認知過程,因果推理的貝葉斯模型通過引入合適的先驗分布實現(xiàn)了在少數(shù)幾個觀測值基礎(chǔ)上的歸納和概括(Griffiths,Kemp,& Tenenbaum,2008),并在因果強度估計和結(jié)構(gòu)判斷(Lu et al.,2008;Griffiths & Tenenbaum,2005;Chater,Tenenbaum,& Yuille,2006)、動態(tài)因果關(guān)系學習(Danks,Griffiths,& Tenenbaum,2003)、干預(yù)在因果學習中的作用(Steyvers,Tenenbaum,Wagenmakers,& Blum,2003)等方面取得了突破性的進展。因果推理研究中的結(jié)構(gòu)判斷是指被試必須做出判斷:所考察的原因是否影響效果出現(xiàn)的概率?強度估計指在確定了因果關(guān)系的結(jié)構(gòu)之后對所考察原因的效力的估計,本文就因果強度推理研究領(lǐng)域的貝葉斯模型做一簡介。
首先介紹因果強度推理的貝葉斯模型的理論基礎(chǔ),包括因果協(xié)變關(guān)系、貝葉斯定理、因果圖形模型和蒙特卡洛方法四個方面,其中的協(xié)變關(guān)系是被試推斷因果關(guān)系的依據(jù),貝葉斯定理是貝葉斯推斷統(tǒng)計方法的根本原理,因果圖形模型是建立因果推理貝葉斯模型的前提假設(shè),蒙特卡洛方法是貝葉斯模型模擬被試表現(xiàn)時必備的計算工具;其次介紹因果強度推理領(lǐng)域涉及的先驗分布和似然函數(shù),先驗分布描寫了被試已具備的關(guān)于因果推理的背景知識,似然函數(shù)表示給定條件下得到觀測數(shù)據(jù)的概率,先驗分布和似然函數(shù)結(jié)合得到后驗分布,被試的因果推斷就是基于后驗分布;再次介紹由這些先驗分布和似然函數(shù)構(gòu)建的貝葉斯模型及其預(yù)測方法,最后對貝葉斯模型的優(yōu)勢、局限和今后的研究方向做一展望。
1理論基礎(chǔ)
1.1協(xié)變關(guān)系
Hume(1777/2007)認為因果關(guān)系不能直接觀察獲得,但可以通過目標原因和結(jié)果之間的協(xié)變關(guān)系(見表1)推斷出來。這一觀點一直影響著因果推理領(lǐng)域的研究,現(xiàn)有的絕大多數(shù)因果推理模型都是基于使用協(xié)變關(guān)系來探討因果推理規(guī)律的研究成果建立的。

表1 目標原因(C)與效果(E)之間的協(xié)變關(guān)系
在上述協(xié)變關(guān)系中,大寫字母C表示目標原因,大寫字母E表示效果,小寫字母a、b、c、d分別表示目標原因出現(xiàn)時效果出現(xiàn)、目標原因出現(xiàn)時效果不出現(xiàn)、目標原因不出現(xiàn)時效果出現(xiàn)、目標原因不出現(xiàn)時效果不出現(xiàn)的頻數(shù),目標原因不出現(xiàn)時導致效果出現(xiàn)的原因被統(tǒng)稱為背景原因(一般用大寫字母B表示)。
1.2貝葉斯定理
貝葉斯模型使用貝葉斯推斷統(tǒng)計方法解釋和預(yù)測人類和動物被試的認知過程。貝葉斯推斷統(tǒng)計的核心概念是貝葉斯定理,貝葉斯定理是關(guān)于條件概率的逆概率規(guī)則(陳希孺,1999),用公式表示為:
(1)
式(1)顯示如何從給定H時D出現(xiàn)的條件概率得到給定D時H出現(xiàn)的條件概率。其中的P(H)指H出現(xiàn)的概率,當P(H)是一個常量時被稱為先驗概率,當它是一個變量時被稱為先驗分布;P(D|H)指給定H時D出現(xiàn)的概率,當P(D|H)是一個常量時被稱為可能性,當它是一個變量時被稱為似然函數(shù);P(H|D)指D出現(xiàn)時H出現(xiàn)的概率,當P(H|D)是一個常量時被稱為后驗概率,當它是一個變量時被稱為后驗分布。貝葉斯定理可以簡單地表述為后驗概率(分布)與先驗概率(分布)和可能性(似然函數(shù))的乘積成正比。不同的先驗分布和似然函數(shù)可以組合建構(gòu)出不同的貝葉斯模型。
1.3因果圖形模型
圖形模型提供了有效的方法表征先驗分布和似然函數(shù)之積的多維聯(lián)合概率分布(Pearl,2000)。因果圖形模型建立在有向模型的基礎(chǔ)上,以圖1所示最簡單的因果情境為例:因果圖形模型認為背景原因(B)、目標原因(C)和效果(E)三者之間存在以下兩種有向圖表示的關(guān)系:
圖1中的圓是一個節(jié)點,表示由不同分布函數(shù)定義的不同變量,箭頭表示變量之間的概率相關(guān)性,有向圖0表示背景原因可以影響效果出現(xiàn),有向圖1表示背景原因和目標原因都可以影響效果出現(xiàn);w0表示背景原因的效力,w1表示目標原因的效力,都在[0,1]之內(nèi)取值。背景原因被假設(shè)為一直存在并導致效果,目標原因?qū)πЧ挠绊懹腥N方式,包括產(chǎn)生式:目標原因的出現(xiàn)增加了效果出現(xiàn)的概率;預(yù)防式:目標原因的出現(xiàn)減少了效果出現(xiàn)的概率;無關(guān)式:目標原因的出現(xiàn)對效果出現(xiàn)的概率沒有影響;產(chǎn)生式、預(yù)防式和無關(guān)式統(tǒng)稱為因果方向。因果圖形模型不但能表征變量(如B、C、E)的概率分布,還可以表征干預(yù)(如保持B不變,增加原因C1、C2)導致的原因交互的聯(lián)合概率和效果概率分布的變化。

圖1 圖形模型的兩個有向圖
1.4蒙特卡洛方法
在使用貝葉斯公式時,沒有合適的方法精確計算先驗分布和似然函數(shù)的多維聯(lián)合概率分布,蒙特卡洛方法是解決這個問題的一個近似算法。蒙特卡洛方法指從一個分布中獲得一系列取樣,并用這些取樣來表征該分布的方法(韋來生,2008)。在近似計算多維函數(shù)的積分時,蒙特卡洛方法從自變量的所有可能取值中取樣,并用這些取樣計算多維函數(shù)的函數(shù)值,用獲得的函數(shù)值的平均數(shù)估計多維函數(shù)的平均數(shù),當取樣數(shù)量增加時,估計準確度也增加。
蒙特卡洛方法的一個缺陷是很難做到自動產(chǎn)生合理的取樣,解決這個問題的最常使用的方法是馬爾科夫鏈蒙特卡洛方法。馬爾科夫鏈指一個具有馬爾科夫性質(zhì)的隨機變量取值過程,馬爾科夫性質(zhì)指隨機變量的第n次取值只跟第n-1次取值有關(guān),而與前面和后面的取值無關(guān),變量在前一個取值的基礎(chǔ)上取其他值的概率取決于轉(zhuǎn)換核,Metropolis-Hastings算法可以為任意的目標分布建構(gòu)轉(zhuǎn)換核以保證取樣后所得的分布就是目標分布。
2先驗分布
因果推理貝葉斯模型所涉及的先驗分布主要包括指定先驗、均勻先驗、SS先驗、實驗獲得先驗等。
2.1指定先驗分布
指定先驗分布指研究者為因果關(guān)系的存在概率指定一個數(shù)值,或為目標(背景)原因的效力指定一個數(shù)值。指定先驗分布方法使貝葉斯模型的彈性受很大影響,只能解釋某些特定條件下的實驗結(jié)果,當實驗條件(包括因果方向、數(shù)據(jù)呈現(xiàn)方式、提問方法等)發(fā)生變化時需要重新指定先驗分布。
2.2均勻先驗分布
均勻分布指原因效力w0、w1在其取值范圍內(nèi)取任何值的可能性都是相同的,是一種無信息先驗分布。這種無信息先驗分布對貝葉斯推斷結(jié)果的不良影響很小,所以在貝葉斯推斷統(tǒng)計研究的初期常被使用,但隨著研究的深入均勻分布在解釋特定研究領(lǐng)域的特定現(xiàn)象時顯示出劣勢,因果強度推理領(lǐng)域的研究者開發(fā)出包含更大信息量的先驗分布來更好地解釋被試的背景知識。
2.3SS先驗分布
Lu等(2008)認為被試在進行因果關(guān)系推斷時更傾向于使用有最少(Sparse)的原因同時每個原因有最大(Strong)因果效力的先驗分布,他們把這種偏好定義為SS先驗,并使用指數(shù)函數(shù)分別約定產(chǎn)生式和預(yù)防式條件下的w0和w1的先驗分布。
2.4實驗獲得先驗分布
Yeung和Griffiths(2011)使用被試對協(xié)變關(guān)系中w0和w1的直接估計來約定w0和w1的先驗分布。他們使用重復學習的方式發(fā)現(xiàn)被試對w0的最終估計容易受最初呈現(xiàn)的協(xié)變關(guān)系中的w0的影響,對w1的最終估計很少受最初呈現(xiàn)的協(xié)變關(guān)系的影響;w0大多數(shù)的取值分布在接近0和1的位置,而w1在[0,1]之間取值分布更均勻。
3似然函數(shù)
在確定了先驗分布后,因果推理貝葉斯模型需要用似然函數(shù)解釋給定先驗分布條件下得到觀測數(shù)據(jù)(即協(xié)變關(guān)系)的概率。
早期的簡化貝葉斯模型(Anderson & Sheu,1995)并未區(qū)分產(chǎn)生式與預(yù)防式因果方向。使用式(2)描述存在因果關(guān)系時得到協(xié)變關(guān)系數(shù)據(jù)的概率:
(2)
使用式(3)描述不能確定因果關(guān)系時得到協(xié)變關(guān)系數(shù)據(jù)的概率:
(3)
式(2)中pC表示目標原因出現(xiàn)時效果出現(xiàn)的概率;pA表示目標原因不出現(xiàn)時效果出現(xiàn)的概率。式(3)中的pN表示效果出現(xiàn)的總概率,式(2)、(3)中的a、b、c、d取自協(xié)變關(guān)系(除特別說明之外,本文其他位置出現(xiàn)的a、b、c、d均取自協(xié)變關(guān)系)。
近年的研究(Cheng,1997;Griffiths&Tenenbaum,2005;Luetal.,2008)認為被試在進行產(chǎn)生式因果強度估計時使用式(4)所示的Noisy-OR似然函數(shù),在進行預(yù)防式因果強度估計時使用式(5)所示的Noisy-AND-NOT似然函數(shù)。
P(e+/b,c;w0,w1)(產(chǎn)生式)=1-(1-w0)b(1-w1)c
(4)
P(e+/b,c;w0,w1)(預(yù)防式)=w0(1-w1)c
(5)
式(4)中的e+ 表示效果出現(xiàn);b和c在{0,1}中取值,當背景(目標)原因出現(xiàn)時b(c)取值為1,否則b(c)取值為0,w0,w1的意義與因果圖形模型相同;式(5)各參數(shù)的意義與式(4)相同。當w1=0時式(4)、(5)都可以用于描述無關(guān)式因果關(guān)系,效果的出現(xiàn)完全取決于背景原因。使用Noisy-OR函數(shù)和Noisy-AND-NOT函數(shù)的一個重要前提是背景原因和目標原因獨立影響效果出現(xiàn)的概率,相互之間不存在交互作用。因此產(chǎn)生式因果關(guān)系中目標原因的效力指的是目標原因?qū)Ρ尘霸蛭磳е滦Ч牟糠?協(xié)變關(guān)系中的d)的影響,預(yù)防式因果關(guān)系中目標原因的效力指的是目標原因?qū)Ρ尘霸驅(qū)е滦Ч牟糠?協(xié)變關(guān)系中的c)的影響。
4因果強度推理的貝葉斯模型
目前最具代表性的因果強度推理貝葉斯模型包括簡化貝葉斯模型、因果支持模型、類屬模型和SS模型,以下簡單介紹這四個模型。
4.1簡化貝葉斯模型
4.1.1先驗分布
Anderson和Sheu(1995)提出的簡化貝葉斯模型為每一個實驗指定一個存在因果關(guān)系的先驗概率,如在模擬他們的實驗一數(shù)據(jù)時指定存在因果關(guān)系的先驗概率P(H)=0.40。
4.1.2模型建構(gòu)
簡化貝葉斯模型認為推斷是否存在因果關(guān)系應(yīng)該比較協(xié)變關(guān)系對假設(shè)1:存在因果關(guān)系的支持度,和對假設(shè)0:不能確定是否存在因果關(guān)系的支持度:

(6)
4.1.3簡化貝葉斯模型的強度預(yù)測
簡化貝葉斯模型使用Odds(H/D)推斷因果關(guān)系,使用式(7)預(yù)測被試的因果強度估計值:
(7)
4.2因果支持模型
4.2.1先驗分布
Griffiths和Tenenbaum(2005)提出的因果支持模型假定背景原因和目標原因的效力w0、w1的先驗分布是在區(qū)間[0,1]內(nèi)的均勻分布,使用隨機取值的方法賦值給w0和w1。
4.2.2模型建構(gòu)
Griffiths和Tenenbaum(2005)認為即使被要求作出因果強度估計,被試進行的仍然是因果結(jié)構(gòu)的判斷。對因果結(jié)構(gòu)的判斷通過比較協(xié)變關(guān)系對有向圖1和有向圖0的支持度來進行,見式(8):
(8)
其中D表示被試觀察到的協(xié)變關(guān)系數(shù)據(jù),對上式兩邊進行對數(shù)運算得到:

(9)
由于沒有證據(jù)表明哪個有向圖更具可能性,所以P(有向圖1)=P(有向圖0),使得式(9)右邊的第二部分等于0,由此他們指定:

(10)
由于假定背景原因和目標原因的效力取值均為(0,1)上的均勻分布,式(10)的分母可以使用簡單的公式求得:
(11)
式(10)的分子部分不能直接求得,但可以使用馬爾科夫鏈蒙特卡洛方法以較高的精度近似計算(計算程序可以在Griffiths教授個人網(wǎng)頁上獲得)。
4.2.3因果支持模型的強度預(yù)測
因果支持模型將因果結(jié)構(gòu)判斷的Support值作為模型的因果強度預(yù)測值。Support值為正意味著式(10)的分子大于分母,數(shù)據(jù)D更支持有向圖1,被試會認為目標原因與效果之間存在因果關(guān)系;Support值為負意味著數(shù)據(jù)D更支持有向圖0,被試會認為目標原因與效果之間不存在因果關(guān)系;Support值的絕對值越大意味著它越支持相應(yīng)的有向圖,相應(yīng)的因果強度預(yù)測值也越大。
4.3類屬模型
4.3.1先驗分布

4.3.2模型建構(gòu)
因果支持模型認為即使被要求作出因果強度估計,被試進行的仍然是因果結(jié)構(gòu)的判斷,在此基礎(chǔ)上,Griffiths和Tenenbaum(2009)提出一個簡單的貝葉斯模型:類屬模型。類屬模型只計算協(xié)變關(guān)系數(shù)據(jù)對有向圖1的支持度,以此來模擬被試的因果強度估計。

P(有向圖1/D)=P(D/有向圖1)?P(有向圖1)/P(D/有向圖1)?P(有向圖1)+P(D/有向圖0)?P(有向圖0)
(12)
4.3.3因果強度估計
以P(有向圖1/D)值為因果強度預(yù)測值。
4.4SS模型
4.4.1先驗分布
Lu等(2008)提出的SS模型采用SS先驗作為w0和w1的先驗分布。
4.4.2模型建構(gòu)
SS模型認為目標原因C產(chǎn)生或預(yù)防效果E的強度可以用w1的后驗概率分布來表示。在獲得協(xié)變關(guān)系D之后,w1的后驗概率分布為:

(13)
其中的P(D/w0,w1,有向圖1)是似然函數(shù),產(chǎn)生式條件下是Noisy-OR函數(shù),預(yù)防式條件下是Noisy-AND-NOT函數(shù);P(w0,w1/有向圖1)是w0和w1的先驗分布,在SS模型里為SS先驗;P(D)是標準化項,表示獲得觀察到的協(xié)變關(guān)系的概率。在進行貝葉斯推斷統(tǒng)計時,由于標準化項與w1無關(guān),可以將P(D)看做一個常數(shù)。
4.4.3SS模型的因果強度預(yù)測
SS模型的因果強度預(yù)測被定義為求w1后驗分布的均值:

(14)
以上四個模型在先驗分布、似然函數(shù)、蒙特卡洛算法和預(yù)測方法四方面存在差異:先驗分布方面簡化貝葉斯模型和類屬模型都使用指定的先驗概率,而因果支持模型和SS模型則分別使用均勻先驗和SS先驗分布;似然函數(shù)方面類屬模型、因果支持模型和SS模型均使用Noisy-OR函數(shù)和Noisy-AND-NOT函數(shù),簡化貝葉斯模型則另外指定的似然函數(shù);蒙特卡洛算法方面因果支持模型和類屬模型采用隨機抽樣,SS模型采用重要性抽樣,還有研究使用蒙特卡洛粒子過濾算法(Abbott&Griffiths,2011);預(yù)測方法方面簡化貝葉斯模型、因果支持模型和類屬模型都是因果結(jié)構(gòu)判斷的模型,只是使用一些線性轉(zhuǎn)換將因果結(jié)構(gòu)預(yù)測值轉(zhuǎn)化為因果強度預(yù)測值(簡化貝葉斯模型)或直接將因果結(jié)構(gòu)預(yù)測值認定為因果強度預(yù)測值(因果支持模型和類屬模型),只有SS模型專門為因果強度估計構(gòu)建了參數(shù)估計模型。從中可以看出貝葉斯模型的建構(gòu)方式就是選擇不同的先驗分布、似然函數(shù)、蒙特卡洛算法和預(yù)測方法。
5實際應(yīng)用中的優(yōu)勢
5.1表征了尚未確定的因素對研究對象的影響
通過引入概率分布函數(shù),貝葉斯模型對因果強度的預(yù)測不再是一個點估計,而是一個包含各種影響因素,特別是暫時不能確定影響方式和影響力大小的因素在內(nèi)的后驗概率分布(Griffiths,Chater,Kemp,Perfors,&Tenenbaum,2010)。這是推理過程受多方面因素影響這一普遍認知在模型建構(gòu)中的充分反映,也是對決策理論中“winornothing”原則的有效補充。
5.2融合了自下而上和自上而下的兩種方法
先驗分布體現(xiàn)了被試已具備的關(guān)于因果推斷的背景知識,由先驗分布驅(qū)動的推斷是自上而下的推斷;似然函數(shù)體現(xiàn)了觀測得到的數(shù)據(jù)對因果推斷的影響,由數(shù)據(jù)驅(qū)動的推斷是自下而上的推斷。貝葉斯模型將先驗分布與似然函數(shù)有機地結(jié)合起來,實現(xiàn)了自下而上和自上而下的方法的結(jié)合(Tenenbaumetal.,2006;Griffithsetal.,2010)。結(jié)合了兩種方法的貝葉斯模型可以確定復雜的因果結(jié)構(gòu),還可以解釋被試如何從時空相依的實驗情境中作出因果推斷,如被試的因果推斷如何隨觀測數(shù)據(jù)的變化而變化,上一次因果推斷形成的后驗概率如何變成(或改編成了)下一次因果推斷的先驗概率。
5.3能得到更精確的預(yù)測
因果強度推理模型可以大致分為標準化模型和非標準化模型(Perales&Shanks,2007)。貝葉斯模型屬于標準化模型,但其預(yù)測能力比其他標準化模型更強,如因果支持模型可以精確預(yù)測被試在無關(guān)式協(xié)變關(guān)系上表現(xiàn)出的效果密度效應(yīng)和原因密度效應(yīng),SS模型還可以進一步預(yù)測和解釋取樣大小效應(yīng),因果方向上的不對稱現(xiàn)象等。建構(gòu)在集中呈現(xiàn)范式(協(xié)變關(guān)系中a、b、c、d同時呈現(xiàn))基礎(chǔ)上的貝葉斯模型可以推廣到序列呈現(xiàn)范式(a、b、c、d包含的樣例隨機逐個呈現(xiàn))的很多研究中,而非標準化模型則更適合于解釋序列呈現(xiàn)范式的研究結(jié)果;貝葉斯模型還可以應(yīng)用于多原因或(和)多效果的實驗情境,而非標準化模型在這方面存在較大困難。貝葉斯模型另一個重要的優(yōu)勢是可以在稀疏的觀測數(shù)據(jù)基礎(chǔ)上得出合理的結(jié)論,這是以往的任何模型都很難實現(xiàn)的。
6有待完善的領(lǐng)域
6.1需要有系統(tǒng)的方法確定先驗分布和似然函數(shù)
先驗分布和似然函數(shù)的確定直接影響到模型的建構(gòu)和預(yù)測,如果使用錯誤的先驗分布或似然函數(shù),得到的貝葉斯模型可能不適合,模型的預(yù)測也就可能與被試的因果強度估計毫無關(guān)系,這是貝葉斯模型受到批評最多的地方(Mcclellandetal.,2010;Perforsetal.,2011)。目前有兩個方面的理論成果:Noisy-Logical似然函數(shù)和等級貝葉斯模型方法可以為解決該問題提供幫助。
Yuille和Lu(2008)提出的Noisy-Logical函數(shù)可以幫助研究者確定似然函數(shù),不管是單原因還是多原因因果推理問題都可以從中找到合適的似然函數(shù)。但是Noisy-Logical函數(shù)將所有原因的交互作用都納入似然函數(shù)使得函數(shù)形式臃腫,當目標原因增加時計算上的困難也以幾何級數(shù)方式增加,所以必須找到合適的途徑挑選出效力較大的原因及其交互作用,經(jīng)典推斷統(tǒng)計中的向前向后回歸方法和科學理論中的Occam’sRazor原則可以為解決這個問題提供幫助。先驗分布方面可以使用等級貝葉斯方法來獲得所有層面的知識:獲得先驗分布、使用先驗分布推斷數(shù)據(jù)、估計參數(shù)等(Kempetal.,2007),它的基本思想是對不同抽象層次的知識做貝葉斯推斷,上一級為下一級規(guī)定先驗分布,如果該分布足夠簡單,就直接使用該等級的貝葉斯模型,如果該分布還是很復雜,則逐漸增加貝葉斯模型的等級,直到最高級的背景知識足夠簡單和概括化,甚至可以認為是生來俱有的。
目前對Noisy-Logical似然函數(shù)和等級貝葉斯模型方法的使用還不廣泛,后續(xù)研究應(yīng)該使用這些嚴謹?shù)目茖W方法來確定先驗分布和似然函數(shù),而非僅僅依賴研究者的主觀判斷。
6.2需要解釋被試如何表征問題和作答
Marr(1982)提出了計算解釋的三個水平:計算水平(確定問題可以被解決的實質(zhì)、解決問題時需要用到的信息和問題何以能被解決的邏輯);算法水平(確定解決問題時所需使用各種表征和加工)和執(zhí)行水平(確定各種表征和加工如何具體得以實施)。貝葉斯方法在計算水平取得了可喜的成績但在算法水平和執(zhí)行水平就不如某些聯(lián)結(jié)主義模型有優(yōu)勢(Mcclelland&Thompson,2007;Mcclellandetal.,2010),貝葉斯模型需要解釋被試如何表征復雜的問題情境,問題解決過程中大腦神經(jīng)細胞如何活動等問題:如貝葉斯模型認為被試的推斷過程與貝葉斯規(guī)則相似,被試首先具備先驗知識,然后遇到實驗數(shù)據(jù),再次結(jié)合先驗知識和實驗數(shù)據(jù)得到后驗知識,那么這些過程是如何在大腦中實現(xiàn)的?先驗知識是如何獲得并在大腦中表征的?后驗知識如何獲得等問題都需要一一解釋(Griffithsetal.,2010)。
6.3需要擴大模型的解釋范圍
從模型的功效來看貝葉斯模型是規(guī)范性模型,主要解釋被試應(yīng)該如何推斷;與其相對的描述性模型主要解釋被試實際如何推斷。由于先驗分布和似然函數(shù)的限制,每個貝葉斯模型只能規(guī)定一個特定情境中被試應(yīng)該如何作答,這就極大地限制了所建立模型的解釋范圍。由于實際的實驗情境和影響因素的多樣性,研究者幾乎必須為每一個實驗數(shù)據(jù)建立一個足夠復雜的貝葉斯模型才能保證模型預(yù)測的精度,如Support模型涉及三個參數(shù),SS模型涉及四個參數(shù),但都只能解釋小范圍的因果推理現(xiàn)象,這與科學理論要求的節(jié)約原則背道而馳,所以貝葉斯模型必須提高先驗分布的抽象水平和似然函數(shù)的描述能力,在簡化模型形式和提高模型預(yù)測能力之間求得平衡,最大限度地提高模型的解釋范圍。
6.4需要簡化計算
如果不是指定先驗分布,使用貝葉斯模型計算后驗分布的過程太過復雜。本文介紹的幾個模型使用蒙特卡洛方法來模擬這個計算過程,當因果圖形模型里的原因和效果增加時,計算的復雜程度以幾何級數(shù)方式增加。解決這個問題依賴于計算理論的發(fā)展和相關(guān)軟件的開發(fā),這就使貝葉斯模型的發(fā)展受限于計算理論的發(fā)展。但是,即使是有相關(guān)的計算理論和軟件,要在大量的實驗數(shù)據(jù)的基礎(chǔ)上對復雜的因果推理情境(如多原因交互作用等)進行精確的預(yù)測也是十分困難的(Perforsetal.,2011)。簡化計算是所有貝葉斯模型必須面對的問題。
參考文獻
陳希孺.(1999).高等數(shù)理統(tǒng)計學.安徽:中國科學技術(shù)大學出版社.
韋來生.(2008).數(shù)理統(tǒng)計.北京:科學出版社.
Abbott,J.T.,& Griffiths,T.L.(2011).Exploringtheinfluenceofparticlefilterparametersonordereffectsincausallearning.Proceedings of the 33rd Annual Conference of the Cognitive Science Society.
Anderson,J.R.,& Sheu,C.F.(1995).Causal inferences as perceptual judgments.Memory&Cognition,23,510-524.
Cheng,P.(1997).From covariation to causation:A causal power theory.PsychologicalReview,104,367-405.
Chater,N.,Tenenbaum,J.B.,& Yuille,A.(2006).Probabilistic models of cognition:Conceptual foundations.TrendsinCognitiveSciences,10,287-291.
Danks,D.,Griffiths,T.L.,& Tenenbaum,J.B.(2003).Dynamical causal learning.In S.Becker,S.Thrun,& K.Obermayer(Eds.),Advancesneuralinformationprocessingsystems(pp.67-74).Cambridge,MA:MIT Press.
Griffiths,T.L.,Chater,N.,Kemp,C.,Perfors,A.,& Tenenbaum,J.B.(2010).Probabilistic models of cognition:Exploring representations and inductive biases.TrendsinCognitiveSciences,14,357-364.
Griffiths,T.L.,Kemp,C.,& Tenenbaum,J.B.(2008).Bayesian models of cognition.In R.Sun(Ed.),TheCambridgeHandbookofComputationalPsychology(pp.59-100).Cambridge University Press.
Griffiths,T.L.,& Tenenbaum,J.B.(2005).Structure and strength in causal induction.CognitivePsychology,51,334-384.
Griffiths,T.L.,& Tenenbaum,J.B.(2009).Theory-based causal induction.PsychologicalReview,116,661-716.
Kemp,C.,Perfors,A.,& Tenenbaum,J.B.(2007).Learning overhypothesis with hierarchical Bayesian models.DevelopmentalScience,10,307-321.
Lu,H.,Yuille,A.,Liljeholm,M.,Cheng,P.W.,& Holyoak,K.J.(2008).Bayesian generic priors for causal learning.PsychologicalReview,115,955-984.
Lu,H.,Yuille,A.L.,Liljeholm,M.,Cheng,P.W.,& Holyoak,K.J.(2007).Bayesian models of judgments of causal strength:A comparison.In D.S.McNamara & G.Trafton(Eds.),ProceedingsoftheTwenty-NinthAnnualConferenceoftheCognitiveScienceSociety(pp.1241-1246).
Marr,D.(1982).Vision.San Francisco:Freeman.
McClelland,J.L.,& Thompson,R.M.(2007).Using domain-general principles to explain children’s causal reasoning abilities.DevelopmentalScience,10,333-356.
McClelland,J.L.,Botvinick,M.M.,Noelle,D.C.,Plaut,D.C.,Rogers,T.T.,Seidenberg,M.S.,& Smith,L.B.(2010).Letting structure emerge:Connectionist and dynamical systems approaches to cognition.TrendsinCognitiveSciences,14,348-356.
Pearl,J.(2000).Causality:Models,reasoningandinference.Cambridge,UK:Cambridge University Press.
Perales,J.C.,& Shanks,D.R.(2007).Models of covariation-based causal judgment:A review and synthesis.PsychonomicBulletiin&Review,14,577-596.
Perfors,A.,Tenenbaum,J.B.,Griffiths,T.L.,& Xu,F(xiàn).(2011).A tutorial introduction to Bayesian models of cognitive development.Cognition,120,302-321.
Steyvers,M.,Tenenbaum,J.B.,Wagenmakers,E.J.,& Blum,B.(2003).Inferring causal networks from observations and interventions.CognitiveScience,27,453-489.
Tenenbaum,J.B.,Kemp,C.,& Griffiths,T.L.(2006).Theory-based Bayesian models of inductive learning and reasoning.TrendsinCognitiveSciences,10,309-318.
Yuille,A.,& Lu,H.(2008).The noisy-logical and its application to causal inference.AdvancesinNeuralInformationProcessingSystems,20,1673-1680.
Yeung,S.,& Griffiths,T.L.(2011).Estimatinghumanpriorsoncausalstrength.Proceedings of the 33rd Annual Conference of the Cognitive Science Society.
A Review of the Bayesian Models of Causal Strength Inference
Liu Yanling1,Huang Renhui2,Hu Zhujing3
(1.Education College,Jiangxi Science and Technology Normal University,Nanchang 330013;
2.Mental Health Education Center,Yichun University,Yichun 336000;
3.Psychology College,Key Laboratory of Psychology and Cognition Science,Jiangxi Normal University,Nanchang 330022)
Abstract:On the basis of the essence of Bayesian statistics and the progress of computational technology,Bayesian models of causal strength inference have got rapid development in the last two decades.These models draw post distribute out of the combination of prior distribute and observationdata,and then are used to make prediction based on the post distribute.Different models comprise various prior distribute(assign,uniform,sparse and strong,experiment,et al),likelihood function(Noisy-Or,Noisy-AND-NOT,Noisy-Logical et al),and methods that are used to make prediction(compare different post distribute,compute mean value of post distribute et al).The advantages of Bayesian models include representing the impact of uncertainty by integrating the bottom-up and top-down approach,having a great insight into human participants reasoning process,and playing better to predict participants’ performance than other models.These models need to improve on how to choose appropriate prior distribute,how to explain participants’ various operation on different conditions,and how to decrease computational intractability.The present paper is a brief introduction of Bayesian model’s theoretical basis,mathematical compositions and practical application in causal strength inference.
Key words:causal strength inference;Bayesian model;prior distribute;review
中圖分類號:B842.5
文獻標識碼:A
文章編號:1003-5184(2015)05-0418-07
通訊作者:胡竹菁,E-mail:huzjing@jxnu.edu.cn。
基金項目:*江西省教育科學十二五規(guī)劃重點課題(14ZD3L017),江西省社會科學規(guī)劃項目(12JY08),國家自然科學基金項目(31460252)。