999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于因果自回歸流模型的因果結構學習算法

2024-03-21 08:15:12盧小金陳薇郝志峰蔡瑞初
計算機工程 2024年3期
關鍵詞:結構實驗方法

盧小金,陳薇,郝志峰,2,蔡瑞初*

(1.廣東工業大學計算機學院,廣東 廣州 510006;2.汕頭大學理學院,廣東 汕頭 515063)

0 引言

許多科學研究的目的為揭示某些事物的因果關系,進而找到支配它們的規律[1]。干預或隨機實驗是發現因果關系的傳統方法[2-3],然而通常存在高成本、高耗時甚至無法實現等問題。因此,通過分析觀察數據來揭示事物因果信息,也被稱為因果發現的相關研究近年來引起了很多關注[4]。

在過去的幾十年里,因果發現研究已經取得了一系列跨學科的進展,被廣泛應用于生態學、生物基因學、流行病學、神經科學等領域[5]。同時,一系列識別因果效應的算法被提出[6-8],典型的方法有基于約束[9-10]、基于評分[11]和基于梯度優化[12-13]的因果學習算法,以及一些混合因果結構學習算法[14-15]。其中:基于約束或評分的算法存在無法識別等價類的問題;基于梯度優化的算法可解決等價類識別的問題,但通常依賴于加性噪聲項和原因變量互相獨立的因果函數模型假設。

KHEMAKHEM等[16]于2021 年提出了因果自回歸流模型(CAREFL),該模型基于仿射自回歸流拓展了現有的非線性函數因果模型,在結果變量的噪聲項與原因變量不獨立時仍然是可識別的,但只能識別兩個變量的因果對,無法學習高維變量下的因果網絡結構。針對加性噪聲項受原因變量影響的多維變量因果網絡學習問題,本文結合基于約束的因果骨架學習方法和因果自回歸流函數模型,提出一種混合因果結構學習算法。該算法從完全無向圖出發,基于條件獨立性得到典型因果骨架,進而基于CAREFL 計算備選方向的邊緣似然度進行因果方向推斷。

1 相關工作

非時序觀察數據的因果發現方法主要包括基于約束的因果發現方法、基于評分的因果發現方法和基于梯度優化的因果發現算法。基于約束的方法包括PC 算法[9]和FCI 算法[10]。PC 和FCI 算法基于條件獨立性檢驗的方法,雖然能夠在滿足算法前提的情況下近似準確地學習到因果結構,但因為馬爾可夫等價類的存在(不同的因果結構可以滿足同樣的條件獨立性),兩者都無法確保輸出全部的因果信息。針對沒有混淆因子的場景,基于評分的方法通過優化合理定義的評分函數來找到具有完整因果信息的結構,經典的方法有GES[11]算法。基于梯度優化的因果發現方法,如NOTEARS[12]和GOLEM 算法[13],由于對數據分布做了額外的假設而不僅是基于條件獨立關系,因此能夠區分同一等價類中的不同因果結構。基于梯度優化的方法一般需要依賴某類函數因果模型(也被稱為結構方程模型)來保證因果可識別性(最優結構存在且唯一)。

函數因果模型主要分為線性模型和非線性模型。經典的線性模型為線性非高斯加性模型(LiNGAM)[7,17]。LiNGAM 對數據的生成方式做了線性和非高斯獨立噪聲的假設,并利用獨立成分分析進行求解。經典的非線性函數因果模型有加性噪聲模型(ANM)[6]和后非線性模型(PNL)[8]。該類模型對數據生成方式做了非線性和獨立噪聲的假設。在LiNGAM、ANM、PNL 等模型中,均要求加性噪聲項和原因變量獨立以保證模型的因果可識別性。CAREFL 基于噪聲項和父母結點獨立的假設,將加性噪聲模型進行拓展,使得模型在加性噪聲項與原因變量不獨立時仍然能夠識別變量之間的因果方向,但只討論了二維變量的因果方向推斷場景,無法解決多維的因果結構學習問題。

2 問題定義

本節對所研究問題進行符號化定義和說明。

定義數據集D中包含n個可觀測變量的集合V={V1,V2,…,Vn},樣本量大小為m。令數據集D蘊含的因果結構為有向無環圖G={V,E},其中,E={(Vi,Vj)|Vi→Vj,Vj?Vi}表示G中結點間邊的集合。Vpa(j)表示Vj的所有 的原因結點,即若Vi?Vpa(j),則Vi→Vj。同時假設滿足因果忠誠性假設:數據集D的分布P忠誠于因果圖G。這表明,對于任意的Vi,Vj?V(i≠j)和集合s?V,給定,如果Vi和Vj在集合s中的變量的條件下獨立,則Vi和Vj被集合s中的變量d-分離[18]。由于因果忠誠性假設保證了分布中的條件獨立性和因果圖的一致性,因此能夠利用基于條件獨立性的方法得到因果圖的骨架。

基于上述符號說明和假設,本文關注的是典型因果網絡學習問題,其定義如下:給定具有n個變量V={V1,V2,…,Vn}的數據集D,基于因果忠誠性假設,如何學習變量集V的因果結構。

3 基于CAREFL 的因果結構學習算法

針對因果網絡學習的目標,本文提出一種基于因果自回歸流模型的混合因果結構學習算法,簡稱SCARF 算法。圖1 給出了SCARF 算法的整體框架。該算法框架分為兩個階段:第一個階段基于無向完全圖,通過條件獨立性刪除不存在因果關系的變量之間的邊,得到因果骨架圖;第二個階段基于因果自回歸流模型,分別對骨架圖中的每一條無向邊進行因果方向推斷。

圖1 SCARF 算法框架Fig.1 Framework of SCARF algorithm

3.1 因果骨架學習

受基于約束的方法啟發,本文考慮使用條件獨立性檢驗來判斷變量之間是否存在因果邊。首先從無向完全圖出發,對每個結點及其鄰接結點進行獨立性檢驗,刪除不存在因果關系的結點之間的邊。因果骨架學習的算法偽代碼如算法1 所示。

算法1基于條件獨立性學習因果骨架

算法1包含了3 層關鍵的循環:第1 層循環的作用是從條件集的空集開始遍歷,逐個增加條件集個數,從而找到使得變量獨立的最小條件集;第2 層循環遍歷所有滿足條件|adj(C,Vi){Vj}|≥Llength的無向邊(Vi,Vj),尋找是否有使得Vi和Vj獨立的條件集,因為對于(Vi,Vj)而言,其條件集只會出現在Vi的鄰居中,因此此判斷條件可加快遍歷條件集的速度;第3 層循環的作用是對于Vi的鄰接結點遍歷長度為Llength的所有組合,進而將每個組合作為條件集,檢驗Vi與Vj的獨立性,刪除檢驗結果為條件獨立的邊。

在本文算法中,需要對有限的樣本評估條件獨立性,做法是首先計算樣本偏相關系數,利用Fisher轉換得到偏相關系數的概率分布,進而基于假設檢驗進行獨立性測試。文獻[10,19]為該獨立性檢驗方法的可靠性提供了理論證明。

3.2 因果方向推斷

在得到由無向邊構成的因果骨架后,需要對無向邊進行因果定向。在基于結構方程模型的因果發現算法中,由于需要具備因果關系可識別性和計算可實踐性,結構方程模型通常具有特定的形式,如被廣泛使用的加性噪聲模型:

其中:fj是關于Vj的原因變量的非線性函數;nj是Vj對應的加性噪聲項,各個變量對應的噪聲獨立同分布。ANM 模型將關于原因變量的非線性函數與其噪聲項相加,簡潔高效,但在加性噪聲項與父母結點不獨立的場景下,無法保證因果可識別性。KHEMAKHEM等[16]提出的因果自回歸流模型則弱化了加性噪聲模型的假設,使其在因果方向判斷上也具備可識別性。

3.2.1 自回歸標準化流

在介紹因果自回歸流模型前,先介紹標準化流。標準化流基于隱變量z?Rn,通過一系列可微可逆的變換T表達觀測數據V?Rn的分布。z通常是簡單的基分布pz(z),從而可以基于變量轉換獲得V的分布:

其中:T或者T-1通常使用神經網絡實現。為了提高網絡擬合能力和保持變換的可逆可微性質,標準化流模型通常將同族的一系列映射T1,T2,…,Tk鏈接起來,從而使得T=T1?T2?…?Tk。同時,T的雅克比矩陣行列式|detJT-1(V)|可以從子變換Tl的行列式計算中得到。因此,在設計標準化流模型時,研究者需要考慮的重要因素就是Tl雅克比矩陣行列式的計算復雜度。

自回歸流模型[20-22]固定變量的輸入順序,以及設計特定的模型結構將雅克比矩陣限制為下三角矩陣以達到簡化行列式計算的目的。自回歸流模型結構包括簡單的加法和仿射變換[23],以及更復雜的神經樣條變換[24]。在文獻[22]中,自回歸流模型的轉換函數T表示如下:

其中:π是關于V中變量自回歸結構的排列;V<π(j)表示在π中排在Vj之前的變量;函數τ(j也被稱為轉換器)相對于 第一個參數zj是可逆 的并且由V<π(j)參數化。

3.2.2 因果自回歸流模型

結合上文可以看到式(1)和式(3)的高度相似性,這體現在兩個模型都顯式定義了基于變量的某種結構或順序。鑒于這個相似性,基于自回歸流模型構造的函數因果模型CAREFL 被提出:

其中:zj是噪聲變量,各結點的噪聲變量是獨立同分布 的;Vpa(j)是在圖G中的Vj的父母結點;tj和uj是 任意函數。在CAREFL 模型中,噪聲項不是簡單地與關于原因變量的非線性函數相加,而是可以受到原因變量的調控,這更符合現實場景。特別地,在各變量的t均為0 的情況下,式(2)是加性噪聲模型[見式(1)]的一部分。

假設因果順序為Vi→Vj,結合式(2)和式(4),可以得到因果自回歸流模型的邊緣對數似然度:

3.2.3 基于流模型的似然度比較

對因果骨架中的某條無向邊定向,實際上是在Vi→Vj和Vj→Vi兩個備選模型中選擇其一。本文利用標準化流分別擬合備選模型。對于某個備選方向,使用極大似然度的方法去優化每一層流中神經網絡的參數。為了避免過擬合,將樣本切分為測試集和訓練集,用訓練后的模型評估測試集的似然度。綜上所述,因果方向判斷的數學形式被定義為:

4 SCARF 算法描述

結合算法1 中基于約束的方法和標準化流技術,本文提出SCARF 算法。SCARF 算法偽代碼詳見算法2。SCARF 算法分為兩個階段:第一個階段是通過算法1 得到均為無向邊的因果骨架(第1 行);第二個階段是遍歷因果骨架中的所有邊(第3~14 行),基于標準化流技術,通過極大似然法優化模型中神經網絡的參數,通過比較邊緣似然度的經驗期望(第8~13 行)進行因果方向推斷。最終,算法輸出的是表征變量間因果信息的有向無環圖。

算法2SCARF 算法

5 實驗與結果分析

為了驗證SCARF 算法在因果結構學習上的有效性,本節對該算法在仿真因果結構數據集和真實因果結構數據集上的實驗效果進行分析和評估。在評估實驗中,本文選取的對比方法有基于條件獨立性的約束算法PC、基于函數因果模型的ICALINGAM 和GOLEM。對于隨機生成和真實的因果結構,實驗數據的生成機制服從如下非線性結構方程:

其中:ui~N(0,1) 是隨機生成的噪聲變量;ai~U(-2,-0.5)∪(0.5,2)與bi~U(-2,-0.5)∪(0.5,2)是每個父母結點對Vi的隨機因果權重。每組實驗的運行次數在40 次以上。采用F1 值作為因果結構學習的評價指標,計算公式如下:

其中:TP表示因果結構圖G中方向預測正確的邊數量;FP表示將反向預測成正向的數量;FN表示將正向預測成反向或無向的數量。

5.1 仿真因果結構數據集實驗

通過4 個方面的控制變量實驗評估SCARF 算法的性能。每組實驗都根據實驗參數隨機生成因果結構和數據,實驗參數設置如下:在數據生成機制實驗組中,控制變量是加性噪聲項是否與原因變量獨立(默認加性噪聲項不與原因變量獨立),結點維度有10、16、20、30,因果圖的平均入度有0.5、1、1.5、2,樣本大小有500、1 000、2 000、3 000、4 000、5 000,其中,加粗字體為默認實驗參數。

為了對比SCARF 在噪聲項和原因結點獨立時的結構學習性能,本文引入了噪聲項不受父母結點調控的實驗效果,其數據生成機制服從以下結構方程:

其中:wjl~U(-2,-0.5)∪(0.5,2),l=1,2,3,是每個父母結點對Vi的隨機因果權重,此時加性噪聲項ui不受父母調控。同時,對照組根據式(7)生成噪聲項受父母結點調控的數據。

圖2 給出了噪聲項是否受父母結點調控的仿真實驗結果。從圖2 的結果可以看到,無論加性噪聲項是否受到原因變量的影響,SCARF 算法的F1 值都顯著高于對比方法,保持在0.74 以上。同時,在加性噪聲項受到原因變量影響的場景中,基于條件獨立性的PC 算法指標沒有受到顯著影響。基于函數因果模型的GOLEM 和ICALINGAM,F1 值較低并且指標下降趨勢更明顯。這是因為GOLEM 基于ANM 模型,ICALINGAM 基于LiNGAM 模型,兩者都屬于加性噪聲模型,在噪聲項與原因變量不獨立時會破壞兩者的因果可識別性。實驗結果表明,基于因果自回歸流模型的因果推斷方法不僅適用于現有的加性噪聲模型,在噪聲項受父母結點影響時依然能夠識別因果方向,拓展了加性噪聲模型的應用場景。

圖2 不同因果機制仿真數據的實驗結果Fig.2 Experimental results of different causal mechanisms simulation data

在圖3 中,實驗的控制變量是結點的維度。可以看到,隨著結點維度的增加,所有算法的指標都有不同程度的下降,絕大部分因果算法對結構結點都有一定敏感度。但本文算法在這10、15、20、30 這4 個結點維度下,結構學習的F1 值始終維持在0.73 以上,顯著高于對比算法,這驗證了本文算法的魯棒性。

圖3 不同的結點維度下的實驗結果Fig.3 Experimental results at different node dimensions

圖4 給出了控制變量為平均入度的實驗結果。隨著結構的平均入度增大,因果圖更加稠密,結構學習難度會增大。實驗結果也表明隨著平均入度增大,所有算法的F1 值都有不同程度的下降。本文算法的F1 值維持在0.71 以上,高于所有對比方法的最高值。這說明本文算法對結構平均入度有一定敏感度,但是依然能夠保持較強的結構學習能力。

圖4 不同平均入度下的實驗結果Fig.4 Experimental results at different average in-degrees

圖5 給出了不同樣本數量下的實驗結果。可以看到,大部分算法對樣本數量較為敏感,但當樣本規模提高到一定數量后,F1 值保持平穩波動。SCARF 在樣本數量達到1 000 個后,F1 值在0.74 以上保持波動,高于其他對比方法的最高值,這是因為標準化流對分布具有強大的擬合能力,對樣本數量敏感度較低。

圖5 不同樣本數量下的實驗結果Fig.5 Experimental results at different sample sizes

5.2 真實因果結構數據集實驗

從https://www.bnlearn.com/bnrepository/中選取4 個真實因果結構進行實驗,驗證本文算法在真實因果結構下的學習能力,這4 個真實因果結構的信息如表1 所示。

表1 真實因果結構信息Table 1 True causal structure information

在真實結構的數據集中,根據式(7)生成樣本數量為3 000 的數據集。在圖6~圖8 中分別比較了各算法在4 個真實因果結構上的F1 值、召回率和準確率。圖6 表明,SCARF 在真實因果結構上的F1 值顯著優于對比方法,F1 平均值比ICALINGAM 高出48%。SCARF 對于不同的因果結構的F1 值在0.7 以上,相對穩定,這驗證了SCARF 在真實因果結構中的魯棒性。在圖7 和圖8 中,對比方法中基于函數因果模型的ICALINGAM 和GOLEM 的準確率很高但召回率卻很低,這是因為在噪聲項受原因變量影響的場景下,不符合這兩個算法的可識別性前提,導致結構中許多父母結點的信息無法識別。

圖6 真實因果結構數據集中不同算法的F1值Fig.6 F1 scores of different algorithms in true causal structure dataset

圖7 真實因果結構數據集中不同算法的召回率Fig.7 Recall of different algorithms in true causal structure dataset

圖8 真實因果結構數據集中不同算法的準確率Fig.8 Accuracy of different algorithms in true causal structure dataset

6 結束語

本文提出一種基于結構因果自回歸流模型的因果網絡學習算法SCARF,通過結合傳統的基于獨立性檢驗的因果骨架學習方法以及因果自回歸流模型,解決噪聲項受父母結點影響場景下的因果網絡學習問題。在虛擬因果結構數據集和真實因果結構數據集上的實驗結果表明,SCARF 算法較對比算法召回率更高、魯棒性更強。實驗中的真實因果結構來自于生物、醫學等領域的經典數據集,這表明SCARF 具備在實際應用場景中進行因果發現任務的能力,可應用于神經科學、生物信息學等領域。本文算法中對于網絡的全局搜索依賴于傳統的條件獨立性方法,隨著結點維度增大,算法的時間效率會受到約束,下一步將研究如何利用標準化流中神經網絡可使用反向梯度傳播的屬性,基于梯度優化學習全局網絡的算法,達到提升算法的使用范圍和降低時間復雜度的目的。

猜你喜歡
結構實驗方法
記一次有趣的實驗
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
做個怪怪長實驗
論《日出》的結構
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 色播五月婷婷| 麻豆精品在线| 麻豆精品在线| 欧美成人午夜在线全部免费| 国产精品999在线| 亚洲国产综合自在线另类| 色噜噜久久| 欧美性天天| igao国产精品| 久久精品66| 久久精品娱乐亚洲领先| 色综合激情网| 国产精品成人第一区| 久久频这里精品99香蕉久网址| 日韩中文字幕亚洲无线码| 久久久久九九精品影院| 蝌蚪国产精品视频第一页| 熟女日韩精品2区| 久久久精品无码一区二区三区| 成·人免费午夜无码视频在线观看| 久久精品国产国语对白| 日韩成人高清无码| 久久五月天综合| 久久精品视频亚洲| 在线欧美日韩| 操美女免费网站| 怡红院美国分院一区二区| 91精品情国产情侣高潮对白蜜| 中文字幕一区二区人妻电影| 亚洲成人播放| 幺女国产一级毛片| 国产午夜不卡| 乱人伦中文视频在线观看免费| 日韩欧美国产另类| 色综合天天综合中文网| 最新国语自产精品视频在| 欧美色视频网站| AV在线天堂进入| 日韩在线网址| 99久久精品免费观看国产| 精品福利一区二区免费视频| 伊人五月丁香综合AⅤ| 国产精品私拍99pans大尺度 | 国产呦视频免费视频在线观看| 亚洲色大成网站www国产| 五月丁香伊人啪啪手机免费观看| 久久久久久高潮白浆| 亚洲成人在线网| 一级毛片免费的| 超清无码一区二区三区| 黄网站欧美内射| 久久久精品久久久久三级| 日韩av无码DVD| 情侣午夜国产在线一区无码| 婷婷综合亚洲| 日韩毛片免费| 高潮毛片无遮挡高清视频播放| 在线观看欧美国产| 三区在线视频| 欧洲av毛片| 久久伊人操| 伊大人香蕉久久网欧美| 一级毛片不卡片免费观看| 久久夜色撩人精品国产| 精品成人免费自拍视频| 伊人五月丁香综合AⅤ| 国产大全韩国亚洲一区二区三区| 亚洲精品在线影院| 婷婷亚洲视频| av免费在线观看美女叉开腿| 性激烈欧美三级在线播放| 国产成年无码AⅤ片在线| 九九九精品成人免费视频7| 久久美女精品| 粉嫩国产白浆在线观看| 国产成人久久777777| 欧美亚洲日韩中文| 国产91线观看| 亚洲综合香蕉| 欧美69视频在线| 国产精品流白浆在线观看| 免费国产高清视频|