999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于因果生成神經網絡的因果特征發現與預測

2022-04-24 03:20:40鐘坤華秦小林陳敏陳芋文
軟件導刊 2022年4期
關鍵詞:特征模型

鐘坤華,秦小林,陳敏,陳芋文

(1.中國科學院成都計算機應用研究所,四川成都 610041;2.中國科學院重慶綠色智能技術研究院,重慶 400714;3.中國科學院大學,北京 100049)

0 引言

機器學習正在成為醫療保健領域越來越重要的技術手段。一些基于機器學習算法的人工智能系統在癌癥分類檢測、糖尿病視網膜病變檢測方面的水平已經接近甚至超過了人類專家。毫無疑問,人工智能將重塑醫學的未來。然而,目前已成功應用于醫療問題的機器學習方法僅基于關聯而非因果關系。在統計學中,關聯在邏輯上并不意味著因果關系。相關性與因果關系之間的關系由Reichenbach正式確定為共同原因原則,即如果兩個隨機變量X和Y在統計上相互依賴,則必須持有以下因果解釋之一:①X是Y的直接原因;②有一個隨機變量Z是X和Y的共同原因。因此,與關聯相比,因果關系進一步探索了變量之間更本質的關系。

隨著現代醫學技術的飛速發展,針對患者采集的臨床數據越來越多,這種增長對疾病預測模型的性能以及檢測效率均提出了巨大挑戰。理論上使用的特征越多,模型訓練效果越好,而在測試集中效果不理想的現象可解釋為非相關特征過度擬合,導致模型性能和泛化能力降低。但事實上,變量越多并不意味著信息越有用,預測效果越好。因此,為了減小數據集規模、提高模型預測性能,減少特征數量非常必要。在機器學習中,特征選擇是獲得良好預測效果的重要步驟之一。近年來,人們不僅對基于信息選擇特征進行預測感興趣,還希望了解這些特征與研究目標的相互作用。在這種背景下,一些研究者開發了一些理論,試圖將圖(Graph)與因果關系的概念引入到特征選擇中,目的是找到能夠生成數據的因果關系,以便更好地理解數據集的底層機制。以癌癥為例,我們需要知道其是什么原因導致的,需要使用哪些變量治愈。

1 相關研究

因果特征選擇作為一種新興的特征濾波方法,其為特征與類屬性之間的關系提供了因果解釋,從而更好地理解數據背后的機制。與非因果特征選擇相比,因果特征選擇在理論上是最優的,回答了最優特征選擇包含哪些核心特征,以及特征濾波方法在什么條件下能夠輸出最優特征的問題。

傳統的因果特征選擇是在因果貝葉斯網絡(Causal Bayesian Network,CBN)中尋找類屬性的馬爾可夫毯(Markov Blanket,MB),其中邊X→Y表示X為Y的直接原因(父親節點),Y為X的直接結果(孩子節點)。目標變量(例如類標簽)的MB由父節點、子節點以及子節點的父節點(配偶節點)構成。MB提供了圍繞局部因果結構的完整結構,即MB是最小的特征集,其使類屬性在統計上條件獨立于所有的其他屬性。在該研究領域,Koller等首先引入MBs進行特征選擇,并提出Koller-Sahami(KS)算法,但KS算法并不能保證找到真正的MB;Margaritis等設計了一種GS(Growing-Shrinking)算法,可用于貝葉斯網絡結構學習;Tsamardinos等改良了GS算法,并提出一系列用于最優特征選擇的MB發現算法,從而形成了IAMB(Incremental Association-based MB)算法家族,包括IAMB、interIAMB、IAMBnPC和FastIAMB等;Goudet等提出因果生成神經網絡(Causal Generative Neural Networks,CGNNs),利用條件獨立性和分布不對稱性探索雙變量和多變量的因果結構;Kalainathan等提出結構不可知建模(Structural Agnostic Modeling,SAM)方法,該法基于不同參與者之間的博弈,結合分布估計、稀疏性和非循環性約束的學習準則,通過隨機梯度下降方法進行端到端的參數學習。

本文參考文獻[13][14]的研究成果,提出一種基于生成神經網絡和強化學習的因果特征選擇和預測模型,框架如圖1所示。該模型包含一個因果門網絡和一個因果預測網絡,其中因果門網絡輸入原始數據,輸出選擇因果概率,然后根據這些概率對選擇向量進行采樣;因果預測網絡接收所選特征并進行預測。兩個網絡基于真實標簽進行反向傳播的訓練,然后從預測網絡的損失中減去基線網絡損失,用于因果門網絡的更新。

2 因果模型

設X=[

X

,…

X

X

],表示d+1維隨機變量向量;

P(X)

為聯合概率分布;

X′

=[

X

,…,

X

X

],表示

d

個隨機特征空間變量向量;

X

為離散的標簽空間變量。基于觀察因果發現從分布

P(X)

中采集獨立同分布的樣本D={X(1),…,X(j),…,X(n)},X(j)=(

X

,…

X

X

)。為了更清楚地表示患者數據,將

X

表示為患者的疾病標簽Y。

2.1 函數因果模型

數據的底層生成模型假設為函數因果模型,定義為一對(G,f),其中G為一個有向無環圖;f=(

f

,…

f

f

),為一組d+1的因果機制。函數因果模型假設每個變量滿足如下關系:

2.2 深度神經網絡的因果機制

通用近似定理指出:具有單個隱藏層的標準多層前饋網絡中包含有限數量的隱藏神經元,是對R緊湊子集上連續函數中激活函數輕微假設情況下的通用逼近器。因此,本文基于函數因果模型和神經網絡通用近似定理,利用神經網絡擬合函數

f

。如圖3所示,深層神經網絡的因果機制由H隱層神經網絡實現,其中

c

=(

c

c

,…,

c

)為因果系數。如果使用變量

X

生成Y,即

X

→Y在圖G中有一條邊,因此認為

X

為Y的原因,

c

為1,否則

c

為0;

E

為高斯噪聲。網絡結構的數學表達式為:

Fig.1 The proposed model framework圖1 本文模型框架

式中,

c

X

表示兩個向量之間對應元素相乘,[

c

X

E

]為連接

c

X

和噪聲的d+1維向量,L為隱層中的代數變換。

Fig.2 Example of functional causal model on X(Left:causal graph G;Right:causal mechanisms)圖2 在X上的函數因果模型示例(左:因果圖,右:因果機制)

Fig.3 Neural network causal mechanisms圖3 神經網絡因果機制圖

3 因果特征選擇與預測模型構建

如函數因果模型所描述,特征選擇的目標是找到一個盡可能小的X子集,使基于X的最優子集與X全集具有相同的效應,表示為:

式(3)表明,給定

c

X

,Y的條件分布與給定所有X、Y的條件分布相同。本文使用Kullback-Leibler(KL)散度將式(3)轉換為式(4),以最小化兩個分布的距離,表示為:

本文模型的改良在于設計了因果門結構,主要基于強化學習框架對特征進行因果選擇預測,學習率為0.000 1,激活函數為ReLu,batch_size為100。

3.1 因果門特征選擇網絡

設計

f

為因果門特征選擇網絡,稱為Actor,是由3層隱藏層組成的全連接網絡,輸入節點根據實際輸入數據確定。

f

:X→{0,1},該網絡輸出每個特征的選擇概率,給定特征選擇向量的概率為c∈[0,1],則有:

因果門特征選擇網絡的損失函數表示為:

3.2 因果預測網絡

設計

f

為因果預測器網絡,稱為Critical。該網絡為3層全連接網絡,每層隱藏層有200個節點,輸入節點根據實際輸入數據確定。接受選擇的因果特征向量作為輸入,在c維輸出空間中輸出概率分布。

該網絡的損失函數表示為:

式中,

y

為y的第

i

個分量編碼,

c

X

為因果門選擇的特征。

3.3 預測網絡

f

為預測網絡,結構與

f

因果預測器網絡(Critical)一致,隱藏層為200個節點的3層全連接前饋神經網絡,并經過訓練以最小化。該網絡使用所有觀察到的患者數據進行直接預測,損失函數表示為:

使用BP反向傳播算法組合上述3個損失函數對3個神經網絡進行端到端的訓練,將患者觀察數據輸入訓練后的模型,得到特征的最優子集和預測結果。

4 實驗方法與結果分析

4.1 實驗環境

在合成數據、開源數據和真實世界醫學數據上進行驗證實驗,從特征選擇的相關性和預測的準確性兩方面評估模型性能。將特征選擇模型與LIME和Shapley兩種方法進行比較,將預測模型與XGBoost和Lasso正則化線性模型進行比較。

服務器搭載Ubuntu 16.04 LTS操作系統、Intel Xeon e5-2650 V4處理器和Nvidia GTX 1080 Ti GPU,內存64G。基于Pytorch框架構建模型,編程工具為Python3.6。

4.2 合成數據實驗

針對每個數據集生成40 000個樣本,其中20 000個用于訓練,20 000個用于測試。特征選擇時使用真陽性率(TPR,越高越好)和錯誤率(FDR,越低越好)評估算法性能,具體定義見表1和式(12)、式(13);使用接受者操作特征曲線下面積(Area Under the Receiver Operating Characteristic curve,AUROC)、精確召回曲線下面積(Area Under Precision-Recall Curve,AUPRC)評估預測準確度。

使用Adam優化器進行訓練,初始學習率為0.000 1,并采用stepLR學習率變化策略,每10步更新1次學習率,共訓練100epoch。

Tabel 1 Definition of TPR and FDR表1 TPR和FDR的定義

分析特征選擇作為預測預處理步驟的效果。首先進行特征選擇,然后訓練一個3層全連接的神經網絡,在特征選擇的數據上執行預測。如表2所示,本文模型的TPR和FDR均明顯優于LIME和Shapely算法,能有效檢測相關特征。如表3所示,當丟棄所有不相關特征時,本文模型性能有顯著提高,但XGBoost和Lasso算法性能提升不明顯。

Table 2 Feature selection result for synthetic datasets表2 合成數據集的特征選擇結果

Table 3 Prediction performance results表3 預測性能結果

4.3 肥胖患者預測實驗

使用開源醫療數據集進行驗證實驗,該數據集為根據墨西哥、秘魯和哥倫比亞居民的飲食習慣和身體狀況估計肥胖水平的數據,包含15個屬性和2 111條記錄。該數據集中77%的數據是使用Weka工具和SMOTE過濾器綜合生成的,23%的數據是通過Web平臺直接從用戶處收集的。所有數據均被標記,類變量的值分別為normal和abnormal。數據集的具體屬性見表4。

從表5可以看出,本文模型在肥胖預測能力方面與全特征預測方法的性能基本一致。原因可能是特征數量很小,并且所選特征與預測標簽之間有很強的相關性,因此本文特征選擇模型的優勢沒有得以體現。此外,本文繪制了測試患者特征選擇概率的熱圖,如圖4(彩圖掃OSID碼可見,下同)所示,模型預測肥胖患者的主要原因為Weight、FHWO、CAEC和FAF變量。

Table 4 Obesity levelsdata set attributes表4 肥胖水平數據集屬性

Table5 Prediction performance results表5 預測性能結果

Fig.4 Feature selection probabilistic heat map圖4 特征選擇概率熱圖

4.4 心衰預測實驗

使用心力衰竭數據集進行驗證實驗,數據來源于第三軍醫大第一附屬醫院2014-2018年間住院的1 452例患者,包含66個測量特征,標簽為心力衰竭。數據集的具體屬性見表6。

Table 6 Heart failure data set attributes表6 心力衰竭數據集屬性

續表

如表7所示,當丟棄所有不相關特性時,本文模型預測性能相較全特征預測方法有輕微提高。圖5描述了男性和女性心力衰竭患者所選特征平均概率熱圖。可以看出,導致成年男性和女性心力衰竭的因素是相同的,這與醫生的判斷基本一致。

Table 7 Prediction performance results表7 預測性能結果

Fig.5 Female and male heart failure patients'features selected for average probability heat maps(a:Female,b:Male)圖5 女性和男性心力衰竭患者所選特征平均概率熱圖(a:女性,b:男性)

5 結語

本文針對特征選擇與預測問題,從因果特征分析的視角提供了一種新方法。首先,從定性的角度進行特征選擇,然后在強化學習框架下,設計可解釋的實例特征選擇與預測模型,最后在合成數據、開源數據以及真實數據集上進行了實驗評估,結果表明該方法可有效選擇屬性進行疾病預測。本文研究成果能在一定程度上拓展醫療問題的分析角度,并進一步回答病因與疾病的因果關系,例如醫療健康領域存在哪些反事實問題,哪些反事實問題能夠得以解決,以及醫療健康領域是否存在因果鏈等。本文研究也存在一定的局限性,例如關注的只是患者的靜態屬性數據,尚不能應用于動態的時間序列數據,如圍術期的監護數據。后續將嘗試進行動態數據、混合數據的因果分析,例如采用循環神經網絡替換本文模型中的網絡,以適用于醫療健康領域中的時間序列數據研究。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 成人精品亚洲| 国产中文在线亚洲精品官网| 久久久久久久久18禁秘| 中文无码影院| 国产亚洲精品在天天在线麻豆| 2021国产精品自拍| 五月婷婷丁香综合| 成人午夜免费观看| 久久黄色免费电影| 色天堂无毒不卡| 国产91精选在线观看| 国产成人久视频免费| 国产精品分类视频分类一区| 丝袜美女被出水视频一区| 国产在线拍偷自揄观看视频网站| 欧美另类图片视频无弹跳第一页| 国产色爱av资源综合区| 免费毛片a| 国产综合网站| 国产在线观看一区精品| 久久国产精品影院| 91久久性奴调教国产免费| 好吊色妇女免费视频免费| 欧美五月婷婷| 无码精油按摩潮喷在线播放 | 青青青视频91在线 | 国产精品七七在线播放| 免费无码网站| 青青热久免费精品视频6| 日韩福利在线视频| 亚洲浓毛av| 欧美日韩国产在线播放| 99视频只有精品| 国产成人啪视频一区二区三区| 日韩欧美中文字幕在线韩免费| 88av在线| 国产超碰一区二区三区| 美女扒开下面流白浆在线试听 | 国产在线观看一区二区三区| 亚洲第一色视频| 在线国产毛片手机小视频| 精品国产中文一级毛片在线看| 欧美一级高清片欧美国产欧美| 在线观看欧美国产| 97久久免费视频| 九色视频线上播放| 丁香六月激情婷婷| 国产噜噜噜| 亚洲精品无码久久久久苍井空| 一本一道波多野结衣av黑人在线| 日韩黄色精品| 亚洲AV无码久久精品色欲| 国产91麻豆免费观看| 99视频在线观看免费| 久久久久亚洲AV成人人电影软件| 亚洲丝袜中文字幕| 欧美成人第一页| 又爽又大又黄a级毛片在线视频| 亚洲swag精品自拍一区| 伊人久久福利中文字幕| 亚洲国产精品成人久久综合影院| 色有码无码视频| 亚洲第一视频网| 精久久久久无码区中文字幕| 国产一区二区三区免费观看| 国产福利微拍精品一区二区| 一本色道久久88| 日韩色图区| 日本三区视频| 久久国产精品无码hdav| 日本www色视频| 国产一区二区三区在线观看免费| 精品少妇人妻无码久久| 久久香蕉欧美精品| 91丨九色丨首页在线播放 | 激情综合图区| 亚洲成人黄色在线观看| 精品国产成人三级在线观看| 亚洲aaa视频| 欧洲成人免费视频| 成人精品区| 亚洲高清中文字幕在线看不卡|