999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于因果推斷肺癌患者生存時間預測方法

2023-05-08 03:01:36馬真真萬亞平
計算機應用與軟件 2023年4期
關鍵詞:肺癌方法

馬真真 萬亞平,2 劉 純 周 琦

1(南華大學計算機學院 湖南 衡陽 421001) 2(中核集團高可信計算重點學科實驗室 湖南 衡陽 421001)

0 引 言

肺癌作為發病率、致死率最高的惡性腫瘤,嚴重威脅著人類身體健康。醫學資料顯示:性別、吸煙等自身因素以及肺癌分期、細胞分級等與腫瘤有關的因素影響肺癌患者生存狀況。如果能闡明這些病理因素與肺癌患者生存時間的因果關系,可能對評估肺癌患者的生存時間有一定的臨床價值。醫學上常用的統計分析方法有KaplanMeier單因素分析、COX多因素回歸模型等,但回歸分析會在某些情況下受限制。近年來,機器學習在醫療大數據領域取得了巨大成就,但很多情況下缺乏可解釋性和穩定性。因果推斷是用于解釋分析的強大建模工具,可以幫助恢復數據中的因果關聯,用于指導機器學習,實現可解釋的穩定預測[7]。因果網絡推斷被認為是社會感知、流行病學因素、神經連通性和經濟影響等研究的中心問題。顯然,理解因果關系是實現有效控制和增強解釋性的一個重要的先導步驟。

從觀測數據中發現因果關系分為基于統計分析的因果推斷和基于模型假設的因果推斷。基于統計分析方面,文獻[5]提出路徑系數(Path Cofficients)的結構化定義,通過數學方法來度量因果關系。同時又提出了結構等式建模SEM(Structural Equation Modeling),目的是為了把關系規則用等式和圖結合起來表示,在醫學領域中應用公式如下:

y=bx+uy

(1)

式中:y表示疾病癥狀的程度;x表示疾病的情況;uy表示除x疾病外,其他所有可以導致y的原因。文獻[12]提出了用路徑分析法來確定因果關系,該方法是通過比較樣本和隱含協方差矩陣,對所假設的因果關系進行統計檢驗,從而確定所假設的因果關系是否正確。Sun等[8]提出了利用Markov核函數在多元變量間選取最可能的假定因果方向,用來確定兩個變量之間的條件依賴性。基于模型假設的因果推斷方面,Shimizu等[9]提出了線性非高斯循環模型LINGAM模型,Hoyer等[10]提出了一種能處理非線性數據的加性噪聲模型,Peters等[11]提出了一種基于非線性ANM的算法去解決離散數據的問題,但這些方法不能保證恢復每對變量之間的真實因果方向。后來Janzing等[3]提出了一種基于信息幾何理論的因果推斷算法IGCI算法。它基于輸入分布和因果機制之間的獨立性假設,利用信息空間中的正交性定義獨立性的方法描述因果變量值之間的邊緣概率分布和條件概率分布,以確定因果變量間的因果關系。另外,IGCI算法能很好地解決網絡學習中存在馬爾可夫等價類的問題,可以較好地控制判斷率。大量實驗表明,大多數高維網絡數據集中,任意一個目標節點只有很少的相鄰節點相連,如果一個節點表現出較強的依賴性,則該節點與目標節點可能存在因果關系。最大依賴-最小冗余(mRMR)準則[6]是因素選擇方法里用來尋找因素集的重要準則。即使在高維網絡下小樣本數據集中,也顯示出良好的可靠性和魯棒性。

傳統的機器學習回歸方法構建的預測模型可能無法準確識別預測變量的全部主要因素,從而影響預測效果。為此,提出一種因果推斷與深度神經網絡結合的方法(MRCI-DNN)預測肺癌患者生存時間。首先利用因果推斷算法構建病理因素與肺癌患者生存時間的因果網絡結構圖;再從因果網絡圖中選取影響生存時間的主要因素,建立DNN模型對生存時間進行預測。實驗結果表明,基于因果推斷方法篩選主要因素應用在深度神經網絡預測上要優于其他選擇特征方法。

1 因果方法概述

1.1 因果網絡

因果網絡是描述變量之間依賴關系的概率推理模型,三元變量組G=(X,E,P)常被用來表示因果網絡。其中X={x1,x2,…,xn}代表有向無環圖DAG中所有節點的集合,E={e(xi,xj)|xi,xj∈X}代表DAG中每兩個節點間的有向邊的集合,e(xi,xj)表示xi、xj間存在依賴性關系xi→xj或者xj→xi;P={P(xi|paxi)|xi,paxi∈X}是節點之間條件概率的集合,則P(xi|paxi)表示xi的父節點集paxi對xi的影響概率[4]。因果網絡本質上就是聯合概率分布P=(x1,x2,…,xn)的一種圖表示。

定義1V結構和三角結構[15]。如圖1所示,x、y、z為有向無環圖DAG的3個不同節點,x、y為z的父親節點,若x、y之間不存在直接相連的邊,則該結構稱為V結構。若x、y之間存在直接相連的邊,則稱此結構為三角結構。

(a) V結構 (b) 三角結構圖1 V結構與三角結構

1.2 最大依賴-最小冗余準則

定義2最大依賴性(Max-dependenc)準則。在因素選擇學習過程中,最大依賴性準則通常采用基于互信息的搜索方法來尋找與目標變量有最大依賴關系的變量集合。

最大依賴性準則具體形式為:

(2)

式中:D(y,S)表示變量y和變量S的依賴性;I(y;S)表示y與S之間的互信息大小。假設n為變量S的個數,當n=1時,式(2)等價于y與S之間的最大化互信息I(y;Si)(1≤i≤n)。若n>1,逐次向目標因素候選集增加一個變量進行增量搜索;給出k-1個變量的變量集Sk-1,則第k個變量xk須保證使得I(y;Sk-1∪xk)互信息最大化。因此有以下形式:

(3)

定義3最大依賴-最小冗余(mRMR)準則。Peng等[6]提出了一種因素選擇方法,可以使用互信息,相關或距離相似性分數來選擇因素。mRMR準則是理論上最佳的最大依賴性(Max-dependenc)準則的近似,其最大化所選因素和任意變量的聯合分布之間的互信息。在存在其他所選因素的情況下,通過冗余來懲罰因素的依賴性,尋找與目標變量滿足最大依賴的變量集合。候選因素集S與變量x的依賴程度由各個變量之間的所有互信息值的平均值定義,計算規則采取以下形式:

(4)

若采取的是每次添加一個因素進入候選因素集的選擇方法,mRMR準則等價于最大依賴性準則。

1.3 基于信息幾何的IGCI算法

信息幾何理論提供了一個直觀的途徑去估算變量間的依賴關系。信息熵是對隨機變量不確定性的度量。信息熵公式如下:

(5)

式中:P(xi)代表隨機事件xi的概率。基于信息熵理論,Janzing等[3]提出了一種基于信息熵的因果推斷方法IGCI算法。該算法在確定性關系Y=f(x)的情況下,利用信息空間中的正交性定義獨立性的方法量化已知因果變量的因果強度,從而通過因果關系的不對稱性來確定因果方向。該方法不須要附加噪聲或后非線性模型的限制類,把二個變量之間的信息計算轉化為的密度損失量,來判斷變量之間的因果方向。二個變量之間的密度損失估算公式如下:

(6)

式中:H(y)和H(x)分別表示變量x、y的信息熵大小。若Cx→y<0,可以判斷出x變量導致y變量;相反,若Cx→y>0,則y導致x。IGCI算法不僅可以處理確定性因果關系,而且在樣本規模較小且存在低噪聲的情況下,還可以獲得較好的結果,對其無向圖邊方向推斷的準確率高于其他因果推理算法。

2 基于因果推斷預測流程

本文實驗流程主要分為二個階段:第一階段基于因果推斷算法分析病理因素與肺癌患者生存時間的因果關系,采用mRMR準則和IGCI算法構建完整的因果網絡結構圖,因果推斷算法記為MRCI;在第二階段,從因果網絡結構圖中選取影響患者生存時間的主要因素,利用深度神經網絡(DNN)對患者生存時間進行預測。為了便于表述,本文所采用的方法記為MRCI-DNN。技術思路如圖2所示。

圖2 本文技術思路圖

2.1 數據處理

本文收集2012年1月至2017年12月在南華大學附屬南華醫院就診的695例肺癌患者病例數據作為研究對象。所選取患者病理數據均是首次確診為肺癌,且就診前從未進行放化療及手術治療。從病理數據中篩選出17種因素以及患者生存時間,數據集部分樣本如表1所示。全部數據進行因子化處理,其中各節點含義用其英文名稱縮寫表示,非數值型因素變量賦值如表2所示。

表1 部分數據集樣本

續表1

表2 非數值型因素量化

2.2 主要因素篩選

采用因果推斷算法MRCI構建因果網絡結構圖,根據因果強度,從因果網絡圖中選取與患者生存時間有直接因果關系的因素作為主要因素。首先利用最大依賴-最小冗余準則(mRMR)在因素中增量搜索數據間的依賴程度,尋求與生存時間有最大依賴性的因素集,構造出有向無環圖,然后結合IGCI算法對因果變量進行方向識別,最后得到完整的因果網絡結構圖。MRCI算法框架如圖4所示。

(a) 因果結構 (b) 因果網絡圖3 因果推斷算法基本框架

步驟1給定肺癌患者數據集X={x1,x2,…,xn},分別初始化目標節點y的因素候選集S(x)={},主要因素集S(y)={}。

步驟2使用mRMR算法增量搜索與y節點依賴最大的節點xi,設置閾值m,根據依賴程度從高到低依次納入S(x);移除大部分與目標節點y無直接因果關系的節點。

步驟3采用條件獨立性測試方法移除候選節點集S(x)的非因果節點。重復步驟2-步驟3,直至所有節點迭代完。

步驟4使用IGCI算法,判定候選因素集與目標節點y之間因果方向,將影響y的因素加入S(y),即Cx→y<0。迭代所有節點,得到完整的因果網絡圖。因果推斷MRCI算法具體描述如下:

Input: variable setX={x1,x2,…,xn};thresholdε.

Output: the casual structure ofG.

Initialization: setS(x)={},S(y)={}.

1 for eachxi∈Xdo

/*逐次尋找與y節點依賴最大的節點xm,納入S(x)*/

employs mRMR algorithm to seek the most dependent nodesxi,

whilem≤εdo

Sm=Sm-1∪xm

thenS(x)=Sm

2 for eachxm∈S(x) do

/*利用條件獨立性從S(x)選出y的因果因素*/

employs IC to remove non-causal nodes

xm∈S(x), Such that (y;xj|xm) is hold,

thenS(x)=S(x)xj

/*Repeat the above steps. */

3 for eachxm∈S(x) do

/*利用IGCI算法判別變量間因果方向*/

employs IGCI algorithm to distinguish the direction of(y,xm).

ifCx→y<0, then addxmtoS(y)

2.3 生存時間預測

第二階段,從因果網絡圖中選取主要因素,利用深度神經網絡(DNN)對生存時間進行預測。DNN具備多個隱藏層,網絡單元間每一條鏈路都是一條可學習訓練的因果鏈,使用相同網絡單元,可以更好地處理復雜問題。本實驗DNN預測模型以第一階段獲取的6個主要因素作為輸入,其中輸入層神經元個數為6,輸出層神經元個數為1。通過進行大量網絡深度測試和K折交叉驗證,綜合考慮訓練精度和訓練時間等因素,確定隱層為2層,隱藏層1和2神經元個數分別為64,64,每層均采用ReLU函數作為激活函數,設置Dropout以防止模型過度擬合化。深度神經網絡參數設置如表3所示。此外,采用交叉驗證方法把全部訓練數據分為五份,隨機抽取4份作為訓練集,1份作為測試集,初始學習率為0.1,訓練次數為500次。預測模型如圖4所示。

表3 DNN參數設置

圖4 預測四層DNN模型

3 實驗與結果分析

主要因素篩選實驗在Windows 10系統MATLAB 2017b中進行,對生存時間預測在Python 3.6.4進行。采用2012年1月至2017年12月在南華大學附屬南華醫院就診的695例肺癌患者病例數據。實驗第一階段采用因果推斷MRCI算法構建因果網絡圖如圖5所示。

圖5 肺癌患者各因素與生存時間因果網絡圖

從所構建的因果網絡結構圖可知,血小板與淋巴細胞比值(PLR)、中性粒細胞與淋巴細胞比值(NLR)、肺癌分期(stage)、吸煙(smoke)、肺癌分型(type)、是否接收放化療(treat)是影響肺癌患者生存時間(livetime)的主要因素。我們還可以獲悉,年齡(age)為孤立節點;腫瘤分型(type)、吸煙(smoke)、中性粒細胞數(Neu)、淋巴數(lymph)和患者性別(sex)對NLR有影響,而NLR對腫瘤大小(size)有影響;吸煙(smoke)同時影響NLR、肺癌分型(type)和肺癌分期(stage);白細胞數(WBC)除了由其包含的細胞中性粒細胞(Neu)、嗜酸性細胞(Eos)、嗜堿性細胞(Bas)、單核細胞(Mos)、淋巴數(lymph)的影響外,還受到腫瘤大小(size)、肺癌分期(stage)的影響;肺癌分型(type)、是否接收放化療(treat)對癌胚抗原(CEA)產生影響。實驗所得影響生存時間的主要因素以及因素之間的因果關系與癌癥臨床醫學驗證和現有文獻分析基本一致。

第二階段選取影響患者生存時間的主要因素S={PLR,NLR,stage,smoke,type,treat}對患者生存時間做預測。為驗證本文主要因素篩選方法MRCI的有效性,分別將其于常用的特征選擇方法SelectKBest以及輸入全部因素預測做對比,采用SelectKBest方法挑選與患者生存時間相關性高的前六個因素T={stage,smoke,treat,WBC,PLR,NLR}。三種因素選擇方法在DNN模型上性能對比如表4所示,在測試集上的預測結果分別如圖6-圖8所示,其中y軸表示預測的生存時間,y=x曲線表示真實生存時間。

表4 因素選擇方法比較

圖6 MRCI-DNN方法預測結果

圖7 輸入全部因素-DNN預測結果

圖8 SelectKBest-DNN預測結果

由表4可知,MRCI選取主要因素預測的準確率要微優于輸入全部因素預測的準確率,在誤差上兩者也比較接近。MRCI方法與SelectKBest方法相比,準確率上升了8.68%,估計誤差分別減少了28.5%和25.2%。可以得出,MRCI方法對DNN的預測準確率有顯著提升。由于SelectKBest方法選取的因素集中缺少了影響肺癌患者生存時間的主要因素,因此預測效果較差。MRCI-DNN模型的生存時間預測結果如圖6所示,MRCI-DNN預測的散點圖形狀基本擬合y=x曲線,即在測試集上預測生存時間很大程度上與實際生存時間接近或重合。通過與另外二種方法輸入預測結果的散點圖比較可以看出,MRCI-DNN預測效果與輸入全部因素預測效果接近,但顯然優于SelectKBest方法篩選特征輸入的預測效果。所以MRCI方法應用于DNN模型上具有較好的魯棒性。從測試集中隨機抽取部分樣本,分別輸入MRCI方法篩選的主要因素S={PLR,NLR,stage,smoke,type,treat}和輸入17個全部因素進行預測,患者實際生存時間和二組因素集預測生存時間進行對比分析如表5-表6所示。

表5 實際值與主要因素預測值對比 單位:月

表6 實際值與全部因素預測值對比 單位:月

從表5-表6可以看出,將主要因素作為輸入的預測值更接近實際數據,相互間誤差最大為3個月,未經篩選的全部因素預測結果與實際數據誤差最大為5個月。輸入全部因素進行模型學習訓練,實驗發現采用MRCI方法篩選的主要因素權值比重大,剩余因素權重較小,更加驗證了MRCI方法選擇主要因素的有效性以及輸入主要因素預測的準確性。這是因為因果網絡推斷方法尋找變量之間的因果關系時,最大化因素與生存時間之間的因果效應,最小化因素與因素之間的因果效應,利用因果約束剔除關聯中的虛假關聯,更準確地尋找到真正影響目標變量的主要因素。在輸入全部因素進行預測時,全部因素里存在混淆變量和干擾變量,因此預測效果較MRCI-DNN預測效果較差。

由此可以看出,利用因果推斷篩選主要因素的方法進行預測要優于常用的特征選擇方法。常用的特征選擇方法可能無法準確識別預測變量的全部主要因素,或非因素排在了主要因素前面,從而影響了預測效果。通過因果推斷方法構建因果網絡,可以直觀地獲取與預測節點有關的主要因素,且因果機制是自然屬性,具有不變性,因此基于學習因果關系獲得的預測模型具有一定程度的穩健性和可解釋性。

4 結 語

本文針對所獲肺癌患者的病理數據,提出一種基于因果推斷的患者生存時間預測方法(MRCI-DNN)。采用因果推斷方法篩選主要因素輸入,并建立DNN網絡學習模型對患者生存時間進行預測。實驗結果表明,影響肺癌患者生存時間的主要因素有:吸煙、NLR、PLR、肺癌分期、接受放化療以及肺癌分型。應用因果推斷方法,對有效分析影響肺癌患者生存時間的主要因素有一定的應用價值。通過實驗對比,本文采用的方法在預測效果上要優于傳統機器學習方法,因此基于因果推斷獲得的預測模型具有一定程度的穩健性和可解釋性。由于本文僅在現有數據上尋找主要因素對患者生存時間預測,數據中可能存在隱變量和一定的干擾噪聲,也會影響因果分析和預測精度。因此擴大樣本量,深入分析肺癌患者各因素之間的因果關系和提升預測準確度將是下一階段的研究內容。

猜你喜歡
肺癌方法
中醫防治肺癌術后并發癥
保健醫苑(2023年2期)2023-03-15 09:03:04
對比增強磁敏感加權成像對肺癌腦轉移瘤檢出的研究
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
PFTK1在人非小細胞肺癌中的表達及臨床意義
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
microRNA-205在人非小細胞肺癌中的表達及臨床意義
捕魚
基于肺癌CT的決策樹模型在肺癌診斷中的應用
主站蜘蛛池模板: 亚洲区第一页| 欧美综合激情| 国产无码精品在线| 中文字幕有乳无码| 亚洲成人精品在线| 强乱中文字幕在线播放不卡| 亚洲福利片无码最新在线播放| 国产精品香蕉| 激情亚洲天堂| 亚洲精品欧美日本中文字幕| 亚洲综合色婷婷| 成人在线视频一区| 亚洲男人天堂2018| 国产高潮流白浆视频| 国产精品白浆在线播放| 久夜色精品国产噜噜| 999精品色在线观看| 午夜无码一区二区三区在线app| 青青草原国产精品啪啪视频| 日韩人妻少妇一区二区| 国产精品成人第一区| 2022国产91精品久久久久久| 亚洲一区第一页| 亚洲视频免| 亚洲日韩精品伊甸| 尤物精品国产福利网站| 午夜精品久久久久久久无码软件| 久久久精品无码一区二区三区| 国产精品yjizz视频网一二区| 亚洲午夜福利在线| 亚洲精品动漫| 色噜噜狠狠色综合网图区| 亚洲AV无码乱码在线观看代蜜桃| 青草视频在线观看国产| 青青热久免费精品视频6| 亚洲欧美国产视频| 久久无码av一区二区三区| 国产精彩视频在线观看| 中文字幕亚洲综久久2021| 欧美视频在线不卡| 小说区 亚洲 自拍 另类| 中文字幕在线欧美| 日韩欧美中文字幕一本| 无码有码中文字幕| 国产在线观看一区二区三区| 日韩人妻少妇一区二区| 色综合久久综合网| 白浆视频在线观看| 亚洲综合18p| 亚洲精品自拍区在线观看| 国产成+人+综合+亚洲欧美| 一区二区三区高清视频国产女人| 中文精品久久久久国产网址 | 强乱中文字幕在线播放不卡| 欧美在线天堂| 国产99在线观看| 尤物午夜福利视频| 无遮挡一级毛片呦女视频| 免费aa毛片| 欧美视频在线观看第一页| 亚洲天堂精品在线| 亚洲Aⅴ无码专区在线观看q| 国产一级特黄aa级特黄裸毛片 | 久久先锋资源| 91久久国产热精品免费| 国产天天色| 永久成人无码激情视频免费| 欧美日韩中文国产va另类| 亚洲第一中文字幕| 国产精品午夜福利麻豆| 一区二区三区成人| 成年人国产视频| 国产亚洲精品91| 亚洲最大福利视频网| 国内精品视频在线| 国产精品九九视频| 久久精品国产一区二区小说| av在线人妻熟妇| 欧美人与动牲交a欧美精品| 蜜臀AVWWW国产天堂| 欧美中文字幕在线播放| 成人久久精品一区二区三区 |