曹鴻亮,張 瑩*,武 斌,李繁菀,那緒博
(1.華北電力大學控制與計算機工程學院,北京 102206;2.交通數據分析與挖掘北京市重點實驗室(北京交通大學),北京 100044)
(?通信作者電子郵箱dearzppzpp@163.com)
原發性肝癌是我國常見的惡性腫瘤之一,發病率和死亡率居我國惡性腫瘤第二位。近十余年來,肝移植在我國得到蓬勃發展,成為治療肝移植的重要手段之一,肝癌也成為肝移植的主要適應癥之一。越來越多的人由于進行了肝移植手術而重獲生命,肝移植已逐步成為臨床常規手術,在臨床診療領域具有重要地位。原位肝移植因其移植過程復雜,易產生各種并發癥,制約著肝移植手術的成功率[1]。肝移植受者術后并發癥一共有六種(包括死亡),本文以下部分簡稱為術后并發癥Ⅰ、術后并發癥Ⅱ、術后并發癥Ⅲa、術后并發癥Ⅲb、術后并發癥Ⅳ、Ⅴ級(死亡)[2-3]。目前對肝移植受者術后并發癥的檢測依然是靠人工排查以及定時復檢[4],這主要是由于肝移植的樣本數據集很小而特征空間很大,導致現有的機器學習算法很難準確、有效、可靠地預測肝移植術后并發癥[5-6]。準確、高效地預測分類肝移植術后受者的并發癥對提高肝移植成功率起到重要作用。
傳統機器學習預測模型將肝移植并發癥的診斷過程看作以肝移植過程的臨床表現為特征的統計分類預測問題,根據臨床表現建立樣本特征空間,將已有的病歷樣本特征和對應的標記作為訓練集合,采用統計分析模型訓練分類預測函數,從而可以對新病例進行預測分析[7]。然而由于已有的肝移植術后并發癥病例樣本數量少,主流的機器學習算法對小樣本無法學習到足夠的特征,難以訓練出高效可靠的并發癥預測模型。目前解決小樣本模型訓練問題的主要方法有遷移學習技術和采樣技術[8]。采樣技術利用一定的策略在原始樣本集上生成樣本均衡的訓練集,在均衡訓練集上訓練并發癥預測模型,可以提高召回率,但會導致模型的準確率下降,限制了模型的效果。遷移學習是利用已有的知識對不同但相關的領域進行求解的一種機器學習方法?;谔卣鞯倪w移學習,關注的是如何將源領域和目標領域的數據映射到新的特征空間,使得在新的特征空間中,源領域數據與目標領域數據分布相同,并且最大限度地保留源領域和目標領域的內部屬性[9],從而可以在新的特征空間中利用源領域已有的標記數據進行訓練,對目標領域的數據進行分類測試[10]。
本文提出了基于遷移成分分析(Transfer Component Analysis,TCA)的并發癥預測方法,首先對混亂的原始數據進行預處理,篩選出有效信息。由于樣本量小而特征空間很大,因此在模型訓練過程中引入基于特征的遷移學習,對特征空間進行降維,自適應地選取最優特征組合,大幅減少了模型訓練的時間,同時通過支持向量機(Support Vector Machine,SVM)在源領域上進行訓練,對目標領域的數據進行分類測試。由于肝移植病歷數據較少,并且正負樣本不均衡,本文綜合采用準確率和F1值作為度量標準[11]。實驗結果表明,相比傳統機器學習模型,本文提出的采用基于TCA 和SVM 相結合的新型肝移植并發癥預測方法在預測準確率和F1 值上均有較大提升。
本文的主要工作如下:
1)提出了一種基于TCA 和SVM 的肝移植并發癥預測方法,解決了傳統機器學習應用在小樣本、大特征空間的肝移植醫療數據集預測上的不足,能提升并發癥分類預測的準確率和F1值。
2)在劃分源領域和目標領域的問題上,根據術前、術中、術后的不同時間節點采樣醫療數據構成源領域和目標領域,提供了一種劃分源領域和目標領域的思路。
3)自適應地實現最優特征的選取,能有效提高模型訓練的速度和效率。
本文提出了基于TCA 和SVM 的肝移植并發癥分類預測方法,對患者的臨床數據進行分時采樣構成源領域和目標領域,利用TCA 將源領域和目標領域映射到再生核希爾伯特空間同時進行降維[12],提取有效臨床數據。源領域是指已經進行標記的一批數據,和目標任務要預測的問題在一些知識層面上有著相關性;目標領域是指沒有標記的一批數據,需要通過尋找與源領域的可遷移成分來獲得標簽。利用SVM 在源領域上進行訓練,在目標領域上進行預測分類,解決了樣本小、特征空間大的肝移植數據集給并發癥預測模型的訓練和預測性能帶來的影響,提高了并發癥預測模型的預測性能。
1.1.1 TCA
同構遷移學習應用于源領域和目標領域特征空間相似的場景。通過將源領域和目標領域的數據特征變換到統一的再生核希爾伯特空間來減小源領域和目標領域之間的差距,然后再利用傳統的機器學習方法進行分類預測[13]。按照不同的時間節點對肝移植患者的臨床數據進行采樣,分成源領域和目標領域,這樣劃分使得源領域和目標領域間有一些交叉的特征,特征空間相似的同時,也有一些不同。通過遷移學習提取出共同特征實現降維。本文所采用的方法是TCA,以最大均值差異(Maximize Mean Discrepancy,MMD)作為度量準則[14],將源領域和目標領域映射到同一再生核希爾伯特空間,在該空間上實現邊緣分布自適應,根據TCA 的假設,當實現邊緣分布自適應時,源領域和目標領域同時滿足條件分布自適應[15]。式(1)給出了最大均值差異的數學表達式:
其中:Xs、Xt分別表示源領域和目標領域,n1、n2分別表示源領域和目標領域的樣本個數。式(1)給出了映射后的源領域和目標領域的均值之差,衡量了源領域和目標領域的分布差異,MMD 的值越小,源領域和目標領域的分布差異越小。目標是求出映射函數φ使源領域和目標領域映射后的數據分布盡可能相似。
映射函數φ是高度非線性的,直接對MMD 進行優化往往會陷入比較差的局部最小值,因此引入TCA的思想將MMD距離平方展開產生二次項乘積的部分,引入核函數將最大均值差異變換為下面的形式:
其中K為引入的核矩陣:
Ks,s、Ks,t、Kt,t分別表示在映射后的空間上的源領域、跨領域、目標領域數據的核函數。
L為引入的一個分段函數,其中Xs表示源領域,Xt表示目標領域:
目標函數的第一項最小化兩個分布之間的距離,第二項最大化特征空間的方差,其中λ≥0是一個權衡參數。
為了優化求解這個問題,引入降維的思想直接構造結果,用一個比K維度更低的矩陣W構造結果[12]如下,其中為臨時變量:
代入到目標函數中整理得到最終TCA的優化目標為:
這里的H是一個中心矩陣:
其中:I∈R(n1+n2)×(n1+n2);W即為最終要求的矩陣結果,優化的目標是最小化源領域和目標領域的距離,約束則要求維持各自的數據特征,即維持數據的散度。
算法的流程如下:
算法1 TCA。
輸入 源領域數據Xs,目標領域數據Xt;
輸出 源領域經過TCA 降維后的結果Ts,目標領域經過TCA降維后的結果Tt。
1)計算L和H矩陣;
2)選擇核函數計算K;
3)求解(KLK+μI)-1KHK的前m個特征值。
1.1.2 異構域適應
異構遷移學習應用于源領域和目標領域特征空間不同的場景。Li等[16]提出了一種漸進式對齊的方式來改善源領域和目標領域的特征差異和分布發散問題。通過引入共享字典的思想,在源領域和目標領域上學習一個新的可遷移的特征空間,然后在新空間上對齊分布差異[16]。此外,利用局部一致性,通過保持來自同一樣本的距離更近達到保留內部屬性的目的。
以下公式所用符號的含義如表1所示。
表1 公式符號說明Tab.1 Formula symbol description
1)共享字典編碼。
由于源領域和目標領域應用的任務場景有相似之處,因此在源領域和目標領域之間共享一個字典是可行的。通過共享字典編碼,源領域和目標領域可以學習到新的可遷移的特征空間,如式(8)所示:
2)漸進式對齊。
通過共享字典編碼學習到新的特征空間,然后在新的空間上對齊分布差異,利用最大均值差異作為衡量標準:
3)局部一致性。
利用局部一致性原理,保持來自同一類的樣本距離較近,最小化如下目標:
最小化式(10)可以在新特征空間上保持樣本的近鄰關系,緩解負遷移。式(10)可以進一步改寫為:
其中:L=D-W為拉普拉斯矩陣,是一個對角矩陣。
結合式(8)、(9)、(11),最終的目標函數如下:
由于最終優化的參數有3 個,可以通過固定其中兩個,迭代求解第三個,完整算法流程見算法2。
算法2 漸進式對齊異構域適應(Heterogeneous Domain Adaptation,HDA)。
輸入Xs,Xt,參數α1,α2,β,γ,c;
輸出Xt的標簽。
1)利用PCA初始化P,初始化B,計算MMD矩陣M;
2)迭代求解式(3)~(5)直到收斂或者到達最大迭代次數;
3)固定B、P優化S;
4)固定S、P優化B;
5)固定S、B優化P;
6)通過Ss分類St。
SVM 是由Vapnik 提出的基于統計學習理論并采用結構風險最小化原理的一種機器學習方法[17],具有較強的泛化能力,采用數量有限的訓練集就可以得到一個針對獨立測試集的分類錯誤率相對較小的分類模型,對于小樣本預測分類效果很好[18]。本文在對原始數據集進行TCA 降維后,采用SVM在源領域進行訓練,在目標領域上進行預測分類。
對肝移植術前、術中、術后三個階段的不同時間節點進行采樣分成源領域和目標領域,對源領域和目標領域進行TCA,將源領域和目標領域映射到同一特征空間并進行降維,在降維后的源領域訓練SVM 模型,訓練好的模型在目標領域上進行分類預測,輸出結果即為在目標領域上的預測分類值,完整算法見算法3。
算法3 基于TCA和SVM的分類預測方法。
輸入Xs,Xt;
輸出 在目標領域上的預測分類值Rt。
1)計算L和H矩陣;
2)選擇核函數計算K;
3)求解(KLK+μI)-1KHK的前m個特征值;
4)求解經過TCA降維后的源領域和目標領域;
5)采用SVM在源領域上進行訓練;
6)訓練好的模型在目標領域上進行預測分類。
圖1是本文提出的基于TCA和SVM的肝移植術后并發癥預測方法的完整流程。輸入數據是一批進行過預處理的病歷數據,在輸入層通過對數據在術前、術中和術后以相同時間間隔不同時間節點進行采樣獲得源領域和目標領域數據,源領域和目標領域數據進行過TCA 映射到同一再生核希爾伯特空間,通過在遷移后的源領域數據上訓練SVM 模型,并在目標領域上進行預測獲得目標領域的預測值,為預測的并發癥結果。
圖1 TCA結合SVM方法流程Fig.1 Flowchart of TCA combined with SVM
圖2是異構域適應結合SVM的預測方法示意圖,本文在后面實驗部分對HDA 結合不同傳統機器學習算法進行比較,此處以SVM 為例說明。與算法3的不同之處在于源領域和目標領域的遷移是通過異構域適應實現,算法其余部分沒有差別。
圖2 HDA結合SVM方法流程Fig.2 Flowchart of HDA combined with SVM
本文采用的數據集是論文合作醫院的425 個肝移植患者的術前、術中、術后的診治記錄(脫敏后)。從肝移植患者病歷中抽取出重癥監護室(Intensive Care Unit,ICU)護理記錄數據、病歷系統數據以及麻醉單監護系統數據作為樣本輸入,五種并發癥以及是否死亡作為樣本標簽結果,對每一種并發癥建立一個預測二分類數據集,具體信息見表2。數據集中包括425 條病歷記錄,每條病歷記錄有456 個臨床數據點,由于部分病歷記錄和部分臨床數據點數據缺失,將完整無缺失的臨床數據點對應的特征作為樣本輸入,缺失值對應的特征作為標簽建立決策樹預測并填補缺失值。對于部分醫療數據進行標準化預處理減少它對其他特征的影響。
表2 實驗數據集基本情況Tab.2 Basic situation of experimental dataset
肝移植數據點具體信息見表3。
表3 實驗數據集中的肝移植特征Tab.3 Liver transplantation features in experimental dataset
對于已有的數據集,根據醫生專家指導將血常規指標的術前2 d、4 d、6d、14 d、術后2 d、4 d、6d、14 d 的數據劃分為源領域,將術前1 d、3 d、5 d、7d、術后1 d、3 d、5 d、7d的數據劃分為目標領域;將生化指標術前2 d、4 d、6d、14 d、術后2 d、4 d、6d、14 d 的數據劃分為源領域,將術前1 d、3 d、5 d、7d、術后1 d、3 d、5 d、7d 的數據劃分為目標領域;將血氣指標的術前30 min、門脈開放時、門脈開放后30 min、門脈開放后150 min、進入ICU 時、門脈開放后120 min 的數據劃分為源領域,將術前60 min、門脈開放時、門脈開放后60 min、手術結束時、門脈開放后60 min的數據作為目標領域;將凝血指標的術前2 h、4 h、6 h 手術結束后2 h、4 h、6 h、距手術結束2 h、4 h、6 h 的數據劃分為源領域,將術前1 h、3 h、5 h、7 h、術后1 h、3 h、5 h、7 h、距手術結束時1 h、3 h、5 h、7 h 的數據劃分為目標領域;將術后輸血情況的紅細胞POD0、紅細胞POD2、紅細胞POD4、紅細胞POD6、紅細胞POD8、紅細胞POD10、紅細胞POD12、紅細胞POD14,血漿POD0、血漿POD2、血漿POD4、血漿POD6、血漿POD8、血漿POD10、血漿POD12、血漿POD14、血小板POD0、血小板POD2、血小板POD4、血小板POD6、血小板POD8、血小板POD10、血小板POD12、血小板POD14 劃分為源領域,將紅細胞POD1、紅細胞POD3、紅細胞POD5、紅細胞POD7、紅細胞POD9、紅細胞POD11、紅細胞POD13、紅細胞POD14+、血漿POD1、血漿POD3、血漿POD5、血漿POD7、血漿POD9、血漿POD11、血漿POD13、血漿POD14+、血小板POD1、血小板POD3、血小板POD5、血小板POD7、血小板POD9、血小板POD11、血小板POD13、血小板POD14+劃分為目標領域。經過以上處理,將病歷數據劃分為兩個數據集,兩個數據集數據數量相同、特征數相同,一個作為源領域數據,另一個作為目標領域數據。鑒于不同時間節點的醫療數據差異性明顯,因此這種對于源領域和目標領域的劃分具有實際意義。下面對于源領域和目標領域分別進行TCA 降維,特征空間維度從456 維降到30 維,源領域和目標領域的特征空間映射到特征分布一致的再生核希爾伯特空間,可由源領域進行傳統機器學習訓練預測分類目標領域的標簽。
由于并發癥樣本正負樣本數不均衡,準確率無法全面評價實驗結果,因此需要考慮更多評價指標。F1 分數同時兼顧了精確率和召回率,可以全面地評價正負樣本不均衡數據的預測結果,因此本文綜合采用準確率和F1值作為實驗結果評判標準。準確率(acc)和F1值(f1)的計算公式如下:
本文同時比較了漸進式對齊異構域適應(HDA)和主成分分析(Principal Components Analysis,PCA)分別結合傳統機器學習算法的預測分類結果??v向比較了PCA、HDA 和TCA 分別結合SVM、K 最鄰近(K-NearestNeighbor,KNN)和極致梯度提升(eXtreme Gradient Boosting,XGBoost)的準確率和F1 值,準確率結果見圖3,F1 值結果見表4~6;同時還比較了SVM、KNN 和XGBoost 分別結合PCA、HDA 和TCA 的準確率和F1值,準確率結果見圖4,F1值結果見表7~9。
表4 SVM在PCA、TCA、HDA上的F1值結果Tab.4 F1 scores of SVM on PCA,TCA,HDA
表5 XGBoost在PCA、TCA、HDA上的F1值Tab.5 F1 scores of XGBoost on PCA,TCA,HDA
表6 KNN在PCA、TCA、HDA上的F1值Tab.6 F1 scores of KNN on PCA,TCA,HDA
表7 SVM、XGBoost、KNN在PCA上的F1值Tab.7 F1 scores of SVM,XGBoost,KNN on PCA
表8 SVM、XGBoost、KNN在TCA上的F1值Tab.8 F1 scores of SVM,XGBoost,KNN on TCA
表9 SVM、XGBoost、KNN在HDA上的F1值Tab.9 F1 scores of SVM,XGBoost,KNN on HDA
圖3 傳統機器學習在PCA、TCA、HDA上的準確率對比Fig.3 Comparison of accuracy of traditional machine learning on PCA,TCA,HDA
圖4 SVM、KNN、XGBoost的準確率對比Fig.4 Comparison of accuracy of SVM,KNN,XGBoost
從圖3 中可以看出,對于SVM、KNN 和XGBoost 三個傳統機器學習模型,分別結合TCA 在預測準確率上比結合HDA 要略高一些,比PCA 降維要高出7.6%到47.7%;而在F1 值方面,TCA 結合SVM 在五個術后并發癥上表現很好,遠遠高于另外兩個方法結合SVM。圖3 中HDA 和PCA 降維在術后并發癥Ⅱ、術后并發癥Ⅲa、術后并發癥Ⅲb 上預測的F1 值為0,表示兩種方法在測試集上的預測結果都為負,即預測都沒有并發癥,因此雖然兩種方法的準確率比較高但F1 值表現很差,這是由肝移植并發癥樣本數很少,并且在不同術后并發癥上的正負樣本不均衡導致的,但是本文提出的基于TCA 和SVM的方法在預測準確率和F1值上表現仍然很好。
從圖4 中可以看出,同樣使用PCA 降維的情況下,SVM、XGBoost 和KNN 的預測準確率相差不大,XGBoost 的預測F1值在術后并發癥Ⅱ、術后并發癥Ⅲa、術后并發癥Ⅲb上要高于SVM 和KNN。SVM 和KNN 的預測F1 值都為0,表示SVM 和KNN 的預測結果都為負,即預測測試樣例都沒有并發癥。同樣使用TCA 的情況下,SVM 的預測準確率比KNN 和XGBoost平均高出7.8%~42.8%,在預測F1 值上要遠遠高于KNN 和XGBoost,SVM 的 預 測 準 確 率 和F1 值 都 要 優 于KNN 和XGBoost。同樣使用HDA 的情況下,SVM、KNN 和XGBoost 的預測準確率相差不大,而預測F1 值三個模型表現都不是很好。
綜上可知:本文提出的基于TCA 和SVM 的肝移植術后并發癥預測方法在預測準確率和F1值上都取得較好的結果。
本文給出了基于TCA 結合SVM 的肝移植并發癥預測方法。理論分析和實驗檢驗表明:1)采用基于特征的遷移學習可以有效地對特征空間很大的樣本數據進行降維,避免了樣本不足情況下無法獲取足夠信息的缺點,實現邊緣分布自適應;2)運用SVM 可以可靠地應對并發癥這樣的小樣本數據集,結合遷移學習能有效提升模型預測的準確率和F1 值;3)對于源領域和目標領域的劃分提供了一種思路。此外,從實驗結果可以看出,并發癥的預測準確率和F1 值很高,但是缺乏一定的可解釋性,后續工作也將進一步研究基于專業醫學知識的特征自適應選取,以獲得具有可解釋性的并發癥預測模型。