袁筱祺,朱樂蘭,高 瑋,徐昕昕
(1.南京醫科大學附屬上海一院臨床醫學院,上海 20080;2.上海市第一人民醫院醫務處,上海 200080;3.黑龍江大學研究生院,黑龍江 哈爾濱 150000)
膽囊疾病是一種常見疾病,包括膽囊息肉、膽囊炎、膽囊壁毛糙、膽囊結石、膽囊壁膽固醇結晶等。最常見的疾病是膽囊結石,發病率達10%~15%[1]。彩色多普勒超聲是診斷膽囊結石最常用的檢查方式,對膽囊結石的診斷準確率可達95%以上[2],因此根據彩色多普勒超聲檢查結果將人群分為結石組和非結石組。本研究通過上海市中老年健康體檢人群的基線資料、血脂指標、肝功能檢查指標、膽囊結石患病情況,探討影響膽囊結石患病的相關危險因素,建立基于多層感知器神經網絡的膽囊結石風險預測模型,為膽囊結石的診斷與預防工作提供依據。
膽囊結石患病的機理復雜、相關風險因素較多,國內外膽囊結石的風險預測模型所納入的風險因素具有顯著性差異,膽囊結石預測模型的準確率還有待于進一步提高,其相關典型研究見表1。

表1 膽囊結石風險因素及預測模型相關研究
風險因素識別是建立預測模型的基礎,早前研究大多根據病例相關檢查或經驗歸納篩選出風險因素。隨著現代醫療的發展,醫療大數據的積聚,一些學者嘗試利用醫療數據集資源開展相關研究,進一步完善膽囊結石風險因素識別。風險模型建立階段,已有研究大多采用回歸分析,難以規避變量之間的相關性問題,而機器學習人工智能等技術提供了新的解決方案。多層感知器神經網絡模型可以將一組輸入向量映射到一組輸出向量,輸入與輸出之間可以多層加權連接。多層感知器的結構基本類似于一套級聯的感知器,主要由輸入層、隱藏層和輸出層組成。多層感知器一般包含一個或多個隱藏層,并且每個隱藏層中均有數個并行的感知器神經元,這些隱藏層神經元能夠從輸入樣本中逐步提取多種有用特征。在使用之前需要先對它進行訓練,通過輸入樣本對神經網絡進行訓練,能夠從數據樣本中自動地學習并揭示樣本中所蘊含的非線性關系,其對事物和環境具有很強的自學習、自適應、聯想記憶、并行處理和非線性轉換的能力[12]。鑒于膽囊結石風險因素復雜,加之數據集類型多元,重要風險因素有待于進一步挖掘。本研究采用神經網絡中的多層感知器(MLP)完成建模,對數據進行合理分類,優于普通的ANN模型。對于膽囊結石風險因素的識別,本文參考膽囊結石風險因素相關文獻,以及相關研究對膽囊結石影響的標準,通過多層感知器神經網絡學習建模,以期提高膽囊結石預測準確率和普適性。
本研究基于上海市某三甲醫院為期4年(2016-2019年)的患有與未患有膽囊結石中老年健康體檢者數據,總計3560條,變量的詳細相關信息見表2。

表2 數據集變量的相關信息
數據集針對電子病歷和檢驗結果等非結構化數據所存在的標準不規范、數據缺失、數據噪聲,以及結構化數據所存在的字段復雜和系統偏差等問題,本研究采取數據清洗、集成和降維等數據預處理操作。丟棄和強制替換缺失值較多以及明顯不合理的數據。對變量中的血脂指標和肝功能指標用樣本平均值填充連續性變量缺失數據,并采用最大最小值法進行歸一化處理,主要是對總膽固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、γ谷氨酰轉肽酶、堿性磷酸酶、丙氨酸氨基轉移酶、天冬氨酶氨基轉移酶進行數據的進一步處理,最終獲得有效數據3462條。其定性變量的描述統計信息見表3。

表3 定性變量的描述統計信息
對于性別、年齡、BMI、血壓等定性資料,采用卡方檢驗;對于總膽固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白等連續型變量,采用方差ANOVA,進行統計分析。篩選出影響膽囊結石患病的6個風險因素。根據單因素分析結果,性別(χ2=25.295,P<0.001)、年齡(χ2=30.102,P<0.001)、甘油三酯(F=9.230,P=0.002)、高密度脂蛋白(F=5.308,P=0.021)、丙氨酸氨基轉移酶(F=61.961、P<0.001)、天冬氨酶氨基轉移酶(F=19.807,P<0.001)與膽囊結石患病具有顯著性差異,見表4。

表4 變量與膽囊結石的單因素分析 n(%)
關于模型擬合優度,經Hosmer and Lemeshow 檢驗(P=0.316),差異無統計學意義。說明本模型解釋力度與飽和模型無差異,即模型擬合優度較高。見表5。

表5 預測模型擬合信息表
將單因素分析中具有顯著性差異的變量年齡、性別、甘油三酯、高密度脂蛋白、丙氨酸氨基轉移酶、天冬氨酸氨基轉移酶作為協變量,是否患有膽囊結石作為因變量,采用向前Wald法進行逐步回歸分析,將年齡變成啞變量,以α=0.05為入選變量標準,α=0.1為剔除變量標準,最終構建二元Logistic模型。性別、高密度脂蛋白、丙氨酸氨基轉移酶、天冬氨酸氨基轉移酶與膽囊疾病患病具有顯著性差異,見表6。

表6 二元Logistic回歸預測模型分析
多層感知器是一種前饋式有監督的機器學習方法,多用于發現數據間極為復雜的關系[13]。本研究因變量是分類變量,選擇Softmax函數作為輸出層的激活函數;再選擇雙曲正切函數為隱層激活函數,神經網絡優化算法采用調整的共軛梯度算法。鑒于多層感知機神經網絡是一種監督學習算法,選擇預測準確率、約登指數、AUC、ROC曲線作為評估標準,并采用循環調試方法確定最優參數值,將訓練樣本、測試樣本數據的比例設置為7∶3。
將是否患有膽囊結石移入因變量(輸入層)中,將單因素分析中具有顯著性差異的分類變量性別、年齡作為因子,高密度脂蛋白與肝功能指標等連續型變量作為協變量。因各輸入變量量綱不同,需對輸入數據進行標準化處理。將上海市某三甲醫院的中老年健康體檢有效數據樣本3462組中2417組(69.8%)作為多層感知器模型訓練樣本,1045組(30.2%)作為檢驗樣本,建立自學習多層感知器神經網絡模型。網絡結構模型如圖1所示,模型包括1個輸入層、1個隱藏層和1個輸出層。輸入層為性別、年齡、甘油三酯、高密度脂蛋白、丙氨酸氨基酸轉移酶、天冬氨酸氨基轉移酶,共10個神經元;隱藏層包含7個神經元;輸出層為患有膽囊結石與未患有膽囊結石2個神經元,見表7。

表7 多層感知器神經網絡模型結構
根據個案的相對數目隨機分配訓練-檢驗-支持3個分區的個案,訓練區相對數目為70%,檢驗區相對數目為30%,堅持區為0%。用已建立的多層感知器神經網絡模型將分區樣本進行交叉對比,其橫坐標為是否患病,縱坐標為預測擬概率,見圖1。觀察預測圖中多層感知器神經網絡模型默認采用0.5為儲集層是否患有膽囊結石判別正確和錯誤概率分界。按照儲集層是否患有膽囊結石進行分組,當任一類儲集層未患有膽囊結石為預測目標時,則其預測概率顯著高于或低于其他儲集層患病可能性,分類識別效果較好。

圖1 觀察預測圖
由于輸入層的自變量對模型輸出的結論有重大影響,多層感知器神經網絡具有對自變量的重要性進行排序功能,見圖2。通過單因素分析,去除6個與膽囊結石不具有顯著性差異的因素,保留6個影響因素。從圖中看出高密度脂蛋白、甘油三酯、天冬氨酸氨基轉移酶、丙氨酸氨基酸轉移酶為影響膽囊結石患病的重要獨立危險因素。

圖2 輸入層參數重要性排序對比
以預測模型公式計算出的截斷值作為檢驗變量,是否患有膽囊結石作為狀態變量繪制分別繪制二元logistic回歸模型及多層感知器神經網絡模型的ROC曲線,見圖3。

圖3 模型ROC曲線圖
二元logistic回歸模型的ROC曲線下面積(AUC)=0.821,95%CI為0.911~0.930,約登指數最大值為0.704,靈敏度為85.63%,特異度為84.78%,此時截斷值為0.104,即當截斷值≥0.104時,患有膽囊結石的可能性較大。多層感知器神經網絡預測模型的ROC曲線下面積(AUC)=0.937,95%CI為0.929~0.945,ROC曲線約登指數最大值為0.755,靈敏度為94.91%,特異度為80.56%,此時截斷值為0.944,即當截斷值≥0.944時,患有膽囊結石的可能性較大,見表8。

表8 Logistic回歸模型與多層感知器神經網絡模型預測能力比較
本研究表明,多層感知器神經網絡模型在膽囊結石患病風險預測中有較好的預測效能,根據檢驗樣本,建立模型預測的靈敏度、特異度、AUC均優于二元Logistic回歸模型的相應指標。多層感知器神經網絡模型適用于對多變量間錯雜相互作用的非線性分析,并對數據分布形態沒有嚴苛要求,較Logistic回歸模型具有方法學優勢,由此在疾病預測中表現出更好的預測效能。二元Logistic模型顯示性別、高密度脂蛋白、丙氨酸氨基轉移酶、天冬氨酸氨基轉移酶與膽囊結石患病具有顯著性差異。多層感知器神經網絡模型揭示出高密度脂蛋白、甘油三酯、天冬氨酸氨基轉移酶、丙氨酸氨基酸轉移酶是影響膽囊結石患病的4個重要的風險因素。模型結果均顯示丙氨酸氨基轉移酶、天冬氨酶氨基轉移酶、高密度脂蛋白是影響膽囊結石患病的重要風險因素。由于調查的樣本數據為中老年群體,肝功能水平下降,具有較多的基礎疾病。同時,在吳延等[14]研究中,發現天冬氨酶氨基轉移酶是膽囊結石患者不發生脂肪肝的保護因素。因而,推測天冬氨酶氨基酸轉移酶對于膽囊結石是否患病的影響較大。丙氨酸氨基轉移酶是膽囊結石患病的危險因素,推斷由于膽囊中液體排除時受阻引起肝細胞損壞,造成丙氨酸氨基轉移酶產生變化。血脂指標中,高密度脂蛋白對是否患有膽囊結石影響較大。脂質代謝異常會影響高密度脂蛋白水平變化,高密度脂蛋白是膽固醇的轉運載體,可轉化為膽汁酸或直接通過膽汁從腸道排出。推測由于平時吃大量的脂肪類食品,體內的甘油三脂水平就會有明顯的升高,尤其是那種加工特別精細的糧食,進入我們身體后會引起血糖升高,從而導致身體內脂質代謝異常,合成更多的甘油三酯。在這種病因誘導下,高密度脂蛋白水平降低,高密度脂蛋白的降低抑制肝細胞及其受體代謝后進入膽汁,從而導致膽囊內膽固醇濃度增加以及膽汁酸濃度降低,膽固醇不能得到充分的溶解,逐漸累積從而導致膽囊結石的發生。
多層感知器神經網絡模型揭示出性別也是影響膽囊結石患病的重要因素。國外許多研究中,男性性別被認為是膽囊疾病中膽囊結石形成的獨立風險因素[15]。男性膽囊結石患病情況比女性較為嚴重,推測可能原因為男性雄激素分泌旺盛,尿酸重吸收增加,女性體內的雌激素水平逐漸下降,女性缺乏體內自身雄激素的保護作用,導致女性腎功能逐漸減退,從而和男性關于膽囊結石患病率具有差距。膽汁中的膽固醇濃度增高,膽固醇結晶析出沉積,在促核形成因素作用下聚集,因而導致膽囊結石的發生。同時,相關研究表明肥胖組脂肪堆積可影響胰島β細胞功能[16],導致胰島素分泌障礙,脂質代謝異常,因而增加了膽囊結石患病的風險。臨床可將天冬氨酶氨基轉移酶偏高、丙氨酸氨基轉移酶偏高、高密度脂蛋白偏低、甘油三酯偏高患者作為膽囊結石高危人群及時進行干預。
綜上所述,高密度脂蛋白、甘油三酯、天冬氨酸氨基轉移酶、丙氨酸氨基酸轉移酶為影響膽囊結石患病的獨立危險因素,基于神經網絡的預測模型具有較高的預測能力可為臨床診斷提供參考。