沈惠文,林永忠,陳淑良,張立紅,馬春野,馬得原,張策*
缺血性腦卒中(ischemic stroke,IS)起病急,治療時間窗窄,治療效果影響因素復雜,因此快速診斷患者病情、評估及給予治療方案是關鍵?,F認為靜脈溶栓是最主要的恢復IS患者血管血流循環的方式,常使用的靜脈溶栓藥物主要有阿替普酶和尿激酶,而患者自身情況各異,且治療方式、給藥種類、給藥劑量、給藥方式均會影響患者的溶栓效果。Wide&Deep模型的核心是將深度神經網絡具備的泛化性和線性模型的記憶性能相結合,目的是為了能夠較大程度提升模型的預測性能[1],同時解決“記憶”和“泛化”的問題。“記憶”是指在面對大量離散稀疏的特征時,將特征進行非線性轉換,使其具有可解釋程度強等優點。但隨模型復雜程度增加,記憶能力增強,模型易出現過擬合的情況。而“泛化”恰好能緩解該類問題,“泛化”是稀疏特征學習低維的密集嵌入來捕獲特征之間的相關性,即將高維度向量轉換到低維度空間中,需要較少的工作量。因此采用大數據的學習方式,根據已經采用某一方案溶栓的患者預后,反推干預手段,從而建立以患者特征、干預手段及其他影響因素為輸入變量,預測治療效果為輸出變量的大數據算法,包括Wide&Deep、支持向量機(SVM)、分類回歸樹(CART)、C5.0決策樹、深度神經網絡(DNN)等。
目前,醫學大數據多集中在醫學影像方面[2-4],在臨床輔助診斷和監測方面的研究尚少見。溶栓藥物研究多集中于溶栓藥物的臨床效果觀察[5-6]、用藥效果及安全性分析[7-8]、溶栓效果影響因素[9-12]方面,樣本量多為數十到數百不等。針對溶栓治療方法的人工智能算法尚未見報道。本研究盡可能多的納入混雜因素,如高血壓、冠心病等既往病史,同時利用人工智能的有效算法,更全面的探討了溶栓影響因素,也降低了混雜偏倚,以期在真實世界背景下,增加人工智能用藥推薦模型的適用性。在IS患者入院時,根據患者的不同特點,由模型算法推薦最優治療方法及給藥方案,如用藥劑量、用藥種類及給藥方式等,同時算法轉化后應用于臨床,以期對患者的識別、治療方法的動態監測與調控、診斷操作的自動與精準提供有益探索。
1.1 研究對象 采用回顧性研究方式,從大連醫科大學附屬第二醫院醫渡云科研大數據服務器系統提取本院確診為IS的患者(n=55 621)的臨床信息,時間為2001-01-01至2021-12-31。IS患者納入標準:(1)年齡>18歲,男女不限;(2)根據神經影像學診斷為腦部存在責任缺血病灶;(3)患者入院及出院時美國國立衛生研究院卒中量表(NIHSS)評分完整;(4)具有溶栓指征。排除標準:(1)關鍵數據嚴重缺失,如用藥劑量、治療方式等數據不能回溯;(2)倫理批件中規定為未脫敏對象。依據納入標準篩選后,最終共納入IS患者1 855例。
依據每位患者入院與出院時NIHSS評分差值評價患者溶栓效果,并將患者分為神經功能改善組(差值≥4分[13],n=1 236)和對照組(差值 <4 分,n=619)。
本研究經大連醫科大學附屬第二醫院倫理委員會批準(大醫二院倫字〔2020〕043)。
1.2 研究指標 經3位神經內科高級職稱專家背對背推薦,并結合查閱IS診治指南及文獻,整理可能與IS發作后溶栓效果相關的影響因素,歸類為患者一般特征、用藥指標、檢查指標、檢驗指標、治療方式5類,共85個影響因素。首發及復發IS、合并顱內出血作為混雜因素進行控制。
1.3 研究方法
1.3.1 主成分分析 主成分分析是基于各個變量間的關聯關系,利用數據降維的方式,將多個相關聯的變量降維成幾個少數變量,原始指標的大部分信息能通過主成分反映[14]。本研究中利用主成分分析法進行降維處理,以提高模型的預測效率。
1.3.2 Wide&Deep模型構建與評價 Wide&Deep模型中,Wide模型為以y=wTx+b為形式的廣義線性模型,y是模型預測目標,x=[x1,x2,…,xd] 是模型中特征向量,w和b為利用極大似然法計算得到的估計參數;Deep模型為前饋式神經網絡模型。結合兩類模型的優勢,讓模型兼具“泛化能力”和“記憶能力”。Wide&Deep模型結構見圖1。同期構建SVM、Logistic回歸模型、C5.0決策樹、CART、DNN等模型,計算模型準確度、靈敏度、召回度等指標對模型進行評價比較,其中準確度是分類正確的樣本占總樣本個數的占比,精確度是預測為陽性的樣本中實際也為陽性的樣本占比,靈敏度是實際為陽性的樣本中預測也為陽性的樣本占比,由于靈敏度同召回度的計算方式及結果相同,在后續結果展示中省略該指標,綜合評價各項模型評價指標選擇最佳算法。

圖1 Wide&Deep模型結構Figure 1 The spectrum of the Wide&Deep model
將全部原始數據進行分割處理,隨機數為7和11,隨機分為訓練集(1 113例)、驗證集(371例)、測試集(371例),其中訓練集用來構建和訓練模型以發現規律,驗證集用來調整模型參數,測試集用來評價最終模型的泛化能力。提取本院IS患者的臨床信息,以溶栓治療后患者神經功能是否改善作為輸出變量(y),輸入變量為用藥種類(尿激酶/阿替普酶/無)、單次劑量、病因分型、溶栓時間窗等26個影響因素。
設定模型訓練輪次為100次,建模完成后,披露建模及模型準確度情況。報告網絡層內核心部分kernel和偏倚度bais收斂性能,描述三維坐標系中數據點的分布情況,判斷數據空間分布的聚類性。計算模型準確度、召回度、F指數等評價指標,全面評價模型。
1.3.3 尋找Wide&Deep模型最優參數 使用GridSearchCV方法尋找模型最優參數,在最優參數范圍內細微調整Wide&Deep模型中激活函數種類,分別為Relu和Sigmoid;隱藏層層數分別為1層、3層、5層、7層;隱藏層神經元個數分別為10、15、30、300。分別設定比較不同條件下模型訓練集、驗證集、測試集準確度,最終選定網絡結構中各個參數。
1.3.4 模型自變量簡化 面對IS患者具有溶栓的緊迫性、時間的復雜性、用藥方案多樣性、干擾因素數量多等特點,本研究針對單因素篩選中有統計學意義的因素進行特征工程處理,提取主要影響因素,根據權重大小比較各個因素的重要性程度,以增加模型反應性和實用性。按照各因素權重大小由高到低排序,提取累積百分比<90%的變量,構建簡化模型并評估其模型準確度。
1.3.5 Wide&Deep模型外部驗證 采用大連醫科大學附屬第二醫院IS患者數據建模后,以大連市中心醫院的醫渡云科研大數據服務器系統中IS專病數據庫的IS患者的臨床信息進行外部驗證,共提取到3 925例患者的臨床信息,評估構建的Wide&Deep模型的預測及泛化能力,評價指標為模型準確度情況,研究技術路線見圖2。

圖2 研究技術路線Figure 2 Technical route of the study
1.4 統計學方法 采用SPSS 13.0統計軟件進行數據插補及單因素篩選,針對血小板計數、低密度脂蛋白膽固醇(LDL-C)、同型半胱氨酸等字段構建CART模型填補缺失值。對85個影響因素進行單因素篩選,除納入統計學結果有意義的指標外,還結合神經內科高級職稱醫師推薦指標,共同作為分析變量納入主成分分析中,其中符合正態分布的計量資料以(±s)表示,兩組間比較采用兩獨立樣本t檢驗,不符合正態分布的計量資料以M(QR)表示,兩組間比較采用秩和檢驗,連續型變量包括年齡、單次劑量、白細胞計數等54個指標;計數資料以相對數表示,組間比較采用χ2檢驗,分類變量包括性別、高血壓、是否使用抗血小板藥等31個指標,以P<0.05為差異有統計學意義。利用Python 3.7進行主成分分析,利用主成分因子構建人工智能模型。使用Python 3.7中的Tensorflow和Keras模塊構建DNN和Wide&Deep人工智能模型,尋找模型的最優參數,繪制受試者工作特征(ROC)曲線。同期構建Logistic回歸模型、SVM、CART等模型,分別計算6種模型的準確度、精確度、召回率等指標進行模型的評價。
2.1 建模數據集和單因素篩選 納入的1 855例IS患者的篩選流程見圖3,研究因素共85個。將全部影響因素分為一般特征、用藥指標、治療方式、檢查指標、檢驗指標5個方面,結合臨床專家意見,納入26個因素構建模型,具體為:年齡、糖尿病患病情況、心房顫動(簡稱房顫)患病情況、動脈粥樣硬化患病情況、出血性疾病史、腦血管病史、高血壓患病情況、溶栓藥物的單次劑量、用藥種類、給藥方式、溶栓時間窗、是否使用抗血小板藥物、是否使用抗凝藥物、是否使用其他活血化瘀藥物、是否進行取栓手術、是否橋接治療、入院NIHSS評分、血小板計數、LDL-C、胱抑素、同型半胱氨酸、責任血管狹窄程度、是否有局灶神經功能缺損、梗死部位、梗死面積、病因分型。責任血管狹窄程度:輕度狹窄為狹窄程度<50%,中度狹窄為狹窄程度50%~69%,重度狹窄為狹窄程度70%~99%;局灶神經功能缺損為IS患者出現無力、麻木、語言障礙的癥狀[8]。

圖3 研究對象納入流程圖Figure 3 Flow chart of inclusion and exclusion of the participants
對照組和神經功能改善組患者年齡、糖尿病患病情況、房顫患病情況、動脈粥樣硬化患病情況、出血性疾病史、腦血管病史、高血壓患病情況、溶栓藥物的單次劑量、用藥種類、給藥方式、溶栓時間窗、是否使用抗血小板藥物、是否使用抗凝藥物、是否使用其他活血化瘀藥物、是否進行取栓手術、入院NIHSS評分、血小板計數、責任血管狹窄程度、是否有局灶神經功能缺損、梗死部位比較,差異有統計學意義(P<0.05);對照組和神經功能改善組患者橋接治療情況、LDL-C、胱抑素、同型半胱氨酸、梗死面積、病因分型比較,差異無統計學意義(P>0.05),見表1。

表1 對照組和神經功能改善組患者一般特征、用藥指標、治療方式、檢查指標、檢驗指標比較Table 1 Comparison of general characteristics,medication indicators,treatment methods,examination indicators and test indicators between the control group and the neurological function improvement group
2.2 主成分分析結果 將26個影響因素降維成2個主成分,方差貢獻率分別為65.6%和27.5%,累積方差貢獻率為93.1%,見表2。

表2 26個影響因素總方差解釋Table 2 The percentage of total variance explained by 26 influencing factors of thrombolytic effect
2.3 不同數據挖掘模型分析比較 采用Logistic回歸模型、C5.0決策樹、CART、SVM、DNN、Wide&Deep模型評價26個影響因素對IS患者溶栓治療后神經功能改善的影響,結果顯示,Wide&Deep模型準確度、精確度、特異度、F指數最高(表3),表示Wide&Deep模型評價最佳。

表3 Logistic回歸模型、C5.0決策樹、CART、SVM、DNN、Wide&Deep模型評價IS患者溶栓治療后神經功能改善的價值Table 3 The value of Logistic regression model,C5.0 decision tree arithmetic,CART,SVM,DNN and Wide&Deep model in evaluating the improvement of neurological function in ischemic stroke patients after thrombolytic therapy
2.4 Wide&Deep模型參數及準確度情況 分別以Relu、Sigmoid作為激活函數探索模型最佳隱藏層層數,調整隱藏層層數為1、3、5、7層,調整每層神經元節點數為10、15、30、300個,以大連醫科大學附屬第二醫院確診為IS的患者作為研究對象構建Wide&Deep模型,比較訓練集、驗證集、測試集模型準確度,最終最優參數為以Sigmoid作為激活函數,隱藏層層數為7層,隱藏層中神經元節點數最佳為15個,見圖4。

圖4 優化Wide&Deep模型的最優參數Figure 4 Optimal parameters of the Wide&Deep model after optimization
Wide&Deep模型訓練集準確度達到0.816,驗證集準確度達到0.828,測試集準確度達到0.844,模型準確度較高。模型準確度曲線如圖5。

圖5 Wide&Deep模型準確率曲線Figure 5 Accuracy curve of the Wide&Deep model
IS患者中訓練組ROC曲線下面積為0.753,測試組ROC曲線下面積為0.793(圖6),表明Wide&Deep模型具有良好的預測性能和泛化能力,模型沒有出現過擬合情況。

圖6 Wide&Deep模型預測訓練組和測試組IS患者溶栓治療后神經功能改善的ROC曲線Figure 6 ROC curves of the Wide&Deep model in predicting the neurological function improvement in ischemic stroke patients in training group and test group after thrombolytic therapy
2.5 經特征工程的自變量簡化及外部驗證結果 IS患者溶栓治療后神經功能改善影響因素的特征工程分析結果顯示,用藥種類、給藥方式和用藥劑量的重要性排序均在前列,重要性排序由大到小分別為:是否有腦血管病史、用藥種類、給藥方式、單次劑量、動脈粥樣硬化、溶栓時間窗、是否使用抗凝藥物和活血化瘀藥物等,表明藥物因素在IS患者治療效果中占重要作用(表4)。為更好地應用模型,進行模型自變量簡化,得出Wide&Deep模型準確度為0.819,外部驗證模型準確度為0.800,表示Wide&Deep模型后仍具有較好的泛化性及預測性能。

表4 經特征工程得到影響因素重要性排序結果Table 4 The importance ranking of influencing factors for thrombolytic effect obtained through feature engineering
3.1 人工智能算法在藥物選擇中的應用 本研究采用Wide&Deep模型能夠解決從患者溶栓影響因素到臨床中患者神經功能改善的有效預測,模型測試集預測準確率達到0.844。IS患者溶栓影響因素中包含用藥種類、單次劑量、給藥方式等治療方案,通過結合患者個體特征和用藥方案指標,就可以把不同溶栓用藥方案的治療效果推薦給臨床醫生,供臨床決策輔助使用,讓更多患者獲益。本研究構建出6種模型(表2),綜合模型評價指標,選擇Wide&Deep神經網絡為模型算法,作為本研究的人工智能模型。本研究引入了Wide&Deep神經網絡算法,在既往研究中尚少見[15],其模型核心是將深度神經網絡具備的泛化性和線性模型的記憶性能相結合,較大程度上提升模型的預測性能。
3.2 IS溶栓治療結果的影響因素分析 目前研究多集中在溶栓藥物的臨床效果觀察,溶栓藥物的效果和安全性分析,溶栓效果影響因素研究等方面,樣本量多集中在數十到數百不等。臨床療效觀察中,多采用前瞻性研究,分為基礎治療組和加用溶栓藥物組,針對療效結果進行統計比較,所得結果多是列出溶栓藥物的療效,而針對溶栓治療方法的選擇,如給藥劑量和方式等探討尚未見報道。在影響因素探索方面,現有研究多采用多因素Logistic回歸分析方法[10-11],通過單因素篩選,得到有意義的影響因素后進行多因素回歸分析,得到最終的影響因素,但基于大數據算法和真實世界全數據研究的相關文獻尚少見。本研究通過預測模型程序,輸入患者的相關因素,其中包括窮舉溶栓藥物治療方案,包括溶栓藥種類、單次劑量、給藥方式等,就能通過模型尋找出最佳給藥方案組合,為臨床醫生的決策提供理論參考,提升缺血性腦卒中治療效果,實現對缺血性腦卒中患者的個體化精準治療,對減輕疾病社會負擔具有積極意義。
本研究經特征工程模型自變量簡化后,得到IS患者治療后影響其溶栓效果的重要因素,分別為用藥種類、給藥方式、單次劑量及是否有腦血管病史等。其中,是否有腦血管病史在特征工程結果中得到權重為988.87,居于第1位,有研究表明,有心腦血管疾病史的患者更易發作IS,如出血性腦血管病、缺血性腦血管病、腦供血不足、高血壓腦病、動脈粥樣硬化或狹窄等,易引起腦血管血流變化,是IS發作的重要誘因[16]。在分析影響IS患者溶栓治療效果因素的單因素篩選時,得到用藥因素中用藥種類、給藥方式、單次劑量在神經功能改善組和對照組中差異明顯(P<0.001),表明用藥因素對于患者溶栓治療效果的影響均較大。由特征工程模型自變量簡化結果得到,用藥種類權重居于第2位,權重大小為670.44,所占百分比為22.68%。本研究中針對靜脈溶栓藥物,研究團隊納入阿替普酶和尿激酶作為主要研究藥物,對IS發作在4.5 h以內的患者,應按照適應證、禁忌證等嚴格篩選患者,并給予重組人組織型纖溶酶原激活物(rt-PA);IS發作6 h內給予尿激酶,相對安全有效,但其適應證、禁忌證等均有待更新與修訂[17]。本研究能夠根據患者個體化特點,針對不同溶栓時間窗、患者NIHSS評分、血糖水平等給出臨床用藥種類的推薦方案。給藥方式權重居于第3位,權重大小為510.73,所占百分比為17.28%,在給予患者靜脈溶栓過程中,給藥方式分為兩種:靜脈推注或使用泵入,使用泵入時要求抽取10%藥物在1 min內靜脈推注,其余藥物在1 h內靜脈泵入完成,因此給藥方式也是研究團隊想要給出的藥物溶栓治療方案的因素之一,提供用藥方式參考,以達到較好溶栓效果。單次劑量權重居于第4位,權重大小為142.85,所占百分比為4.83%,診治指南中推薦rt-PA給藥正常劑量為0.9 mg/kg,或給予小劑量rt-PA 0.6 mg/kg,小劑量rt-PA出血風險小于正常劑量[17],但未見降低患者治療后致殘率,需考慮患者病情嚴重情況、出血情況等進行個體化決策。使用尿激酶作為靜脈溶栓藥物時,推薦使用應用劑量為100~150 U,本研究構建人工智能模型,旨在納入新的患者時能夠推薦最佳溶栓藥物劑量。當有新患者進入人工智能模型后,模型經算法運行,可結合患者自身情況給出治療時用藥種類(阿替普酶和尿激酶)、單次劑量及給藥方式(使用泵或靜脈滴注)等,輔助臨床決策。
3.3 人工智能與未來醫藥 伴隨大數據與人工智能產業不斷升溫,人工智能技術正逐漸滲透人們的日常生活中。在醫療衛生領域,人工智能正進一步拓寬其發展空間及應用前景,展現出愈發重要的應用價值,助推醫療事業正向發展,如病理診斷、輔助診療、醫學影像識別、藥物研發等[18]。相信在醫療衛生事業發展中,人工智能將與醫療進一步融合,成為輔助醫護人員診療決策的重要支撐[19]。
3.4 IS治療緊迫性及社會負擔 卒中對全球經濟影響巨大,根據《心臟病和腦卒中2020年統計更新》[20]統計,由腦卒中帶來直接和間接經濟損失達4 550萬美元,預估直接醫療費用高達2 800萬美元。在我國,腦卒中是僅次于癌癥的第2位致死性疾病。本研究針對IS患者的不同特征,為其選擇溶栓方案提供參考,深入研究影響溶栓的因素,為IS衛生經濟學決策提供數據支持,并為不同特征患者優選出臨床決策方案,從而以較低成本獲得較高的治療收益。
本研究尚存在一定的不足,本研究納入了1 855例IS患者的臨床數據構建模型,Wide&Deep模型的準確度可達到0.815,模型準確度及預測性能較好,若納入更多患者數據,模型準確度可以進一步提高。此后,本團隊將納入更多中心數據進行外部驗證,進一步對模型的預測性能進行評估,對模型持續調整。
綜上所述,人工智能算法結果顯示,影響溶栓效果的因素排序由大到小分別為:是否有腦血管病史、用藥種類、給藥方式、單次劑量、動脈粥樣硬化、溶栓時間窗、是否使用抗凝藥物和活血化瘀藥物等,能夠為臨床決策提供參考實現對IS患者的個體化精準治療,對減輕疾病社會負擔具有積極意義。
作者貢獻:沈惠文負責數據收集和整理,統計學處理,并撰寫論文初稿;林永忠提出主要研究指標;陳淑良負責納排標準的制定;張立紅負責究對象的選??;馬春野負責論文修訂;馬得原負責數據收集和整理;張策負責研究的質量控制及審校,并對研究負責;所有作者確認了論文的最終稿。
本文無利益沖突。