王蘇淮 李晶潔,2
(1.哈爾濱醫科大學附屬第一醫院,黑龍江 哈爾濱 150000; 2.哈爾濱醫科大學附屬第一醫院心內科,黑龍江 哈爾濱 150000)
人工智能(artificial intelligence,AI)是研究計算機模擬人的思維過程和智能行為的學科,已在多個領域得到了廣泛應用。機器學習(machine learning,ML)作為AI的核心,不僅涉及信息技術領域,目前也逐漸成為醫學領域的重要研究手段[1-6]。
1.2.1 ML算法分類
ML主要分為監督學習和無監督學習。目前臨床醫學最常用的是監督學習算法,通過學習一組包含輸入對象(通常為矢量)和期望的輸出值(也稱為監督信號)的標簽數據集,產生具有推斷功能的模型,然后將模型應用于未知數據集,達到分類或回歸的目標(當目標變量是分類變量時,完成分類;當目標變量是連續性數值時,完成回歸)。常用的監督學習算法包括K-近臨(KNN)、支持向量機(SVM)、決策樹、隨機森林(RF)、邏輯性回歸、提升法(Boosting)和人工神經網絡(ANN)等[7-8]。無監督學習是在無標簽的輸入數據集中發現其自然關系和分組。常用的無監督學習算法包括K均值聚類、分層聚類和主成分分析等。
1.2.2 ML的一般流程
ML的一般流程主要包括以下幾個方面:(1)數據采集;(2)數據預處理;(3)特征提取;(4)特征選擇;(5)根據數據特征選擇不同ML算法;(6)構建ML模型并評估其性能[5]。輸入的數據集通常被劃分為訓練、驗證和測試集:訓練集包含大量變量,用于模型的開發;驗證集用于微調模型的超參數;測試集則輸入到構建的ML模型中,用于性能的評估[9]。
在臨床醫學領域,ML主要通過分析患者的復雜多維數據(如電子病歷記錄[10-11]、實驗室指標[12]和輔助檢查成像[13-16]等),以非線性和高度交互的方式組合變量,對疾病進行診斷分類[11,17]、預測[10,18-19]和構建風險模型[9,20-21]以輔助醫生決策[22-23]。
近幾年關于ML與心血管疾病的研究成為熱點,以下將對心血管病學中應用ML的幾個領域進行闡述。
心電圖(electrocardiography,ECG)信號是評估心臟功能最常用的臨床工具之一,其優點是無創且價格低廉。臨床實踐中,ECG信號通常由專業的電生理學家來判讀,耗時且高度依賴于個人經驗。在新的技術醫療時代,ML可對ECG信號進行有效量化和分析,最大程度地從心電圖數據集中提取信息以幫助臨床醫生評估患者風險[24]。
ML通過對ECG信號進行處理、分割、特征提取和學習分析,達到心律分類或預測疾病的目的,最常用的ML算法是ANN和SVM。如Li等[25]分析了MIT-BIH公共數據庫的360組ECG數據集,通過小波包分解統計方法提取了48個ECG特征,然后使用遺傳算法結合反向傳播神經網絡的ML方法,將心律分為六類:正常搏動(N)、左束支傳導阻滯(L)、右束支傳導阻滯(R)、房性期前收縮(A)、起搏心律(P)和室性期前收縮(V)。分類準確率為97.8%,敏感性為97.9%,特異性為99.5%,陽性預測值為97.8%。Yildirim等[26]也分析了MIT-BIH數據庫中45例患者的1 000個ECG片段,把原始ECG信號輸入到16層深度卷層神經網絡算法中,將心律分為17種,分類精度為91.3%,分類時間為0.015 s。近年來的研究多采用離散小波變化的方法對ECG信號進行形態特征的提取,如Qin等[27]利用此方法提取了MIT-BIH數據庫中107 049次ECG搏動的形態特征,結合ECG信號的時域特征,使用優化后的SVM算法,完成了同上所述的六種心律分類:N、L、R、A、P和V,分類敏感性為99.1%,特異性為99.8%。
此外,除了心律分類外,也有研究通過分析ECG信號進行疾病的預測。如Mjahad等[28]將ECG時頻圖像數據直接輸入到四種ML分類器(邏輯性回歸、ANN、SVM和裝袋法),以預測心室顫動和室性心動過速的發生,心室顫動預測的敏感性為95.6%,特異性為98.8%;室性心動過速預測的敏感性為88.8%,特異性為99.5%。Ebrahimzadeh等[29]則從心房顫動預測數據庫中選取了53對ECG記錄的106個信號,對心率變異性信號進行了特征提取,結合四種ML算法預測心房顫動的發生,其中最優的混合專家分類法預測敏感性、特異性和準確性分別為100%、95.6%和98.2%。同時,ECG在冠心病方面的應用也逐漸增加。如Park等[30]選取了歐洲ST-T數據庫中90個ECG記錄的367個缺血性ST段,提取了3個特征,使用核密度估計和SVM算法預測心肌缺血,其中最優性能SVM的敏感性和特異性分別為94.1%和92.3%。另有Simjanoska等[31]首次提出應用ECG信號特征結合七種ML算法預測收縮壓、舒張壓和平均動脈壓;Sengupta等[32]利用信號處理過的心電圖提取特征,輸入至RF分類器中預測心肌異常松弛,預測敏感性和特異性分別為80.0%和84.0%,曲線下面積(AUC)為0.91(95%CI0.86~0.95)。以上研究都說明了ECG結合ML算法在心血管疾病領域擁有著廣泛的應用前景。
圖片成像作為心血管疾病診斷和指導治療的輔助工具在臨床上無處不在,ML算法與檢查成像的結合進一步提高了診療的準確性和及時性。
Narula等[33]使用斑點超聲心動圖數據,結合三個ML算法(SVM、RF和ANN)構建模型以鑒別肥厚型心肌病和運動員生理性肥厚。研究納入139例男性受試者,77例生理性和62例肥厚型心肌病患者,使用信息增益進行特征選擇,確定左心室容積,左心室中段縱向應變、平均縱向應變和左心室中段徑向應變為最佳預測指標。Khamis等[34]證明采用時空特征提取和監督字典學習方法可提高心臟超聲圖的分類精度。作者研究了309個由專家標記過的心臟超聲圖,使用ML算法對心尖二腔室圖,心尖四腔室圖和心尖長軸室圖的分類準確率分別為97.0%、91.0%和97.0%。
此外,Mannil等[35]開發了基于心臟計算機斷層攝影成像數據的ML模型以預測心肌梗死,使用紋理分析的方法對圖像數據進行量化,采用KNN算法得到了最佳效能(敏感性69.0%,特異性85.0%,假陽性率15.0%,AUC值0.78)。Arsanjani等[36]則通過結合臨床數據和心肌灌注斷層顯像的定量圖像數據作為特征,輸入到Boosting算法中預測疑似冠心病患者的血運重建,預測敏感性為73.6%±4.3%,特異性為74.7%±4.2%,AUC為0.81±0.02。
ML與多種輔助檢查成像的結合使用,可幫助初學者做出更精準的臨床診斷并有望應用到醫療資源緊缺的地方。
因ML使用的非線性和交叉學習模式彌補了傳統分析線性和主觀選擇特征的不足,已被廣泛應用于構建臨床風險預測模型。在心血管疾病領域,ML主要致力于預測患者的死亡率、再入院率和不良臨床事件的發生率。如Motwani等[21]研究了10 030例疑似冠心病患者的25個臨床和44個冠狀動脈CT血管成像參數,進行信息增益法則排名,選取重要特征,然后輸入至Boosting集成算法預測患者5年全因死亡率,ML預測模型的AUC為0.79,優于傳統的弗雷明漢風險評分等評估方法。Barrett等[37]從重癥監護醫學信息中心(MIMIC-Ⅲ)數據庫中獲取了5 037例由急性心肌梗死收入ICU的患者數據表,結合邏輯回歸模型預測了患者一年死亡率,預測準確度為85.1%,AUC為0.90。Frizzell等[38]對56 477例心力衰竭患者數據進行變量選擇后,使用了貝葉斯網絡、RF、梯度增強、邏輯性回歸和LASSO回歸五種ML算法,預測心力衰竭患者30 d再入院率,預測的C統計量分別為0.62、0.61、0.61、0.62和0.62,與傳統的預測模型相比無明顯優勢。Wu等[20]篩選了508例年輕高血壓患者的58個變量,通過遞歸特征消除法選擇11個重要變量,結合極端梯度增強法構建了預測臨床不良后果事件的ML模型,并將模型的性能與傳統Cox回歸和弗雷明漢風險評分模型相比,C統計量分別是0.76(95%CI0.66~0.85)、0.72(95%CI0.64~0.81)和0.53(95%CI0.40~0.66)。
ML通過分析大量豐富的臨床變量來評估患者風險,往往能收獲性能更優的預測模型,這對于臨床醫生決策和改善患者預后都具有重要意義。
盡管ML在醫學上得到了廣泛應用,但其仍有局限性。首先,ML需大量數據,在醫學中獲取大量標簽數據可能具有挑戰性;其次,ML算法使用人類收集和標記的數據進行訓練,由于人為的主觀選擇性可能出現選擇偏倚;最后,許多ML算法如RF,工作時像一個“黑匣子”,計算過程難以被全面理解,導致醫生難以完全相信基于ML推薦的意見,也很難發現其錯誤的推薦[39]。
合理高效地使用ML可實現高精度的自動診斷以及預測疾病轉歸,以此輔助臨床醫生決策,在節省大量時間的同時可降低臨床錯診率。因此,在醫療系統中對ML的需求勢必會繼續增長。