王瑩



關鍵詞:機器學習;邏輯回歸;支持向量機;大數據;心梗
心血管疾病是人類死亡的主要原因,全世界每年約有2,000萬人死于急性心血管疾病。心肌梗死(myocardialinfarction,MI)是由心肌缺血引發的心肌損傷,其高發病率給家庭和社會帶來沉重的經濟負擔,并嚴重影響MI患者的生活質量[1]。研究表明,MI患者的高發病率與早期缺乏有效的預防和干預措施有關。干預滯后的原因包括首次就醫治療的延遲、缺乏顯著提示意義的預測標志物,以及傳統評價標準無法提供準確預測[2]。對于MI患者,早發現、早診斷、早治療能夠有效提高預后效果和生存率。
目前,MI的診斷方法包括心電圖、超聲心動圖、冠狀動脈造影和循環生物標志物檢測等。其中,循環生物標志物對MI患者的診斷、預后和治療效果監測非常重要。循環生物標志物包括心臟肌鈣蛋白(cardiactroponin,cTn)、肌紅蛋白(myoglobin)、乳酸脫氫酶(lactatedehydrogenase,LDH)、谷草轉氨酶(aspartateaminotransferase,AST)、肌酸激酶(creatinekinase,CK)和葡萄糖(glucose)等。
目前,循環生物標志物檢測存在兩方面的局限性。首先,單獨的循環生物標志物在推斷病情及病程方面存在不足。盡管cTn是醫學實驗室診斷MI的金標準,但其在骨骼肌損傷、腎臟疾病、惡性腫瘤或敗血癥等情況下也會增加。AST在各種組織中無處不在,顯著影響其對心肌損傷的特異性診斷,限制了其作為心臟生物標志物的使用。LDH也在多種組織中存在,使得LDH成為心臟損傷特異性較差的標志物。CK存在于多種其他組織中,嚴重影響其作為心肌損傷生物標志物的特異性[3]。其次,多項循環生物標志物的組合缺乏直觀的規律性,人工篩查無法及時早期發現。
機器學習(machinelearning,ML)具備處理海量多維數據的能力,能夠在現有數據的基礎上發掘數據之間的潛在關聯關系并生成預測模型。蘭欣等[4]認為,患者診斷過程中產生的大量檢驗數據依靠人力采用常規方法診斷費時費力,同時缺乏質量保證,可以結合ML進行輔助診斷。
目前,對MI預測模型的研究主要集中在特異性明顯、數據缺失率低的檢驗項目。例如,王覓也等[5]使用多種ML算法基于57項檢驗項目構建預測模型,對MI患者進行風險分析,預測結果相對穩定。呂永楠等[6]采用隨機森林算法基于19項血液檢驗項目建立男性MI診斷模型,能夠有效區分MI與心絞痛。王穎晶等[7]采用6種機器學習算法基于123項檢驗項目建立了MI識別模型,通過特征挖掘找出CK、血糖等MI關鍵和致病因素。這些研究均采用了人為篩選檢驗項目,與真實世界的數據存在較大差異,不利于發現新的診斷標志物。
源源不斷的檢驗數據匯集形成海量數據,其中蘊藏大量已知與未知的臨床發展規律。重新解讀海量數據并將其再利用,有助于新型標志物的發現[8]。本研究擬通過兩種ML算法基于MI患者的全量檢驗數據建立MI預測模型及驗證評估,并發掘在MI中作為關鍵因素的檢驗項目。
1材料與方法
1.1數據來源
本研究的數據來源于深圳市某綜合性三甲醫院2016年10月1日至2021年9月30日的全量檢驗數據和相應診斷結果。這些數據涵蓋了臨床血液及體液學、臨床生物化學、臨床免疫學、臨床微生物學和臨床細胞分子遺傳學五大類,共計1338項檢驗項目(包括少量來自不同儀器設備的同一檢驗項目)。數據包括患者的ID、年齡、性別、就診部門、檢驗日期、檢驗項目編碼、檢驗結果和診斷結果八個字段,共計140616701條記錄。
1.2數據預處理
數據預處理包括將全量檢驗數據和相應診斷結果導入大數據平臺、實施數據結構的行列轉置、數據清洗和必要的數據類型轉換。在大數據平臺上對數據實施行列轉置,如圖1所示。轉置后,同一患者在相同檢驗日期的所有檢驗項目位于一行,所有患者的相同檢驗項目位于一列,形成了大數據寬表。
檢驗數據結構復雜、類型眾多,主要存在以下三方面的問題:1)結構化數據中存在非法標識符(例如>、<、.、*、NULL等)。2)非結構化文本數據需要數字化。3)人工錄入和系統轉化等導致的錯誤數據。通過數據清洗、文本數據數字化、錯誤數據糾正和缺失數據填充等方式實現數據的準確性、一致性和完整性。
為了便于ML算法處理數據,數值型數據統一轉為雙精度浮點類型,并對這些數據采用歸一化方法,將其壓縮到[0,1]之間。確定特征列(檢驗項目)與目標列(診斷結果),形成ML數據源。
1.3ML方法
常規的ML分類算法主要包括隨機森林(Ran?domForests,RF)、K近鄰(K-NearestNeighbor,KNN)、支持向量機(SupportVectorMachine,SVM)和邏輯回歸(LogisticRegression,LR)等。其中,LR分類不僅可以提供分類類別,還可以提供預測概率(特征的權重),有利于結合實際業務進行分析判斷和解釋。LR二分類算法不僅適用于處理醫療數據,對大數據量或小數據量均具有優異的性能和計算結果,對噪聲干擾及冗余屬性也有較好的魯棒性。
LR二分類算法的條件概率分布為:
其中,x是輸入數據,Y是輸出結果,w為權重向量,w.x是w與x的內積,b是偏置,e是自然常數。對于給定的輸入實例x,通過式(1)和式(2)求得P(Y=1|x)和P(Y=0|x),LR比較兩個條件概率值的大小,將實例X分到概率值較大的類[9]。
SVM通過探求風險最小來提高學習機的泛化能力,實現置信度范圍和經驗風險的最小化[10]。SVM分為線性和非線性,本研究采用線性SVM,通過產生一個超平面,對樣本進行分類,直到訓練樣本中屬于不同類別的樣本點恰好位于該超平面兩側,從而實現對線性可分樣本的最佳分類。
ML業務流程如圖2所示,按照預設比例在數據拆分模塊中將ML數據源隨機拆分為訓練和測試兩部分數據。訓練數據進入ML訓練模塊,結合ML分類算法生成預測模型。在ML預測模塊中,測試數據和預測模型生成預測結果。預測結果分別輸入到混淆矩陣評估模塊和二分類評估模塊進行預測水平評估。
1.4預測模型評估方法
預測模型的預測水平評估采用混淆矩陣和二分類評估兩種方式。混淆矩陣的每一列表示一種類別的預測值,每一行表示一種類別的真實值,如圖3所示。
其中,正確預測的正樣本標記為真陽性(trueposi?tive,TP),負樣本被預測為正樣本標記為假陽性(falsepositive,FP),負樣本被預測為負樣本標記為真陰性(truenegative,TN),正樣本被預測為負樣本標記為假陰性(falsenegative,FN)。混淆矩陣采用準確率、精確率、召回率和F1-Score四項指標,評估指標的計算公式如下:
二分類評估采用AUC和F1-Score兩項指標。AUC(areaundercurve)為受試者工作特征曲線(re?ceiveroperatingcharacteristiccurve,ROC)下面積,AUC值介于0到1之間,AUC值越趨近于1則區分能力越強。
1.5平臺工具
平臺工具采用公開商業軟件,其中包括大數據平臺提供的數據存儲、計算和管理功能,大數據治理開發平臺的數據治理和數據開發功能,以及機器學習平臺的模塊化組件,用于機器學習預測模型的開發、驗證和評估。
2結果
2.1LR二分類模型
LR二分類模型包括1338項特征(檢驗項目)的權重,其中前15項權重如表1所示。
其中,項目編碼為檢驗項目的唯一標識,權重為相應檢驗項目在模型中的系數。權重越大,該檢驗項目與對應診斷結果的相關性越強。由于歷史原因,項目編碼缺乏統一規劃,存在項目編碼6466和5654表示來自不同檢驗設備的相同檢驗項目的情況。
2.2LR二分類模型預測水平評估
2.2.1混淆矩陣評估結果
預測結果評估如表2所示,其中準確率、精確率、召回率和F1-Score四項指標均大于0.900,表明預測水平較高。
2.2.2二分類評估結果
預測結果評估中,AUC為0.994,F1-Score為0.960,均高于0.950,表明預測水平較高。
2.3SVM模型預測水平評估
2.3.1混淆矩陣評估結果
預測結果評估如表3所示,其中準確率、精確率、召回率和F1-Score四項指標均大于0.900,表明預測水平較高。
2.3.2二分類評估結果
預測結果評估AUC為0.991和F1-Score為0.953,均高于0.950,表明預測水平較高。
3討論
本研究采用LR和SVM兩種ML算法對同一數據源進行訓練和預測,生成的預測模型均具有較高的預測水平,表明預測模型具有穩定性和可靠性。以直觀輸出參數、可解釋性強的LR二分類預測模型為例,LR二分類預測模型展示的檢驗項目與診斷結果的關系可以分為兩種情況:一種是已經獲得相關臨床研究驗證,另一種是尚未被充分挖掘。獲得臨床驗證的檢驗項目如LDH、葡萄糖、年齡和超敏肌鈣蛋白(high-sen?sitivitycardiactroponinI,hs-cTnI)和高密度脂蛋白膽固醇(highdensitylipteincholesterol,HDL-C)等,有研究通過ML發現AST、LDH為MI患者需要關注的危險因素,MI患者的年齡、性別、超敏肌鈣蛋白(hs-cTnI)檢驗結果為訓練數據,預測效果非常理想[11]。研究表明HDL-C的低平均值和高變異性與心肌梗死、卒中和死亡風險增加有關[12]。研究發現在ST段抬高型MI患者中,葡萄糖是1年全因死亡率的獨立預測因子,具有可接受的陰性和陽性預測值。在非ST段抬高型MI患者中,葡萄糖與1年全因死亡率獨立相關,也是最佳預測因子[13]。本研究的項目編碼分別為6466和5654,分別是來自不同檢測設備對葡萄糖的檢測結果,兩個項目編碼對應的權重接近,證明了葡萄糖與診斷結果強相關的可靠性,與王穎晶等[7]采用6種機器學習方法研究發現血糖、總膽固醇、肌酶同工酶為MI關鍵致病因素相符。
尚未被充分挖掘的項目,如dep、胱抑素C(Cys?tatinC,CysC)等,權重最高的dep中,來自住院和門診的MI患者分別為4526例、860例以及其他來源2例。MI患者大部分來自住院患者(占比84%),特征明顯,與高發病率以及早期缺乏有效的干預和預防措施有關。多項研究表明CysC水平對于MI的發生發展及預后,有一定的預測作用,可作為臨床預測MI的指標,但其與MI的發病機制之間的關系尚未完全明確,需要進一步研究[14-15]。本研究采用LR基于全量檢驗數據構建的預測模型的AUC和F1-Score兩項指標均高于0.950,王覓等[5]使用LR基于57項檢驗項目生成預測模型的AUC為0.900和F1-Score為0.810,王穎晶等[7]采用LR基于123項檢驗項目生成預測模型的AUC為0.785和F1-Score為0.660,一定程度表明本研究基于全量檢驗項目生成的預測模型預測水平高于上述研究者基于部分檢驗項目生成的預測模型。
綜合以上分析,LR二分類預測模型按照權重降序排列的MI患者的前15項特征大部分與上述國內外臨床診斷研究結果吻合,表明了預測模型的輔助診斷可用性。LR二分類預測模型中每個特征不是獨立的決定性因素,需要1338項特征共同構成的完整LR二分類預測模型發揮作用。SVM預測模型缺乏可視性,適合計算機處理,但其作為LR二分類預測模型的對照具有重要的價值。
本研究通過ML基于檢驗大數據生成MI預測模型,一方面結果與國內外研究成果相符,另一方面也挖掘出待進一步研究的內容。SVM和LR二分類預測模型基于真實世界的全量檢驗數據均具有較高的預測水平,具有實際應用的可行性。其中LR二分類預測模型量化輸出了檢驗項目與診斷結果的權重,相比以往研究的定性分析關聯關系模式,有助于進一步深入研究。在研究中也發現了尚未完全明晰價值的檢驗項目具有較高的相關性,需要進一步結合臨床診斷信息進行研究。本研究使用的近5年的檢驗數據也存在樣本量小、只有兩種ML算法以及缺乏多中心驗證的問題,后續可以在此基礎上進一步擴展檢驗數據量和數據挖掘方法,以在臨床驗證預測模型的可行性。