王瑩



關(guān)鍵詞:機器學(xué)習(xí);邏輯回歸;支持向量機;大數(shù)據(jù);心梗
心血管疾病是人類死亡的主要原因,全世界每年約有2,000萬人死于急性心血管疾病。心肌梗死(myocardialinfarction,MI)是由心肌缺血引發(fā)的心肌損傷,其高發(fā)病率給家庭和社會帶來沉重的經(jīng)濟負擔(dān),并嚴(yán)重影響MI患者的生活質(zhì)量[1]。研究表明,MI患者的高發(fā)病率與早期缺乏有效的預(yù)防和干預(yù)措施有關(guān)。干預(yù)滯后的原因包括首次就醫(yī)治療的延遲、缺乏顯著提示意義的預(yù)測標(biāo)志物,以及傳統(tǒng)評價標(biāo)準(zhǔn)無法提供準(zhǔn)確預(yù)測[2]。對于MI患者,早發(fā)現(xiàn)、早診斷、早治療能夠有效提高預(yù)后效果和生存率。
目前,MI的診斷方法包括心電圖、超聲心動圖、冠狀動脈造影和循環(huán)生物標(biāo)志物檢測等。其中,循環(huán)生物標(biāo)志物對MI患者的診斷、預(yù)后和治療效果監(jiān)測非常重要。循環(huán)生物標(biāo)志物包括心臟肌鈣蛋白(cardiactroponin,cTn)、肌紅蛋白(myoglobin)、乳酸脫氫酶(lactatedehydrogenase,LDH)、谷草轉(zhuǎn)氨酶(aspartateaminotransferase,AST)、肌酸激酶(creatinekinase,CK)和葡萄糖(glucose)等。
目前,循環(huán)生物標(biāo)志物檢測存在兩方面的局限性。首先,單獨的循環(huán)生物標(biāo)志物在推斷病情及病程方面存在不足。盡管cTn是醫(yī)學(xué)實驗室診斷MI的金標(biāo)準(zhǔn),但其在骨骼肌損傷、腎臟疾病、惡性腫瘤或敗血癥等情況下也會增加。AST在各種組織中無處不在,顯著影響其對心肌損傷的特異性診斷,限制了其作為心臟生物標(biāo)志物的使用。LDH也在多種組織中存在,使得LDH成為心臟損傷特異性較差的標(biāo)志物。CK存在于多種其他組織中,嚴(yán)重影響其作為心肌損傷生物標(biāo)志物的特異性[3]。其次,多項循環(huán)生物標(biāo)志物的組合缺乏直觀的規(guī)律性,人工篩查無法及時早期發(fā)現(xiàn)。
機器學(xué)習(xí)(machinelearning,ML)具備處理海量多維數(shù)據(jù)的能力,能夠在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上發(fā)掘數(shù)據(jù)之間的潛在關(guān)聯(lián)關(guān)系并生成預(yù)測模型。蘭欣等[4]認為,患者診斷過程中產(chǎn)生的大量檢驗數(shù)據(jù)依靠人力采用常規(guī)方法診斷費時費力,同時缺乏質(zhì)量保證,可以結(jié)合ML進行輔助診斷。
目前,對MI預(yù)測模型的研究主要集中在特異性明顯、數(shù)據(jù)缺失率低的檢驗項目。例如,王覓也等[5]使用多種ML算法基于57項檢驗項目構(gòu)建預(yù)測模型,對MI患者進行風(fēng)險分析,預(yù)測結(jié)果相對穩(wěn)定。呂永楠等[6]采用隨機森林算法基于19項血液檢驗項目建立男性MI診斷模型,能夠有效區(qū)分MI與心絞痛。王穎晶等[7]采用6種機器學(xué)習(xí)算法基于123項檢驗項目建立了MI識別模型,通過特征挖掘找出CK、血糖等MI關(guān)鍵和致病因素。這些研究均采用了人為篩選檢驗項目,與真實世界的數(shù)據(jù)存在較大差異,不利于發(fā)現(xiàn)新的診斷標(biāo)志物。
源源不斷的檢驗數(shù)據(jù)匯集形成海量數(shù)據(jù),其中蘊藏大量已知與未知的臨床發(fā)展規(guī)律。重新解讀海量數(shù)據(jù)并將其再利用,有助于新型標(biāo)志物的發(fā)現(xiàn)[8]。本研究擬通過兩種ML算法基于MI患者的全量檢驗數(shù)據(jù)建立MI預(yù)測模型及驗證評估,并發(fā)掘在MI中作為關(guān)鍵因素的檢驗項目。
1材料與方法
1.1數(shù)據(jù)來源
本研究的數(shù)據(jù)來源于深圳市某綜合性三甲醫(yī)院2016年10月1日至2021年9月30日的全量檢驗數(shù)據(jù)和相應(yīng)診斷結(jié)果。這些數(shù)據(jù)涵蓋了臨床血液及體液學(xué)、臨床生物化學(xué)、臨床免疫學(xué)、臨床微生物學(xué)和臨床細胞分子遺傳學(xué)五大類,共計1338項檢驗項目(包括少量來自不同儀器設(shè)備的同一檢驗項目)。數(shù)據(jù)包括患者的ID、年齡、性別、就診部門、檢驗日期、檢驗項目編碼、檢驗結(jié)果和診斷結(jié)果八個字段,共計140616701條記錄。
1.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理包括將全量檢驗數(shù)據(jù)和相應(yīng)診斷結(jié)果導(dǎo)入大數(shù)據(jù)平臺、實施數(shù)據(jù)結(jié)構(gòu)的行列轉(zhuǎn)置、數(shù)據(jù)清洗和必要的數(shù)據(jù)類型轉(zhuǎn)換。在大數(shù)據(jù)平臺上對數(shù)據(jù)實施行列轉(zhuǎn)置,如圖1所示。轉(zhuǎn)置后,同一患者在相同檢驗日期的所有檢驗項目位于一行,所有患者的相同檢驗項目位于一列,形成了大數(shù)據(jù)寬表。
檢驗數(shù)據(jù)結(jié)構(gòu)復(fù)雜、類型眾多,主要存在以下三方面的問題:1)結(jié)構(gòu)化數(shù)據(jù)中存在非法標(biāo)識符(例如>、<、.、*、NULL等)。2)非結(jié)構(gòu)化文本數(shù)據(jù)需要數(shù)字化。3)人工錄入和系統(tǒng)轉(zhuǎn)化等導(dǎo)致的錯誤數(shù)據(jù)。通過數(shù)據(jù)清洗、文本數(shù)據(jù)數(shù)字化、錯誤數(shù)據(jù)糾正和缺失數(shù)據(jù)填充等方式實現(xiàn)數(shù)據(jù)的準(zhǔn)確性、一致性和完整性。
為了便于ML算法處理數(shù)據(jù),數(shù)值型數(shù)據(jù)統(tǒng)一轉(zhuǎn)為雙精度浮點類型,并對這些數(shù)據(jù)采用歸一化方法,將其壓縮到[0,1]之間。確定特征列(檢驗項目)與目標(biāo)列(診斷結(jié)果),形成ML數(shù)據(jù)源。
1.3ML方法
常規(guī)的ML分類算法主要包括隨機森林(Ran?domForests,RF)、K近鄰(K-NearestNeighbor,KNN)、支持向量機(SupportVectorMachine,SVM)和邏輯回歸(LogisticRegression,LR)等。其中,LR分類不僅可以提供分類類別,還可以提供預(yù)測概率(特征的權(quán)重),有利于結(jié)合實際業(yè)務(wù)進行分析判斷和解釋。LR二分類算法不僅適用于處理醫(yī)療數(shù)據(jù),對大數(shù)據(jù)量或小數(shù)據(jù)量均具有優(yōu)異的性能和計算結(jié)果,對噪聲干擾及冗余屬性也有較好的魯棒性。
LR二分類算法的條件概率分布為:
其中,x是輸入數(shù)據(jù),Y是輸出結(jié)果,w為權(quán)重向量,w.x是w與x的內(nèi)積,b是偏置,e是自然常數(shù)。對于給定的輸入實例x,通過式(1)和式(2)求得P(Y=1|x)和P(Y=0|x),LR比較兩個條件概率值的大小,將實例X分到概率值較大的類[9]。
SVM通過探求風(fēng)險最小來提高學(xué)習(xí)機的泛化能力,實現(xiàn)置信度范圍和經(jīng)驗風(fēng)險的最小化[10]。SVM分為線性和非線性,本研究采用線性SVM,通過產(chǎn)生一個超平面,對樣本進行分類,直到訓(xùn)練樣本中屬于不同類別的樣本點恰好位于該超平面兩側(cè),從而實現(xiàn)對線性可分樣本的最佳分類。
ML業(yè)務(wù)流程如圖2所示,按照預(yù)設(shè)比例在數(shù)據(jù)拆分模塊中將ML數(shù)據(jù)源隨機拆分為訓(xùn)練和測試兩部分數(shù)據(jù)。訓(xùn)練數(shù)據(jù)進入ML訓(xùn)練模塊,結(jié)合ML分類算法生成預(yù)測模型。在ML預(yù)測模塊中,測試數(shù)據(jù)和預(yù)測模型生成預(yù)測結(jié)果。預(yù)測結(jié)果分別輸入到混淆矩陣評估模塊和二分類評估模塊進行預(yù)測水平評估。
1.4預(yù)測模型評估方法
預(yù)測模型的預(yù)測水平評估采用混淆矩陣和二分類評估兩種方式。混淆矩陣的每一列表示一種類別的預(yù)測值,每一行表示一種類別的真實值,如圖3所示。
其中,正確預(yù)測的正樣本標(biāo)記為真陽性(trueposi?tive,TP),負樣本被預(yù)測為正樣本標(biāo)記為假陽性(falsepositive,F(xiàn)P),負樣本被預(yù)測為負樣本標(biāo)記為真陰性(truenegative,TN),正樣本被預(yù)測為負樣本標(biāo)記為假陰性(falsenegative,F(xiàn)N)。混淆矩陣采用準(zhǔn)確率、精確率、召回率和F1-Score四項指標(biāo),評估指標(biāo)的計算公式如下:
二分類評估采用AUC和F1-Score兩項指標(biāo)。AUC(areaundercurve)為受試者工作特征曲線(re?ceiveroperatingcharacteristiccurve,ROC)下面積,AUC值介于0到1之間,AUC值越趨近于1則區(qū)分能力越強。
1.5平臺工具
平臺工具采用公開商業(yè)軟件,其中包括大數(shù)據(jù)平臺提供的數(shù)據(jù)存儲、計算和管理功能,大數(shù)據(jù)治理開發(fā)平臺的數(shù)據(jù)治理和數(shù)據(jù)開發(fā)功能,以及機器學(xué)習(xí)平臺的模塊化組件,用于機器學(xué)習(xí)預(yù)測模型的開發(fā)、驗證和評估。
2結(jié)果
2.1LR二分類模型
LR二分類模型包括1338項特征(檢驗項目)的權(quán)重,其中前15項權(quán)重如表1所示。
其中,項目編碼為檢驗項目的唯一標(biāo)識,權(quán)重為相應(yīng)檢驗項目在模型中的系數(shù)。權(quán)重越大,該檢驗項目與對應(yīng)診斷結(jié)果的相關(guān)性越強。由于歷史原因,項目編碼缺乏統(tǒng)一規(guī)劃,存在項目編碼6466和5654表示來自不同檢驗設(shè)備的相同檢驗項目的情況。
2.2LR二分類模型預(yù)測水平評估
2.2.1混淆矩陣評估結(jié)果
預(yù)測結(jié)果評估如表2所示,其中準(zhǔn)確率、精確率、召回率和F1-Score四項指標(biāo)均大于0.900,表明預(yù)測水平較高。
2.2.2二分類評估結(jié)果
預(yù)測結(jié)果評估中,AUC為0.994,F(xiàn)1-Score為0.960,均高于0.950,表明預(yù)測水平較高。
2.3SVM模型預(yù)測水平評估
2.3.1混淆矩陣評估結(jié)果
預(yù)測結(jié)果評估如表3所示,其中準(zhǔn)確率、精確率、召回率和F1-Score四項指標(biāo)均大于0.900,表明預(yù)測水平較高。
2.3.2二分類評估結(jié)果
預(yù)測結(jié)果評估AUC為0.991和F1-Score為0.953,均高于0.950,表明預(yù)測水平較高。
3討論
本研究采用LR和SVM兩種ML算法對同一數(shù)據(jù)源進行訓(xùn)練和預(yù)測,生成的預(yù)測模型均具有較高的預(yù)測水平,表明預(yù)測模型具有穩(wěn)定性和可靠性。以直觀輸出參數(shù)、可解釋性強的LR二分類預(yù)測模型為例,LR二分類預(yù)測模型展示的檢驗項目與診斷結(jié)果的關(guān)系可以分為兩種情況:一種是已經(jīng)獲得相關(guān)臨床研究驗證,另一種是尚未被充分挖掘。獲得臨床驗證的檢驗項目如LDH、葡萄糖、年齡和超敏肌鈣蛋白(high-sen?sitivitycardiactroponinI,hs-cTnI)和高密度脂蛋白膽固醇(highdensitylipteincholesterol,HDL-C)等,有研究通過ML發(fā)現(xiàn)AST、LDH為MI患者需要關(guān)注的危險因素,MI患者的年齡、性別、超敏肌鈣蛋白(hs-cTnI)檢驗結(jié)果為訓(xùn)練數(shù)據(jù),預(yù)測效果非常理想[11]。研究表明HDL-C的低平均值和高變異性與心肌梗死、卒中和死亡風(fēng)險增加有關(guān)[12]。研究發(fā)現(xiàn)在ST段抬高型MI患者中,葡萄糖是1年全因死亡率的獨立預(yù)測因子,具有可接受的陰性和陽性預(yù)測值。在非ST段抬高型MI患者中,葡萄糖與1年全因死亡率獨立相關(guān),也是最佳預(yù)測因子[13]。本研究的項目編碼分別為6466和5654,分別是來自不同檢測設(shè)備對葡萄糖的檢測結(jié)果,兩個項目編碼對應(yīng)的權(quán)重接近,證明了葡萄糖與診斷結(jié)果強相關(guān)的可靠性,與王穎晶等[7]采用6種機器學(xué)習(xí)方法研究發(fā)現(xiàn)血糖、總膽固醇、肌酶同工酶為MI關(guān)鍵致病因素相符。
尚未被充分挖掘的項目,如dep、胱抑素C(Cys?tatinC,CysC)等,權(quán)重最高的dep中,來自住院和門診的MI患者分別為4526例、860例以及其他來源2例。MI患者大部分來自住院患者(占比84%),特征明顯,與高發(fā)病率以及早期缺乏有效的干預(yù)和預(yù)防措施有關(guān)。多項研究表明CysC水平對于MI的發(fā)生發(fā)展及預(yù)后,有一定的預(yù)測作用,可作為臨床預(yù)測MI的指標(biāo),但其與MI的發(fā)病機制之間的關(guān)系尚未完全明確,需要進一步研究[14-15]。本研究采用LR基于全量檢驗數(shù)據(jù)構(gòu)建的預(yù)測模型的AUC和F1-Score兩項指標(biāo)均高于0.950,王覓等[5]使用LR基于57項檢驗項目生成預(yù)測模型的AUC為0.900和F1-Score為0.810,王穎晶等[7]采用LR基于123項檢驗項目生成預(yù)測模型的AUC為0.785和F1-Score為0.660,一定程度表明本研究基于全量檢驗項目生成的預(yù)測模型預(yù)測水平高于上述研究者基于部分檢驗項目生成的預(yù)測模型。
綜合以上分析,LR二分類預(yù)測模型按照權(quán)重降序排列的MI患者的前15項特征大部分與上述國內(nèi)外臨床診斷研究結(jié)果吻合,表明了預(yù)測模型的輔助診斷可用性。LR二分類預(yù)測模型中每個特征不是獨立的決定性因素,需要1338項特征共同構(gòu)成的完整LR二分類預(yù)測模型發(fā)揮作用。SVM預(yù)測模型缺乏可視性,適合計算機處理,但其作為LR二分類預(yù)測模型的對照具有重要的價值。
本研究通過ML基于檢驗大數(shù)據(jù)生成MI預(yù)測模型,一方面結(jié)果與國內(nèi)外研究成果相符,另一方面也挖掘出待進一步研究的內(nèi)容。SVM和LR二分類預(yù)測模型基于真實世界的全量檢驗數(shù)據(jù)均具有較高的預(yù)測水平,具有實際應(yīng)用的可行性。其中LR二分類預(yù)測模型量化輸出了檢驗項目與診斷結(jié)果的權(quán)重,相比以往研究的定性分析關(guān)聯(lián)關(guān)系模式,有助于進一步深入研究。在研究中也發(fā)現(xiàn)了尚未完全明晰價值的檢驗項目具有較高的相關(guān)性,需要進一步結(jié)合臨床診斷信息進行研究。本研究使用的近5年的檢驗數(shù)據(jù)也存在樣本量小、只有兩種ML算法以及缺乏多中心驗證的問題,后續(xù)可以在此基礎(chǔ)上進一步擴展檢驗數(shù)據(jù)量和數(shù)據(jù)挖掘方法,以在臨床驗證預(yù)測模型的可行性。