999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于檢驗大數(shù)據(jù)的心肌梗死預(yù)測模型研究

2024-07-09 06:01:56王瑩
電腦知識與技術(shù) 2024年15期
關(guān)鍵詞:機器學(xué)習(xí)大數(shù)據(jù)

王瑩

關(guān)鍵詞:機器學(xué)習(xí);邏輯回歸;支持向量機;大數(shù)據(jù);心梗

心血管疾病是人類死亡的主要原因,全世界每年約有2,000萬人死于急性心血管疾病。心肌梗死(myocardialinfarction,MI)是由心肌缺血引發(fā)的心肌損傷,其高發(fā)病率給家庭和社會帶來沉重的經(jīng)濟負擔(dān),并嚴(yán)重影響MI患者的生活質(zhì)量[1]。研究表明,MI患者的高發(fā)病率與早期缺乏有效的預(yù)防和干預(yù)措施有關(guān)。干預(yù)滯后的原因包括首次就醫(yī)治療的延遲、缺乏顯著提示意義的預(yù)測標(biāo)志物,以及傳統(tǒng)評價標(biāo)準(zhǔn)無法提供準(zhǔn)確預(yù)測[2]。對于MI患者,早發(fā)現(xiàn)、早診斷、早治療能夠有效提高預(yù)后效果和生存率。

目前,MI的診斷方法包括心電圖、超聲心動圖、冠狀動脈造影和循環(huán)生物標(biāo)志物檢測等。其中,循環(huán)生物標(biāo)志物對MI患者的診斷、預(yù)后和治療效果監(jiān)測非常重要。循環(huán)生物標(biāo)志物包括心臟肌鈣蛋白(cardiactroponin,cTn)、肌紅蛋白(myoglobin)、乳酸脫氫酶(lactatedehydrogenase,LDH)、谷草轉(zhuǎn)氨酶(aspartateaminotransferase,AST)、肌酸激酶(creatinekinase,CK)和葡萄糖(glucose)等。

目前,循環(huán)生物標(biāo)志物檢測存在兩方面的局限性。首先,單獨的循環(huán)生物標(biāo)志物在推斷病情及病程方面存在不足。盡管cTn是醫(yī)學(xué)實驗室診斷MI的金標(biāo)準(zhǔn),但其在骨骼肌損傷、腎臟疾病、惡性腫瘤或敗血癥等情況下也會增加。AST在各種組織中無處不在,顯著影響其對心肌損傷的特異性診斷,限制了其作為心臟生物標(biāo)志物的使用。LDH也在多種組織中存在,使得LDH成為心臟損傷特異性較差的標(biāo)志物。CK存在于多種其他組織中,嚴(yán)重影響其作為心肌損傷生物標(biāo)志物的特異性[3]。其次,多項循環(huán)生物標(biāo)志物的組合缺乏直觀的規(guī)律性,人工篩查無法及時早期發(fā)現(xiàn)。

機器學(xué)習(xí)(machinelearning,ML)具備處理海量多維數(shù)據(jù)的能力,能夠在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上發(fā)掘數(shù)據(jù)之間的潛在關(guān)聯(lián)關(guān)系并生成預(yù)測模型。蘭欣等[4]認為,患者診斷過程中產(chǎn)生的大量檢驗數(shù)據(jù)依靠人力采用常規(guī)方法診斷費時費力,同時缺乏質(zhì)量保證,可以結(jié)合ML進行輔助診斷。

目前,對MI預(yù)測模型的研究主要集中在特異性明顯、數(shù)據(jù)缺失率低的檢驗項目。例如,王覓也等[5]使用多種ML算法基于57項檢驗項目構(gòu)建預(yù)測模型,對MI患者進行風(fēng)險分析,預(yù)測結(jié)果相對穩(wěn)定。呂永楠等[6]采用隨機森林算法基于19項血液檢驗項目建立男性MI診斷模型,能夠有效區(qū)分MI與心絞痛。王穎晶等[7]采用6種機器學(xué)習(xí)算法基于123項檢驗項目建立了MI識別模型,通過特征挖掘找出CK、血糖等MI關(guān)鍵和致病因素。這些研究均采用了人為篩選檢驗項目,與真實世界的數(shù)據(jù)存在較大差異,不利于發(fā)現(xiàn)新的診斷標(biāo)志物。

源源不斷的檢驗數(shù)據(jù)匯集形成海量數(shù)據(jù),其中蘊藏大量已知與未知的臨床發(fā)展規(guī)律。重新解讀海量數(shù)據(jù)并將其再利用,有助于新型標(biāo)志物的發(fā)現(xiàn)[8]。本研究擬通過兩種ML算法基于MI患者的全量檢驗數(shù)據(jù)建立MI預(yù)測模型及驗證評估,并發(fā)掘在MI中作為關(guān)鍵因素的檢驗項目。

1材料與方法

1.1數(shù)據(jù)來源

本研究的數(shù)據(jù)來源于深圳市某綜合性三甲醫(yī)院2016年10月1日至2021年9月30日的全量檢驗數(shù)據(jù)和相應(yīng)診斷結(jié)果。這些數(shù)據(jù)涵蓋了臨床血液及體液學(xué)、臨床生物化學(xué)、臨床免疫學(xué)、臨床微生物學(xué)和臨床細胞分子遺傳學(xué)五大類,共計1338項檢驗項目(包括少量來自不同儀器設(shè)備的同一檢驗項目)。數(shù)據(jù)包括患者的ID、年齡、性別、就診部門、檢驗日期、檢驗項目編碼、檢驗結(jié)果和診斷結(jié)果八個字段,共計140616701條記錄。

1.2數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理包括將全量檢驗數(shù)據(jù)和相應(yīng)診斷結(jié)果導(dǎo)入大數(shù)據(jù)平臺、實施數(shù)據(jù)結(jié)構(gòu)的行列轉(zhuǎn)置、數(shù)據(jù)清洗和必要的數(shù)據(jù)類型轉(zhuǎn)換。在大數(shù)據(jù)平臺上對數(shù)據(jù)實施行列轉(zhuǎn)置,如圖1所示。轉(zhuǎn)置后,同一患者在相同檢驗日期的所有檢驗項目位于一行,所有患者的相同檢驗項目位于一列,形成了大數(shù)據(jù)寬表。

檢驗數(shù)據(jù)結(jié)構(gòu)復(fù)雜、類型眾多,主要存在以下三方面的問題:1)結(jié)構(gòu)化數(shù)據(jù)中存在非法標(biāo)識符(例如>、<、.、*、NULL等)。2)非結(jié)構(gòu)化文本數(shù)據(jù)需要數(shù)字化。3)人工錄入和系統(tǒng)轉(zhuǎn)化等導(dǎo)致的錯誤數(shù)據(jù)。通過數(shù)據(jù)清洗、文本數(shù)據(jù)數(shù)字化、錯誤數(shù)據(jù)糾正和缺失數(shù)據(jù)填充等方式實現(xiàn)數(shù)據(jù)的準(zhǔn)確性、一致性和完整性。

為了便于ML算法處理數(shù)據(jù),數(shù)值型數(shù)據(jù)統(tǒng)一轉(zhuǎn)為雙精度浮點類型,并對這些數(shù)據(jù)采用歸一化方法,將其壓縮到[0,1]之間。確定特征列(檢驗項目)與目標(biāo)列(診斷結(jié)果),形成ML數(shù)據(jù)源。

1.3ML方法

常規(guī)的ML分類算法主要包括隨機森林(Ran?domForests,RF)、K近鄰(K-NearestNeighbor,KNN)、支持向量機(SupportVectorMachine,SVM)和邏輯回歸(LogisticRegression,LR)等。其中,LR分類不僅可以提供分類類別,還可以提供預(yù)測概率(特征的權(quán)重),有利于結(jié)合實際業(yè)務(wù)進行分析判斷和解釋。LR二分類算法不僅適用于處理醫(yī)療數(shù)據(jù),對大數(shù)據(jù)量或小數(shù)據(jù)量均具有優(yōu)異的性能和計算結(jié)果,對噪聲干擾及冗余屬性也有較好的魯棒性。

LR二分類算法的條件概率分布為:

其中,x是輸入數(shù)據(jù),Y是輸出結(jié)果,w為權(quán)重向量,w.x是w與x的內(nèi)積,b是偏置,e是自然常數(shù)。對于給定的輸入實例x,通過式(1)和式(2)求得P(Y=1|x)和P(Y=0|x),LR比較兩個條件概率值的大小,將實例X分到概率值較大的類[9]。

SVM通過探求風(fēng)險最小來提高學(xué)習(xí)機的泛化能力,實現(xiàn)置信度范圍和經(jīng)驗風(fēng)險的最小化[10]。SVM分為線性和非線性,本研究采用線性SVM,通過產(chǎn)生一個超平面,對樣本進行分類,直到訓(xùn)練樣本中屬于不同類別的樣本點恰好位于該超平面兩側(cè),從而實現(xiàn)對線性可分樣本的最佳分類。

ML業(yè)務(wù)流程如圖2所示,按照預(yù)設(shè)比例在數(shù)據(jù)拆分模塊中將ML數(shù)據(jù)源隨機拆分為訓(xùn)練和測試兩部分數(shù)據(jù)。訓(xùn)練數(shù)據(jù)進入ML訓(xùn)練模塊,結(jié)合ML分類算法生成預(yù)測模型。在ML預(yù)測模塊中,測試數(shù)據(jù)和預(yù)測模型生成預(yù)測結(jié)果。預(yù)測結(jié)果分別輸入到混淆矩陣評估模塊和二分類評估模塊進行預(yù)測水平評估。

1.4預(yù)測模型評估方法

預(yù)測模型的預(yù)測水平評估采用混淆矩陣和二分類評估兩種方式。混淆矩陣的每一列表示一種類別的預(yù)測值,每一行表示一種類別的真實值,如圖3所示。

其中,正確預(yù)測的正樣本標(biāo)記為真陽性(trueposi?tive,TP),負樣本被預(yù)測為正樣本標(biāo)記為假陽性(falsepositive,F(xiàn)P),負樣本被預(yù)測為負樣本標(biāo)記為真陰性(truenegative,TN),正樣本被預(yù)測為負樣本標(biāo)記為假陰性(falsenegative,F(xiàn)N)。混淆矩陣采用準(zhǔn)確率、精確率、召回率和F1-Score四項指標(biāo),評估指標(biāo)的計算公式如下:

二分類評估采用AUC和F1-Score兩項指標(biāo)。AUC(areaundercurve)為受試者工作特征曲線(re?ceiveroperatingcharacteristiccurve,ROC)下面積,AUC值介于0到1之間,AUC值越趨近于1則區(qū)分能力越強。

1.5平臺工具

平臺工具采用公開商業(yè)軟件,其中包括大數(shù)據(jù)平臺提供的數(shù)據(jù)存儲、計算和管理功能,大數(shù)據(jù)治理開發(fā)平臺的數(shù)據(jù)治理和數(shù)據(jù)開發(fā)功能,以及機器學(xué)習(xí)平臺的模塊化組件,用于機器學(xué)習(xí)預(yù)測模型的開發(fā)、驗證和評估。

2結(jié)果

2.1LR二分類模型

LR二分類模型包括1338項特征(檢驗項目)的權(quán)重,其中前15項權(quán)重如表1所示。

其中,項目編碼為檢驗項目的唯一標(biāo)識,權(quán)重為相應(yīng)檢驗項目在模型中的系數(shù)。權(quán)重越大,該檢驗項目與對應(yīng)診斷結(jié)果的相關(guān)性越強。由于歷史原因,項目編碼缺乏統(tǒng)一規(guī)劃,存在項目編碼6466和5654表示來自不同檢驗設(shè)備的相同檢驗項目的情況。

2.2LR二分類模型預(yù)測水平評估

2.2.1混淆矩陣評估結(jié)果

預(yù)測結(jié)果評估如表2所示,其中準(zhǔn)確率、精確率、召回率和F1-Score四項指標(biāo)均大于0.900,表明預(yù)測水平較高。

2.2.2二分類評估結(jié)果

預(yù)測結(jié)果評估中,AUC為0.994,F(xiàn)1-Score為0.960,均高于0.950,表明預(yù)測水平較高。

2.3SVM模型預(yù)測水平評估

2.3.1混淆矩陣評估結(jié)果

預(yù)測結(jié)果評估如表3所示,其中準(zhǔn)確率、精確率、召回率和F1-Score四項指標(biāo)均大于0.900,表明預(yù)測水平較高。

2.3.2二分類評估結(jié)果

預(yù)測結(jié)果評估AUC為0.991和F1-Score為0.953,均高于0.950,表明預(yù)測水平較高。

3討論

本研究采用LR和SVM兩種ML算法對同一數(shù)據(jù)源進行訓(xùn)練和預(yù)測,生成的預(yù)測模型均具有較高的預(yù)測水平,表明預(yù)測模型具有穩(wěn)定性和可靠性。以直觀輸出參數(shù)、可解釋性強的LR二分類預(yù)測模型為例,LR二分類預(yù)測模型展示的檢驗項目與診斷結(jié)果的關(guān)系可以分為兩種情況:一種是已經(jīng)獲得相關(guān)臨床研究驗證,另一種是尚未被充分挖掘。獲得臨床驗證的檢驗項目如LDH、葡萄糖、年齡和超敏肌鈣蛋白(high-sen?sitivitycardiactroponinI,hs-cTnI)和高密度脂蛋白膽固醇(highdensitylipteincholesterol,HDL-C)等,有研究通過ML發(fā)現(xiàn)AST、LDH為MI患者需要關(guān)注的危險因素,MI患者的年齡、性別、超敏肌鈣蛋白(hs-cTnI)檢驗結(jié)果為訓(xùn)練數(shù)據(jù),預(yù)測效果非常理想[11]。研究表明HDL-C的低平均值和高變異性與心肌梗死、卒中和死亡風(fēng)險增加有關(guān)[12]。研究發(fā)現(xiàn)在ST段抬高型MI患者中,葡萄糖是1年全因死亡率的獨立預(yù)測因子,具有可接受的陰性和陽性預(yù)測值。在非ST段抬高型MI患者中,葡萄糖與1年全因死亡率獨立相關(guān),也是最佳預(yù)測因子[13]。本研究的項目編碼分別為6466和5654,分別是來自不同檢測設(shè)備對葡萄糖的檢測結(jié)果,兩個項目編碼對應(yīng)的權(quán)重接近,證明了葡萄糖與診斷結(jié)果強相關(guān)的可靠性,與王穎晶等[7]采用6種機器學(xué)習(xí)方法研究發(fā)現(xiàn)血糖、總膽固醇、肌酶同工酶為MI關(guān)鍵致病因素相符。

尚未被充分挖掘的項目,如dep、胱抑素C(Cys?tatinC,CysC)等,權(quán)重最高的dep中,來自住院和門診的MI患者分別為4526例、860例以及其他來源2例。MI患者大部分來自住院患者(占比84%),特征明顯,與高發(fā)病率以及早期缺乏有效的干預(yù)和預(yù)防措施有關(guān)。多項研究表明CysC水平對于MI的發(fā)生發(fā)展及預(yù)后,有一定的預(yù)測作用,可作為臨床預(yù)測MI的指標(biāo),但其與MI的發(fā)病機制之間的關(guān)系尚未完全明確,需要進一步研究[14-15]。本研究采用LR基于全量檢驗數(shù)據(jù)構(gòu)建的預(yù)測模型的AUC和F1-Score兩項指標(biāo)均高于0.950,王覓等[5]使用LR基于57項檢驗項目生成預(yù)測模型的AUC為0.900和F1-Score為0.810,王穎晶等[7]采用LR基于123項檢驗項目生成預(yù)測模型的AUC為0.785和F1-Score為0.660,一定程度表明本研究基于全量檢驗項目生成的預(yù)測模型預(yù)測水平高于上述研究者基于部分檢驗項目生成的預(yù)測模型。

綜合以上分析,LR二分類預(yù)測模型按照權(quán)重降序排列的MI患者的前15項特征大部分與上述國內(nèi)外臨床診斷研究結(jié)果吻合,表明了預(yù)測模型的輔助診斷可用性。LR二分類預(yù)測模型中每個特征不是獨立的決定性因素,需要1338項特征共同構(gòu)成的完整LR二分類預(yù)測模型發(fā)揮作用。SVM預(yù)測模型缺乏可視性,適合計算機處理,但其作為LR二分類預(yù)測模型的對照具有重要的價值。

本研究通過ML基于檢驗大數(shù)據(jù)生成MI預(yù)測模型,一方面結(jié)果與國內(nèi)外研究成果相符,另一方面也挖掘出待進一步研究的內(nèi)容。SVM和LR二分類預(yù)測模型基于真實世界的全量檢驗數(shù)據(jù)均具有較高的預(yù)測水平,具有實際應(yīng)用的可行性。其中LR二分類預(yù)測模型量化輸出了檢驗項目與診斷結(jié)果的權(quán)重,相比以往研究的定性分析關(guān)聯(lián)關(guān)系模式,有助于進一步深入研究。在研究中也發(fā)現(xiàn)了尚未完全明晰價值的檢驗項目具有較高的相關(guān)性,需要進一步結(jié)合臨床診斷信息進行研究。本研究使用的近5年的檢驗數(shù)據(jù)也存在樣本量小、只有兩種ML算法以及缺乏多中心驗證的問題,后續(xù)可以在此基礎(chǔ)上進一步擴展檢驗數(shù)據(jù)量和數(shù)據(jù)挖掘方法,以在臨床驗證預(yù)測模型的可行性。

猜你喜歡
機器學(xué)習(xí)大數(shù)據(jù)
基于詞典與機器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
主站蜘蛛池模板: 久久特级毛片| 国产在线精彩视频二区| 久青草免费在线视频| 114级毛片免费观看| 亚洲免费成人网| 欧美亚洲另类在线观看| 国产精品手机视频一区二区| 首页亚洲国产丝袜长腿综合| 亚洲人成网站在线播放2019| 久久精品这里只有精99品| 精品人妻无码中字系列| 伊人激情综合网| 日韩国产黄色网站| 亚洲色图欧美激情| 97亚洲色综久久精品| 制服丝袜 91视频| 动漫精品啪啪一区二区三区| 免费观看国产小粉嫩喷水 | 亚洲国模精品一区| 中文字幕永久视频| 日韩123欧美字幕| 色网在线视频| 97超爽成人免费视频在线播放| 波多野结衣无码AV在线| 日本高清有码人妻| 国产理论精品| 欧美激情网址| 久久夜色精品国产嚕嚕亚洲av| 一级片一区| 69视频国产| 国产成人av大片在线播放| 啪啪啪亚洲无码| 欧美成人区| 一本大道香蕉高清久久| 久热99这里只有精品视频6| 99精品热视频这里只有精品7| 538国产在线| 97精品伊人久久大香线蕉| 99热线精品大全在线观看| 免费在线一区| 亚洲精品日产AⅤ| 777午夜精品电影免费看| 无码视频国产精品一区二区| 久久国产亚洲欧美日韩精品| 国产精品hd在线播放| 国产亚洲视频中文字幕视频| 真实国产精品vr专区| 亚洲欧美在线看片AI| 欧美精品成人一区二区在线观看| 欧美在线视频a| 色九九视频| 国产乱人伦偷精品视频AAA| 亚洲一区免费看| 香蕉蕉亚亚洲aav综合| 99精品影院| 91小视频在线观看| 国产精品成人第一区| 手机精品福利在线观看| 久久96热在精品国产高清| 幺女国产一级毛片| 中国一级特黄大片在线观看| 四虎免费视频网站| 亚洲成aⅴ人在线观看| 日韩高清欧美| 一级爆乳无码av| 精品视频在线一区| 国产91av在线| 欧美日韩在线成人| 精品久久香蕉国产线看观看gif| 一级毛片在线免费视频| 亚洲午夜国产精品无卡| 少妇精品网站| 日韩国产另类| 一级毛片在线播放免费观看| 久久精品国产精品青草app| 国产成人精品一区二区秒拍1o| 色成人亚洲| 日韩精品免费一线在线观看| 国产乱子伦视频三区| 午夜毛片免费观看视频 | 国产又大又粗又猛又爽的视频| 国产精品成人免费视频99|