999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的醫療大數據分析與臨床應用

2019-12-12 06:05:16孫濤徐秀林
軟件導刊 2019年11期
關鍵詞:機器學習臨床應用深度學習

孫濤 徐秀林

摘 要:醫療大數據指數目龐大、增長迅速、結構復雜、隱藏價值高的數據。機器學習技術能夠有效分析醫療大數據的內部聯系,對疾病的早期診斷及預后具有重要臨床指導意義。闡述了機器學習技術在醫療大數據中的應用及研究進展,包括在大數據分析中的回歸分析、決策樹、基于內核的算法、降低維度算法等淺層機器學習算法模型,卷積神經網絡、循環神經網絡、自動編碼器、深度信念網絡等深度學習算法模型,以及各個算法模型的臨床應用,分析了機器學習在醫療數據挖掘中的應用前景和存在的技術難題。

關鍵詞:醫療大數據;機器學習;診斷及預后;深度學習;臨床應用

1 醫療大數據

大數據指無法使用傳統工具或方法進行分析處理的、具有復雜關系的龐大數據集合,需要利用縱向信息對數據進行補充分析[1]。醫療大數據是醫療衛生機構產生的一切與生命科學相關的復雜大數據[2]。這些數據數目龐大、增長迅速、結構復雜、隱藏價值高,具備多樣性、時間性、缺失性、冗雜性、隱私性等特性。在醫學信息化時代,挖掘海量醫療大數據的內在信息價值成為服務臨床的一種選擇。

醫療大數據來源不僅僅局限于醫療過程中產生的數據,而是多方式多途徑產生的,來源大體可概括為 [2]:①產生于醫院醫療過程中的電子病歷檔案、影像檢查記錄、檢驗檢查記錄、用藥信息記錄、手術記錄等醫療數據;②醫學科研或疾病監測產生的大數據;③基于物聯網的個人身體體征和活動的自我量化數據;④區域協同衛生服務平臺匯集整合的數據;⑤基因組、單細胞表型、宏基因組、生物醫學圖像等生物醫學大數據。醫療大數據來源的多方式多途徑雖然增加了復雜性,但也為臨床提供了多樣性的研究價值。

2 機器學習

1956年,達特茅斯會議上計算機科學家首次提出了“人工智能”概念[3],期望通過剛剛問世的計算機創造出擁有和人類同等智慧的機器。作為人工智能最重要的技術,機器學習概念由此產生并被人們所認識和接受,其定義為不以代碼編程為直接手段就能讓計算機擁有學習能力的方法總稱。機器學習的生命周期是一個以自主學習、判斷預測為目標,以大數據集為數據支持,建立機器學習算法模型并不斷評估和優化模型,最終利用模型對未知數據組成的事件作出預測,并將預測輸出反饋給模型的過程[4]。機器學習生命周期如圖1所示,分為4個階段:①定義目標和假設、明確問題類型;②數據收集,準備用于訓練模型的歷史數據;③建模和評估,即利用訓練數據建立模型,并對建立的模型進行全面評估,針對評估結果優化模型,提高模型的準確性和可擴展性;④驗證模型在驗證集上的預測效果,檢查模型預測新數據的能力。

3 機器學習算法模型

3.1 淺層機器學習算法模型

為了獲得模型最優解,根據輸入變量類型的不同,可按照學習方式將機器學習分為監督學習、無監督學習、半監督學習、強化學習[5]。監督學習通過一個已明確輸入變量以及期望輸出變量的訓練樣本集去訓練模型,以不提供額外輸出的輸入數據代入模型獲得輸出量,如果實際輸出與期望輸出不一致則繼續調整模型,直到模型產生適當的輸出;無監督學習和監督學習最明顯的差異是,無監督學習的數據集是未記號、不明確的,它比監督學習更寬松。正是由于大量未記號的數據集存在,使無監督學習具有更廣泛的適用性;半監督學習結合了前兩種學習方式特點,一個有樣本集記號,另一個沒有記號,用這兩個樣本集進行模型訓練;在強化學習中,模型通過對不同交互情景采取適當措施對輸入作出期望行為,并對行為作出獎懲,以求最大限度地提高模型績效。

醫療大數據領域中運用的淺層機器學習算法模型有回歸分析、決策樹、基于內核的算法、降低維度算法等。邏輯回歸算法(Logistic Regression,LR)是常用的回歸分析算法,它通過確定單個變量或者多個變量的影響權重建立關系模型。決策樹算法(Decision Tree,DT)是一種遞歸尋優的樹狀模型。基于內核的算法最常用的是支持向量機(Support Vector Machine,SVM),它先建立高階的向量空間,再通過映射關系將數據映射到高階向量空間。降低維度算法常用的是主成分分析法(Principal Component?Analysis,PCA)和偏最小二乘回歸法(Partial Least Squares?Regression,PLSR),兩者皆通過降低特征維度重組數據集。其中回歸分析、決策樹和降低維度算法屬于無監督學習,基于內核的算法屬于監督學習。醫療大數據領域主要使用的淺層機器學習算法模型如表1所示。

3.2 深度學習算法模型

多層感知器計算在當時是一個復雜問題,沒有便捷的解決辦法。20世紀80年代后期出現了一種名為反向傳播(Back propagation,BP)算法,解決了多層感知器大量繁瑣的計算問題[10-13]。但多層感知器也存在令人詬病的問題:雖然有了BP算法支持,然而模型訓練仍需很長時間,而且局部最優解問題在模型訓練優化過程中始終存在,導致優化效果較差。2006年,Hinto[14]提出了“深度置信網絡”概念。在“深度置信網絡”中首次運用了“前訓練”方式,即先逐層尋找權值最優解,再通過“細調”技術對整個模型進行優化,這使得神經網絡各層的初始權值較優,能使整個網絡收斂到理想的局部極值。多層神經網絡的興起使深度學習的學科分支逐漸形成。多層神經網絡結構如圖4所示,在輸入層和輸出層之間增加若干中間層,形成具有多級計算層的神經網絡。

醫療大數據領域中運用的深度學習算法模型主要有卷積神經網絡(convolutional neural network,CNN)、循環神經網絡(recurrent neural network,RNN)、自動編碼器(auto-encoder,AE)、深度信念網絡(deep belief network,DBN)等,如表2所示。

4 機器學習算法臨床應用

4.1 回歸分析算法

回歸分析算法模擬若干個變量之間的依賴關系,建立這種依賴關系的模型稱為回歸關系模型,它的主要優點是體現多個自變量對因變量的影響重要度大小,能準確找出對因變量影響大的那些自變量因子。Direkvandmoghadam等 [15]利用單變量logistic回歸分析和多變量logistic回歸分析研究了2014年伊朗西部伊拉姆衛生中心444名性功能障礙女性患者的患病率與預測變量之間的依賴關系。單變量logistic回歸分析結果顯示,女性性功能障礙與年齡、初潮年齡、妊娠次數、胎次和受教育程度之間存在顯著相關性(P<0.05);多變量logistic回歸分析結果顯示,初潮年齡、受教育水平和妊娠次數是導致女性性功能障礙的主要影響變量。Huang等 [16]利用Logistic回歸分析了544例具有完整臨床數據的食道-賁門癌患者,將是否發生術后吻合口瘺作為結局變量,將潛在危險因素,如年齡、性別、糖尿病史、是否接受腹腔鏡手術、吸煙史等作為自變量代入Logistic回歸模型,結果顯示性別為女性、接受腹腔鏡手術、術后出現低蛋白血癥和術后腎功能不全是導致術后吻合口瘺的重要影響因素。

4.2 決策樹算法

決策樹算法是建立在多個策略抉擇基礎上形成的樹狀預測模型,它顯示特征與分類結果之間的映射關系。Kim等 [17]收集了208例黃疸患兒的核磁共振成像(MRI)數據和超聲(US)數據,其中112例患兒有膽道閉鎖(BA),96例患兒無BA,患兒平均年齡為58.7天。通過比較并評估這兩組患兒的MRI表現和US表現,發現不可見膽總管的MRI表現、膽囊異常以及MRI門靜脈周圍信號最大直徑變化(MR-TCT)是診斷BA的良好鑒別因素,在此基礎上利用決策樹建立了BA診斷模型,測試結果顯示其靈敏度、特異性和準確率分別達到了97.3%,94.8%和96.2%(靈敏度表示模型測試陽性與疾病真實陽性的比值,特異性表示模型測試陰性與疾病真實陰性的比值)。Tayefi等 [18]利用決策樹算法建立了一種冠心病預測模型,實驗收集2 346例數據,其中1 159例數據由健康者提供,1 187例來自接受過冠狀動脈造影患者(其中405例為陰性血管造影,其他782例為陽性血管造影),特征變量采用臨床生物標志物和若干已知的傳統風險因素結合的10個變量組合,包括年齡、性別、低密度脂蛋白(LDL)、空腹血糖(FBG)、甘油三酯(TG)、收縮壓(SBP)、高度敏感的C反應蛋白(hs-CRP)、總膽固醇(TC)、舒張壓(DBP)和高密度脂蛋白(HDL),結果顯示模型識別冠心病風險因素的準確率較高,靈敏度、特異性和準確率分別達到了96%、87%、94%。此外,研究表明生物標志物hs-CRP是第一位的危險因素,其次是FBG、性別和年齡。

4.3 降低維度算法

降低維度算法是一種非監督學習算法。在機器學習中,過多的特征維度會隱藏數據的真實結構,導致模型出現過擬合。因此,降低過多的特征維度有利于解析數據的真實結構,提高模型的泛化能力。臨床上心電圖(ECG)信號的細微變化可用于診斷心臟異常,但在心臟疾病的預后中,由于存在噪聲,導致從心電信號中提取特征極其困難。Kaur等 [19]提出一種結合擴展卡爾曼濾波器和離散小波變換的混合技術降低噪聲,并利用PCA提取ECG信號中R波和QRS波群的特征信號,再利用去噪和特征提取后的ECG信號計算心率,得出心律失常類型。將心率失常分類結果與MIT-BIH心律失常數據庫比對,結果顯示陽性預測率和檢測錯誤率分別達到99.93%、99.98%和0.079%,顯示該方法的靈敏度結果優于其它方法。Zhang等 [20]設計了一種基于縮放頻譜圖和PLSR方法對心音圖(PCG)信號進行分類,研究分為心臟周期評估、頻譜圖縮放、特征降維和模型分類4個步驟。首先將香農能量進行的心音包絡短時平均幅度差作為心臟周期評估標準;其次計算心動周期頻譜圖作為數據特征維度。由于不同PCG信號計算出的頻譜圖大小不同,所以對頻譜圖采用雙線性插值得到大小恒定的縮放頻譜圖,但這些頻譜圖依然存在大量不相關和重復的信息,因此采用PLSR降低頻譜圖的特征維度;最后利用SVM對信號進行分類。結果顯示該方法與傳統的PCG信號分類方法相比,分類效果理想,準確率提高了18%。

4.4 基于內核的算法臨床應用

基于內核的算法主要建立一個高階向量空間,將研究數據通過映射關系輸入到高階向量空間,這樣能更容易解決回歸和分類問題。SVM是應用最廣泛的基于內核的算法模型,它在處理樣本量小、維度高、非線性的數據時有很大優勢。Suvarna 等 [21]利用SVM建立了一種化學性皮膚灼傷分類器,實驗的120例化學性皮膚灼傷圖像數據來自醫院的圖像數據庫。首先提取圖像中灼傷部位的顏色和紋理特征,根據提取特征將灼傷分為表面灼傷、部分灼傷、全灼傷,再將分類好的灼傷圖像數據集均分為3組代入SVM進行訓練及測試,結果顯示二次核SVM分類效果最好且三組測試結果的靈敏度均超過82%,特異性均超過92%。Soares 等 [22]利用二進制SVM研究血液熒光光譜進行結直腸癌 (CRC)識別,然后利用一類SVM(one-class SVM)對之前識別結果中的非CRC樣本(異常樣本)進行檢測,確認異常樣本是否存在非惡性病變。研究數據為12 341個血液熒光光譜波長組成的數據集,實驗結果顯示,CRC檢測的靈敏度和特異性分別為0.87和0.95,非惡性檢測靈敏度和特異性分別為0.60和0.79。與傳統結直腸癌識別方法相比,該方法準確性更高,需要的特征更少,還提供了非惡性病變診斷的擴展檢測方法。

4.5 深度學習算法

深度學習主要應用于醫學影像分析中。Litjens等 [23]利用深度學習的CNN在蘇木素和伊紅(H&E)染色切片圖像中分別鑒定前列腺癌和診斷檢測乳腺癌前哨淋巴結中轉移。樣本數據集為254名患者的活檢切片標本,使用3DHistech Pannoramic 250 Flash II掃描儀將切片標本數字化,再提取相應的小原型圖像區域訓練CNN,使得CNN能識別數據集中的癌癥區域。結果顯示前列腺癌鑒定的受試者工作特征曲線(ROC)下面積(AUC)在切片水平上可達到0.99,乳腺癌前哨淋巴結轉移檢測的AUC達到0.88(AUC是模型分類結果的評價標準,AUC越接近1模型分類越準確)。Xie等 [24]在研究肌肉萎縮疾病的早期診斷中提出了一種空間發條式遞歸神經網絡(空間CW-RNN),該研究的樣本數據量為150張骨骼肌顯微鏡圖像。首先把每個圖像分成一組非重疊的塊狀圖像,并把圖像的2D結構信息編碼到每個塊狀圖像中。同時利用結構化回歸給塊狀圖像分配預測掩碼,進行高效訓練,并利用數字化肌肉顯微圖像測試由空間CW-RNN建立的肌肉分割方法模型。結果顯示,空間CW-RNN學習圖像全局背景信息用于區分肌內膜、肌萎縮和血管的能力優于多層感知、卷積神經網絡等現有技術。

5 結語

人工智能的重要技術之一機器學習廣泛應用于醫療領域,海量的醫療數據完美契合了機器學習技術。相比于傳統臨床診斷,基于機器學習的醫療大數據分析具有時間短、人力資源少、成本低、規避人為誤差、診斷速度快的優點,能提供完善的客觀性評價和準確性描述,所建立的機器學習模型還可通過學習信息數據得到自我改進,有效提高了臨床診療水平,促進醫療健康事業發展。

在醫療大數據中,一個結果變量通常對應高維度的特征變量,如何選擇臨床特征變量是醫療大數據機器學習的重要任務。面對一個確定的結果變量,首先要解決的問題是如何擴大特征范圍,分析特征與結果變量的相關性,保留那些相關性大的特征因子,但這種方法存在一定的局限性,如忽略了特征變量之間的組合關系對于結果變量的影響大小。因此,模型算法的選擇和參數的優化就顯得十分重要。

機器學習模型選擇取決于算法所要實現的目標,分類和預測是主要研究目的。在此基礎上結合數據集的各種屬性,如數據規模、數據結構等,以及現有計算資源、任務進度安排等因素選擇合適的模型算法。此外,醫療數據具有高復雜、不完整、冗余程度高的特性,模型的選擇趨于多向。因此,比較多個算法的優劣是進行模型算法選擇的基礎。

所有機器學習模型算法都有合適的參數范圍。在邏輯回歸中需要確定回歸系數,即模型中各個特征變量的權重大小。在決策樹中需要選擇分類的變量。如何基于特定算法的參數特點尋找最優參數,以此提高模型的泛化能力,是今后研究的重點。

參考文獻:

[1] GUOJIE L. Research status and scientific thinking of big data[J]. Bulletin of Chinese Academy of Sciences, 2012(3):145-149.

[2] 俞國培, 包小源, 黃新霆,等. 醫療健康大數據的種類、性質及有關問題[J]. 醫學信息學雜志, 2014, 35(6):9-12.

[3] 蔡自興,徐光祐. 人工智能及其應用[M]. 北京:清華大學出版社, 2004.

[4] SKILTON M,HOVSEPIAN F. Machine Learning[M]. Berlin:Springer,2018.

[5] SUYKENS J A K. Introduction to machine learning[J]. Academic Press Library in Signal Processing, 2014(1):765-773.

[6] LECUN Y,BENGIO Y,HINTON G. Deep learning [J]. Nature, 2015, 521(7553):436-439.

[7] MCCULLOCH WS,PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. Bulletin of mathematical biology. Springer,1990(5):99-115.

[8] ROSENBLATT F. The perceptron-a perceiving and? recognizing automaton[M]. New York: Cornell Aeronautical Laboratory,1957.

[9] 胡越,羅東陽,花奎,等. 關于深度學習的綜述與討論[J]. 智能系統學報,2019(1):2-9.

[10] LECUN Y. Learning processes in an asymmetric threshold network[M]. Berlin:Springer,1986.

[11] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature,1986(323):533-536.

[12] PARKER DB. Learning logic[R]. Cambridge: Center for Computational Research in Economics and Management Science, Massachusetts Institute of Technology, Technical Report TR-47, MA. 1985.

[13] RUMELHART D, MCCLELLAND J, WILLIAMS R. Learning internal representations by error propagation[M]. Cambridge:MIT Press, 1986:318-362.

[14] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J].? Science, 2006(1):504-507.

[15] DIREKVANDMOGHADAM A,SUHRABI Z,AKBARI M,et al. Prevalence and predictive factors of sexual dysfunction in Iranian women: univariate and multivariate logistic regression analyses[J]. Korean Journal of Family Medicine, 2016, 37(5):293-298.

[16] HUANG J,ZHOU Y,WANG C,et al. Logistic regression analysis of the risk factors of anastomotic fistula after radical resection of esophageal-cardiac cancer[J]. Thoracic Cancer,2017,8(6):1454-1459.

[17] KIM Y H,KIM M J,SHIN H J,et al. MRI-based decision tree model for diagnosis of biliary atresia[J]. European Radiology, 2018(8):665-668.

[18] TAYEFI M,TAJFARD M,SAFFAR S,et al. Hs-CRP is strongly associated with coronary heart disease (CHD):a data mining approach using decision tree algorithm[J]. Computer Methods and Programs in Biomedicine, 2017, 141(6):105-109.

[19] KAUR H,RAJNI R. On the detection of cardiac arrhythmia with principal component analysis[J]. Wireless Personal Communications, 2017(9):361-367.

[20] ZHANG W,HAN J,DENG S. Heart sound classification based on scaled spectrogram and partial least squares regression[J].? Biomedical Signal Processing and Control,2017(32):20-28.

[21] SUVARNA M,VENKATEGOWDA N,DEEPAK L. Classification of chemical skin burn using SVM method[C].? International Conference on Systems in Medicine & Biology,New York:IEEE 2017.

[22] SOARES F,BECKER K,ANZANELLO M J. A hierarchical classifier based on human blood plasma fluorescence for non-invasive colorectal cancer screening[J]. Artificial Intelligence in Medicine, 2017(2): 592-604.

[23] LITJENS G,SáNCHEZ CI,TIMOFEEVA N,et al. Deep learning as a tool for increased accuracy and efficiency of histopathological diagnosis[J]. Scientific Reports, 2016(6):262-286.

[24] XIE Y,ZHANG Z,SAPK OTA M,et al. Spatial clockwork recurrent neural network for muscle perimysium segmentation[C]. International Conference on Medical Image Computing & Computer-assisted Intervention,Cham:Springer,2016.

(責任編輯:杜能鋼)

猜你喜歡
機器學習臨床應用深度學習
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
奧美拉唑的藥學藥理分析及臨床應用探討
今日健康(2016年12期)2016-11-17 12:34:21
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
淺析涌泉穴
科技視界(2016年18期)2016-11-03 23:09:08
基于深度卷積網絡的人臉年齡分析算法與實現
軟件工程(2016年8期)2016-10-25 15:47:34
珍珠的市場前景及藥性成分、功效的研究
基于支持向量機的金融數據分析研究
主站蜘蛛池模板: 亚洲午夜国产片在线观看| 久久福利网| 无码粉嫩虎白一线天在线观看| 色天堂无毒不卡| 国产欧美精品专区一区二区| 日本91视频| 秋霞国产在线| 欧美一级夜夜爽www| 久久久久久尹人网香蕉| 国产第三区| 99无码中文字幕视频| 六月婷婷激情综合| 亚洲人成网址| 国产成人AV综合久久| 一级毛片中文字幕| 九色最新网址| 天天综合网亚洲网站| 国产福利小视频高清在线观看| 国产成人免费高清AⅤ| 99热在线只有精品| 国产精品毛片一区| 国产精品妖精视频| www亚洲天堂| 亚洲免费人成影院| 黄色网在线| 天天色综网| 黄色网站在线观看无码| 国产精品白浆无码流出在线看| 亚洲精品视频网| 又污又黄又无遮挡网站| 国产福利小视频在线播放观看| 四虎国产永久在线观看| 亚洲综合中文字幕国产精品欧美| 波多野吉衣一区二区三区av| 日本不卡视频在线| 婷婷开心中文字幕| 亚洲天堂在线免费| 青青操视频免费观看| 精品国产免费观看| 无码中文字幕加勒比高清| 99热这里只有精品国产99| 久久男人视频| 日本亚洲最大的色成网站www| 91视频精品| 欧美精品啪啪| 在线无码九区| 久久久久国产一区二区| 亚洲一区二区三区在线视频| 日韩欧美在线观看| 日韩在线成年视频人网站观看| 54pao国产成人免费视频| 91精品在线视频观看| 午夜国产大片免费观看| 亚洲va视频| 久久综合亚洲色一区二区三区| 免费一级毛片不卡在线播放| 本亚洲精品网站| 在线毛片网站| 55夜色66夜色国产精品视频| 婷婷亚洲天堂| 久久黄色一级片| 国产肉感大码AV无码| 五月天福利视频| 永久成人无码激情视频免费| 国产成人三级在线观看视频| 国产成a人片在线播放| 久久久精品国产亚洲AV日韩| 亚洲永久免费网站| 欧美一级高清片久久99| 久久精品国产亚洲麻豆| 免费无码AV片在线观看国产| 久久精品66| 国产日韩丝袜一二三区| 五月天久久婷婷| 国产小视频a在线观看| 国产成人精品一区二区三在线观看| 国产va欧美va在线观看| 中文字幕无码中文字幕有码在线| 成年午夜精品久久精品| 亚洲第一在线播放| 中文无码精品a∨在线观看| 亚洲黄色片免费看|