張新斌 康昌春 李文琿
摘 要:在最近幾年中,醫學影像技術發展迅猛,進入到大數據的新階段。怎樣從大量的醫學圖像數據內篩選出重要的信息,顯然是醫學辨識圖像過程中的一個挑戰。深度學習屬于機器學習興起的新領域。經由人腦的模擬構建起分層模型,它可以有效地化解傳統式機器學習法無法挑選出醫學圖像內所包藏的信息內容,體現出不可小覷的智能化特征提取、建構復雜化的模型結構以及有效的特征表達性能。更為關鍵的是,深度學習法可以通過像素級的最初數據逐步地通過底層至高層的途徑來提取特征,其為化解辨識醫學圖像所碰到的新問題指出了新的方向。本論文闡述深度學習的概念,簡述主要的模型結構,以乳腺腫瘤X線圖像數據的歸類為例,研究基于深度學習網絡探析醫學影像大數據的相關課題。
關鍵詞:深度學習;醫學影像;大數據
中圖分類號:R445;TP18 文獻標識碼:A 文章編號:2096-4706(2018)08-0084-03
Abstract:In recent years,medical imaging technology has developed rapidly and has entered a new stage of big data. How to filter important information from a large number of medical image data is clearly a challenge in the process of medical identification. Deep learning belongs to the new field of machine learning. Based on the simulation of human brain,a hierarchical model is constructed. It can effectively resolve the traditional machine learning method,which can not pick out the information contained in medical images,and embody the intelligent feature extraction,construction complex model structure and effective feature expression performance,and more critical is the depth study. The method can extract features through the initial data from the first to the high level through the initial data of the pixel level,which is a new direction for resolving the new problems encountered in the identification of medical images. This paper expounds the concept of deep learning and describes the main model structure. It takes the classification of the X-ray image data of breast tumor as an example,and analyses the related subjects of the big data of medical images based on the depth learning network.
Keywords:deep learning;medical image;big data
0 引 言
從2006年迄今,深度學習即被當作機器學習范圍的重要分支誕生。它應用數層的復雜結構或通過數重非線性的變換組成數個處理層,并對數據加以處理。在最近幾年中,深度學習廣泛地在語音與音頻辨識、計算機視覺、自然語言處理以及生物信息學等范圍均獲得了明顯的成果。由于深度學習廣泛地運用于數據的分析方面,具有極為可觀的運用前景,已被贊譽成2013年迄今的十大最為重要的一項突破性技術。
醫療關系著百姓的生命健康。當下醫療的數據量并不小,然而能否使用好海量的醫療數據是醫療領域是否可以做出明顯貢獻的一項重要指標。當然,醫療數據量亦存在著不少的問題:醫療的數據多元化,主要的類型有圖像、文字、視頻以及磁等;因為采用的設備存在著區別,數據質量也存在著顯著的區別;數據呈現出波動的特點,隨著時間與特定的事件改變;因為個體之間的區別,疾病的規律并無普遍的適用性等。因此,可以借助于深度學習的方法來化解醫學影像大數據所存在的一系列問題。
1 深度學習理論概述
1.1 深度學習的概念
深度學習來源于人工神經網絡的相關分析。含數隱層的感知器即為就一種深度學習結構。深度學習主要經由組合低層特點構建起更為抽象化的高層方式來表達屬性種類或是特點,用挖掘數據的分布式特點加以表達。深度學習法模擬的是人類的神經網絡結構,經由組合數個非線性的處理層來逐層地處理最初的數據,通過數據內得到各個層次的抽象特點,且應用在分類的預測方面。深度學習的長處在于通過非監督式或是半監督式的特點學習與分層特征獲得高效的計算方法來取代人工的獲取特點。
通過一個輸入內產生相應的輸出所關涉的計算能夠經由流向圖(flow graph)的方式加以表達。流向圖屬于一類可以表達計算功能的圖。在此類型的圖內,每個節點所表示的是基礎的計算及其所包括的數個隱層以及其中深度學習所對應的模型。而模型內含數個隱層化的數據信息,運算的結果被運用至此節點相應的子節點數值之中。顧及到運算的集合情況,其能夠被同意在每個節點與可能性的圖結構內,同時也界定了函數族的具體形式。輸入的節點并無分節點,且輸出的節點也無分節點。
此類流向圖比較特殊的屬性為深度(depth),即由單個輸入至單個輸出最長渠道的長度。以往的前饋式神經網絡可以被看作擁有等于層數的深度(比如對于輸出層為隱層數加1)。SVMs有深度2(一個對應于核輸出或者特征空間,另一個對應于所產生輸出的線性混合)。人工智能化分析的趨勢之一在于憑借于“專家系統”工具,從上至下地通過許多“若-那么(If-Then)”的相關規則加以界定。人工式神經網絡(Artifical Neural Network)意味著另外的一類從下至上的途徑。神經網絡概念并無嚴格的正式界定。其基本特征在于嘗試著仿照大腦結構的神經元內部進行傳遞,處置相關的信息。
1.2 主要的模型類型
深度學習的不少模型結構已經被運用至醫學影像的大數據內。常見的模型類型包括如下的幾種:稀疏編碼網絡(HierarchicalSparse Coding,HSC)、受限玻爾茲曼機(Restricted Bohzmann Machines,RBM)、卷積神經網絡(Convolutional Neural Networks,CNN)、棧式自編碼器(Stacked Autcr—Encoders,SAE)以及深度信念網絡(Deep Belief Networks,DBN)等。
2 基于深度學習網絡探析醫學影像大數據——以乳腺腫瘤X線圖像數據的歸類為例
通過抽象化的數據特點可知,基于深度學習網絡能夠強化總體的分類功能。當然,盲目地加大網絡深度亦可以弱化它所具有的泛化功能,產生過擬合的后果。因而,需基于具體的現實運用與數據集信息挑選恰當的網絡深度類型。隱含層節點數指標亦為對網絡的分類功能產生影響的另一個比較重要的因素,如果隱含層對應的節點數并不多,即會造成網絡中神經元內部連接的規模并不大,導致提取的準備分類的數據內部特點數量并不多,不足以實現分類的目標;如果隱含層所包含的節點數過大,除卻造成過擬合后果之外,還會造成總體性網絡的反應速度遲緩,致使出現訓練與檢測的時間太長等情況。
因而,本論文將隱含層的節點數應用在探討適合于乳腺腫瘤的x線圖像歸類的深度學習的網絡模型中。根據相關的實驗結果可知,最適合于DBN,SAE與CNN的深度學習模型依次為{1024-100.150-200-300-600.1000-6,1024-100.150-200-300-600.1000-6,1-12C.12S-36C-36S-72C-72S.120C.120C-120C-240-100-6}。若采納此類型的網絡結構模型進行分類,Spec,Sen與Acc的分類指標依次最高。在對它們進行比對后發現,CNN就Ace指標的性能最佳,Spec與Sen存在著不足,DBN與SAE大體一致,原因在于DBN與SAE的結構模型極為近似。通過6類畸形化的乳腺X線圖像得到SAE,ANN,CNN以及DBN進行功能的分類之后,可以界定適合于乳腺腫瘤的X線圖像歸類的CNN,DBN與SAE的網絡模型結構,據此,把它依次和ANN展開比對分析可知,ANN的輸入特點采用的是其提取的特點,并采納10折交叉驗證法加以研究?;诮Y果發現,DBN與ANN比對后可知,分類的性能均得以改進,原因在于CNN,DBN與SAE都采納了深度學習的模型結構。當訓練的次數遞增時,總體則表現出下降的走向,且CNN的錯誤率處于最低的程度,其次為SAE與DBN,最后為ANN。就總體訓練的走向而言,ANN出現分類上的錯誤概率浮動改變最為明顯,呈現出明顯的隨機性,總體分類的穩定性欠佳,原因在于ANN最初的權值存在著明顯的隨機性,總體網絡易陷入到局部性的最優。深度學習的網絡模型結構所具有的分類功能顯著地好過以往的ANN網絡模型結構。就4類網絡模型的結構分類相應的混淆矩陣可知,SAE、CNN與DBN的各個種類的分類正確率都超出ANN。因而,此3種網絡模型結構處于MIAS非正常時分類顯著地好過以往的ANN計算方法。有關ANN、CNN、SAE、DBN在分類的特異性、敏感性以及精度的結果統計情況如表1~表4所示。
3 結 論
深度學習必須擁有大量、優質的數據加以應用,特別是它和醫學方面的有機結合,其特點更加明顯地體現出來。監督學習必須要有人類專家的標記型數據,且及時地傳教給機器精確的答案,才可以產生出更為精確的結果。作為機器學習的一個新出現的領域,深度學習在處理圖像與計算機視覺領域的成功,替醫學學科的圖像辨識提供了新的發展路徑。當然,雖然當下深度學習已在醫學圖像辨識中獲得了一定的研究成果,但從整體上說,深度學習運用于醫學圖像辨識領域依舊處在最初的階段,將來還有不少的問題需加以解決。
參考文獻:
[1] 呂鴻蒙,趙地,遲學斌.基于增強AlexNet的深度學習的阿爾茨海默病的早期診斷 [J].計算機科學,2017,44(S1):50-60.
[2] 孫志遠,魯成祥,史忠植,等.深度學習研究與進展 [J].計算機科學,2016,43(2):1-8.
[3] 李淵,駱志剛,管乃洋,等.生物醫學數據分析中的深度學習方法應用 [J].生物化學與生物物理進展,2016,43(5):472-483.
[4] Haykin S.神經網絡與機器學習 [M].申富饒,徐燁,鄭俊,等,譯.北京:機械工業出版社,2011.
作者簡介:張新斌(1985-),男,漢族,山東濟南人,科員,助理工程師,碩士。研究方向:醫療信息化。