丁蓬莉,李清勇 ,張 振,李 峰
(北京交通大學 軌道交通數據分析與挖掘北京市重點實驗室,北京 100044) (*通信作者電子郵箱liqy@bjtu.edu.cn)
糖尿病性視網膜圖像的深度神經網絡分類方法
丁蓬莉,李清勇*,張 振,李 峰
(北京交通大學 軌道交通數據分析與挖掘北京市重點實驗室,北京 100044) (*通信作者電子郵箱liqy@bjtu.edu.cn)
針對傳統的視網膜圖像處理步驟復雜、泛化性差、缺少完整的自動識別系統等問題,提出了一套完整的基于深度神經網絡的視網膜圖像自動識別系統。首先,對圖像進行去噪、歸一化、數據擴增等預處理;然后,設計了緊湊的神經網絡模型——CompactNet,CompactNet繼承了AlexNet的淺層結構參數,深層網絡參數則根據訓練數據進行自適應調整;最后,針對不同的訓練方法和不同的網絡結構進行了性能測試。實驗結果表明,CompactNet網絡的微調方法要優于傳統的網絡訓練方法,其分類指標可以達到0.87,與傳統直接訓練相比高出0.27;對于LeNet,AlexNet和CompactNet三種網絡模型,CompactNet網絡模型的分類準確率最高;并且通過實驗證實了數據擴增等預處理方法的必要性。
糖尿病性視網膜圖像;深度學習;卷積神經網絡;圖像分類;微調
糖尿病性視網膜病變(Diabetic Retinopathy, DR)是目前嚴重的致盲眼病。中國現在有將近1億的糖尿病患者,此中視網膜病變的患病率為65.2%。DR的潛伏期長短不一,短則3~5年,長可達15年,并且潛伏期越長,發病率越高。據統計,潛伏期超過15年的病患發病率可高達50%[1]。早發現、早診斷、早治療對于抑制病情的發展至關重要,因此,對于視網膜圖像的早期篩選工作成為關注的重點,對于視網膜圖像的分析也成為目前研究的熱點。
傳統的視網膜圖像處理方法包括4個階段:預處理、解剖結構分析、病變檢測和病變診斷。視網膜圖像處理的每個階段都需要不止一種圖像處理技術,而且視網膜圖像結構復雜,容易與各種病變交叉影響,再加上復雜的背景變化影響(圖1),使得對視網膜圖像的處理面臨各種難題。不可避免的外界因素使得處理視網膜圖像的技術復雜、泛化性差,對先驗知識也具有很強的依賴性。在這個過程中,任何一個技術環節出錯或者效果不理想,都將導致后續的工作無法進行或者圖像分類檢測結果出現很大的誤差。在糖尿病發病率比較高的發達國家,已經有不少科研單位從事糖尿病視網膜病變篩選的研究[2],而我國對這方面的研究少之又少,尚還缺少一個完整的針對視網膜圖像分類診斷的系統。
本文采用基于深度學習的方法實現對視網膜圖像自動分類,只需要作簡單的圖像預處理,然后將預處理得到的圖像作為網絡的輸入,通過本文提出的CompactNet網絡結構自動訓練,將訓練好的模型用于圖像自動分類。與傳統的處理方法相比,深度學習只是對原始圖片集作了簡單的預處理,不需要借助任何先驗信息的情況下就可以達到高準確率。

圖1 傳統視網膜處理方法中的干擾圖像
1.1 深度學習的發展及應用
深度學習的概念起源于人工神經網絡,是模擬大腦的構架并輔以一定的學習算法,從而使計算機的工作方式盡可能地接近人類的工作方式。深度學習與淺層學習最大的區別在于模型結構的深度[3]。雖然淺層學習方法在某些應用中也獲得了一定的成就,但是仍然存在一大類問題不能使用淺層結構表示,淺層學習仍然具有很大的局限性[4]。深度學習主要模仿神經網絡的層次結構,低層次表示細節,高層次表示抽象的數據結構特征,通過逐層抽象、高度挖掘數據的本質信息,從而達到學習的目的。該特征學習的過程完全自動,無需人工干預。Arel等[5]介紹了主流的深度學習方法以及近幾年來的研究方向,突出了深度學習方法的優勢。
深度神經網絡自流行以來,已經在語音識別[6]、圖像識別[7]和自然語言處理領域[8]取得了巨大的成功。LeCun等[9]最早于1998年開始專注卷積神經網絡(Convolutional Neural Network, CNN)的研究,提出了用于識別手寫體的LeNet模型。2006年之后,深度學習以一發不可收之勢霸占了人工智能領域,取得了巨大的成功。2011年,微軟研究院和Google的語音識別研究人員先后采用深度神經網絡技術對語音進行處理,極大降低了語音識別的錯誤率,這在語音識別領域是突破性進展。深度神經網絡技術在圖像識別領域也取得了驚人的成果,涌現出了很多經典的網絡結構。在ImageNet國際計算機視覺挑戰賽(ILSVRC)中拔得頭籌的AlexNet(2012年冠軍)[10]將錯誤率降低了9%。GoogleNet(ILSVRC2014冠軍)[11]和VGG(ILSVRC2014年亞軍)[12]針對網絡的深度取得了突破性的進展。在ILSVRC2015中,He等[13]將神經網絡的系統實現到了152層,并且還使用一個全新的“殘差學習”原則來指導神經網絡的設計,很好地解決了深層網絡層級與準確度之間的矛盾。
1.2 卷積神經網絡
卷積神經網絡是人工神經網絡的一種,是一種多層的神經網絡,最早于20世紀60年代由Hubel等[14]提出,已經成為當前語音分析和圖像識別領域的研究熱點。
CNN的基本結構包括兩種特殊的神經元層:特征映射層和特征提取層。特征映射層(卷積層)的每個神經元的輸入和前一層的局部相連,并提取該局部特征;特征提取層(降采樣層、池化層、抽樣層)用來求局部敏感性和二次特征提取。卷積神經網絡的卷積層和抽樣層交替出現,每個卷積層后都跟著二次提取的池化層,這種兩次特征提取使網絡在識別時對輸入樣本有較高的特征學習能力[15]。卷積層的主要任務是特征映射,從不同的角度來選擇前一層特征圖的各角度特征使其具有位移、旋轉不變性。由于CNN的權值共享特性,從一個平面到下一個平面的映射可以看作是卷積運算,計算形式如式(1)所示:

(1)
其中:l表示網絡第幾層,Kernel為卷積核,Mj為輸入特征圖的一種組合選擇,每一層輸出特征圖都會有一個唯一的偏置b。值得說明的是,輸出特征圖所對應的輸入特征圖可以是一個或者若干個,當有若干個輸入特征時,每個輸入特征所對應的卷積核是不一樣的。池化層的特征是在把上一層的相似特征合并起來,進行二次特征提取,降低隱含層的空間分辨率,池化層作用于圖像中不重合的區域,神經元X的計算公式為:
(2)
其中,down(·)表示一個下采樣函數,池化方法根據計算方法的不同有平均池化和最大池化,平均池化是對輸入圖像的n*n區域的所有像素求和取平均,最大池化是將輸入圖像的n*n區域中的最大值輸出。池化過后的輸出特征圖在兩個維度上都縮小到了原來的1/n,每個輸出特征都對應一個唯一的乘性偏置β和加性偏置b。
卷積神經網絡是語音分析、圖像識別等領域最主要的深度學習方法,其優勢在于:1) 特征提取和模式分類同時進行,并同時在訓練中產生;2) 權值共享可以減少網絡中參數爆炸的問題,使神經網絡結構變得更加簡單,適應性更強。
2.1 算法流程
進行視網膜圖像類型識別時,獲取到的圖像由于噪聲等的原因不能直接用于模型的訓練,首先需要排除背景和噪聲的干擾,緊接著對視網膜圖像進行一定的預處理,隨后將預處理之后的視網膜圖像傳入到神經網絡中進行模型的訓練,最后進行圖像的分類。如圖2所示,算法主要包括4個步驟。

圖2 算法流程
1)將獲取到的圖像周圍的黑邊框去掉,對圖像進行簡單的篩選,剔除掉含有嚴重噪聲的圖像。
2)將圖像作局部歸一化,使所有圖像的色調統一,去掉由光線問題而產生的噪聲。
3)所獲得的視網膜圖像樣本量不足,并且存在嚴重的數據不平衡現象,為了解決這個問題,本文采用旋轉、平移、拉伸等方法進行數據擴增。
4)模型訓練圖像識別,借鑒AlexNet網絡結構,設計符合視網膜圖像特點的網絡結構,采用前饋式神經網絡對圖像進行分類。
算法流程圖中的去除背景、數據歸一化和數據擴增可以統稱為數據預處理的過程,這樣就將整個算法流程分為兩部分:數據預處理和訓練模型。
2.2 圖像預處理
2.2.1 數據集簡介
本文數據集來源于數據建模和數據分析競賽平臺(Kaggle)中的比賽DiabeticRetinopathyDetection。該數據集中的視網膜數據圖像都是高分辨率RGB圖像,其分辨率約為3 500×3 000。根據視網膜病變程度將圖像分為5類,如圖3所示。第0類對應的是沒有病變的健康圖像,第1類對應的是有輕微病變的,以此類推,第4類則是非常嚴重的病變,具體的數據集分布如表1所示,從表中可明顯看出,實驗數據集極度不平衡,第0類數據是第4類數據的將近36倍之多。

表1 數據集分類表

圖3 視網膜圖像示例
由于圖像采集時鏡頭光照以及其他因素,每類圖像中都會存在噪聲圖像,如圖4所示。

圖4 噪聲圖像示例
這些數據中,每一類都會存在噪聲圖像,而且噪聲的種類很多。首先需要對圖像的噪聲作一個簡單分類,圖中的每一列代表一類噪聲,第1列和第2列是由鏡頭引起的噪聲,第3列是由光照引起的噪聲,第4列是完全沒有意義的圖像,圖像中沒有任何紋理信息,也無法辨認具體屬于什么類型的病變,第5列是光線太暗的原因,這類噪聲圖像,圖像中是有一定信息的,但是由于光線太暗,肉眼難以辨認。圖4只是列出了一部分典型的噪聲圖像。
數據預處理需要集中解決以下幾個問題:每幅圖像都包含黑色邊框等無意義的信息并且每類圖像都會包含不同的噪聲,圖像之間的明暗度有很大的差異,數據集種類分布嚴重不均勻。
2.2.2 去除背景和嚴重噪聲圖像
作圖像預處理時,首先處理圖像的邊框信息和被噪聲完全污染的圖像。對于所有數據集的圖像,需要把圖像的黑邊框全部都切除掉(圖5(a));然后把被噪聲完全污染的毫無意義的圖像刪除掉(圖5(b))。由于第3類和第4類圖像偏暗,并且數據量非常小,因此本文針對第3類圖像和第4類圖像進行了白平衡(圖5(c))和直方圖均衡化(圖5(d)),這樣在一定程度上改善了圖像偏暗的現象,同時還擴大了第3類數據集和第4類數據集的樣本數量。

圖5 圖像預處理示例
2.2.3 數據歸一化
數據歸一化的目的是將不同亮度、不同明暗度的圖像都歸一化到同一個范圍中,本文采用的是減去局部均值的方法,具體的計算公式如下所示:
imgout=img*α+imggaussian*β+γ
(3)
其中α=4,β=-4,γ=128,img為原圖像,imggaussian為經過高斯濾波器濾波過的圖像。經過這樣處理后得到的圖像如圖6所示。不同色調、不同明暗度的圖像,經過局部歸一化之后都會得到統一的色調,這樣也就是對所有的數據作了統一的歸一化處理,在訓練模型時對提高分類準確度有很大的幫助。

圖6 數據歸一化
2.2.4 數據擴增
在使用深度學習作圖像分類時,由于深度學習需要大量的數據,而現實中并沒有足夠數量的樣本,因此必不可少的步驟是數據擴增。對不同的樣本采用隨機拉伸、旋轉等方法,產生一定數目的子圖像,這些圖像都是由原圖像產生的,也存在一定的可分類性。與此同時,數據擴增技術還在一定程度上解決了數據集不平衡問題(表1所示)。對樣本數目比較少的類別采用數據擴增技術,向數目多的類別樣本補齊。圖7是數據擴充之后的圖像示例,圖7(a)為原圖像,圖7(b)則是由原圖像經過移位、旋轉之后得到的圖像(M=8)。在數據擴增時,隨機生成M個θ角度(0<θ<360°),圖像旋轉M個角度,使得該類樣本總數N×M介于10 000~15 000104,這樣同時解決了樣本不平衡和樣本量不足的問題。
2.3 模型設計
在圖像處理領域最經典的模型是AlexNet網絡結構,本文便是模仿AlexNet網絡結構框架,根據視網膜圖像特性,遵循特征圖分辨率遞減、輸出特征圖數目遞增原則,精簡了AlexNet網絡,設計了自己的網絡結構(CompactNet),如圖8所示,為了簡潔直觀,圖中只表示了卷積層、池化層和全連接層。圖像經過簡單的預處理后輸入到網絡中,CompactNet主要由卷積層(Conv)和池化層(Pool)交替疊加而成,Pool4之后是全連接層(fc)。卷積層和池化層之間通過局部連接和權值共享的方式建立連接,參數量少,全連接層參數量占據了總參數量的80%,為保證數據的有效性并且防止數據過擬合,在全連接層后添加了dropout層。網絡的每個卷積層和全連接層后面都有一個Relu層以保證神經網絡的非線性。網絡的最后使用Softmax對全連接層輸出特征進行分類,得到分類結果。

圖7 數據擴增

圖8 CompactNet網絡結構
由于反向傳播算法(BP)的梯度彌散問題,訓練網絡的時候,前幾層的參數很難得到有效的訓練。所以在設計網絡的時候將AlexNet網絡的前兩層參數直接灌輸到CompactNet的網絡中,即圖8中前兩層卷積層對應的卷積層參數,這兩層的卷積層結構與AlexNet網絡的前兩層結構相同,后兩層卷積層和全連接層的參數由訓練得到。與AlexNet網絡相比,CompactNet精簡了卷積層的數量以及全連接層的神經元數量,極大減少了網絡的參數量。
3.1 實驗設置
本文實驗是基于深度學習框架Caffe,運行在GPU工作站上。使用的測試平臺:處理器為Intelcorei7,內存為16GB,顯卡為NVidiaGTX980TI,GPU內存為6GB。由于GPU內存不大,所以深層次的網絡無法在現有的機器中運行,這也是本實驗采用AlexNet網絡作為參考網絡的原因所在。值得說明的是,在做數據預處理之前,為了避免訓練集和測試集有交叉,實驗開始之前先將所獲得到的數據分成兩部分,從每一類圖像中隨機抽取約有100幅圖片作為測試集(為了實驗過程中便于觀察,每一類樣本數量不完全相同),剩下的圖像作為訓練集。
為了對比同一網絡結構不同訓練方法對實驗結果的影響和不同的網絡結構對分類結果的影響,設置了兩組對比實驗。為了避免數據不一致帶來的實驗結果誤差,本工作中相關的實驗設置所使用的網絡都使用相同的數據格式,所有網絡的輸入都為512×512,之所以選擇該尺寸是考慮到圖像原始尺寸在3 500×3 000左右,如果原始輸入尺寸過小會丟掉很多圖像原始信息。
由于該數據集是在2015年2月份公布,數據集公示時間較短,并沒有應用于該數據集的傳統圖像處理方法來作對比,因此本文設計實驗時采用的是自身對比的方式。
實驗一 為了對比不同的參數初始值對實驗結果的影響,對CompactNet網絡使用了兩種不同的訓練方式:1)直接使用視網膜圖像訓練CompactNet網絡,簡稱ModelT;2)將AlexNet網絡的前兩層卷積層參數注入到CompactNet網路中,在此基礎上訓練其他卷積層和全鏈接層參數,簡稱ModelF。
實驗二 為了對比不同網絡對實驗結果的影響,實驗對三種網絡結構進行訓練:1)使用LeNet網絡對視網膜圖像進行訓練,LeNet網絡只有3個卷積層,參數量少,屬于非常簡單的網絡代表;2)微調AlexNet網絡,AlexNet網絡有5個卷積層和2個全連接層,屬于復雜網絡的代表;3)將AlexNet網絡前兩層參數灌入到CompactNet網絡中,然后進行網絡的訓練。
實驗三 2.2節圖像預處理中的數據歸一化和數據擴增是本文的主要貢獻點之一,為了驗證二者的有效性和必要性,本文設計實驗使得原始圖像數據只進行簡單的篩選之后便輸入到深度網絡中。
3.2 評價標準
由于本實驗是視網膜圖像病變程度的一個預測問題,因此相鄰兩類圖像之間并沒有一個明確的界限,因此在評價實驗結果的時候,不能直接以分類準確率作為該實驗的結果。本文使用的評價標準如式(4)所示:

(4)

3.3 實驗結果分析
3.3.1 實驗一結果分析
合理的參數初始化方法對網絡的訓練結果以及收斂速度有著至關重要的影響,實驗一的ModelT和ModelF對視網膜圖像分類結果混淆矩陣如圖9所示。

圖9 ModelT和ModelF的分類結果
圖9(a)和圖9(b)分別對應ModelT、ModelF的實驗結果。兩個模型的分類結果大部分都分布在混淆矩陣的對角線區域,說明CompactNet網絡模型具有一定的分類能力。對比兩組實驗結果,ModelF的分類結果要明顯優于ModelT,ModelT和ModelF的κ指標分別為:0.506 9, 0.871 0,分類準確率為:0.39和0.68。實驗結果表明網絡的前幾層使用AlexNet模型已經訓練好的參數分類結果會好很多,原因在于網絡的前若干層代表了圖像的基本信息,包括:邊緣、角點、色彩等信息,對模型的分類至關重要,而后面幾層的參數則是由訓練得出。兩個模型的第一層參數可視化結果如圖10所示,訓練網絡時,前幾層網絡的參數并沒有得到有效的訓練,還是一些隨機值(圖10(a)),ModelF對應的第一層參數如圖10(b)所示。這是因為訓練網絡的時候,由于反向傳播算法的梯度彌散的問題,網絡前幾層的參數并沒有得到有效的訓練。AlexNet網絡的訓練使用了大量的數據集,相當于人類大腦的先天性學習,將前2層參數灌入到CompactNet網絡中,將先天性的學習傳給CompactNet網絡,然后在此基礎上對視網膜圖像作后面網絡層的訓練,這時候的訓練相當于大腦的后天學習,只需要相對較少的數據量就可以使網絡自動學會分類視網膜圖像。

圖10 ModelT和ModelF第一層參數可視化
為了便于觀察兩個網絡的收斂速度,圖11展示了ModelT和ModelF的訓練集的Loss和準確率(Acc)曲線。實驗ModelT中:在訓練前期,訓練集的Loss曲線一直在逐漸下降而測試集的Acc曲線則處于上升階段;當網絡訓練次數迭代到100 000時,網絡收斂,分類的準確率約為0.4。而在ModelF中,Loss曲線下降的速度要比ModelT快得多,同時Acc曲線上升的速度也很快;在訓練次數迭代到20 000的時候,Acc已經達到了0.6以上;迭代到80 000的時候訓練集的 Loss接近于0,網絡發生過擬合,網絡最終收斂,分類的準確率約為0.68。實驗說明優秀的參數初始化不僅能夠提高模型的分類準確率,而且能夠提高網絡的收斂速度。

圖11 ModelT和ModelF的訓練Loss和Acc曲線
圖12展示了兩種訓練方式的矩陣錯誤率的偽彩色圖像,顏色越深,說明該類分類錯誤率更為嚴重。ModelT的分類錯誤集中在第2類圖像,說明CompactNet網絡并沒有很好地訓練成熟,只是達到了局部最優的結果,網絡并沒有真正地收斂;但是ModelF中,大部分的錯誤都集中在第0~2類,也就是說,第0~2類的圖像差距較小,不容易分辨,但是,第3類和第4類的分類效果要好得多。分析數據原圖像,第0~2類確實存在多種多樣形式的視網膜圖像,并且3類視網膜圖像在非專業角度確實沒有太明顯的差異,而第3、4類圖像與前3類圖像有明顯的差異,說明實驗結果是合理的。

圖12 ModelT和ModelF分類錯誤率矩陣
3.3.2 實驗二結果分析
實驗二做了三組對比實驗,使用不同的網絡結構(LeNet、CompactNet、AlexNet)對視網膜圖像進行訓練,表2為三個網絡的對比實驗結果。
實驗結果說明深度學習的網絡結構對實驗結果有著較大的影響,過淺的網絡不能夠獲取到充分的圖像特征信息,過深的網絡參數過多,在實驗數據比較少的情況下,非常容易發生過擬合,實驗的分類效果反而不理想,CompactNet網絡分類結果是三個網絡中準確率最高的。LeNet網絡非常簡單,所以采取了直接訓練網絡的方法,網絡參數采用隨機初始化的方式;而AlexNet和CompactNet網絡都有一定的初始化值,微調時收斂速度要快得多,所以LeNet網絡的收斂時間要比其他的兩個網絡相對長一些。
由于本文采用的數據集是Kaggle比賽的公共數據集,比賽列出了最終的排名榜,采用的評價指標為κ,冠軍的κ為0.85,但是比賽使用的測試集是舉辦方未公布的測試集,而本文使用的測試集是從公示的數據集中隨機抽取的部分圖像,雖然與比賽使用的測試集有一定的出入,但是該實驗結果也說明了本文設計的CompactNet網絡達到了較為理想的分類效果。

表2 三個網絡結構的結果對比
3.3.3 實驗三結果分析
由于原始數據有嚴重的數據分布不均勻的現象,因此所得到的實驗分類結果混淆矩陣表明所有的測試數據都被分為第一類,訓練所得到的模型并沒有任何的分類效果,這也說明了本文提出的數據歸一化和數據擴增必不可少。
本文采用深度學習的方法對不同病變程度的視網膜圖像分類。由于視網膜圖像噪聲多、樣本量小、樣本不均衡,因此在作網絡訓練之前需要先對圖像進行預處理,該過程采用了三種預處理方式:去除邊界噪聲、歸一化視網膜圖像、數據擴增。在作網絡的模型設計時,借鑒AlexNet的網絡結構,針對視網膜數據的特點,設計了網絡結構CompactNet,并且將AlexNet的前兩層參數灌入到CompactNet中,然后進行網絡的訓練。為了對比相同網絡結構的情況下不同訓練方法、不同的網絡結構對實驗結果的影響以及數據預處理的必要性,設計了三組實驗。實驗結果表明,有一定先驗知識的參數初始化方法要比直接訓練的方法好很多;三種網絡結構中,CompactNet的網絡結構分類結果最好。
在今后的工作中,可以嘗試調整網絡結構,使用更多的深度學習技巧,例如batchnormalization,進一步提高實驗的分類準確率,在此基礎上,發散思維,將深度學習應用到其他研究領域中去。
)
[1]L’HEVEDERR,NOLANT.Internationaldiabetesfederation[J].DiabetesResearchandClinicalPractice, 2013, 101(3): 349-351.
[2]LEESC,LEEET,WANGY,etal.Computerclassificationofnonproliferativediabeticretinopathy[J].ArchivesofOphthalmology, 2005, 123(6): 759-764.
[3]LEEH,GROSSER,RANGANATHR,etal.Convolutionaldeepbeliefnetworksforscalableunsupervisedlearningofhierarchicalrepresentations[C]//Proceedingsofthe26thAnnualInternationalConferenceonMachineLearning.NewYork:ACM, 2009: 609-616.
[4] 孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8):2806-2810.(SUNZJ,XUEL,XUYM,etal.Overviewofdeeplearning[J].ApplicationResearchofComputers, 2012, 29(8): 2806-2810.)
[5]ARELI,ROSEDC,KARNOWSKITP.Deepmachinelearning—anewfrontierinartificialintelligenceresearch[J].IEEEComputationalIntelligenceMagazine, 2010, 5(4): 13-18.
[6] 楊俊安,王一,劉輝,等.深度學習理論及其在語音識別領域的應用[J].通信對抗,2014(3):1-5.(YANGJA,WANGY,LIUH,etal.Deeplearningtheoryanditsapplicationinspeechrecognition[J].CommunicationCountermeasures, 2014(3):1-5.)
[7]MOHAMEDA,SAINATHTN,DAHLG,etal.Deepbeliefnetworksusingdiscriminativefeaturesforphonerecognition[C]//Proceedingsofthe2011IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.Piscataway,NJ:IEEE, 2011: 5060-5063.
[8]SARIKAYAR,HINTONGE,DEORASA.Applicationofdeepbeliefnetworksfornaturallanguageunderstanding[J].IEEE/ACMTransactionsonAudio,SpeechandLanguageProcessing, 2014, 22(4): 778-784.
[9]LECUNY,BOTTOUL,BENGIOY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE, 1998, 86(11): 2278-2324.
[10]KRIZHEVSKYA,SUTSKEVERI,HINTONGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[EB/OL]. [2016- 03- 02].http://www.csd.uwo.ca/~olga/Courses/Fall2015/CS9840/Papers/imagenet.pdf.
[11]SZEGEDYC,LIUW,JIAY,etal.Goingdeeperwithconvolutions[C]//Proceedingsofthe2015IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2015: 1-8.
[12]SIMONYANK,ZISSERMANA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition[EB/OL]. [2015- 11- 04].http://www.robots.ox.ac.uk:5000/~vgg/publications/2015/Simonyan15/simonyan15.pdf.
[13]HEK,ZHANGX,RENS,etal.Deepresiduallearningforimagerecognition[EB/OL]. [2016- 01- 04].https://www.researchgate.net/publication/286512696_Deep_Residual_Learning_for_Image_Recognition.
[14]HUBELDH,WIESELTN.Receptivefields,binocularinteractionandfunctionalarchitectureinthecat’svisualcortex[J].JournalofPhysiology, 1962, 160(1): 106-154.
[15]LIS,KWOKJT,ZHUH,etal.Textureclassificationusingthesupportvectormachines[J].PatternRecognition, 2003, 36(12): 2883-2893.
ThisworkispartiallysupportedbyBeijingNaturalScienceFoundation(4142043);theFundamentalResearchFundsfortheCentralUniversities(2014JBZ003).
DING Pengli, born in 1991, M. S. candidate. Her research interests include machine learning, deep learning, pattern recognition, image classification.
LI Qingyong, born in 1979, Ph. D., professor. His research interests include machine vision and pattern recognition, machine learning and data mining.
ZHANG Zhen, born in 1990, M. S. candidate. His research interests include machine learning, deep learning, pattern recognition, image classification.
LI Feng, born in 1990, M. S. candidate. His research interests include machine learning, deep learning, pattern recognition, image detection.
Diabetic retinal image classification method based on deep neural network
DING Pengli, LI Qingyong*, ZHANG Zhen, LI Feng
(BeijingKeyLabofTransportationDataAnalysisandMining,BeijingJiaotongUniversity,Beijing100044,China)
Aiming at the problems of complex retinal image processing, poor generalization and lack of complete automatic recognition system, a complete retinal image automatic recognition system based on deep neural network was proposed. Firstly, the image was denoised, normalized, and data preprocessed. Then, a compact neural network model named CompactNet was designed. The structure parameters of CompactNet were inherited from AlexNet. The deep network parameters were adjusted adaptively based on the training data. Finally, the performance experiments were conducted on different training methods and various network structures. The experimental results demonstrate that the fine-tuning method of CompactNet is better than the traditional network training method, the classification index can reach 0.87, 0.27 higher than the traditional direct training. By comparing LeNet, AlexNet and CompactNet, CompactNet network model has the highest classification accuracy, and the necessity of preprocessing methods such as data amplification is confirmed by experiments.
diabetic retinal image; deep learning; convolutional neural network; image classification; fine-tune
2016- 09- 23;
2016- 10- 26。
北京市自然科學基金資助項目(4142043);中央高校基本科研業務費專項基金資助項目(2014JBZ003)。
丁蓬莉 (1991—),女,山東濰坊人,碩士研究生,主要研究方向:機器學習、深度學習、模式識別、圖像分類; 李清勇(1979—),男,湖南婁底人,教授,博士,主要研究方向: 機器視覺與模式識別、機器學習與數據挖掘; 張振 (1990—),男,河北唐山人,碩士研究生,主要研究方向:機器學習、深度學習、模式識別、圖像分類; 李峰 (1992—),男,湖北黃岡人,碩士研究生,主要研究方向:機器學習、深度學習、模式識別、圖像檢測。
1001- 9081(2017)03- 0699- 06
10.11772/j.issn.1001- 9081.2017.03.699
TP
A