范家偉 張如如 ,2 陸 萌 ,2 何佳雯 ,2 康霄陽 ,2 柴文俊 ,2 石珅達 ,2 宋美娜 ,2 鄂海紅 ,2 歐中洪 ,2
近年來,深度學習在各種計算機視覺任務中的突出表現,推動了其在醫學影像識別中的發展,使深度學習技術處理醫學影像成為一個重要的研究方向.深度學習技術利用醫學影像數據在多個領域如乳腺病變診斷、皮膚病變診斷、肺癌診斷以及糖尿病視網膜病變(Diabetic retinopathy,DR)診斷等方面已取得了醫生級別的準確率.
DR 是糖尿病(Diabetes mellitus,DM)的重要并發癥之一,據統計,全球約有4.25 億人患有糖尿病,目前,患病人數仍在激增,預計到2035 年,將會達到5.92 億[1].調查顯示,其中約1/3 的糖尿病患者將發生DR,近10%的DM 患者將發生威脅視力的視網膜病變(Vision-threatening diabetic retinopathy,VTDR),糖尿病視網膜病已成為全球工作人群失明人數攀升的主要原因.由于DR 檢查量增加,在診斷方面出現了以下問題:1)大量的閱片任務,給醫生帶來了極大的工作壓力;2)醫生閱片速度慢,患者也無法得到即時的反饋;3)優質醫療資源被占用,漏診、誤診人數增長[2].因此,DR 早期診斷面臨嚴峻的挑戰.
國際DR 診斷標準的全球公認性以及分類明確性為DR 智能診斷系統的研發提供了統一標準與基礎,所以更多的研究者以及公司企業將目光投向這一領域.經過不斷優化,DR 智能診斷系統逐漸達到了專家水平,不僅可以判斷患者是否存在DR,還可以對患者的病變等級進行詳細劃分,并對眼部的不同病理特征區域進行檢測標識,提高了系統的可解釋性.部分DR 診斷系統的輸出結果不再只是給醫生做決策支持,而是可直接為患者做出精準的診斷,提供更詳細的信息及診斷依據[3].另外,目前已經有基于深度學習的DR 診斷系統上市用于臨床實踐,這代表該項技術有很強的實用性與落地性,為DR智能診斷系統的研究帶來革命性的進展.
本文的主要貢獻如下:對深度學習方法在糖尿病視網膜病變診斷中的應用進行了全面梳理;對各類公共數據集、醫學影像標注方法、病變區域分割及檢測模型、病變等級分類模型以及模型評估方法進行了綜述;對DR 病變區域檢測、病變等級分類的最新進展進行了歸納;對比了各種實現方法的優缺點.通過閱讀本文,可以獲悉該領域的發展現狀、未來發展方向以及面臨的挑戰,便于研究者參照對比,加快該領域的研究及臨床落地應用.
糖尿病視網膜病變由糖尿病微血管病變導致,大致可分為血管破裂出血、釋放生長因子、血管堵塞三個環節.當人體血糖過高,會引發微血管基底膜增厚,進而血管口徑減小、內壁變粗糙、彈性和收縮力減弱;此時,分布在視網膜上的微血管由于十分脆弱,將極易破裂、出血,并釋放血管內皮生長因子(Vascular endothelial growth factor,VEGF);血管釋放出的VEGF 會刺激臨近的新形成的毛細血管,后者由于管壁極薄,受到輕微刺激便會破裂,上述這幾個環節循環往復,使得視網膜受損愈加嚴重[4].
糖尿病視網膜病變患者在患病的不同階段會出現不同的病理特征,主要包括:微動脈瘤、出血和滲出物(包含硬滲出和軟滲出).視網膜微動脈瘤出現在糖尿病視網膜早期,同時伴隨有視網膜血管異常漏血.滲出包括硬性滲出和軟性滲出兩種,硬性滲出多由擴張的毛細血管和微血管瘤滲漏的脂質和蛋白質成分組成,沉積于外層視網膜和視網膜下形成邊緣明確的斑;軟性深滲出則臨床表現為形狀不規則、邊界模糊、大小不等的棉絮或絨毛樣網膜滲出斑[5].若保持長期的病理狀態,部分血管會出現堵塞或閉合,以至營養物質無法送至視網膜,造成眼部的大面積損傷,最終導致失明.
根據上述病理特征,糖尿病視網膜病變分為兩個階段[6]:
1)非增殖性糖尿病視網膜病變(Non prolife rative diabetic relinopathy,NPDR).NPDR 是DR 的早期階段.NPDR 的診斷有助于對疾病進展和視力喪失進行風險預測,并確定隨訪的時間間隔.
2)增殖性糖尿病視網膜病變(prolife rative diabetic relinopathy,PDR).PDR 是DR 的嚴重階段,體現了廣泛視網膜缺血和毛細血管閉鎖導致的血管生長反應.
在糖尿病視網膜病變的研究中,為了更好地區分患者糖尿病視網膜病變的嚴重程度,便于更明確地界定病情進展[7],通常采用分期標準.現行最通用的是國際五級診斷標準.該分類方法按照病癥進展情況分為五期:Ⅰ期(無病癥)、Ⅱ期(輕度非增殖期)、Ⅲ期(中度非增值期)、Ⅳ期(重度非增殖期)、Ⅴ期(增生期),相應診斷標準如表1 所示[8].

表1 糖尿病視網膜病變國際分級標準Table 1 International classification of diabetic retinopathy and diabetic macular edema
不同的成像設備拍攝出的影像數據形式不同,從而會使影像標注方法與深度學習算法的性能產生差異.現階段應用范圍最廣的兩種成像技術為彩色眼底成像技術(Color fundus photography,CFP)以及光學相干斷層掃描(Optical coherence tomography,OCT)技術.
通常眼底成像技術通過眼底照相機來實現,近年來,眼底成像技術的發展,為DR 診斷提供了高分辨率的影像數據:數據中病理特征越來越明確,病變區域輪廓越來越清晰.這不僅為標注工作提供了方便,也大大提高了DR 智能診斷系統的性能.
1)無赤光技術.在眼底成像中,讓光線通過特制的濾光片,以達到過濾短波光線的效果.應用該技術拍攝出的眼底影像會增加視網膜血管和背景的對比度,也可以很容易地通過顏色區分脈絡膜與視網膜損害[9].由于該類影像所呈現的病理特征明確,不同病理特征區分度明顯,使用該類影像作為深度學習數據集可以有更好的效果.
2)立體眼底成像技術.眼底相機通過分光鏡或者通過不同角度的兩次拍攝,生成左右并列的圖像再通過立體鏡識圖,得到立體成像[10].該類影像包含隆起與凹陷的特征信息,在進行深度學習時,可以通過該類信息進行更好的病征識別.
3)共聚焦激光掃描技術.全景數碼攝像設備通過共聚焦光學原理,拍攝出更大視角的眼底圖像.這有利于檢測位于邊緣的病變特征.
另外,眼底鏡的鏡頭、光源特性等都會影響成像的效果,以至于影響深度學習的效果.
光學相干斷層掃描技術是一種新型層析成像技術,能無損、快速地獲得樣品的高分辨斷層圖像,它可以對材料及生物系統內部微觀結構進行高分辨率橫斷面層析成像[11].它在眼科領域與傳統成像技術相比有以下幾個優勢:
1)能獲得人眼內各個斷層的圖像,增大了醫師所獲取的信息量;
2)具有更高的分辨率,醫師可以對眼部某一特定部位進行研究和分析[12];
3)傳統的眼底相機成像利用的是光的阻斷特性,而OCT 是利用了光的散射特性,這可以獲取與傳統眼底相機不同的信息;
4)成像設備體積小;
5)短時間內可獲取大量數據[13].
通過深度學習技術對OCT 影像進行分析,可以更精確地捕捉到患者病情信息,做出更準確的診斷.
從整體上來說,成像設備的發展有兩大趨勢:高技術化與便攜化.高技術的成像設備可提供更加清晰、有效的影像,輔以醫生診斷,例如OCT 的出現給患者提供了更加優質的檢查.便攜化的成像設備可以為醫生和患者提供更加方便的服務,隨著在線醫療遠程醫療的發展,便攜化設備的作用會進一步凸顯:患者通過手機等智能設備完成眼底檢查[14],并上傳至平臺,醫生通過軟件對患者病情進行實時追蹤,這不僅會省去繁瑣的檢查步驟、節省大量的時間成本,而且患者可以實時得到反饋,提高了效率.例如印度Remidio 公司開發了一款基于手機的眼底相機,通過軟件醫生可看到患者的眼底情況,以觀察患者病情進展.這是一次在該領域的有意義的嘗試.
基于深度學習技術對DR 進行早發現、早干預、早治療可以有效降低患者致盲風險,引起了學術界和產業界的廣泛關注.
2018 年2 月,美國德克薩斯大學研究者[15]將遷移學習算法用于OCT 影像診斷,在ImageNet數據集上訓練InceptionV3 網絡,進行微調后用于OCT 影像訓練,達到較高診斷精度,解決了小數據集的問題.同年10 月廣州中山大學中山眼科中心眼科學國家重點實驗室聯合多家研究機構共同研發了基于中國人群彩色眼底影像DR 檢測的深度學習算法(Deep learning algorithm,DLA),并且該算法也在其他種族人群中進行驗證,取得了較高的精確度[16-17].2018 年8 月,谷歌公司DeepMind 團隊提出了一種兩階段深度神經網絡模型用于OCT 影像診斷,分別實現了病灶區域分割和病變等級分類,并通過不同廠商的OCT 成像設備獲取的影像進行驗證,準確率高達95%[18].
2017 年9 月杭州市衛計委在全國率先啟動糖尿病視網膜病變篩查項目,引入了基于人工智能輔助診斷的手持式眼底照相機,解決了基層眼科專業人員匱乏的問題.2018 年4 月,世界首個獲批用于DR 診斷的人工智能(Artificial intelligence,AI)產品IDx-DR 美國上市[19],可用于檢測22 歲及以上DM 患者的視網膜病變程度(包括黃斑水腫),并且不需要專門的醫生對檢測報告進行解讀.2018 年,印度Remidio 公司研發出了高質量便攜式視網膜成像設備FOP (Fundus on phone),只需配合智能手機以及人工智能算法EyeArt 就可以進行詳細的眼部健康篩查[20].2018 年6 月,中國第一個投入使用的AI 醫療機器人——“嵩岳”醫生[21],駐進河南省人民醫院,提高了DR 診斷和篩查水平,可及時發現“病灶”解決問題.
DR 診斷的一般框架包括數據獲取、醫學影像標注、病灶區域檢測、病變等級分類及模型評估等步驟.如圖1 所示.

圖1 基于深度學習DR 診斷的一般框架Fig.1 General framework of diabetic retinal diagnosis based on deep learning
DR 診斷框架流程介紹:
1)數據獲取.數據是深度學習算法所需的核心資源,為了訓練和測試不同DR 檢測算法,需要大量的眼底影像,主要包括公共數據集以及醫療機構獲取數據.在DR 檢測領域已存在多個公共數據集,便于研究者直接用來訓練測試模型,促進DR 智能診斷系統的研究與發展.
2)醫學圖像標注.深度學習需要結合先驗知識對模型進行訓練,從醫療機構獲取的影像數據需要預先標注,而多數情況下依賴專家手工標注,耗費大量人力物力,因此如何有效標注海量醫學影像數據成為智能診斷系統的挑戰之一,需要更先進更可靠的醫學影像標注方法進行改進和優化.
3)病變區域檢測.DR 的嚴重程度是由病灶(如微動脈瘤、出血、滲出物等)的類型、位置及數量所確定的,但提取這些病灶特征對傳統醫生或臨床醫生來說是一項耗時的任務[22],因此需要搭建強大的病灶區域檢測系統,以提取復雜的病灶特征.
4)病變等級分類.在世界各地,不同DR 篩查項目使用不同的DR 分類系統[23],根據篩查項目的需求、視網膜影像中病灶信息以及國際DR 診斷標準進行不同病變等級分類,主要包括是否患有DR、是否需要轉診、是否患有威脅視力的DR 以及五等級劃分等分類方法.
5)模型評估.對DR 檢測系統的性能進行評估,以驗證系統的可用性,本文中介紹了幾種常用的評估DR 檢測算法的性能指標,包括準確性、敏感度(召回率)、特異度、精確度、F-score、ROC (Receiver operating characteristic)曲線等.
獲得訓練樣本最直接的方式是直接使用公共數據集,不同數據集在儀器設備、拍攝角度、患病情況、標注情況、圖像樣式、圖像尺寸等方面都有較大的區別,開發者可根據自己不同的需求選用合適的數據集.詳細內容如表2 所示.

表2 糖尿病視網膜病變公共數據集Table 2 Public data set on diabetic retinal
在開發過程中,通常會使用多種數據集.因此解決不同源數據集的成像差異成為一個重要的問題.差異主要表現為兩點,即設備差異和人種差異.
1)設備差異
由于不同數據源所使用眼底設備不同,在成像分辨率、成像廣度、色彩還原能力等方面有所差異.因此為消除此類差異,需要對圖像進行預處理,大體分為以下兩步:a)尺寸歸一化;b)圖像增強.尺寸歸一化可以將圖像處理成相同規格;圖像增強技術能夠增強病理特征,減弱不同成像設備光照強度、色彩等方面的差異.下面重點對應用在DR 診斷上的圖像增強做簡要介紹.
現階段圖像增強技術已經發展的較為完善,例如以灰度變換、直方圖均衡,空域濾波為代表的空域增強技術;以高斯濾波、巴特沃思濾波為代表的頻域增強技術.
灰度變換通過對圖像三個通道的灰度值分別進行線性或非線性變換,增大相鄰像素的對比差.直方圖均衡通過對灰度直方圖的變換,達到增大局部對比度的效果,這些方法都達到了增強病癥區域與正常區域區別的效果,使得模型可以獲取更加明確的特征.頻域增強技術通過低通濾波器,過濾掉高頻的噪聲,在圖像中表現為去掉了高亮的光斑,使得圖像更加平滑.
2)人種差異
不同人種的視網膜顏色特征、結構特征幾乎無解剖學差異,其差異主要體現為虹膜的顏色.如果期望在不同人種都有更好的泛化能力,可以通過增加各個人種的眼底數據集來實現.中山大學團隊[16]搜集了不同國家和地區的不同人種的眼底照片,標注后用于模型的訓練,該模型在各個人種上都表現出了很好的泛化能力.
圖像標注是醫學影像智能診斷系統落地過程中至關重要的一環,它決定了AI 算法的性能上限.由于公共數據集數據量相對不足,在訓練過程中難以滿足開發者的需求.因此如何獲得高質量的數據集,如何科學合理的安排和進行標注成為首要問題[32],以下將介紹常用的標注工具以及標注流程.
現行的標注結果可大致分為三種,分別為:基礎類別標注;類別標注+病灶方框標注;類別標注+像素級勾畫.隨著標注的精細度逐級提升,標注工具也愈加強大[33].下面介紹幾種常用的標注方式.
1)PC 機+電子病歷.醫生在PC 端根據電子病歷記錄,將存在不同病理特征的影像放到不同的文件夾中,此類方法工作量較小,適用于分類模型的訓練,不適用于病灶區域的分割.
2)專業標注工具.醫師利用標注工具,如LabelMe,Labellmg,Pixorize和Labelbox 或一些成熟的網站系統,如基于H5 及縮放的Web 標注,基于Surface 的畫筆標注以及基于登錄模式的多人協助標注平臺進行標注等,但由于病灶區域較多以及輪廓不規則等問題,即使是熟練的醫師標注也要耗費大量時間.
3)AI 輔助+專業標注工具.將一些成熟的DR 診斷系統(如EyeWisdom、IDx-DR、EyeArt)或自主研發的DR 病灶區域檢測和病變等級分類算法集成到專業標注工具中,搭建基于人工智能的醫學影像標注系統.在標注前,首先通過標注系統對視網膜影像進行病灶區域以及病變等級預標注,再由專家通過微調獲得標注結果.此種方法可大大提高醫生的標注效率,也是未來醫學影像標注的發展趨勢.
由于每位專家可能只對一種或幾種病灶特征比較熟悉,并且專家標準略有差異,因此標注過程需要統一的標準化流程以及經驗豐富的專家團隊,以下列舉了三種標注流程,供讀者參考:
1)分級標注.標注人員先利用相應的標注工具進行標注,再由專家審核和補充.將標注人員分為若干層級,依次執行篩選、標注、審核.可由經過專家培訓和指導的青年醫師負責影像的篩選和標注,要明確標注方式、標注病灶類別、標注范圍等.然后由病理學專家負責定期和最終審核,適時修正遺漏或錯誤的標注;如果依然不能確定,可咨詢其他專家予以指導.2018 年Kermany 等就是采用此類方法進行分級標注[15],第1 級評分者為受過培訓的醫學本科生,主要負責質量篩選,排除有嚴重偽影或分辨率低的影像;第2 級評分員由四名眼科醫生組成,他們對每幅圖像進行獨立標注;第3 級由兩位超過20 年臨床經驗的專家組成,驗證每幅視網膜影像標簽的準確性.
2)交叉標注.將視網膜影像隨機分給每位醫生,通過標注工具對給定影像進行標注分級后返回,再隨機分給其他醫生,直到得到N 個(自設)一致的標注結果,并將該結果作為最終影像標簽.在此過程中,標注者無權查看其他人的標注結果,且任何影像只可獲得一次.2018 年中山大學研究團隊就是應用了此類方法,當實現三名醫生標注結果一致時確定為最終標注結果[16-17].
3)眾包標注.眾包是指將以往在傳統方式下由企業或組織內部員工執行的工作任務,以自由自愿的形式借助于網絡外包給非特定的大眾的做法.搭建眾包標注系統,通過招募及簡單的培訓測試,篩選出合格的標注人員之后,將待標注影像分發給標注人員,在質量控制方法的調控下,保證眾包標注數據的質量,并接收標注結果.眾包標注有許多質量控制方法,如:多數表決(Majority vote,MV)、DS 算法、GLAD 算法、貝葉斯算法(RY)、Zen-Crowd 算法、AVNC 算法等[34].
DR 病灶區域檢測對DR 等級分類以及提高診斷系統的可解釋性尤為重要.本節基于各種DR 病灶特征(滲出物、微動脈瘤、出血等)的檢測任務,介紹了幾種常用的圖像語義分割模型,隨之對遷移學習的應用方法進行簡單概述,緩解了訓練數據量少的問題;最后對DR 病灶區域檢測的相關研究進行綜述,了解最新研究進展,并對其優缺點進行總結,具體如圖2 所示.

圖2 糖尿病視網膜病灶區域檢測Fig.2 Regional detection of diabetic retinopathy
近年來,越來越多的分割方法用于檢測DR 病灶區域,并取得了較好的效果.其主要分為兩種:第1 種是Encoder-decoder 架構模型,該類架構中最具代表性的是全卷積網絡(Fully convolutional network,FCN)[35]、SegNet[36]、U-Net[37]等;第2 種是基于Atrous convolution 的模型,該類架構中最具代表性的是DeepLab 系列模型,也是目前主流模型.
對糖尿病視網膜病灶區域檢測所應用的模型大多是以Encoder-decoder 架構為基礎.編碼器通常是以分類網絡如VGGNet[38]、ResNet[39]等進行下采樣得到特征圖(Feature map);解碼器對特征圖進行上采樣恢復目標細節和相應的空間維度,最后將結果與標注影像像素進行匹配,反復訓練調整參數.此處介紹兩種比較流行的網絡架構.
1)U-Net 模型
U-Net[37]網絡的提出起源于生物醫學領域的分割,并在2015 年ISBI (International symposium on biomedical imaging)神經元結構分割挑戰賽中取得了更加優異的性能.
U-net 網絡主要由contracting path和expanding path 兩部分組成,contracting path 主要用來捕捉影像中上下文信息,與之對應的expanding path 則是對影像中分割區域進行精準定位,將下采樣過程中得到的特征圖,拼接至對應上采樣階段特征圖上,并進行信息融合,從而形成一個梯形結構.通過這種跳遠拼接架構,在每個階段都允許解碼器學習在編碼器池化中丟失的相關特性,實現對醫學影像的精確分割.目前,該網絡在視網膜病灶區域分割研究方面也得到了廣泛的應用,例如,2018 年8 月,谷歌DeepMind 團隊[18]通過3D UNet 網絡[37]實現了對視網膜OCT 影像中15 種病變區域的分割,取得了國際領先水平.
2)SegNet 模型
2017 年Badrinarayanan 等[36]提出了SegNet分割模型,該模型在節省內存和計算量方面都取得了較大的提高.SegNet 模型最大特點在于它的池化層多了一個索引(Index)功能,在進行最大池化時,選擇并記錄最大像素在特征圖像中的位置,傳遞到對應的上采樣層,依據Index 復原最大像素到原來位置,其他位置補零,并與上采樣后的特征圖進行信息融合.這樣做的好處是:a)提高邊界劃分精度;b)上采樣階段不需要再進行學習,減少訓練參數、節省內存;c)可以廣泛地應用在其他Encoder-decoder 結構中.
SegNet 與U-Net 結構相似,但是有兩點顯著區別:a)SegNet 模型是將最大池化層拼接到上采樣后的特征映射圖,而U-Net 網絡將整個特征映射圖送到解碼器,因此 SegNet 會更加節省資源;b)SegNet可以利用VGG16 所有預訓練卷積層的權重,而U-Net由于內存問題無法使用更深的模塊.
因此,很多研究者將SegNet 模型應用于糖尿病視網膜病灶區域分割,如2018 年Badar 等[40]在MIUA (Medical image understanding and analysis)國際比賽中,通過SegNet 模型對視網膜滲出物、出血等病灶進行分割,取得了較高的精確度.
基于Atrous convolution 的模型解決了訓練過程中特征分辨率降低、圖像多尺度、卷積模型平移不變性的問題,在糖尿病視網膜病灶區域檢測中,更是需要分辨率高、特征稠密、定位精確的特征圖像來檢測DR 早期癥狀.DeepLab 模型就是應用了Atrous convolution[41]的思想,并且在2018 年4 月ISBI 糖尿病視網膜病變—分割和分級挑戰中,前三名的團隊均采用DeepLab 模型.下面對DeepLab 模型的發展進行簡單介紹.
DeepLabV1[42]基于VGG16 模型結合了Atrous 算法和條件隨機場(Conditional random fields,CRFs),通過Atrous 算法擴展感受野緩解下采樣或池化降低分辨率的問題,獲取更多的上下文信息;采用完全連接的CRF 提高模型捕獲細節的能力,緩解因平移不變性造成的定位精度低的問題.
DeepLabV2[43]是對DeepLabV1 的優化,該模型主要基于ResNet 網絡,在最后幾個最大池化層中使用Atrous convolution 取代下采樣,獲得高密度的特征映射圖.DeepLabV2 提出了空洞空間金字塔池化(Atrous spatial pyramid pooling,ASPP),在給定圖像上以不同采樣率的Atrous convolution 并行采樣,從而解決多尺度問題,并且不會增加運算量,雖然采用U-Net和特征金字塔網絡(Feature pyramid network,FPN)[44]的思想,也整體提高了系統的性能,但同時也增加了特征計算量和存儲空間
DeepLab 延續到DeepLabV3[45]探討了不同結構方向.DeepLabV3 采用多采樣率Atrous convolution 級聯或并行來捕獲多尺度背景.此外,DeepLabV3 改進了ASPP 模塊,將全局背景基于圖像層次進行編碼獲得特征.
DeepLabV3+[46]模型集合了DeepLabV1-V3的優點,為了融合多尺度信息,引入語義分割常用的自動編碼模型,并在自動編碼模型中引入Xception[47],其思想是引入更多的路徑,甚至讓每個通道都具有1 條獨立路徑,卷積核獨立運作在各自的通道中,減少參數,提高運算速度.通過引入ASPP和Xception 模型思想,提高Encoder-decoder 網絡的運行速率和健壯性.
訓練深度神經網絡需要大量的標注數據,而醫學領域數據集的構建成本非常高,因此需要一種在有限數據資源下滿足深度神經網絡訓練的方法.
其中,解決這個問題的一種方法是數據增強,通過對圖像進行旋轉、平移、裁剪等達到增大數據集的目的,但是迄今為止使用的數據增強技術并沒有創建真正的樣本,所以有待繼續發展.另外一種常用的有效的方法就是直接遷移學習[48].直接遷移學習是一種利用海量數據集對深度神經網絡進行訓練,然后將訓練后的網絡進行微調,應用于其他分割和分類任務.由于在醫學診斷中,大多病灶區域有相對明顯的邊緣特征,因此可以通過基于特征遷移學習達到良好的效果.
除了直接遷移學習外,常用的利用遷移學習技術解決醫學領域問題的方法還包括半監督遷移和跨域適應(Domain adaptation)等方式.半監督遷移學習旨在解決源域和目標域數據不平衡的問題,其主要思想是使用源域的豐富數據和標簽幫助解決目標域因數據稀少造成的性能差的問題[49].跨域適應旨在從信息豐富的源數據分布中學習,提升在相關但不同的目標數據分布上的模型性能,Dou 等[50]提出了一種具有對抗學習的無監督的跨域適應框架,用于跨模態的生物醫學圖像分割.
如今,遷移學習已經廣泛應用于眼底疾病的診斷中,在視網膜病變檢測的研究上也有很多突破性進展.最具代表性的就是Kermany 等[15]、Shan 等[51]將遷移學習應用于視網膜OCT 檢測,并取得了較好的效果.
針對不同類型的DR 病灶滲出物(包括:硬性滲出物(Hard exudate,HE)和軟性滲出物(Soft exudate,SE))、微動脈瘤(Microaneurysm,MA)、出血(Hematoma expansion,HE)等,研究者提出了不同的基于深度學習進行DR 病灶區域檢測和分割的方法,在本小節中,我們將對這些方法進行回顧,如表3 所示.

表3 病變區域檢測相關研究Table 3 Related works on lesion detection
通過對以上文獻的回顧表明,隨著深度學習技術的發展,越來越多的病灶區域檢測方法涌現出來.其中,Shan 等[51]通過生產MA patches 的方法檢測MA,取得了較好的效果,但Patch 大小的選擇對模型性能具有一定的影響,需要對模型進行反復調參;Abbasi-Sureshjani 等[52]與Shan 等[51]一樣采用Patches 檢測方式,但著重選擇具有高度誤導性的非滲出物樣本作為Patches,達到網絡自動學習調整參數的目的;van Grinsven 等[53]采用了動態選擇抽樣策略(Iterative selective sampling,SeS)解決了模型訓練過程中正樣本過多、數據集不平衡的問題,將訓練精力動態地集中在訓練難度較大的樣本上,從而加快模型訓練任務,提高整體性能;在數據集不平衡問題上,Dai 等[54]提出基于臨床報告和影像特征的多模態信息整合多尺度卷積神經網絡(Multi-scale convolutional neural network,MSCNN)策略,可以克服數據集不平衡、成像條件多樣化、彌補視覺特征提取不充分等問題,可嘗試將該方法擴展到眼底影像多種病灶區域的檢測,在醫學領域研究多模態方面具有戰略性意義;Otálora等[58]采用主動學習策略,減輕了訓練模型中的標注工作,具有一定的先進性,但當未標記數據樣本數量較大時,該方法存在計算缺陷,需要進一步改進;2018 年ISBI 中多個隊伍用到的DeepLab 系列模型,提高了特征圖像分辨率、網絡的運行速率和健壯性等,其中中國科大訊飛采用注意力機制,將注意力集中到影像的特定像素上,從而減少了任務的復雜度,具有重要的研究價值.Badar 等[40]采用基于SegNet 的端到端模型同時對多類視網膜病變進行分割,實現病灶邊界的精確定位等等.深度學習技術在病灶區域檢測方面有越來越突出的表現.
以下對這些研究進行詳細介紹:
微型動脈瘤和出血特征檢測[60]:紅色的病灶是DR 最早期可察覺的癥狀,這是一個通用的術語,即包括微型動脈瘤(MAs)和出血(HEs).精確檢測紅色病灶對檢測早期糖尿病視網膜病變具有重大的意義,但由于病灶體積小且缺乏對比度,所以該任務既繁瑣又耗時,非常具有挑戰性.
針對以上問題,2016 年Shan 等[51]提出了基于堆疊稀疏自動編碼(Stacked sparse auto encode,SSAE)的MA 檢測方法,從原始眼底影像中生成Patches,并在每個Patch 中自動提取特征,使用Softmax 分類器將每個Patch 分類為MA 或非MA.該方法通過遷移學習在DIARETDB 數據集進行了訓練和測試.
2017 年Budak 等[55]提出一種基于彩色眼底影像的MAs 檢測系統,該方法由三個階段組成:圖像預處理;通過檢測MA 潛在位置,得到一系列候選MAs;最后利用帶有增強樣本學習策略的深度卷積神經網絡(Deep convolutional neural network,DCNN)判斷MA 的真實位置,并在視網膜病變在線挑戰數據集上做了大量的實驗來驗證該模型.
2018 年Dai 等[54]提出了Multi-sieving CNN(MS-CNN).該系統通過文本挖掘技術從臨床文本報告中提取專家知識,結合對應的眼底影像,共同訓練弱影像數據到文本數據的映射模型,對眼底影像的病灶進行粗分割;然后基于Alex-Net 模型得到最終分割結果,該系統在當地醫院收集的數據集以及公共DIARETDB1 數據集上得到驗證.
2018 年10 月Orlando 等[56]提出了一種基于深度學習和領域知識相結合的紅色病灶檢測新方法,并將紅色病灶的嚴重程度分為R0和R1 兩個等級,以準確的檢測MA,并區分更早的病變階段.通過深度學習方法結合特征工程共同學習病灶特征,然后基于隨機森林分類器對特征向量進行分類,識別陽性病灶,最終在MESSIDOR和E-Ophtha 數據集上進行了驗證,發現將兩種方法結合在一起可以顯著提高模型性能.
2016 年van Grinsven 等[53]提出了一種動態選擇抽樣策略,在模型訓練過程中對負采樣中的每個像素分配一個動態權重,表示其附帶的信息水平,每個訓練階段之后,每個負采樣像素的權重都會更新,重復這個過程,直到達到預設標準.最后使用訓練好的CNN 模型對測試圖像中的每個像素進行分類,得到測試圖像的像素概率圖,該方法解決了模型訓練過程中正樣本過多的問題,并在Kaggle和MESSIDOR 平臺上測試了他們的系統.
滲出物是威脅視覺糖尿病視網膜病變和糖尿病黃斑水腫的早期癥狀之一.因此,要防止威脅視力的視網膜病變的發生,早期的滲出物鑒定是至關重要的,滲出物分割在評估病變的嚴重程度中也起著重要的作用[49].
2016 年Prentasic 等[57]提出了一種基于監督深度神經網絡的滲出物檢測系統.該系統通過深度卷積神經網絡生成滲出物檢測概率圖,并檢測視盤、血管的位置信息,通過血管位置、視盤位置以及明亮邊界等信息來提高滲出物檢測性能.最后,使用DRiDB 數據集分析了這種擴展方法.
2017 年Otálora 等[58]提出了一種基于EGL(Expected gradient length)的Label-efficient CNN 模型,通過主動學習策略來選擇信息量最大的Patches和圖像,解決了標注數據樣本匱乏的問題.并且模型比通常的隨機梯度下降(Stochastic gradient descent,SGD)策略收斂更快,并通過生產掩碼,預測和分割病灶的區域.該模型基于LeNet 網絡[61]采用遷移學習方法進行訓練,利用公開的數據集E-Ophtha 測試了該算法的有效性.
2017 年Abbasi-Sureshjani 等[52]提出了一種基于ResNet 模型的全自動滲出分割方法,與Shan 等[51]提出的方法相似,在Patches 上進行訓練,該方法針對訓練過程中存在反射和其他明亮病灶造成的大量假陽性問題,提出了選擇具有較高優先級的易誤導的常規Patches 方法,使網絡學習自動調整參數,同時避免了網絡對這些樣本的過度擬合.該方法在三個公共數據集DIARETDB1、DR2和E-Ophtha-EX 分別進行網絡的測試評估.
上文所述方法只關注一種病理特征的識別,而DR 分級要求同時檢測多種病灶特征,越來越多的算法趨向于視網膜影像中多種病理同時分割的研究,以對視網膜的病變程度進行精確診斷.
2018 年Badar 等[40]基于SegNet 模型,對視網膜病理語義像素進行描述,得到高維復雜的特征圖,并為每個像素分配特定類別標簽,如滲出物、出血物或棉毛斑點,得到像素級分割結果.該算法在公開的Messidor 數據集上進行了評估.
2018 年4 月ISBI 糖尿病視網膜病變—分割和分級的挑戰中,獲得分割挑戰賽第1 名的韓國VRT團隊,通過DeepLab 思想改進U-Net 分割模型,將U-Net 模型的最大池化層替換成步長為1 的3×3 Atrous convolution,進行密集特征提取,實現語義分割;排名第2 的中國平安科技Patech 團隊以DenseNet和DeepLab V3 網絡為基礎,實現了病灶特征自動分割;排名第3 的中國科大訊飛,以UNet和DeepLabV3+網絡為基礎,融合了Atrous convolution 操作、Self-attention 機制[62]的優勢,在不損失原始影像信息的前提下,快速定位出可疑病灶區域并給出分割邊界.
2017 年10 月Tan 等[59]通過10 層深度神經網絡模型,自動分割眼底影像中滲出物、小動脈瘤和出血區域,對于卷積層和中間全連接層,采用leaky Relu 激活函數,最后一層全連通層采用softmax 激活函數,并對眼底影像進行歸一化處理[63],達到校正光照不均勻、增強局部對比度的目的.該模型通過CLEOPATRA 數據集進行訓練和測試.
本節介紹了幾種常用的深度學習分類模型,概述了模型改進及發展的方向,促使DR 等級分類算法性能的不斷提高;隨后對DR 病變等級分類的相關研究進行綜述,了解最新研究趨勢并對其優缺點進行總結,具體如圖3 所示.

圖3 糖尿病視網膜病變等級分類Fig.3 Classification of diabetic retinopathy
從2012 年的AlexNet[64],2014 年的VGGNet[38]和2015 年GoogLeNet[65]到2016 年的ResNet[39],再到2017 年DenseNet[66],分類模型的規模和深度急劇增加,識別錯誤率快速降低,但計算量卻并未顯著增加.下面簡單介紹幾個在糖尿病視網膜研究中常用的分類模型.
1)GoogLeNet 模型
2015 年,谷歌提出了GoogLeNet[65]模型,在對其性能進行提升及優化運算量后進一步提出了InceptionV2[67]及InceptionV3[68]模型,該模型被相關研究人員廣泛應用在DR 診斷中,比如2018 年10 月中山大學團隊[16]以InceptionV3 模型為基礎實現了對威脅視力的視網膜病變診斷,以及2016 年11 月谷歌團隊[69]同樣以InceptionV3 模型為基礎實現了對需要轉診的視網膜病變的診斷等研究.
GoogLeNet 最大的特點就是使用了Inception 模塊,其目的是設計一種具有局部拓撲結構的網絡,對輸入圖像并行地執行多個卷積運算或池化操作,并將所有輸出結果拼接為一個非常深的特征圖.隨后,通過2 個連續的3×3 卷積層(stride=1)組成的小網絡代替單個的5×5 卷積層減小計算量,并提出了著名的批量歸一化(Batch normalization,BN)思想,保持感受野范圍的同時又減少了參數量;InceptionV3 模型將n×n 卷積拆分為1×n卷積和n×1 卷積,進一步減少了計算量.目前很多醫學影像檢測中使用InceptionV3 模型進行遷移學習,以解決醫學領域數據匱乏問題.
2)ResNet 模型
2016 年,文獻[39]提出了深度殘差網絡(Res-Net)[39],將網絡深度提升到上百層.ResNet 最大的特點是解決了反向傳播過程中的梯度消失問題,因此它可以訓練非常深的網絡,而不用像GoogLeNet 需要在中間添加分類網絡以提供額外的梯度.
ResNet 引入了殘差連接,在每一個殘差模塊上,殘差連接會將該模塊的輸入與輸出直接相加,因此在反向傳播中,根據殘差連接傳遞的梯度就可以不經過殘差模塊內部的多個卷積層,為前一層保留足夠的梯度信息.在DR 檢測中很多模型通過ResNet 網絡來提高系統的健壯性.
3)DenseNet 模型
2017 年Huang 等[70]提出了DenseNet 網絡,提升了網絡層級間信息流與梯度流的效率,提高了參數利用率.DenseNet 將不同路徑組合特征圖按深度相互拼接在一起,使每一層的輸出都作為之后所有層的輸入,最后一層將拼接之前所有網絡層輸出的特征圖.這種結構確保了每一層能從損失函數直接訪問到梯度,因此可以訓練非常深的網絡,在近兩年糖尿病視網膜病變分級挑戰賽以及研討會上,很多研究者采用了DenseNet 模型的思想,并取得了突出的效果.
近年來,越來越多的研究團隊將深度學習算法應用于糖尿病視網膜病變等級分類研究,如表4所示.

表4 病變等級分類相關研究Table 4 Related works on classification of diabetic retinopathy
最初研究主要集中在有無DR 或者是否需要轉診兩種情況的分類,其中需轉診的糖尿病視網膜病變(Referable diabetic retinopathy,RDR)包括中度DR,重度非增值性DR,PDR,以及更嚴重的DR.雖然取得了較好的效果,但是沒有提供威脅視力的糖尿病視網膜病變VTDR (Vision-threatening diabetic retinopathy)(包括 PDR (Proliferative Diabetic Retinopathy)及 DME (Diabetic macular edema))的可比數據[71],這種比較嚴重的病例通常需要緊急轉診和臨床護理,理想情況下不應該被任何篩查程序(無論是人還是軟件)所忽視.由于國際DR 診斷標準全球公認,越來越多的研究者趨向于按照此標準,將DR 診斷結果分為R0(無DR)、R1 (輕度NPDR)、R2 (中度NPDR)、R3(重度NPDR)、R4 (PDR)五類,以輔助醫生制定更合理的治療方案.
通過對以上研究的回顧表明,DR 智能診斷系統的研究,向著多分類、穩健性、實用性的方向發展.2016 年谷歌[69]在《美國醫學會雜志》中報道了基于深度學習的DR 檢測方法,該算法能夠在視網膜造影中檢測到DR 的存在跡象,吸引了越來越多的研究者展開研究;隨后Abràmoff 等[75]通過實驗證明了基于深度學習的DR 檢測算法具有更高精度,優于未使用深度學習的DR 檢測算法;Li 等[72]采用遷移學習的方法,從其他相關任務的大數據集中學習知識,并在目標數據集中實現高精度的分類效果,解決了眼底影像數據匱乏的問題;為了更好地診斷輕微DR,防治嚴重病情的發生,ElTanboly 等[73]和Gargeya 等[74]分別通過SNCAE和ResNet 模型分類出患有輕微DR 的患者,以進行早期治療,其中,ElTanboly 等[73]使用OCT 影像對不同OCT切片上的眼部細節進行檢查,具有更高的準確度;ISBI 會議中文獻[76]采用了DenseNet 模型,并對每幅圖像進行50 次隨機增強,以提取穩定精確的特征,提高分類精度;因為一些小的病理組織只有通過高分辨率視網膜影像才能被發現,但直接通過深度神經網絡模型訓練高分辨率影像,時間與計算量成本較大;Zhou 等[79]通過一種多單元多任務結構模型,緩解了以上問題,并且該模型可作為通用架構,很容易與其他深度神經網絡模型集成,具有廣泛的適用性和重要的研究價值.
盡管以上研究均已在公開可用的數據集上進行驗證,展示了DR 智能診斷系統的優越性,但是并沒有在臨床DR 診斷篩選方案中進行測試,未解決不同人種和不同設備的成像差異,針對此問題,Ting 等[76]和中山大學[16]等多項研究,通過收集不同種族、不同國家的眼底影像驗證DR 診斷算法的臨床可用性,以及由Abràmoff 等[77]開發的深度學習系統,在社區初級保健診所進行測試,取得了較好的效果,并獲得了美國食品和藥物管理局(Food and Drug Administration,FDA)的批準.
以下對這些研究方法進行詳細介紹.
2016 年,Gulshan 等[69]利用深度學習技術對需要轉診的DR 影像(RDR)進行分類.首先,根據國際DR 診斷標準對來自EyePACS和印度三家眼科醫院大型數據集(n=128 175)進行標注,然后,通過以InceptionV3 為基礎的深度學習模型進行訓練,并利用EyePACS-1 數據集及Messidor-2 數據集測試該算法的性能.
2017 年10 月Li 等[72]采用遷移學習對是否存在糖尿病視網膜病變進行檢測,將預訓練CNN 模型(包括Vgg-s、VggNet、GoogLeNet 及其變體模型)進行微調,用于眼底影像特征提取,通過提取特征訓練支持向量機實現分類,并在DR1和MESSIDOR 數據庫進行驗證,實現較好的分類結果.
早期發現視網膜病變是挽救患者視力的關鍵,為了更好地辨別輕微DR 的情況以進行早期治療,2018 年ElTanboly 等[73]在ISBI 會議上提出一種利用OCT 影像對DR 進行檢測和分類的新型計算機輔助診斷系統(CAD),首先通過深度學習模型分割12 層視網膜層.然后基于堆疊非負性約束自編碼器(SNCAE)模型,根據視網膜層的三個鑒別特征(反射率、曲率和厚度),訓練兩階段深度融合分類網絡,第1 階段將患者分類為正常組或DR 組,第2 階段將DR 組分類為早期組或中度組,從而精確的診斷早期視網膜病變.為了同樣的目的,2017 年Gargeya 等[74]提出基于ResNet 模型進行DR 智能診斷,從最后一層全局平均池化層提取模型學習到的1 024 個特征,構造可視化熱力圖,并訓練一個基于樹二分類模型,對DR和健康影像分類,區分出輕度DR,并在MESSIDOR-2 等數據集上進行驗證.
2016 年Abràmoff 等[75]證明了基于深度學習增強算法與未采用深度學習的愛荷華州檢測項目算法相比,在NRDR,RDR和VTDR 識別方面有了很大的提高,通過Messidor-2 數據集進行訓練,如果VTDR 索引高于或等于閾值,則返回VTDR 的正輸出,如果VTDR 索引低于此閾值,則將對RDR索引進行閾值化,如果RDR 索引高于或等于后一個閾值,則返回RDR 的正輸出,如果低于后一個閾值,則返回NRDR.通過對比,該算法RDR 的敏感性與IDP 算法敏感性無統計學差異,但特異度明顯優于IDP,因此,更適合于潛在的糖尿病者進行篩查,以盡量減少假陽性讀數.
為了提供DR 智能診斷系統的臨床可用性,2017 年Ting 等[76]提出了一種基于VGG-19 開發的深度學習系統,在新加坡綜合糖尿病視網膜病變檢測項目中測試了5 年,并從6 個不同國家收集了10 組數據,對系統進行驗證.2018 年10 月中山大學[16]提出了一種基于Inception V3 的深度學習算法(DLA),該算法通過使用一組106 244 幅眼底影像數據進行訓練測試,其中包括71 043 幅中國人彩色眼底影像和35 201 幅多種族彩色眼底影像.2018 年1 月Abràmoff 等[77]提出基于深度學習的DR 診斷系統,并在初級診所(包括不同種族、不同年齡人群的眼底影像)對DR 診斷進行測試,并成為第一個FDA 授權的DR 智能診斷系統.這表明人工智能有能力將專業診斷引入初級保健診所.
2018 年4 月ISBI 糖尿病視網膜病變—分割和分級的挑戰中,文獻[78]首先對輸入眼底影像進行預處理,突出DR 病灶信息,然后通過121 層的DenseNet 模型提取DR 病灶特征,并進行50 次隨機增強,從最后一層全連接層得到50 個輸出,計算輸出值的均值向量和標準差向量作為特征值,通過增強樹算法進行預測,并在Kaggle 數據集進行測試,驗證了該方法在對視網膜影像進行分級時比僅使用DenseNet 模型具有更好的性能.
為了提高深度學習的運行速度,2016 年12 月Doshi 等[80]通過GPU 加速深度卷積神經網絡訓練過程,實現了DR 智能診斷,并根據病情嚴重程度將視網膜影像劃分為5 個等級,并在在EyePACs數據集上進行驗證.2018 年Zhou 等[79]將高分辨率眼底影像通過深度神經網絡進行訓練,通過多單元結構節省了訓練時間.此外,考慮到DR 不同病變階段實際上是漸進的,意味著不同階段的標簽是相關的,為了考慮不同病變等級影像之間的關系,提出一種多任務學習策略,該策略通過分類和回歸來預測標簽,并在Kaggle 數據集驗證了該方法的有效性.
2017 年IBM,通過基于深度學習的算法對來自EyePACs 的35 000 多幅眼底影像識別微動脈瘤、出血和滲出物等病變區域,評估糖尿病視網膜病變的嚴重程度,并能在20 s 內給出診斷結果,臨床醫生可以利用該系統來更好地了解疾病的發生發展,并制定有效的治療方案.
視網膜OCT 影像作為一種非侵入性和非接觸性的成像方式,廣泛應用于眼科疾病診斷,如DR(包括并發癥糖尿病性黃斑水腫(DME))、年齡相關性黃斑變性(Age-related macular degeneration,AMD)、青光眼等,可通過分割視網膜內囊腫(Intraretinal cyst,IRC)、滲出物、視網膜層、色素上皮脫離(Pigment retinal epithelium,PRE)以及視網膜下積液(Subretinal fluid,SRF)等病灶特征,并進行量化分析,可輔助醫生同時對多種眼部疾病做出診斷.因此,基于深度學習自動識別OCT 影像具有重要意義,引起了廣泛的研究熱潮.基于OCT影像的眼部疾病研究如表5 所示.

表5 基于視網膜OCT 影像的眼部疾病診斷相關研究Table 5 Studies on diagnosis of ocular diseases based on retinal OCT images
通過對以上研究的回顧表明,基于深度學習的眼部疾病檢測已經廣泛應用于OCT 分割、分類以及轉診等方面,并取得了突破性的成果.在OCT 影像分割方面,深度學習網絡可成功分割IRC、SRF以及視網膜層紊亂等病灶,Sandhu 等[84]通過對OCT 分層,并對每層視網膜層進行量化分析,實現DR 嚴重程度進行分類.Hassan 等[81]提出了一種穩健的分割模型,通過相干張量從OCT 影像中提取具有不同病理綜合征的視網膜層,即使發生細微變化,也能對病癥自動提取;Vahadane 等[82]通過對硬滲出物和囊腫區域進行分割,預測DME 的存在.在實現眼部疾病轉診方面,Kermany 等[15]和Li 等[83]均采用遷移學習的方法,對OCT 影像進行診斷轉診,并且Kermany 等[15]通過遮擋實驗檢測模型感興趣區域(ROI)作為判斷的依據,提高了模型的可解釋性;谷歌DeepMind 團隊[18]通過兩階段深度神經網絡,不僅實現了轉診,而且將OCT 影像分割成不同的眼部組織,緩解了深度學習模型可解釋性問題,并且通過分割模型可以對不同供應商的OCT設備進行泛化,而不需要嚴格的再訓練過程,在其他醫學影像檢測方面具有廣泛的借鑒價值.以下對這些研究進行詳細介紹.
2018 年Sandhu 等[84]開發了一種新的無創框架,利用OCT 影像對DR 進行早期診斷.首先,采用融合形態學、空間和強度信息的聯合模型對12層不同的視網膜層進行分割;其次采用兩階段深度融合分類網絡,根據所有視網膜層的曲率、反射率和厚度三個鑒別特征,將受試者分為正常、亞臨床期DR 或輕度/中度DR,其中亞臨床DR 定義為臨床眼底檢查為陰性.
2018 年Hassan 等[81]提出了一種深度卷積神經網絡和基于結構張力的分割框架(CNN-STSF),用于從正常和病變OCT 影像中自動分割8 層視網膜層.首先,在視網膜影像中提取多個候選視網膜層Patches,并計算相干張量;然后,利用基于云的深度卷積神經網絡模型,對1 200 個視網膜層Patches進行訓練、分類,分割精度達到0.9375,可輔助醫生根據視網膜層厚度、曲率等特征對DR、AMD 等疾病做出診斷.
2018 ISBI 挑戰賽中,Vahadane 等[82]提出了一個兩階段的框架來分割硬滲出物和囊腫區域,檢測DME.第1 步使用圖像處理技術檢測硬滲出物和囊腫區域的候選Patches;第2 步是使用深度卷積神經網絡預測這些候選Patches 的標簽.在最后的排序步驟中,聚合CNN 模型的置信度,并使用基于規則的方法來預測DME 的存在,較其他參賽方法取得了較好的效果.
2018 年Kermany 等[15],2019 年Li 等[83]均采用遷移學習的方式,分別將訓練好的InceptionV3網絡、VGG-16 網絡進行微調,用于OCT 影像檢測,可診斷脈絡膜新生血管(Choroidal neovascularization,CNV),DME,玻璃膜疣(Drusen),正常(Normal)等4 種疾病,并提供轉診建議(包括緊急轉診(CNV、DME)、常規轉診(Drusen)、僅觀察(Normal)),并且Kermany 通過熱力圖的方式提高了模型的可解釋性.
谷歌公司DeepMind 團隊[18]通過在兩階段深度神經網絡實現OCT 影像自動分割及轉診,第1個網絡是3D U-Net 分割網絡,能分割出多種疾病特征,例如黃斑部視網膜水腫(Macular retinal edema,MRE)、脈絡膜新生血管(CNV)、玻璃膜疣(Drusen)、視網膜前膜(ERM)以及DME 等;第2個網絡為CNN 分類網絡,通過分析病灶的位置、大小及數量信息,準確檢測50 余種危害視力的眼部疾病,并為患者提供轉診建議(包括緊急轉診、半緊急轉診、常規轉診、僅觀察),準確度可媲美頂級專家醫生.
本小節主要介紹了通常用于評估DR 檢測算法的性能指標.常用的度量標準有敏感度(Sensitivity)、特異度、準確性、精確性、F-score、ROC 曲線以及一致性評估標準Kappa 值[85]等.
通常對于一個樣本的預測類別和真實類別,有四種可能組合分別是:
1)TP (True positive):預測和真實類別都為陽性;
2)TN (True negative):預測和真實類別都為陰性;
3)FP (False positive):預測為陽性,真實類別為陰性;
4)FN (False negative):預測為陰性,真實類別為陽性的.
敏感度(Sensitivity)、特異度、準確性、精確性都可以通過TP、TN、FP、FN 來表示[86].
敏感度(Sensitivity,也稱召回率(Recall))用來表示實際為陽性的樣本中判斷為陽性的比例,計算式為

敏感度的值越大,說明“漏檢”(FN)越少.
特異度(Specificity)是指實際為陰性的樣本中,判斷為陰性的比例,計算式為

特異度的值越大,說明“誤檢”(FP)越少[87].
對于任何分類器而言,都需要在敏感度及特異度之間進行取舍.這個取舍可以通過接收器操作特征 (Receiver operating characteristic,ROC)曲線來表示[85].AUC (Area under curve)即ROC 特征曲線下面積,常可用來衡量一個模型的總體準確情況,取值范圍在0 到1 之間,AUC 越接近1,性能越好.
正確率(Accuracy)表示對于給定的測試數據集,正確分類的樣本數與總樣本數的比[86],計算式為

精確率(Precision)表示預測陽性中準確的占比,計算式為

F-score 將精確率和敏感度結合如下:

一致性評估的評估標準為Kappa 值[87].目前,針對DR 檢測最大的公共數據集[88],即Kaggle 的DR 檢測競賽(Kaggle diabetic retinopathy detection competition)數據[89],該競賽中,模型的優化目標為最小的平方加權Kappa 值,表示模型診斷結果與專家診斷結果的一致性[90].
Kappa 計算式為

其中,P0為觀測一致性,表示兩種檢測結果一致的百分比;Pc為期望一致性,表示兩種檢測結果預期相同的概率[89].
Kappa 值計算的結果為-1~1,但通常落在0~1間,可分為五組來表示不同等級的吻合度:0.0~0.20極低的吻合度、0.21~0.40 一般的吻合度、0.41~0.60中等的吻合度、0.61~0.80 高度的吻合度和 0.81~1 幾乎完全吻合[90].Kappa 值在臨床上常用來確定不同檢驗或診斷方法的一致性,因此常作為重要的模型一致性評估標準.
除Kappa 值之外,一些論文引入權重矩陣、懲罰模型,對不同的程度錯誤賦以不同的權重,例如懲罰假陰性的嚴重錯誤分類.每個專家的決策都會經過權重矩陣的加權.最后計算了每個分類結果的平均誤差.
深度學習在糖尿病視網膜疾病診斷方面有著良好的應用前景,但仍面臨許多挑戰:
1)高質量標注數據的獲取難度大[91].深度學習網絡的參數具有復雜性,因此需要使用足夠的帶有Ground-truth 標簽的數據進行訓練[92].為了獲取高質量的標注數據,研究人員必須聘請多名臨床醫生對病理圖像進行標注,這一過程可能是耗時且昂貴的[93],增加了研究的難度與成本.
2)隱私問題.醫學數據中往往涉及到患者的隱私,患者隱私會嚴重限制醫學數據的共享和使用[94],即使沒有共享數據,在機密患者數據上訓練的算法也可能存在安全風險[95]或被攻擊者竊取數據[96].如何在進行科學研究的同時,保證病人的隱私不被泄露,是研究者應當考慮的重要問題.目前這個方向上也已經提出了技術解決方案,例如差異隱私框架下訓練深度學習模型[97].
3)深度學習網絡的可解釋性問題.深度學習網絡的內部機制尚不完全透明,這是阻礙深度學習輔助疾病診斷實際應用的重要因素之一.如果能探索其診斷的原理,并驗證其有效性,深度學習診斷糖尿病視網膜病變的進程將被大大推進[98].另外,2016 年4 月歐盟通過的關于個人信息使用的新規“一般數據保護條例”[99]提出了“解釋權”,即運用機器學習算法的人必須能夠解釋算法如何做出決定.因此,研究人員需要考慮深度學習模型是否可以被充分解釋,來避免潛在的不良后果[100].
4)跨設備數據模型有效性.不同設備的成像特點可能不同,控制不同數據集的偏差將可以限制統計顯著性、防止檢測弱效應和限制模型中訓練的參數數量等[101].而現有的模型往往在特定設備采集的數據中訓練而成[102],在不同設備所采集的數據集中進行驗證時表現一般[103].因此,保證跨設備數據模型有效性是增加程序可移植性的重要一步.
因此,深度學習領域和醫學界的密切合作至關重要,通過醫工交叉解決以上問題,不僅要促進深度學習技術的開發和驗證,而且要戰略性地將這些技術用于患者護理.
綜上所述,基于深度學習的糖尿病視網膜病變(DR)診斷已經成為醫學影像分析領域深度學習發展最迅速、診斷精度高、臨床試行和智能診斷儀器FDA 批準進程最快的方向.在學術界,DR 診斷的敏感性、特異度不斷提升,實驗結果顯示深度學習模型已經基本達到臨床診斷的能力;在產業界,已經有相關器械落地[19],并朝著便攜化的方向發展[20],以配合遠程醫療的部署.
在病變區域檢測方面,深度學習模型實現了從檢測單一病變到支持多種病變綜合檢測的進步;在病變等級分類方面,深度學習模型已經支持國際DR 分級標準,實現五等級的劃分.但由于醫療診斷需要明確的依據,深度學習的可解釋性問題使得模型無法滿足以上要求,因而引起學術界的重點關注和研究.
本文旨在為為該領域的研究者與產業界專家提供一定借鑒與參考.隨著技術的進一步發展,本文所涉及的相關內容也需要進行進一步的補充和完善.