梁禮明,雷坤,詹濤,彭仁杰,譚盧敏
(1.江西理工大學電氣工程與自動化學院,贛州 341000;2.江西理工大學應用科學學院,贛州 341000)
隨著計算機輔助診斷技術地快速發展,視網膜圖片被廣泛應用于眼部疾病研究與診斷任務中,包括糖尿病視網膜病變分級[1]、視網膜血管分割[2-3]等。但由于眼科醫師的操作經驗與相機規格的不同,導致采集的視網膜圖片在質量上存在較大差異。一項基于英國生物銀行的研究表明,在眼底圖像數據庫中超過25%的視網膜圖片質量存在問題,以至于眼科專家也無法對其進行精確診斷,而視網膜圖片的質量與眼科醫師的經驗和眼睛的疾病類型密切相關,所以視網膜圖片質量分級具有較強的主觀性,使得視網膜圖片質量分級具有一定的挑戰性[4]。
在實際臨床場景中,優質的視網膜圖片有利于專業人員對患者進行準確的診斷,而模糊嚴重的視網膜圖片,容易增加視網膜病變區域被識別成偽影的概率,對患者造成誤診。因此,高效的視網膜圖片質量分級(retinal image quality assessment,RIQA)算法能有效提高醫護工作者的工作效率并節約成本,對研究眼部疾病以及診斷具有重要意義。目前視網膜圖片質量分級算法大致分為傳統算法與深度學習算法。基于傳統算法的視網膜圖片質量分級大致可分為三類: 一是基于圖像的銳度、對比度和光照等通用質量參數;二是基于視網膜血管、黃斑等結構信息;三是基于通用圖像質量參數與視網膜結構信息結合。Wang等[5]提出了一種利用支持向量機或者決策樹來處理視網膜圖片通用質量參數的方法對視網膜圖片進行識別。Paulus等[6]根據改進的圖像結構聚類方法,對視網膜血管、視盤等結構的邊緣銳度進行測量,并通過灰度共生矩陣特征對視網膜圖片的圖像質量參數進行評估,最后利用支持向量機對視網膜圖片質量進行分級預測。基于傳統算法的視網膜圖片質量分級模型存在手工設計特征的處理過程復雜,不易操作的局限性。
隨著深度學習地不斷發展,基于深度學習的視網膜圖片質量分級算法使視網膜圖片質量分級模型的性能得到了顯著提高。Yu等[7]結合無監督特征和有監督特征的組合方法在視網膜圖片質量分級任務中取得了較大的成功。Pérez等[8]利用深度學習的方法構建了輕量化視網膜圖片質量分級模型,其具有成本低,易于部署的優點。Das等[9]先將輸入圖像劃分為圖像塊,再通過自動編碼器提取多尺度特征來構建視網膜圖片的稀疏特征,進而檢測視網膜圖片的異常信息,并通過證明了該方法的有效性。雖然基于深度學習的視網膜圖片質量分級算法[10-11]在一定程度上克服了手工設計特征的局限性,但其普遍關注于RGB(red, green, blue)色域空間,忽略了來自于人類視覺的其他色域空間,存在一定的自身缺陷,且分級模型還普遍存在泛化性能不足的問題。
為解決上述問題,利用多色域空間提出了一種基于銳度感知最小化與多色域雙級融合的算法用于視網膜圖片質量分級。首先利用多個深度特征提取網絡學習不同色域的視網膜圖片特征,并利用不同色域的特征級和預測級進行雙級融合,構建豐富的多色域特征表示。然后利用銳度感知最小化(sharpness aware minimization,SAM)[12]對視網膜圖片質量分級模型優化,以期實現在臨床診斷中對視網膜圖片質量快速篩查的目的。
基于銳度感知最小化與多色域雙級融合的網絡結構如圖1所示。首先在將視網膜圖片輸入模型前需對視網膜圖片進行色域空間轉換,然后采用融合通道注意力機制以及多路徑機制的ResNeSt網絡[13]對不同色域的視網膜圖片進行特征學習。ResNeSt網絡先利用多路徑機制學習視網膜圖片的不同特征表示,再通過分裂注意塊聚合視網膜圖片的多色域特征上下文信息并賦予特征不同的注意力權重。最后,使用雙級融合充分學習視網膜圖片的多色域特征。

RGB(red, green, blue);LAB中,L表示像素的亮度,A表示從紅色到綠色的范圍,B表示從黃色到藍色的范圍;HSV中,H表示色相hue,S表示飽和度saturation,V表示亮度value;LossF和LossP分別為特征級、預測級的分類損失;Loss1、Loss2和Loss3表示不同色域空間的分類損失
雙級融合先通過對不同色域空間的輸出特征進行特征級融合,并對特征融合層進行預測。然后將不同色域空間的預測層與預測融合層進行融合形成雙級融合特征。最后使用全連接層對雙級融合層進行分級預測。
ResNeSt網絡的思想主要來源于多路徑網絡表示與注意力機制,其中由不同卷積核組成的多路徑網絡表示已經取得了巨大成功,而SE_Net的通道注意機制能自適應矯正通道特征響應,關注信息量大的特征通道并抑制信息量少的特征通道,并有效減少冗余特征信息[14]。
ReNeSt網絡由多個ReNeSt結構塊構成,其中ReNeSt結構塊通過多路徑表示方法將輸入特征圖分成K個基組,并對不同基組進行不同的分裂變換。接著基組利用不同分裂路徑的輸出結果與分裂注意塊對輸入特征圖施加通道注意力,最后使用1×1卷積恢復基組的輸出通道維度。ResneSt塊的結構如圖2所示。

contact表示按照通道維度進行拼接
第K個基組Uk由特征圖的R個分裂路徑求和得到,第k個基組可表示為
(1)
式(1)中:Uj為基組內第j個分裂路徑。
基組的輸出通過分裂注意力塊先對多個分裂路徑的輸出進行拼接,再通過全局平均池化聚集基組的全局上下文信息sk。
(2)
接著利用全局上下文信息對基組的輸出進行加權融合,輸出結果為vk,其輸出結果的第c個分量為
(3)

(4)
分裂注意塊的結構如圖3所示。

BN、Relu分別為Batch Normalization層和激活函數
由于本文算法采用RGB、HSV(色相hue、飽和度saturation、亮度value)和LAB(L分量用于表示像素的亮度,表示從純黑到純白;A表示從紅色到綠色的范圍;B表示從黃色到藍色的范圍)3種不同色域空間作為模型的輸入,使得視網膜的圖片特征具有色域差異。如果僅依靠模型的特征級進行視網膜圖片的分級預測,不能充分利用視網膜圖片的不同色域特征信息。為解決上述問題,本文算法在融合特征級的基礎上引入預測級進行雙級融合,用于增強視網膜圖片不同色域特征的信息交互,從而使模型充分學習同一視網膜圖片的不同色域特征信息。
雙級融合首先需要對經過ResNeSt網絡輸出的不同色域特征按通道維度進行拼接,并使用全連接層進行特征級融合。然后,將不同色域空間的預測級與特征級融合后的預測輸出進行級聯。最后,通過全連接層對雙級融合預測輸出進行分級預測。通過雙級融合能夠充分集成不同色域空間的特征信息。雙級融合的優勢體現在兩個方面,一是充分集成了不同色域空間的特征信息;二能保證特征學習網絡的獨立性和完整性,使網絡模型能根據不同任務需求進行更替。雙級融合結構如圖4所示。

圖4 雙級融合模塊
不同于現有特征融合網絡僅使用單一損失函數的訓練方式。本文算法不僅保留了多色域主干網絡中的分類損失函數,還在模型的總損失中還引入了特征級與預測級的損失函數,即
(5)
式(5)中:Lossi、LossF和LossP分別為主干網絡、特征級與預測級的分類損失;wi、wF和wP分別為各損失值的權重,這里設定為0.1、0.1和0.6,以突出融合預測層的作用。
對于大多數超參數化模型往往具有多個局部最優解甚至全局最優解,使網絡模型的泛化性能具有明顯差異。為了提高視網膜圖片質量分級模型的泛化性能,采用銳度感知最小化(SAM)對視網膜圖片質量分級模型進行優化,其中銳度感知最小化的銳度為參數ω移動到ω+δ過程中,損失值的變化程度。銳度感知最小化優化主要分為兩步,第一步計算損失函數在鄰域范圍δ內損失變化最大時的鄰域值;第二步在該鄰域范圍δ內求解損失函數最小時對應的參數ω,銳度感知最小化的計算步驟可表示為
(6)
(7)

SAM優化方法的偽代碼如下。

SAM優化方法 輸入:訓練集S、損失函數L、批次大小B、學習率η>0、ρ>0輸出:優化參數wt,初始化權重ω=0,t為迭代次數,模型還未收斂時,設訓練批次大小為BStep 1 計算該訓練批次的損失梯度 ωLB(ω)Step 2 估計鄰域大小δ^(ω)Step 3 計算SAM最終梯度近似:g= ωLB(ω)ω+δ^(ω)Step 4 更新權重: ωt+1=ωt-ηg;t=t+1
實驗所使用的數據集為Eye-Quality,其視網膜圖片來自California Health Care Foundation and EyePACS發布的糖尿病視網膜病變彩色眼底圖像數據集,并由Fu等[15]對視網膜圖片進行重新標注。數據集樣本如圖5所示。

圖5 視網膜圖片質量差異樣本
該數據集采用的是優質、可用和拒絕三級標準。具體質量等級定義如下。
(1)優質。視網膜圖片中無影響質量的因素,所有視網膜圖片中的病變特征清晰可見。
(2)可用。視網膜圖片中存在輕微影響的質量因素,導致不能清晰地觀察到整個視網膜圖片或者影響正常使用醫學分析方法。但其主要結構和病變區域足夠清晰且能夠被眼科醫生識別;
(3)拒絕。視網膜圖片具有嚴重質量問題,不能提供可靠的病變特征信息,即使眼科醫生也不能對其準確識別并診斷。
該數據集樣本數量分布如表1所示。可以看出,該數據集存在不均衡,因此采用垂直水平翻轉、隨機漂移和旋轉等數據增強方式對視網膜圖片樣本進行數據增強。

表1 數據集數據分布
由于采集視網膜圖片的設備以及工作人員的經驗影響,大多數視網膜圖片存在大量黑色背景知識,對視網膜圖片質量分級沒有任何輔助作用。因此在將視網膜圖片輸入網絡模型之前,需裁剪掉多余眼球周圍的多余黑色背景,并將圖片調整為244×244的統一尺寸,同時將其歸一化,其預處理結果如圖6所示。

圖6 預處理結果
此外,由于視網膜圖片的質量問題主要體現在視網膜圖片上的明暗程度以及模糊區域,但視網膜圖片的RGB色彩空間并不能很好地反映出物體的具體顏色信息,因此本文算法模型引入HSV與LAB色彩空間作為模型的輔助輸入,用于提高模型識別視網膜圖片質量的影響因素。其中HSV色彩空間能夠非常直觀的表達色彩的明暗、色調以及鮮艷程度,進而凸顯視網膜圖片上明暗差異。此外,視網膜圖片在RGB色彩空間上還存在色彩分布不均衡的問題,而LAB色彩空間則彌補了RGB色彩空間中藍色到綠色之間過度色彩多,綠色到紅色之間缺少黃色和其他色彩這一缺陷,不同色域空間的轉換結果如圖7所示。

圖7 視網膜圖片的色彩空間轉換
所有實驗均基于Ubantu16.04系統下PyTorch1.3.0深度學習框架。計算機配置為Nvidia GeFore GTX2070 GPU,Intel Core TM i7-6700H CPU,16 G內存。CUDA版本為10.0。優化器采用SGD,epoch為20,初始學習率為0.01,batch size為3。
為了定量地分析所提的視網膜圖片質量分級算法的性能,定義了相關評價指標,即
(8)
(9)
(10)
(11)
式中:TP、TN、FP、FN分別為真陽性、真陰性、假陽性和假陰性樣本的數量;σAccuracy為準確率;σPrecision為精確率;σRecall為召回率;Fmeasure為統計量,是精確度和召回率的加權調和平均,常用于評價分類模型的好壞。
3.3.1 泛化性能
為證明SAM優化方法對提高模型泛化性能的有效性,在EyeQ數據集上對SAM優化方法進行了測試。實驗分為兩組:①僅使用SGD(stochastic gradient descent);②對SGD使用SAM優化。損失函數變化曲線與損失景觀圖如圖8所示。
圖8(a)、圖8(b)為僅在SGD作用下的訓練損失與損失景觀;圖8(c)、圖8(d)為在SGD上使用SAM優化方法后的訓練損失與損失景觀。通過對比損失變化曲線[圖8(a)和8(c)],可發現僅在SGD作用下的模型雖然收斂速度較快,訓練過程中波動較大,模型訓練不穩定。而SAM與SGD共同作用下的模型雖然收斂速度有所減慢,但模型訓練波動較小,且模型訓練更穩定。
對比損失景觀圖8(b)和圖8(d)可知,僅使用SGD的模型在訓練過程中,尖刺比較明顯,即損失變化幅度大,銳度明顯。而使用SAM優化后的模型,在尋找最優參數的過程中,變化更光滑,且尖刺減少,銳度得到明顯抑制。文獻[12]研究表明,損失景觀越平坦,模型的泛化性能越強,因此驗證了銳度感知最小化優化方法對提高模型泛化性能的有效性。

圖8 損失函數變化曲線與損失景觀
3.3.2 質量分級性能
將所提的視網膜圖片質量分級算法在EyeQ數據集上進行實驗,并通過消融實驗分析多色域、雙級融合以及SAM優化方法對視網膜圖片質量分級的影響,消融實驗分為7組:①僅保留RGB色域空間;②僅保留HSV色域空間;③僅保留LAB色域空間;④僅保留特征級融合;⑤僅保留預測級融合;⑥不使用SAM優化方法;⑦本文方法。
消融實驗結果如表2所示。可以看出,所提出的視網膜圖片質量分級方法的準確率為87.35%,精確率為85.87%,召回率與F1分別為85.07%和85.44%。通過消融實驗①、②、③與實驗⑦進行對比可知,采用單色域輸入的模型與本文算法相比,融合了多色域空間的視網膜圖片質量分級模型的性能更好。究其原因是多色域空的模型特征信息更豐富,特征表達能力更強。此外,采用LAB色域空間的模型性能與采用RGB色域空間的模型性能差距不明顯,由此可證明LAB色域空間對提高模型性能起著重要作用。

表2 消融實驗
根據實驗④、⑤與實驗⑦的對比結果可知,僅依靠特征級的模型與僅依靠預測級的模型相比,依靠特征級的模型更強,其主要是因為特征級比預測級的特征信息更豐富。但僅依靠特征級或預測級的特征融合,其分級性能都未達到采用雙級融合后的性能。以此證明了雙級融合能有效解決單級融合不能充分利用不同色域空間信息的局限性。
對比實驗⑥與實驗⑦的對比結果,發現使用SAM方法進行優化后,模型的準確率、精確度、召回率和F1分別增長了0.48%、1.29%、0.06%、0.21%。視網膜圖片質量分級模型的整體性能得到進一步優化。
綜上所述,改進后的視網膜圖片質量分級算法整體上具有更好的分級性能。
3.3.3 與其他質量分級模型進行對比
由于視網膜圖片同樣屬于自然圖像,所以除與視網膜圖片質量分級方法進行對比,還與自然圖像的質量分級方法進行對比。不同質量分級方法的對比結果如表3所示。通過分析對比結果可看出自然圖像的質量分級方法NBIQ[16]與TS-CNN[17]在視網膜圖片質量分級任務上的分級性能并不突出。究其原因是部分視網膜圖片樣本模糊嚴重,且視網膜圖片的質量差異不僅僅是由圖像失真所引起的。

表3 不同圖像質量分級方法的對比
除此之外,基于深度學習的視網膜圖片質量分級方法MFQ[7]和MCF[15]與基于傳統視網膜圖片質量分級方法HSV[5]相比,基于深度學習的視網膜圖片質量分級模型的性能更好,其準確率分別高出1.93%和3.50%。而所提的質量分級算法比傳統視網膜圖片質量分級方法高出3.63%。此外,且本文算法與基于深度學習的方法相比,本文質量分級性能仍然具有一定優勢。
3.3.4 可視化結果分析
為了進一步驗證所提分級模型的分級性能,針對NBIQ、TS-CNN、MCF以及本文算法的預測結果使用混淆矩陣進行可視化,混淆矩陣的對比結果如圖8所示。圖9(a)、圖9(b)、圖9(c)分別為NBIQ、TS-CNN及MCF的混淆矩陣,圖9(d)為本文算法的混淆矩陣結果。

圖9 混淆矩陣
通過對比混淆矩陣發現自然圖像的質量分級方法在預測視網膜圖片質量時,很大程度上會將可用級別的視網膜圖片預測為優質或拒絕,其中將可用級別的視網膜圖片預測為優質的情況更為嚴重。
與自然圖像的質量分級算法相比,基于深度學習的視網膜質量分級算法能有效提高視網膜圖片可用級別的分級準確率,還能減小模型將拒絕級別的視網膜圖片判斷為優質與可用級別的誤差率。進而證明了自然圖像的質量分級算法不能直接用于視網膜圖片質量分級任務。
通過對比所提分級算法與MCF算法的混淆矩陣結果可看出,雖然所提算法對優質視網膜圖片的分級性能低于MCF算法,但本文方法能夠較大程度提高可用級別的分級效率,并降低可用級別的樣本被預測為拒絕級別的誤識別率。由此可看出所提算法能有效提高獲取視網膜圖片數據的效率,并提高獲取的視網膜圖片價值。
提出了一種基于銳度感知最小化與多色域雙級融合的視網膜圖片質量分級算法,該算法采用目前先進的ResNeSt網絡作為特征提取網絡,通過不同色域空間作為互補輸入,以及雙級融合模塊塊充分學習同一視網膜圖片的差異特征信息,最后采用SAM優化方法對模型進行優化。通過實驗得出如下結論。
(1)融合了多路徑表示方法與注意力機制的ResNeSt網絡具有更強的特征提取能力。
(2)基于多色域空間的雙級融合,能有效提升視網膜質量分級性能。
(3)SAM優化方法對于提高模型的泛化性能,有明顯效果。
由于該網絡模型比較復雜,推理時間長,因此在今后的研究中,將在保證質量分級準確度的前提下,進一步簡化模型參數,提升模型的訓練效率。
綜上所述,所提出的基于SAM多色域雙級融合的視網膜質量分級方法,可以在臨床診斷中幫助醫生提高診斷的效率和準確性,具有一定的臨床意義。