燕 楊, 曹婭迪, 黃文博
(長春師范大學 計算機科學與技術學院,吉林 長春 130032)
視盤(Optic Disc,OD)是視神經的起點,位于視網膜中心,視杯(Optic Cup,OC)即其中央凹陷處。由于青光眼導致的視神經損傷,OC 區域會不斷擴大,導致杯盤比(Cup to Disk Ratio,CDR)增加[1]。青光眼早期階段并無明顯癥狀,CDR 即為診斷青光眼的重要指標。通過CDR診斷青光眼需要眼科醫生對大量眼底圖像中的OD 與OC 區域進行標注,耗時耗力,為此學者們對OD/OC 自動提取算法展開研究。基于數字圖像處理的 OD 和 OC 分割方法主要分為兩種,一種是通過水平集、主動輪廓等算法尋找邊緣確定OD 范圍;另一種是通過分析各類特征,使用分類器提取每個像素點分類,為了提高分割效率,這類方法多應用在彩色眼底圖像的超像素分割中[2-5]。上述早期算法無法提取更抽象的特征,僅依賴低級特征,不僅易受干擾,而且精度過低。
神經網絡具有很強的特征提取能力,其中以M-Net[6]最為經典。M-Net 采用金字塔多尺度輸入,并通過side-out 層為早期層生成伴隨的局部輸出圖,最終將多個尺度的特征圖聚合生成輸出。針對OD 像素與背景像素嚴重不均衡的問題,M-Net 通過極坐標轉換以及采用基于Dice 系數的多標簽損失函數替代常見的多類分割損失來緩解。目前,許多OD 和OC 分割方法都借鑒了M-Net 的思想。Liu[7]等提出一種密集連接的深度可分離卷積網絡,使用金字塔多尺度輸入避免網絡參數大幅增加,使用深度可分離卷積減少計算消耗,采用密集連接的形式,獲取眼底圖像中更豐富、更復雜的特征,提高OD和OC 的提取精度。于舒揚等[8]基于Seg-Net 框架提出了融合感受野模塊的Seg-RFNet 框架,其編碼器采用ResNet-50 結構,進行分支處理拓寬網絡結構,獲得了更抽象的語義信息;其解碼器的輸入來自不同級編碼器,以更完整地恢復圖像。
由于淺層特征與深層特征之間存在語義鴻溝,U 型網絡編碼器-解碼器通過跳躍鏈接將二者直接拼接的行為通常會導致噪聲,增加干擾。為此,本文提出了注意力感知的多尺度語義目標提取模塊(Channel-Spatial-Pyramid, CSP)。該模塊在多尺度池化方法中引入通道-空間聯合注意力機制,在豐富上下文信息的同時,增大對目標提取有意義的特征權重。進一步提出基于CSP 模塊的OD/OC 自動分割網絡CSP-Net,將CSP 模塊應用于編碼器-解碼器網絡,增強早期層特征,減輕語義鴻溝,提高算法性能和精度。
正常情況下,OD 和OC 的形態如圖1(a)所示,其中藍色輪廓內區域為OD,綠色輪廓內區域為OC(彩圖見期刊電子版)。由于青光眼導致的OC 病變,如圖1(b)所示,OD 與OC 特征接近,難以區分。本文設計了CSP 模塊加入網絡,提高了網絡特征提取能力,能夠更精準地分割OD 與OC。CSP-Net 整體結構如圖2 所示。提取特征的主干網絡在U-Net 基礎上減少了濾波器數量和訓練參數,降低訓練所需要的計算消耗。針對早期特征與后期特征之間存在的語義鴻溝問題,在主干網絡下采樣路徑的早期層加入CSP 模塊,增強網絡提取上下文信息的能力并抑制無關特征,減輕淺層特征與深層特征的語義差異。傳統的金字塔池化模塊(Pyramid Pooling Module,PPM)[9]通過使用不同尺寸的池化核,達到獲取上下文信息的目的,但早期特征仍比較粗糙,含有大量與分割目標無關的干擾特征。因此,CSP模塊在金字塔池化中引入通道-空間聯合注意力模塊,從通道和空間兩個維度放大對識別目標更有意義特征。

圖1 彩色眼底圖像中的OD 和OC 區域Fig.1 OD and OC regions in color fundus images

圖2 CSP-Net 網絡模型Fig.2 CSP-Net model
早期特征在卷積與池化過程中均有丟失,僅憑后期特征進行分割不夠全面。U-Net[10]通過拼接層將早期特征與后期特征進行融合,解決了這一問題,因此成為最有效的特征提取網絡之一。U-Net 主要由兩部分組成,其中收縮路徑用于獲取上下文信息,擴張路徑用于完成精準分割,整個網絡結構呈對稱狀態。
為減少訓練參數,提高訓練效率,這里減少了主干網絡卷積層上的濾波器,并且不增加用于降低分辨率的濾波器數目。這些改變并沒有降低網絡提取特征的能力,而是在參數數量和訓練時間方面變得更加輕量級[11]。
在OD 分割任務中,由于OD 區域僅占全部圖像很小的部分,因此存在正負樣本嚴重不均衡的問題,訓練時損失函數會陷入局部最小值,產生更重視背景部分的網絡,樣本量較少的前景部分常會丟失或是僅被部分提取[12]。為了解決這一問題,將損失函數定義為:
其中:d(A,B)是Dice 損失函數,是基于一種反應正負樣本相似度的評價函數;Dice 系數的取值為[0,1];A是網絡輸出的概率圖,B是專家手工標注的真實標簽,包含每個像素及其所屬的類;aij和bij分別代表A和B中的某一像素。Dice 損失函數評估真實標簽與預測結果的相似程度,而非像素級的準確度,避免網絡為追求更低損失將全部樣本分類為負樣本的情況。
考慮到語義鴻溝問題,CSP-Net 在主干網絡早期層中引入基于注意力機制的多尺度池化CSP 模塊。在編碼器-解碼器網絡中,隨著網絡層數的加深,特征分辨率不斷降低,這一過程使深層特征丟失了許多上采樣操作無法恢復的細節信息。通過跳躍鏈接方法將淺層特征與深層特征進行拼接雖然可以解決這一問題,卻因早期特征更粗糙、后期特征更抽象這一差異導致噪聲,影響分割精度。因此,這里在主干網絡早期層引入CSP 模塊,對早期特征進行進一步處理再與后期特征進行拼接,減少語義差異,如圖3(a)所示。

圖3 CSP 與其子模塊結構Fig.3 CSP module and submodule structure
U-Net 將不同卷積層的特征拼接實現了上下文信息融合,但提取特征時依舊使用固定尺寸的卷積核,缺少對每一層上下文信息的有效提取和利用。為充分提取早期層所包含的上下文信息,CSP 模塊基于金字塔池化結構,依靠多個不同尺寸的感受野檢測尺寸各異的目標,獲得更豐富的多尺度特征。普通最大池化使用單個池內核,金字塔池化結構采用4 條并行分支進行池化,每條分支池化核尺寸均不相同。4 個不同尺寸感受野收集特征圖的上下文信息并進行編碼,產生4 個不同尺寸的特征圖并將所有分支結果拼接。最后,對拼接的特征圖使用1×1 卷積,將通道數恢復至原特征圖尺寸。
傳統的金字塔池化結構雖然提取到豐富的空間上下文信息,但無法阻止無關特征進入后期層,因此CSP 在金字塔池化結構中引入通道-空間聯合注意力模塊。通道-空間聯合注意力模塊擁有兩個順序子模塊,即通道注意力模塊和空間注意力模塊。 對于一個給定的特征圖F∈RH×W×D,該模塊首先通過沿著通道模塊產生一個一維的通道注意力特征圖Ac∈R1×1×D,將它乘以輸入特征圖進行自適應特征細化,產生細化的特征圖F′。F′作為空間注意力模塊的輸入,產生通道數為1 的空間注意力圖As∈RH×W×1,并與F′相乘,產生最終的注意力特征圖F′。該過程的數學形式如下:
其中?表示對特征圖進行逐元素相乘。在該過程中,通道注意力模塊產生的注意值會繼續在空間維度傳播。通道注意力模塊與空間注意力模塊結構分別如圖3(b)和3(c)所示。
輸入通道注意力模塊的特征圖,首先經過最大池化和平均池化聚合特征映射的空間信息,產生兩組不同的特征信息——平均池化所聚合的空間信息與最大池化所收集的不同類別的特征,使網絡可以有效學習OD 和OC 的范圍,減少無關背景對識別目標的影響,同時細化特征,有效降低OC 目標的提取難度。通道注意力模塊對池化產生的兩組特征分別進行1×1 卷積操作后,再進行求和,最后使用sigmoid 函數進行激活,產生最終的通道特征圖。通道注意力模塊可表示為:
其中σ表示sigmoid 激活函數。
空間注意力模塊作為通道注意力模塊的補充,接收通道注意力特征圖作為輸入。經過全局最大池化和全局平均池化后,將結果聚合,經過7×7 卷積和Sigmoid 函數,產生最終的空間注意力圖。與通道注意力不同的是,空間注意力會聚焦特征圖中的關鍵信息,即強調感興趣目標,有助于解決前背景像素分布不均衡的問題。空間注意力模塊還可表示為:
其中f7×7為卷積核尺寸為7×7 的卷積操作。
本文分別在RIM-ONE v. 3[13],DRIONSDB[14],DRISHTI-GS[15]公開彩色眼底數據集上進行實驗,將本文方法與現有方法在OD/OC 識別任務中進行對比,以驗證本文方法的性能與泛化能力。在實驗中,數據集被隨機劃分為訓練集與驗證集兩部分,其中訓練集占數據集總量的80%,驗證集占總量20%。訓練集與驗證集中均包含正常眼底與青光眼眼底兩類數據。
實驗使用深度學習框架Tensorflow 2.0 和Keras 2.3.1,利用GPU(graphic processing unit)加速網絡模型訓練及測試,顯卡型號為NVIDIA Tesla K80。采用Adam 優化器,Adam 算法可在訓練時自適應調節學習率,且收斂速度更快。
訓練前采用對比度受限自適應直方圖均衡進行預處理。由于樣本數量較少,為防止過擬合,在訓練階段對每幅圖像分別進行4 種數據增強操作,包括隨機縮放、隨機水平偏移、隨機垂直偏移和隨機旋轉,并將圖像統一縮放為256×256像素進行訓練與測試。為了充分利用先驗知識,在OC 識別前先根據圖中OD 的位置裁剪出尺寸為128×128 的區域,再輸入網絡中。訓練時,批處理大小設置為4,訓練進行500 個epoch。
為客觀評估本文算法性能,采用Dice 系數、平均交并比(Mean Intersection over Union,MIoU)、總體分割精度(Accuracy,Acc),精確度(Precision,PC)和均方誤差(Mean Square Error,MSE)作為評價標準,將本文算法結果與現有算法結果進行比較。評價函數公式如下:
其中:TP 為預測正確的正樣本像素數量,FP 為預測錯誤的正樣本像素數量,TN 為預測正確的負樣本像素數量,FN 預測錯誤的負樣本像素數量,k+1 是包括背景在內的類的數量。
其中:M和N分別代表圖像的寬和高,y(i,j)代表原始圖像中的某一像素,x(i,j)為預測圖像中的對應像素。
在OD 提取任務中,將本文方法與現有方法進行比較,結果如表1 所示。在DRIONS-DB 數據集上,本文方法的MIoU 與Dice 系數分別達到92.6% 與 96.9%,Acc 達到 99.8%,PC 為97.0%。與未加入CSP 模塊的主干網絡比較,各項指標均有所增加,且所有對比算法中,CSP-Net的Dice 值最高。

表1 DRIONS-DB 數據庫OD 提取結果對比Tab.1 Comparison of OD extraction results on DRIONS-DB database(%)
圖4 展示了在DRIONS-DB 數據集中,本文方法與其他方法預測結果的可視化結果。以第3行為例,AttnU-Net 由于血管干擾,視盤區域欠分割;M-Net 的分割結果則遠大于視盤區域,會影響CDR 計算,最終影響青光眼篩查結果;DRIU方法的視盤位置與人工標注有偏差。相對而言,本文方法能夠更準確地從病變區域中識別視盤,分割結果也更接近專家標注。

圖4 DRIONS-DB 數據集OD 提取可視化結果對比Fig.4 Comparison of OD extraction results on DRIONSDB dataset
如表2 所示,在RIM-ONE v.3 數據集上,本文方法的MIoU 與Dice 系數分別達到91.7 與96.3%,Acc 與PC 分別為99.7%,95.7%,比主干網絡分別提高了5.6%,3.2%,0.2% 和1.5%。由表1 與表2 所展示的OD 提取對比數據可見,本文方法有效提高了網絡分割精度,與人工標注的結果最接近。

表2 RIM-ONE v.3 數據庫OD 提取結果對比Tab.2 Comparison of the results of OD extraction on RIM-ONE v. 3 database(%)
圖5 展示了RIM-One v.3 數據集OD 提取的可視化結果。由圖可見,在病變、血管結構及光照等影響下,本文方法仍然較為精準且穩定地提取OD,在病變眼底中能夠準確識別視盤。

圖5 RIM-ONE v.3 數據集OD 提取的可視化結果對比Fig.5 Comparison of OD extraction results on RIMONE v. 3 dataset
在OC 提取任務中,本文方法在DRISHTIGS 和RIM-ONE v.3 數據集上與M-Net,主干網絡,MEAL[22],pOSAL[23],FCN[24],SegNet[25],ESS-Net[26],Edge TPU[27],SLSR-Net[28],NASU2-Net[29],SAM 和MedSAM 方法進行了對比,結果如表3 所示。由表可見,本文方法的MIoU 和Dice 點數分別為85.4%和92.1%,顯著優于其他方法。

表3 DRISHTI-GS 數據庫OC 提取結果對比Tab.3 Comparison of OC extraction results in DRISHTIGS database(%)
由表4 可見,在RIM-ONE v.3 數據集OC 提取對比實驗中,本文方法仍獲得了最高的相似度,預測結果與真實標簽最接近。以上結果表明,CPS-Net 可以準確地對OD/OC 進行自動提取,為青光眼的診斷與篩查提供可靠依據。
圖6 為不同方法在RIM-ONE v.3 數據集上的OC 提取可視化結果對比。可以看出,pOSLA算法在RIM-ONE V3 數據集上出現了過分割的情況;M-Net 則由于可遷移性不強,實驗結果也不理想。視杯提取的難點在于視杯包含在視盤中,且二者特征相似難以區分,而通道注意力使網絡更專注與關鍵信息相關的通道,增強了CPS-Net 的目標提取能力。以圖6 第4 行為例,雖然該圖OC 區域極小且特征不明顯,但本文方法仍更接近專家標注,最大程度地減少CDR 的計算誤差。圖7 為不同方法在DRISHIT-GS 數據集可視化OC 提取對比。由圖可見,本文方法未受血管網絡影響,實現了精準分割。

圖7 DRISHTI-GS 數據集的OC 可視化結果對比Fig.7 Comparison of OC extraction results on DRISHTI-GS dataset
本文方法在不同數據集上進行了消融實驗,以驗證CSP 模塊中所有模塊的作用。實驗在主干網絡的基礎上,分別加入了通道-空間聯合注意力、金字塔池化結構以及CSP 模塊。實驗環境、評估指標以及超參數均相同。
如表5 和表6 所示,將僅加入注意力機制的網絡記為+Attn,僅加入金字塔池化結構的網絡記為+PPM。由表可知,以RIM-ONE v.3 數據集的實驗結果為例,使用主干網絡提取OD 的MIoU 為86.1%,Dice 系數為93.1%,OC 提取的MIoU 為68.3%,Dice 為81.5%。將通道-空間聯合注意力(Attn)與金字塔池化結構中的任何一個集成,都可以提高性能指標。將注意力機制引入金字塔池化結構后,OD 的提取性能達到最高,MIoU 為91.7%,比主干網絡高5.6%;Dice 為96.3%,比主干網絡高3.2%。OC 提取的MIoU可達74.4%,比主干網絡高6.1%;Dice 系數為86.0%,比主干網絡高4.5%。

表5 OD 提取消融實驗結果對比Tab.5 Comparison of ablation experiment results for OD extraction task(%)

表6 OC 提取消融實驗結果對比Tab.6 Comparison of the ablation experiment results for OC extraction task(%)
本文以更輕量級的編碼器-解碼器模型作為主干網絡,加入基于注意力機制的多尺度語義目標提取CSP 模塊,對早期層特征進行進一步處理,并與上采樣路徑中的后期層特征進行拼接,在減輕語義鴻溝的同時,更加充分地利用來自每一層的多尺度信息,有效提升了目標提取的精度。針對提取視杯盤任務,在DRIONS-DB,RIM-ONE v.3 及DRISHTI-GS 3 個公開數據集上與現有方法進行對比。實驗結果表明,本文提出的CSP-Net 在OD 和OC 的提取任務中精度均為最優,且在處理病變區域、視杯特征不明顯等區域具有很強的競爭力。