萬程 陳柏兵 沈建新 陳志強
近視是全世界范圍內發病率最高、年齡跨度最大和涉及面最廣的視覺健康問題。雖然近視在老年人群中常被忽視,但隨著年齡的增長,近視的風險也在增加,需要引起更多的關注和重視。成人高度近視易并發白內障、青光眼、視網膜脫離和近視性黃斑變性,這些并發癥都可以造成視功能的不可逆損傷。高度近視的發病機制復雜,目前普遍認為環境因素和遺傳因素共同參與了其發生和發展[1-2]。隨著年齡的增長以及用眼不健康,近視可漸進發展。延緩高度近視的進一步發展,對提高老年高度近視病人的生活質量具有重大意義。
眼底圖像病癥分析需要關注眼底的某些特定部位,比如視盤、黃斑和血管等區域,這些區域對疾病診斷有決定性的作用。高度近視經常會出現豹紋狀眼底、近視弧形斑和黃斑區域的白色萎縮斑,本研究嘗試使用深度學習方法提取高度近視特征,提出了一種基于ResNeXt的高度近視診斷方法,現將應用效果報道如下。
1.1 數據集來源與劃分 本研究使用的眼底圖片數據來自江蘇省省級機關醫院,圖片分辨率大小和格式有3種,分別為2592×1944的PNG格式的彩色圖片、2544×1696的JPG格式的彩色圖片、2196×1958的JPG格式的彩色圖片。數據集由江蘇省省級機關醫院的專業眼科醫生進行標注,包括6571張高度近視眼底圖片,6212張正常眼底圖片。其中,男性3482例(5962張圖片),女性3916例(6821張圖片),病人年齡60~81歲,平均 (67.6±3.21)歲。本文將數據集劃分為訓練集、驗證集和測試集。將眼底圖片按照3∶1∶1的近似比例隨機劃分。最終數據集劃分結果如表1所示。
1.2 方法 基于深度學習的高度近視診斷總體流程為:眼底圖像→數據預處理→模型訓練→測試評估。眼底圖像在進入網絡訓練之前首先經過數據預處理模塊,然后進行不同網絡的模型訓練,保存在驗證集上AUC值最大的網絡模型,模型訓練結束后進行不同網絡模型的測試,比較本文使用的改進的ResNeXt-50和5種經典的卷積神經網絡(CNN)(VGG-16、 VGG-19、Inception-V3、EfficientNet-B0和ResNet-50)的高度近視診斷結果。

1.2.2 ResNeXt-50網絡:本文使用CNN進行高度近視眼底圖像分類任務。采用的網絡結構為ResNeXt-50網絡,該網絡結構在圖像分類任務中性能優越。
ResNeXt的模塊主要是將殘差模塊復制了C次,C=32,用多個1×1卷積核降維從而減少網絡的參數,1×1卷積核后面為3×3卷積核,用于特征提取,進行了非線性映射,增強了網絡的表達能力。ResNeXt網絡使用全局平均池化代替了全連接層,大大降低了網絡的復雜度,減少了網絡參數,將最終的SoftMax分類層設置為本實驗任務所需的分類類別數。
1.2.3 模型訓練:本文使用在ImageNet數據集上訓練出來的參數作為預訓練參數對ResNeXt-50網絡進行初始化,這樣可以極大程度地節省訓練網絡模型的時間,使網絡更快地收斂。本文所有網絡模型使用的都是隨機梯度下降(SGD)優化算法,動量設置為0.9,損失函數為交叉熵損失函數,初始學習率都設置為0.0005,每訓練20輪學習率減小為原來的1/5,考慮到工作站顯卡內存的限制,每批樣本設置為8張圖片,每輪迭代959次,總共訓練100輪,保存在驗證集上AUC值最高的模型,訓練結束后將保存的模型應用于測試集上得到分類準確度、特異度、靈敏度、AUC等評價指標。
本實驗使用的圖像處理工具是OpenCV,使用的編程語言為Python,深度學習框架為PyTorch,在Inter(R)Core(TM)i7-6700 CPU、3.4GHz主頻、16GB內存、GTX1080顯卡、8GB顯卡內存的工作站運行。
1.2.4 評價指標:本實驗使用分類準確度、特異度、靈敏度、AUC作為評價指標,并測試了每張圖片的平均診斷時間。
2.1 ResNeXt-50診斷高度近視的價值 ResNeXt-50網絡對于高度近視診斷分類準確度為94.1%,特異度為95.94%,敏感度為92.33%,對于高度近視較為敏感,AUC為0.9861,單張圖片的平均診斷時間為0.035 s,實時性能夠滿足實際的輔助診斷需要。本實驗提出的深度學習方法和手工設計的傳統方法的準確度、特異度和靈敏度顯示:ResNeXt-50無論是在高度近視圖像的識別還是正常眼底的識別,都遠遠超過了完全局部二值模式(Complete Local Binary Patterns, CLBP)+梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)、K近鄰算法(k-Nearest Neighbor, KNN)、隨機森林(Random Forest, RF)和支持向量機(Support Vector Machine, SVM)。見表2。

表2 ResNeXt-50與傳統方法分類結果比較
2.2 ResNeXt-50診斷高度近視舉例 從高度近視診斷任務取出不同的分類結果情況,如圖2所示。圖2(a)表示這張圖片真實標簽為患有高度近視,通過ResNeXt模型后預測為高度近視,預測正確;圖2(b)表示這張圖片的真實標簽為患有高度近視,通過模型測試后預測為正常,主要原因是視盤區域的近視弧不明顯,同時其他眼底區域也沒有明顯病變,模型訓練這種病變特征不明顯(對人類來說)的高度近視圖片很難學習有效參數,因為模型訓練是分批次進行的,每一批次有多張圖片,模型訓練的方向要求這批數據的平均損失最小,此類圖片也偏少,因此訓練出來的模型將其預測為正常圖像,導致預測出錯;圖2(c)表示這張圖片的真實標簽為正常,通過模型測試后被預測為高度近視,主要原因是視盤周圍有一層灰白色造影,模型預測時誤將其當成近視弧特征,預測分類時被分為高度近視,在訓練的模型看來,這張圖片提取到的特征向量更加接近高度近視的特征,最終被誤分類為高度近視;圖2(d)表示這張圖片的真實標簽為正常,通過模型測試后被預測為正常,預測正確。

圖2 高度近視和正常眼底預測結果
近些年來,深度學習發展迅速,CNN憑借強大的特征提取能力在醫學影像方面應用非常廣泛,比如糖尿病視網膜病變的分級[3]、青光眼以及白內障的診斷[4-5]、病灶點的檢測[6]和眼底圖像質量評估[7]等。此外,Shin等[8]采用遷移學習完成了間質性肺病(ILD)的分類。Lam等[9]利用GoogLeNet模型遷移學習,在Kaggle數據集上對糖尿病視網膜病變進行分類,敏感度達到了95%,特異度達到了96%。Zago等[10]通過微調CNN模型,在DRIMDB數據集上實現了0.9998的AUC。深度學習可以自動提取圖像的特征,并且將低維特征轉化為高維特征,而傳統的特征提取方法需要手工設計特征,比如幾何特征、灰度特征和紋理特征等, 深度學習提取的特征往往比傳統的手工設計的特征描述圖像信息更為準確。
本研究使用了深度學習網絡ResNeXt-50,實現了高度近視眼底的自動診斷,取得了較好的分類結果,具有較高的實時性,滿足了計算機輔助診斷的要求,同時可以大幅提高診斷效率,在臨床上具有重要意義。特別是在一些大型體檢中心,進行大規模體檢時,只要有眼底相機和接受過簡單培訓的工作人員,借助此技術,即使缺乏專業眼科醫生,也能快速診斷出高度近視,節省大量人力。總之,使用深度學習來研究高度近視病變的研究較為少見,本研究提出的方法可以用于高度近視眼底的篩查,提高診斷效率,減輕醫生的負擔,輔助醫生進行診斷,同時也在高度近視眼底圖像分類方向的工作中做了一點新的嘗試。