何 楷,吳茂念,鄭 博,楊衛華,朱紹軍,金 玲
翼狀胬肉(pterygium)是結膜組織的一種慢性炎癥增生性疾病,是眼科常見病和多發病[1],病變較大時會限制眼球運動,甚至導致失明。全球翼狀胬肉的患病率約為12%,中國40歲以上人群翼狀胬肉的患病率約為13.4%,中國將近有1.09億人患有翼狀胬肉[2],以漁民、農民等經常暴露在紫外線下的戶外工作者最多[3-6]。翼狀胬肉患者大多生活在農村,經濟困難,長期以來很少受到人們的關注,且農村地區醫療設備短缺,專業醫生少,人工診斷篩查工作量大[7]。
隨著人工智能(artificial intelligence,AI)技術的進步和眼科人工智能的發展,為眼科學的快速發展提供了可能。當前已有人工智能診斷系統應用于臨床輔助診斷[8-11],可快速獲取初步診斷結果,節省醫生時間,提高診斷效率。目前使用深度學習技術對翼狀胬肉的自動分類研究較少[12-19],主要基于翼狀胬肉與非翼狀胬肉的自動二分類,Zaki等提出的最好深度學習二分類模型,其準確率達99.22%,但并沒有進一步的翼狀胬肉分級研究[19]。本研究基于臨床采集的翼狀胬肉正常、觀察期、手術期眼前節圖像三個類別數據,使用深度學習技術,分別訓練VGG16、AlexNet、ResNet18、MobileNetV2、EfficientNetB0、EfficientNetB4和EfficientNetB7神經網絡分類模型,確定最好模型,實現翼狀胬肉自動三分類系統,輔助醫生篩查診斷,減輕工作量,為翼狀胬肉疾病細化分級研究提供參考。
1.1對象本研究中使用的翼狀胬肉彩色眼前節圖片數據集,均來源于2020-05/2021-04南京醫科大學附屬眼科醫院通過裂隙燈數字顯微鏡照相獲得,共計750張分辨率為5184×3456、格式為JPG的RGB彩色眼前節圖片,其中翼狀胬肉正常眼前節圖片250張,觀察期眼前節圖片250張,手術期眼前節圖片250張,所有圖片都經過南京醫科大學附屬眼科醫院眼科2名經驗豐富的眼科醫生交叉閱片確認,當2名醫生意見不一致時經第3名高級眼科專家判定。所有圖片都已做脫敏處理,不包含任何患者隱私信息。本研究經醫院倫理委員會審批通過。
1.2方法
1.2.1數據預處理圖片的預處理方法主要包括數據增強和數據標準化。
1.2.1.1數據增強本試驗數據集數量有限,為防止試驗結果差,使訓練生成的模型泛化能力好,故對原始數據集進行增強。采取的數據增強方法為:(1)對原始翼狀胬肉彩色眼前節圖片進行水平翻轉;(2)對原圖和水平翻轉圖片分別旋轉-3°和3°;(3)產生出6倍的數據增強效果,見圖1。

圖1 翼狀胬肉數據集擴增方法圖。
1.2.1.2數據標準化翼狀胬肉眼前節圖片是由RGB色彩通道構成,其圖像特征是由3個范圍在[0,255]的像素值組成,特征值之間數據差異過大會影響模型的訓練效果。標準化是指利用線性變換將各特征值縮放到相應區間的一種方法。本試驗采用了遷移學習算法,所以采用的預處理方法要與PyTorch深度學習框架中預訓練模型所使用的方法一致,將圖片中的像素值標準化到[-1,1]范圍內,這樣可以保證所有的圖像數據分布更集中,在訓練的時候更容易收斂,便于加速訓練過程。
1.2.2數據劃分本試驗首先對三種類別各250張翼狀胬肉眼前節圖片按9∶1比例劃分為試驗訓練集(225張)和驗證集(25張),然后對劃分的訓練集做數據增強,每類別擴增為原來的6倍(1350張),最終,原始數據被劃分為:訓練集共675張,驗證集共75張,共計750張。增強數據被劃分為:訓練集共4050張,驗證集共75張,共計4125張,見表1。

表1 試驗數據集劃分 張
1.2.3模型訓練由于本試驗訓練數據量少,若直接訓練分類模型,會出現分類準確率低和過擬合問題。所以本研究采用遷移學習,一種將某個領域或任務上學習到的知識或模式應用到不同但相關的領域或問題中的方法,能在提升準確率同時減少模型訓練時間。
本研究分別在原始數據集和增強數據集上,使用遷移學習方法。選擇加載在ImageNet大數據集完成分類任務的預訓練模型VGG16、AlexNet、ResNet18、MobileNetV2、EfficientNetB0、EfficientNetB4和EfficientNetB7,其模型簡單結構如圖2所示,固定預訓練模型卷積層參數,使用SGD優化算法,經過多次數據迭代,重新訓練新分類器參數來獲得翼狀胬肉三分類模型。為了檢測模型效果,我們從臨床獲取了189張正常圖片,171張觀察期圖片和110張手術期圖片,共計470張進行測試,對比兩種數據集上訓練的14個模型測試結果,最終確定可用于自動分類系統的模型。為了降低因隨機劃分數據,導致結果的偶然性,本試驗設置不同隨機劃分參數,進行了多次試驗,可保證構建模型的穩定性。

圖2 本試驗使用的深度學習網絡模型簡單結構圖。
1.2.4試驗條件本試驗使用的硬件配置為Intel(R) Xeon(R) Gold 5118CPU,主頻為2.30GHz,Tesla V100顯卡,32GB顯存,操作系統為Ubuntu18.04,深度學習框架為PyTorch,編程語言為Python。
統計學分析:采用SPSS25.0統計學軟件進行統計分析。分別使用靈敏度、特異度、準確率、Kappa值、受試者工作特征曲線曲線(receiver operator characteristic curve,ROC)及ROC曲線下面積(area under curve,AUC)指標來分析模型測試效果。靈敏度越高,漏診率低;特異度越高,誤診率低;Kappa值在61%~80%為顯著一致性,>80%為高度一致性;ROC曲線分析不同模型診斷性能;AUC值在50%~70%認為該指標具有較低診斷價值,70%~85%認為效果一般,>85%認為該指標具有很好的診斷價值。
2.1不同數據集測試結果比較本試驗在原始數據集和增強數據集分別訓練得到翼狀胬肉三分類模型,使用470張臨床眼前節圖像對模型進行測試,結果見表2、3。對比不同數據集的測試結果,增強數據集訓練得到的模型取得更好的結果。準確率:不同模型在數據增強后增長0.5%~3%。Kappa值:不同模型在數據增強后增長0.2%~4%,最高值為91.51%,是在增強數據集上訓練的EfficientNetB7模型結果。靈敏度在數據增強后平均提升3.7%,特異度在數據增強后平均提升1.9%,AUC在數據增強后平均提升2.7%,最大AUC是在增強數據集訓練的EfficientNetB7模型上取得,其平均值為95.46%??傊ㄟ^隨機改變訓練樣本進行數據的增強可以降低模型對某些屬性的依賴,從而提高模型的泛化能力。數據增強讓有限的數據產生更多的數據,增加訓練樣本的數量以及多樣性,可以訓練模型識別更多的圖像特征,訓練得到更好的參數,實現更好的分類效果。
2.2不同模型間測試結果比較對比不同模型測試結果見表2、3。在原始數據集和增強數據集上,EfficientNetB7在靈敏度、特異度、AUC、準確率和Kappa值評價指標上均取得最好結果。在原始數據集上訓練最好EfficientNetB7模型的準確率為93.40%,Kappa值為89.89%,靈敏度平均值為92.55%,特異度平均值為96.86%,AUC平均值為94.70%。在增強數據集上,其準確率為94.47%,Kappa值為91.51%,靈敏度平均值為93.63%,特異度平均值為97.34%,AUC平均值為95.47%,該模型具有很好的診斷價值。根據表3所示,對比不同模型大小和模型參數量,輕量化MobileNetV2模型大小僅為EfficientNetB7模型的1/8,準確率相差2.5%,Kappa值相差3.8%,AUC相差1.7%,該模型也具有很好的診斷和應用價值。EfficientNet不同輸入分辨率模型,整體表現出了很好的測試結果。為了準確輔助醫生診斷,在增強數據集訓練的EfficientNetB7模型具有很好的診斷價值,可以初步用于自動分類診斷系統。

表2 原始數據集上訓練的不同模型測試結果

表3 增強數據集上訓練的不同模型測試結果
翼狀胬肉是常見的眼表疾病之一,不斷增大的翼狀胬肉會導致眼球運動障礙等一系列問題。翼狀胬肉患者多來自于農村基層地區,但目前基層醫院專業眼科醫生少,培養周期長,難以短時間解決當前問題。隨著AI技術在眼科領域的不斷成熟[20-24],智能診斷系統的應用,使用AI技術智能輔助翼狀胬肉診斷可以有效緩解農村地區醫療需求?;谶@樣的出發點,本研究通過訓練自動分類模型,智能輔助眼科醫生完成對翼狀胬肉的初期分類診斷工作,縮短醫生診斷時間,減輕醫生工作量。
本研究中模型判別正常眼前節圖片結果高于判別觀察期和手術期眼前節圖片,其最好的EfficientNetB7模型靈敏度平均高9.6%,特異度平均高3.5%,AUC值平均高6.5%。主要原因是正常眼前節圖片更容易分辨,而觀察期和手術期眼前節圖片相似性強,分辨界限較為模糊。同時本研究試驗訓練數據只有750張,試驗數據量少,模型對樣本數據特征學習少,整體泛化性能稍差。
翼狀胬肉使用深度學習方法實現自動分類研究較少,Zaki等從2018開始發表翼狀胬肉有關分類與檢測文章[14,17,19],2020年最新研究開發的翼狀胬肉二分類輔助篩選平臺,能夠很好識別翼狀胬肉眼前節圖像和正常眼前節圖像,準確率為99.22%、靈敏度為98.45%、特異度為100%、AUC值為100%[19]。將本研究觀察期和手術期圖像歸為翼狀胬肉類,EfficientNetB7模型三分類測試結果通過計算過渡為正常與翼狀胬肉二分類結果后,準確率為99.8%、靈敏度為100%、特異度為99.64%、AUC值為99.80%。
與Zaki等2020年結果想比,本研究準確率和靈敏度更好,特異度和AUC值稍差,整體相差不大。
本研究試驗中EfficientNet系列模型相比其他經典模型取得了更好的三分類測試結果,其中最好的EfficientNetB7模型準確率為94.47%、Kappa值為91.51%、靈敏度平均值為93.63%、特異度平均值為97.34%、AUC平均值為95.47%。EfficientNetB7模型的網絡深度比其他模型更深,能獲取更多的圖像信息,提取更多的特征,可以獲得比其他模型更好的結果。
綜上所述,本研究采用深度學習技術實現了翼狀胬肉自動三分類,通過對在原始數據集和增強數據集上訓練的14個模型測試,結果表明在增強數據集上訓練的EfficientNetB7模型具有較高靈敏度、特異度和AUC,可用于翼狀胬肉自動分類系統。該自動分類系統能較好地診斷翼狀胬肉疾病,有望成為基層醫療的有效篩查工具,為基層地區解決患者多醫療資源少的問題提供一種方案,也為翼狀胬肉的細化分級研究提供參考。