張祖輝,于新新,林曉蕾,傅亞娜,戴 琦
隨著現代人工智能(artificial intelligence, AI)技術的高速發展,AI圖像自動識別技術在不同領域的實踐和應用已逐漸開展,醫學領域也不例外,AI圖像識別技術在眼科中的應用日趨成熟[6]。基于CNN的AI系統可以克服前述人工標注的問題,具有速度快、準確率高、重復性好的優勢,已廣泛應用于人臉識別、文字識別、圖像檢索等多個領域[7-8],對于物體識別、圖片分類的準確率可以接近甚至優于人工分析方式[9-10],且成本大幅降低,是目前醫學診斷當中最火熱和最具有前景的發展方向。
本文擬探討以基于卷積神經網絡(convolutional neural network, CNN)的AI模型構建的圖像識別系統應用于瞼板腺紅外照相圖片處理。借助AI的運算能力優勢,快速準確地識別出瞼板腺的腺體。同時在AI的輔助下,提出全新的瞼板腺萎縮形態定量指標——瞼板腺密度(MG density)并驗證其有效性。
1.1對象研究對象選取2021-01/11在溫州醫科大學附屬眼視光醫院杭州院區就診的145名受試者,研究選取受試者的右眼。其中60名為隨機選擇,收集其瞼板腺照相用于AI訓練。另招募85名受試者,包括阻塞性MGD患者53名和瞼板腺正常的志愿者32名,以AI系統對其進行分析。阻塞性MGD患者均由兩位經驗豐富的眼科醫生根據眼部癥狀、瞼緣異常和瞼板腺評分進行診斷,如果滿足以下3個標準中的任何一個,則患者被診斷為阻塞性MGD:(1)眼部癥狀評分≥3分;(2)瞼緣評分≥2分;和(或)(3)瞼板腺評分≥3分[11]。排除標準:(1)患有眼部疾病或已知影響眼前節解剖結構情況的患者,如有眼部炎癥、眼部手術史、配戴隱形眼鏡和(或)外傷史;(2)有影響瞼板腺功能的全身用藥史的患者;(3)患有任何其他已知會影響淚膜的眼部疾病或全身性疾病者。本研究經溫州醫科大學附屬眼視光醫院醫學倫理委員會審批通過,所有受試者均簽署知情同意書。
1.2方法
1.2.1圖像處理使用眼表分析儀拍攝60名隨機受試者右眼上下眼瞼的瞼板腺圖像作為AI模型訓練。訓練圖像中的瞼板腺均由兩位高級職稱醫師手動標注,取其平均值。
1.2.2AI系統的的建立本研究使用的CNN結構是基于U-Net模型,并借助遷移學習的方法將ImageNet預訓練好的模型和參數應用到我們的U-Net模型中。殘差網絡(ResNet)在圖像分類和目標檢測方面都有非常好的性能。通過改進原生U-Net模型,然后將50層的ResNet(ResNet50)替換U-Net的下采樣部分,上采樣部分保持不變,建立ResNet50_U-Net模型。網絡結構見圖1。
2)“橘子采摘節”,早橘成熟的季節和十一長假相遇,到該地旅游的游客較多,可以根據相應的情況,在采摘園中舉辦一些相關的旅游活動(如橘子DIY制作活動、“橘子采摘活動”),吸引游客的關注度,提高游客的重游率。

圖1 AI模型的網絡結構。
由于原始訓練圖片數據集只有60名受試者,雖然達到了U-net網絡的訓練門檻,但是對于訓練一個深度卷積神經網絡而言數據仍顯不足,因此我們調用了一個功能強大的開源數據增強庫imgaug(https://github.com/aleju/imgaug#citation)來對訓練圖像進行多維增強。在訓練中的每一次迭代均會在受試者上瞼的原始訓練圖像中隨機選取4張,調用imgaug隨機使用算法和參數對輸入圖像進行增強,產生4張新圖片。最終版本的模型在全部訓練中共迭代61440次,產生245760張新圖片作為訓練數據集,數據量完全滿足了訓練一個深度卷積神經網絡的需求。訓練完成后通過改變模型的目標區域提取,瞼板腺分割AI模型無需重新訓練即可應用于下瞼瞼板腺圖像處理。
在模型的計算過程中,所有輸入的圖片都會被縮放到288×896像素的大小,然后輸入到模型中,最終預測的圖片會恢復到原始圖片的大小。因此,如果原始圖像的大小遠遠大于288×896像素,則預測結果圖像中的腺體可能出現鋸齒狀。我們需要對結果圖像進行高斯濾波,以獲得更平滑的腺體。在得到圖像的預測結果后,再通過OpenCV提供的傳統圖像處理方法提取預測圖像中的每根瞼板腺。提取步驟描述如下:(1)對圖像進行中值濾波;(2)將圖像二值化;(3)在圖像中找到瞼板腺的輪廓。如果兩個等高線之間的垂直距離很小,則認為這些等高線屬于同一個瞼板腺并且是連接在一起的。瞼板腺照相的原始圖像經過圖像預處理增強后,再經ResNet50_U-net預測濾波后得到平緩的瞼板腺腺體。再與手工標注結果做比較(圖2)。
1.2.3瞼板腺功能評價指標
1.2.3.1眼表疾病指數眼表疾病指數(ocular surface disease index,OSDI)[11]:所有受試者均接受OSDI問卷和眼部癥狀問卷調查。
1.2.3.2癥狀評分根據出現的MGD相關的眼部癥狀的數量(眼疲勞、分泌物、異物感、干燥、不適感、黏稠感、疼痛、溢淚、瘙癢、發紅、沉重感、眩光、過度眨眼和瞼板腺囊腫或瞼腺炎),對癥狀從0~14分進行評分,分數越高,說明癥狀越明顯。
1.2.3.3淚河高度淚河高度(tear meniscus height,TMH):使用眼表分析儀測量淚河高度并進行瞼板腺紅外拍照,TMH測量方法采用眨眼5s后測量下眼瞼中央TMH,正常值在0.20mm左右。
1.2.3.4淚膜破裂時間淚膜破裂時間(tear film break-up time,TBUT)和角膜熒光素染色(corneal fluorescein staining,CFS)[12]:滴入熒光素后進行CFS和測定TBUT。TBUT測定3次,取其平均值,正常值為>10s。CFS評分標準如下:在5個區域(中央、顳、鼻、上、下)評估角膜熒光素染色(0個點=0分,1~5個點=1分,6~15個點=2分,16~30個點=3分,>30個點=4分);如果發現融合染色,染料擴散到周圍的上皮或基質,則根據融合區域的數量或角膜絲狀物的存在進行評分(一個融合區域,加1分;兩個或兩個以上融合處,加2分),染色評分范圍為0~20分,分數越高,說明角膜上皮損傷越重。
1.2.3.5瞼緣評分根據黏膜交界處前后移位、血管充盈、瞼板腺孔堵塞、眼瞼邊緣不規則4項參數對眼瞼邊緣異常進行評分,每項評分0~4分,分數越高說明瞼緣異常程度越大。
1.2.3.6瞼板腺分泌能力評分[13]0分:清亮的瞼脂容易排出;1分:輕微壓力下排出混濁的瞼脂;2分:超過中等壓力下才能排出混濁的瞼脂;3分:即使很大的壓力下也無瞼脂排出。瞼板腺檢查器(meibomian gland evaluator, MGE)評估下眼瞼15個腺體分泌物的數量和質量。每個眼瞼瞼板腺分泌能力評分范圍為0~45分,分數越低說明瞼板腺分泌功能越接近正常。
1.2.3.7瞼板腺評分瞼板腺評分(meiboscore)[5]:0分:無萎縮;1分:萎縮面積<1/3瞼板總面積;2分:萎縮面積介于1/3~2/3的總瞼板面積;3分:萎縮的>2/3的瞼板總面積。將上下瞼的瞼板腺評分相加,得到每只眼睛的瞼板腺評分范圍從0到6,分數越高,說明瞼板腺萎縮越嚴重。
1.2.4瞼板腺密度瞼板腺密度(MG density):計算每根瞼板腺的面積(Smg)(以像素為單位),然后用每個瞼板上所有腺體面積總和與瞼板的面積(St)做對比,公式如下:

本文采用IoU這一指標對瞼板腺識別模型的準確率進行評價,最終,經過4h的訓練,在同一份訓練和原始驗證樣本中,IoU提升到了92%,訓練完成。系統重復率達到100%,并且效率極高,在使用gtx1070 8G的GPU的情況下,分析一張瞼板腺圖像僅僅需要100ms。將85名受試者的85只右眼納入AI自動分析研究。MGD患者及正常組的臨床參數比較見表1。經年齡校正后的MGD組患者的MGD相關癥狀評分明顯高于正常組,差異有統計學意義(P<0.001),OSDI評分明顯高于正常組,差異有統計學意義(P<0.001)。MGD組TBUT明顯低于正常組,差異有統計學意義(P<0.001)。與正常組相比,MGD組患者CFS實際參數值分布較高,但兩組中位數都是0(0,0),然而矯正年齡之后,差異有統計學意義(P=0.021)。瞼板腺狀態,包括瞼緣評分、瞼板腺分泌能力評分和瞼板腺評分,在MGD患者中明顯比正常組更嚴重,差異均有統計學意義(均P<0.001)。兩組受試者上眼瞼、下眼瞼和總眼瞼的瞼板腺密度和瞼板腺評分比較,差異均有統計學意義(均P<0.001)。對于人眼難以區分的更復雜的圖片,該模型顯示出優秀的識別能力,見圖2,表2。研究結果表明,上眼瞼的瞼板腺密度與OSDI(rs=-0.320,P=0.003)、TBUT(rs=0.484,P<0.001)、瞼緣評分(rs=-0.350,P=0.001)、瞼板腺評分(rs=-0.749,P<0.001)和瞼板腺分泌能力評分(rs=0.425,P<0.001)顯著相關。下眼瞼的瞼板腺密度與OSDI(rs=-0.420,P<0.001)、TBUT(rs=0.598,P<0.001)、瞼緣評分(rs=-0.396,P<0.001)、瞼板腺評分(rs=-0.720,P<0.001)和瞼板腺分泌能力評分(rs=0.438,P<0.001)顯著相關。總眼瞼的瞼板腺密度與OSDI(rs=-0.404,P<0.001)、TBUT(rs=0.601,P<0.001)、瞼緣評分(rs=-0.416,P<0.001)、瞼板腺評分(rs=-0.805,P<0.001)和瞼板腺分泌能力評分(rs=0.480,P<0.001)顯著相關。其中上眼瞼的瞼板腺密度(rs= -0.749)、下眼瞼的瞼板腺密度(rs=-0.720)及總眼瞼的瞼板腺密度(rs=-0.805)與瞼板腺評分呈顯著的負相關(均P<0.001),見圖3。

圖2 瞼板腺照相的原始圖像經過圖像預處理增強后,再經ResNet50_U-net預測濾波后得到平緩的瞼板腺腺體與手工標注結果比較 A、D:原始圖片;B、E:手工標注腺體(綠色部分);C、F:機器標注腺體(黃色部分)。

表1 兩組受試者臨床參數比較

表2 兩組受試者瞼板腺密度與瞼板腺評分比較 M(P25,P75)

圖3 瞼板腺密度與瞼板腺評分相關性 A:上眼瞼瞼板腺密度與上眼瞼瞼板腺評分的相關性;B:下眼瞼瞼板腺密度與下眼瞼瞼板腺評分的相關性;C:總眼瞼瞼板腺密度與總眼瞼瞼板腺評分的相關性。
目前,由于現有醫療資源在人力、物力方面等因素限制,我國MGD診斷仍存在部分醫師診療水平較低、估算粗略片面等問題,不利于MGD和干眼診療精細化和規范化的開展[14]。基層眼科醫生需要一種簡單方便、高效快捷、分析成本低,社會效益高的干眼和MGD相關指標的標準化評估方法。
其中的重要指標之一是瞼板腺形態分析[4,15-16]。本研究通過提出全新的瞼板腺形態定量評價指標——瞼板腺密度,比較正常組和MGD組瞼板腺密度的差異。結果顯示,MGD組患者瞼板腺密度較正常組明顯減小。與之前的研究[17-19]相似,本研究中AI系統顯示瞼板腺萎縮程度與OSDI、眼表癥狀、淚膜穩定性、瞼緣評分和瞼板腺分泌能力均相關,說明瞼板腺形態與功能存在密切聯系。與以往的研究[5,20-22]不同,本研究中AI系統能夠準確地得到瞼板腺的缺失面積,獲得瞼板腺密度這一連續性的定量指標,減少了由于瞼板腺評分這一定性分級指標在分級過渡區附近的誤差而導致的分級系統的不一致性和可變性。瞼板腺密度與瞼板腺評分高度線性相關,且AI系統分析得到的瞼板腺密度與OSDI、眼表癥狀、淚膜穩定性、瞼緣評分和瞼板腺分泌能力均相關,說明瞼板腺密度可以代替瞼板腺評分作為MGD診斷的有效指標。但是,如果想要在人工分析中采用我們的這種瞼板腺分析方法是不現實的,因為這種分析方法需要大量的標注,不可能作為常規的評估指標。但是AI系統的特點恰恰適合這種需要大量分析工作的任務,因此我們的這種瞼板腺分析方法只能在AI的幫助下才能實現并應用于臨床。
本研究通過一個基于CNN的AI系統,達到了使瞼板腺密度指標在臨床工作中實用化的目的。該系統可以自動分析瞼板腺的形態,極大地提高分析的準確性和效率,降低分析的成本,克服了人工標注主觀上的誤差。我們通過三代網絡模型的迭代[23-24],借助遷移學習的方法將ImageNet上預訓練好的模型和參數應用到我們本研究中的第三代模型:ResNet50_U-Net模型中。通過這一方法有效地降低了樣本量的需求,盡管這個研究的樣本數量相對較少,最終對瞼板腺形態提取的準確性仍然較高(IoU=92%,重復性=100%)。目前我們僅使用一張GTX1070 GPU已經可以在100ms內處理一張瞼板腺圖片,隨著算力的提高,使得數萬幅圖像在毫秒內同時完成分析成為可能。我們正在準備更大的訓練數據集來支持更復雜的模型,如ResNet101[10],FCN32[25],SegNet[26]和PSPNet[27],從而進一步提高腺體識別的準確性。
本研究也有局限性。研究中使用的ResNet50_U-net混合網絡,是CNN的一種。CNN傾向于將像素損失最小化。像素損失最小化策略補全矯正了腺體密度這一指標,較人工標注更為準確。但同時也導致靠的比較近的腺體之間無法自動分割,發生了黏連,從而被判斷為一根腺體。這會導致除了瞼板腺密度以外的、跟單根腺體形態有關的如腺體的數量、彎曲度等指標的失實,導致在我們前期研究中已被證實在早期MGD診斷中有效的瞼板腺彎曲度(MG tortuosity)[28]在本研究中失去了作用。如果能夠對算法進一步的發展,增強腺體的分割能力,則瞼板腺形態識別有望獲得更高的準確率。數據增強庫imgaug能夠部分改變原始圖像的大量信息,是可以用于深度學習網絡訓練的,并且大大減輕了標注的工作量。但它仍然無法改變圖片的一些基本信息,比如腺體的個數、密度等,因此不能完全替代全新的標注圖片,未來我們的深度學習模型想要再進一步提升準確率,需要更多的全新圖片進行訓練。此外,本研究的樣本量也較小,未來的研究中,我們團隊將招募更多的受試者來訓練和測試AI系統。
綜上所述,基于CNN的AI系統是一個準確、高效的瞼板腺形態學評價系統,能夠方便地采用我們建立的瞼板腺密度這一指標對MGD患者的瞼板腺形態進行快速準確的評價。瞼板腺密度這一指標比目前通用的瞼板腺評分更精確,是評價瞼板腺萎縮程度的全新定量指標。