林嘉希,汪盛嘉,趙 鑫,高 欣,殷民月,朱錦舟
1.蘇州大學附屬第一醫院消化內科,蘇州 215006;2.江蘇省蘇州市消化病臨床醫學中心,蘇州 215006;3.蘇州大學附屬第一醫院普外科,蘇州 215006
據《2015 年中國惡性腫瘤流行情況分析》[1]顯示,我國食管癌的發病率位居各類腫瘤第6 位,死亡率位居第4 位,嚴重危害著人民的生命健康。依據病理類型的不同,食管癌被分為食管鱗癌與食管腺癌。在西方,食管腺癌是食管癌的主要病理類型。在我國,隨著人們生活習慣及飲食的西化,食管腺癌的比例亦不斷增加[2]。相關研究[3]顯示,食管腺癌的早期癥狀較為隱匿,確診時患者多處于中晚期,5 年生存率不足20%。當前的臨床研究[4]發現,Barrett 食管被認為是食管腺癌唯一的癌前病變。而這一發現或將對腺癌的早期篩查、生存率的提高及患者預后的改善意義重大。
Barrett 食管是一種食管黏膜的化生改變,以食管正常的鱗狀上皮被含有胃或腸道特征的上皮細胞的柱狀上皮所取代為特征。當前,對Barrett 食管的篩查主要依賴于消化內鏡檢查;通常情況下,正常的食管鱗狀上皮和胃柱狀上皮交界線與胃食管結合部重疊,而Barrett 食管則表現為鱗狀上皮和柱狀上皮的交界線較胃食管結合部上移≥1 cm[5]。近年來,隨著內鏡技術和設備的不斷發展,放大內鏡、激光共聚焦內鏡、自發熒光成像、窄帶成像和化學染色內鏡等的運用,Barrett 食管內鏡下檢出率有了顯著提高[6]。但其診斷的準確性依然受操作者經驗與技能差異的影響[4,7]。
基于此,本研究收集蘇州大學附屬第一醫院消化內鏡中心及HyperKvasir數據庫[8]中的正常食管圖片與Barrett 食管圖片,通過于ImageNet 數據庫預訓練的4 種深度卷積神經網絡Xception、NASNet Large(NASNetL)、ResNet50V2 (ResNet) 及BigTransfer(BiT),對內鏡圖片進行遷移學習,以建立Barrett 食管內鏡圖片分類模型,旨在提高內鏡的診斷準確性,輔助食管疾患的臨床診斷。
本研究為回顧性分析,共收集內鏡下食管圖片806張(正常食管圖片412張、Barrett食管圖片394張)。其中,來自蘇州大學附屬第一醫院消化內鏡中心411 張,包括正常食管圖片142 張、Barrett 食管圖片269 張;來自HyperKvasir 數據庫395 張,包括正常食管圖片270張、Barrett食管圖片125張。
依據內鏡下食管病變情況、結合患者病理活檢報告,由3位高年資醫師(即擁有15年及以上內鏡診療經驗的主任醫師)遵照指南[5]對蘇州大學附屬第一醫院內鏡中心411 張圖片完成分類標注,標注標簽為Barrett 食管以及正常食管;同時,我們根據HyperKvasir數據庫提供的分類標簽,對其395張圖片完成分類標注。
而后,對納入的806 張圖片進行預處理,具體如下:①將圖片統一至331×331 像素,以RGB 三通道形式保存,輸入格式為[331,331,3]。②對圖片統一行歸一化操作。③圖片進行增強處理,方式包括圖片旋轉、圖片翻折、圖片對比度改變。經上述處理后,隨機將806 張圖片分為訓練集(85%)與驗證集(15%)。
本研究采用遷移學習中的特征提取策略,構建基于深度卷積神經網絡的Barrett 食管內鏡圖片分類模型。模型構建及訓練流程如下:①選取遷移學習所用的深度卷積神經網絡模型。即Xception、NASNetL、ResNet 及BiT 共4 種[9-12]。②載入預訓練權重。即載入4種模型各自于ImageNet數據庫中預訓練所得網絡權重,作為初始化模型參數(預訓練模型參數權重由Keras 提供)。③模型架構修改。刪去本研究所用的4 個模型初始全連接層,將網絡其余部分作為特征提取層。于特征提取層后添加適用于Barrett食管圖片分類任務的全連接層,具體操作為對4 個網絡統一添加3 個全連接層(第1~3 全連接層節點數量分別為1 024、512、2)。同時,由于此次任務為二分類任務(即圖片分類任務目標為鑒別Barrett 食管與正常食管),設定Sigmoid 激活層作為最終輸出層,從而實現對正常食管與Barrett食管的圖片分類任務。④設定反向傳播策略。由于本研究采用特征提取策略,需固定4 個模型的特征提取層參數,使其不參與網絡反向傳播。設定模型的全連接層及輸出層參與參數反向傳播,進行模型的參數更新。⑤設置模型訓練超參數及優化策略。通過讀取訓練集中經預處理的圖片,對模型進行訓練。訓練時,模型的部分超參數及優化策略如下:模型學習率為0.001,每批圖像處理數量為16,訓練輪次為30,優化算法為SDG 算法。為防止Barrett食管內鏡圖片分類模型過度擬合訓練集數據從而導致其泛化能力較差,本研究采用早期停止策略,即訓練時若模型連續3 個訓練輪次的誤差均未下降,需停止訓練。本研究采用的深度卷積神經網絡基于TensorFlow2.7框架。Barrett食管內鏡圖片分類模型的遷移學習示意圖詳見圖1,即分為上、下共2個部分:上部為深度卷積神經網絡于ImageNet 數據庫中的預訓練過程,下部為深度卷積神經網絡針對Barrett食管內鏡圖片分類模型的訓練過程;另,中間豎直箭頭表示,在遷移學習過程中針對模型各個層次架構(特征提取層與輸出層)的具體修改方式。
深度卷積神經網絡具有“黑盒”性質,即網絡雖具有較高準確性,但其內部工作機制卻難以解釋。本研究采用梯度加權分類激活映射(gradient-weighted class activation mapping,Grad-CAM)算法,通過獲取內鏡圖片于模型輸出層與特征提取層的相對梯度差,表征出最后特征提取層輸出各點位對模型決策的重要程度,以此建立類激活熱力圖。而后,將類激活熱力圖與初始內鏡圖片相疊加,從而對模型分類結果進行可視化解釋。
運用驗證集數據,對上述獲得的4 個Barrett食管內鏡圖片分類模型的分類能力進行評價;同時,高年資醫師和低年資醫師(即擁有5 年及以上內鏡診療經驗的主治醫師)亦參與對驗證集數據的分類分析,以進一步評價分類模型的分類能力。各個模型及高、低年資醫師對驗證集數據的分類結果,以混淆矩陣(confusion matrix)形式呈現。混淆矩陣包含以下內容:真陽性(true positive,TP)、假陽性(false positive,FP)、真陰性(true negative,TN)、假陰性(false negative,FN)。各個模型及高、低年資醫師的分類結果采用以下評價指標:準確性(accuracy)、召回率(recall)、精確性(precision)、F1 值(F1-score)及曲線下面積(area under the curve,AUC)。此外,采用卡帕系數(Kappa coefficient)評價各個模型及高、低年資醫師之間的分類一致性,當卡帕系數>0.600時被認為擁有較好的分類一致性。
將已構建完成的4 個Barrett食管內鏡圖片分類模型于驗證集數據中進行分類能力評價。結果發現,各模型均擁有較高的分類準確性,平均分類準確性為0.852;且均具有較高的分類精確性,平均分類精確性為0.846。與其余3 種模型相比,NASNetL 模型擁有最高的分類準確性(0.873) 和分類精確性(0.867),為表現最優模型。各模型分類情況混淆矩陣及具體評價指標見表1。
于驗證集數據中,高、低年資內鏡醫師均表現出較好的分類能力,其平均分類準確性為0.868、平均分類精確性為0.860,且其平均分類能力均優于上述4 個模型的平均分類能力。內鏡醫師分類情況混淆矩陣及具體評價指標見表2。

表2 高、低年資醫師在驗證集中的分類能力分析Tab 2 Analysis of classification ability of the senior and junior physicians in the validation set
通過將Barrett食管內鏡圖片分類模型與不同年資醫師在驗證集數據中的分類結果進行比較,我們發現最優模型NASNetL 對Barrett 食管內鏡圖片擁有近似于高年資醫師的分類能力,即該模型的分類準確性(0.873)略低于高年資醫師分(0.881),而高于低年資醫師(0.855);且其分類精確性(0.867)亦略低于高年資醫師(0.869),而高于低年資醫師(0.850)。而后,一致性檢驗結果(表3)顯示,NASNetL 模型與高年資醫師(Kappa=0.712,P=0.000),低年資醫師(Kappa=0.695,P=0.000)均擁有較好的分類一致性。

表3 Barrett食管內鏡圖片分類模型與高、低年資醫師于驗證集中的分類結果的一致性檢驗Tab 3 Consistency test of classification results between of endoscopic image classification models of Barrett's esophagus with senior and junior physicians in the validation set
本研究采用Grad-CAM 算法,將Barrett食管內鏡圖片與類激活熱力圖結合生成熱力圖,對模型的分類結果進行可視化解釋。結果(圖2)顯示,圖中的高亮部分(紅色區域)為模型進行圖片分類判斷時采納權重較高的區域,即模型認定的病變區域;其余淺色部分(淺藍色區域)為采納權重較低的區域,即被判斷為正常區域。因此,通過觀察熱力圖中不同顏色的分布,即可了解Barrett食管大致病變范圍,從而實現模型分類結果的可視化解釋。

圖2 Barrett食管內鏡圖片分類模型的可視化解釋Fig 2 Visual interpretation of endoscopic image classification models of Barrett's esophagus
近些年,伴隨深度學習的不斷發展,深度卷積神經網絡技術已逐漸被應用于Barrett 食管診斷領域。HONG 等[13]收集236 張Barrett 食管放大內鏡圖片,利用深度卷積神經網絡構建Barrett 食管病理分型模型,該模型的準確性達0.81。DE GROOF 等[14]利用494 364 張標記的內鏡下食管圖像,通過Residual-UNet 構建了Barrett 食管瘤變分類模型,結果顯示該模型診斷的敏感性與特異性分別達0.90與0.88。但目前,使用深度卷積神經網絡進行遷移學習、構建Barrett食管與正常食管分類模型的研究,在國內外鮮有報道。
在深度卷積神經網絡構建的過程中,針對小樣本數據,遷移學習已被廣泛應用。自2012 年,AlexNet獲得了ImageNet 競賽冠軍后,卷積神經網絡成為了計算機視覺研究的熱點[15]。得益于大規模標注數據集的產生和卷積神經網絡架構的不斷更新,卷積神經網絡逐漸成為深度學習處理圖像問題的主要算法[16]。但目前在醫學領域,我們尚缺乏類似ImageNet 數據庫的大規模標注數據集,從而阻礙了卷積神經網絡在臨床圖像方面的應用。針對臨床標注圖像數據集數量較少這一問題,遷移學習可于其他領域的大規模標注數據集上完成對深度卷積神經網絡的預訓練,并將預訓練網絡遷移至小規模臨床數據集,使得僅通過小規模數據訓練的網絡具有較強的魯棒性及泛化能力。SAMALA 等[17]利用4 039 張數字乳腺斷層合成圖像(Digital Breast Tomosynthesis,DBT),建立了基于不同訓練樣本量的遷移學習的乳腺良惡性腫塊深度卷積神經網絡分類模型,并比較模型間的分類能力;研究證實,當使用小樣本量數據進行遷移學習時,深度卷積神經網絡具有較好的分類能力,繼而表明遷移學習適用于構建小樣本數據的深度卷積神經網絡模型。
在本研究中,樣本數據量的納入相對較少,若采用傳統的從零訓練的卷積神經網絡,勢必會導致模型欠擬合,從而影響模型對Barrett 食管內鏡圖片的判斷。因此,我們選擇經ImageNet 數據集預訓練過的卷積神經網絡(Xception,NASNetL,ResNet及BiT)作為初始網絡,以實現利用小樣本數據構建診斷模型的目的。
本研究尚存在一定的不足:①研究樣本量偏少。依靠遷移學習,我們利用小樣本量數據建立了具有較高準確性的分類模型,但隨樣本數量的增加,分類模型的性能仍可提升。后期,我們需積累更多來源的樣本,以進一步提高分類模型的準確性。②網絡架構相對滯后。除深度卷積神經網絡外,Transformer 這一新架構也逐漸被應用于計算機視覺且表現優異。本研究未納入基于Transformer 架構的圖片分類模型,后續研究可對此架構進行探索。
綜上,本研究收集了蘇州大學附屬第一醫院消化內鏡中心及挪威HyperKvasir 數據庫的內鏡下食管圖片,利用經ImageNet 數據庫預訓練的Xception、NASNetL、ResNet和BiT深度卷積神經網絡進行遷移學習,建立了Barrett食管內鏡圖片分類模型。研究發現,在建立的4個模型中,NASNetL模型的分類能力與高年資醫師相仿,且通過Grad-CAM 算法對模型分類結果進行了可視化解釋。本研究利用遷移學習,建立了針對Barrett 食管與正常食管內鏡圖片的分類模型,并驗證了使用小樣本數據進行醫學遷移學習、建立分類模型的可行性。該模型有助于內鏡醫師提高Barrett食管的檢出率及準確性,或將為臨床Barrett食管診斷帶來便利。
利益沖突聲明/Conflict of Interests
所有作者聲明不存在利益沖突。
All authors disclose no relevant conflict of interests.
倫理批準和知情同意/Ethics Approval and Patient Consent
本研究已通過蘇州大學附屬第一醫院科學倫理委員會的審核批準(文件號105)。所有研究過程均遵照《涉及人的生物醫學研究倫理審查辦法》的條例進行。受試對象或其親屬已經簽署知情同意書。
All experimental protocols in this study were reviewed and approved by the scientific ethics committee of the First Affiliated Hospital of Soochow University,(Approval Letter No.105, data 30/3/2022),and all experimental protocols were carried out by following the guidelines ofMeasures for the Ethical Review of Biomedical Research Involving Humans. Consent letters have been signed by the research participants or their relatives.
作者貢獻/Authors'Contributions
朱錦舟、趙鑫參與了研究設計;林嘉希、汪盛嘉、高欣、殷明月參與了論文的寫作和修改。所有作者均閱讀并同意了最終稿件的提交。
The study was designed by ZHU Jinzhou and ZHAO Xin. The manuscript was drafted and revised by LIN Jiaxi, WANG Shenjia,GAO Xin and YIN Minyue.All the authors have read the last version of paper and consented for submission.
·Received:2022-01-17
·Accepted:2022-03-25
·Published online:2022-05-07