石澤璇 付梓龍 劉軍娜 李靚璐 牛瓊
濱州醫學院附屬醫院消化內科,濱州 256603
深度卷積神經網絡(convolution neural network,CNN)是一種機器學習的高級模型,也是圖像學習最熱門的學習算法。CNN不僅能像人的大腦一樣處于不斷學習的狀態,還能對目標圖像進行自動識別、檢測,并對目標圖像進行快速且準確的分析,提高疾病診斷率。該系統具有檢測速度快、檢出率高的特點,可應用于大樣本量的篩查工作,這就為結直腸癌的篩查節省了時間和成本[1]。早期發現結直腸癌前病變可以促進臨床醫生的決策并減少他們的工作量。這可以使用具有內窺鏡和組織學圖像的自動系統來實現。CNN在深度學習模型中克服了模型的過擬合和梯度消失劣勢,然而一套成熟的CNN模型依賴大樣本量的醫療數據訓練并測試。結腸鏡檢查是用于篩查并診斷腸道疾病的強大醫療儀器,可有效早期診斷結直腸癌,可對結腸息肉分類以指導建立最佳診療策略。但是,其診斷準確性卻難以得到保證,因為結腸鏡檢查中存在幾項無法規避的局限性:第一,該檢查手段誤診率較高;第二,一些腫瘤性病變難以發現,即使是內窺鏡專家也不例外;第三,在人口眾多的城市及三甲醫院,這項工作使內窺鏡醫生面臨高耗時、高勞動量及高精神專注度挑戰;第四,腺瘤檢測率很大程度上取決于內窺鏡醫生的工作經驗。
深度學習(deep learning,DL),特別是CNN,是一種基于人腦視覺皮層處理和識別圖像的原理的深度神經網絡。CNN包含多層感知器(人工神經元),旨在使用最少的預處理。CNN利用多個網絡層(連續卷積層后跟池化層)從圖像中提取關鍵特征,并通過完全連接的層作為輸出提供最終分類。CNN能夠從醫學圖像大數據中自動學習提取隱含的疾病診斷特征;從輸入數據中提取特征的卷積層由提取特征的濾波器和將濾波器的值轉換為非線性值;由于輸入值中有許多特征,所以CNN中使用了多個篩選器;提取不同特征的多個過濾器的組合可以應用于CNN以確定原始數據的特征;過濾器是在通過從學習數據中學習來識別特征后自動創建的;通過過濾器提取特征圖后,將應用激活函數使定量值非線性(是或否值)。近幾年,CNN已迅速成為醫學圖像分析研究熱點。基于醫學圖像的診斷,如病理學、放射學和內窺鏡檢查,預計將成為醫學領域第一個受到人工智能影響的診斷[2]。在胃腸鏡檢查中,深層模型正在利用病變的形狀和邊緣信息進行預測。DL有望通過自動檢測和分類病變來幫助內窺鏡醫生提供更準確的診斷。因此,內窺鏡醫生必須專注于這項新技術。基于CNN技術的結腸鏡檢查為醫療行業的發展提供了新思路并且已在多個腸道內窺鏡領域中應用。
CNN即專門適用于圖像數據的深度神經網絡已被用于對多種類型腫瘤的分類或定位中。CNN模型篩查結直腸病變基于白光、放大內窺鏡和亞甲藍、靛胭脂等染色劑處理后的色素內鏡及電子染色的內鏡圖片和視頻訓練模型,通常會用2種甚至2種以上內鏡圖片訓練以提高模型的準確性或適用性。臨床上約80%的結直腸息肉為腺瘤。腺瘤發現率是間歇結直腸癌的獨立預測指標[3]。計算機輔助診斷結腸息肉及腺瘤主要包括結腸鏡下息肉的自動識別及實時顯示息肉存在的位置、大小、數量等特征,內鏡下行息肉組織學分類,實現精準光學診斷[4]。術語“光學診斷”指的是使用先進的成像技術進行實時的、活體的息肉特征觀察和評估,以指導治療決策。
Byrne等[5]開發了一個人工智能模型,用于實時評估結直腸息肉的內窺鏡視頻圖像;采用CNN模型:訓練集,使用223個息肉視頻(29% NICE類型1,53% NICE類型2和18%沒有息肉的正常黏膜),包括60 089幀;驗證集,使用40個視頻(NICE類型1、2和2個正常黏膜的視頻),最終的測試集包括125個連續識別的微小息肉,其中包括51個增生性息肉和74個腺瘤;腺瘤的診斷靈敏度為98%(95%置信區間92%~100%),特異度為83%(95%置信區間67%~93%),陰性預測值97%,陽性預測值90%。
Wang等[6]開展了一項前瞻性隨機對照試驗,基于DL的息肉實時自動監測系統表現出高準確性、保真度和穩定性;研究表明,在腺瘤發現率較低的地區,基于DL的實時計算機輔助監測系統顯著提高了結直腸息肉和腺瘤的檢出率。目前,計算機輔助診斷系統有可能應用于臨床實踐,以更好地檢測結腸息肉。
Yang等[7]開發并驗證了DL模型;該模型可以在白光結腸鏡圖像上自動對大腸病變進行組織學分類;收集有病理結果的大腸病變的白色結腸鏡圖像,共收集1 339例患者的影像資料3 828張,訓練了2個卷積神經網絡模型,對7類和4類分類的平均準確率在外部驗證數據集中分別為74.7%和79.2%;在外部驗證中,ResNet-152模型在4類分類方面優于2名內窺鏡醫生,并且與表現最差的內窺鏡醫生相比,在檢測管狀腺瘤病變方面顯示出更高的曲線下面積(AUC)(0.818);用啟始-Resnet-v2方法檢測高度不典型增生病變的平均AUC,達到0.876;建立的CNN模型在基于標準白光結腸鏡圖像將結直腸腫瘤從非腫瘤性病變分類為晚期結直腸癌方面表現出良好的性能。該模型可以被用來輔助組織學的準確預測和在實踐中選擇最佳的治療策略。
對微小息肉的準確光學診斷將使其能夠識別直腸乙狀結腸區的增生性息肉,并使內窺鏡醫生能夠自信地采取“診斷并離開”的方法,而不是切除病變。同樣,對于小腺瘤,準確的光學診斷將促使內窺鏡醫生就地切除病變并丟棄標本,而不需要進行組織學評估(“ 切除并丟棄”策略)。因此,基于計算機輔助監測系統預測息肉病理類型在未來臨床工作中有望成為可能,息肉病理準確預測仍是臨床上的一項重要挑戰。
全結腸鏡檢查對結直腸癌、大腸息肉、炎癥性腸病等疾病的診斷具有很高的靈敏度和特異度。大腸疾病的臨床特點因解剖部位不同而不同。最近的幾項研究指出,根據流行病學、預后和化療的臨床結果,右側和左側的癌之間存在差異[8-12]。因此,結腸鏡檢查能夠準確地確定大腸疾病的解剖位置。結腸鏡檢查的第一步是在檢查過程中識別每個腸道區域的解剖位置。這也是構建計算機輔助監測系統的第一步。該系統可在結腸鏡檢查過程中為我們提供支持,并為結腸鏡檢查過程的質量提供保證。
Saito等[13]構建了一個使用CNN的計算機輔助設計系統;該模型通過訓練409例9 995張結腸鏡圖像來構建CNN,并使用5 121張獨立的結腸鏡圖像來測試其性能;這些圖像根據7個解剖位置進行分類:回腸末端、盲腸、升結腸到橫結腸、降結腸到乙狀結腸、直腸、肛門和難以區分的部分;最終構建了一個CNN算法并評估了內窺鏡醫生的診斷與CNN的診斷之間的一致性;構建的系統識別了結腸鏡圖像的解剖位置,AUC如下:回腸末端0.979,盲腸0.940,升結腸至橫結腸0.875,降結腸至乙狀結腸0.846,直腸0.835,肛門0.992。在測試過程中,CNN系統正確識別了66.6%的圖像。此外,由于末端回腸的準確率足夠高,如果我們將其結合到實時結腸鏡檢查中,就能夠構建一個完成全結腸鏡檢查的自動確認系統。因此,我們可以使用計算機輔助診斷系統為未來結腸鏡檢查的發展奠定基礎。
腸道準備質量是影響結腸鏡檢查的重要因素之一。盡管結腸鏡檢查在降低結直腸癌發病率和不算率方面的潛力很大,但結腸鏡檢查的質量和有效性與幾個因素有關。腸道準備就是這樣一個因素。事實上,腸道清潔對于確保結腸黏膜的最佳可視化以及檢測和切除息肉至關重要。腸道準備不足與漏診和手術時間延長有關[14-15]。現已經開發了幾種量表來評估腸道準備。一些學者建議將腸道準備的質量作為結腸鏡檢查報告的一部分進行記錄。清潔質量決定了結腸鏡檢查的質量、難度、速度和完整性。在住院患者和合并癥較多的患者中,清潔質量較低。接受息肉切除術的患者比例隨著清潔質量的提高而增加,而結腸癌檢測似乎并不嚴重依賴于腸道準備的質量。
Zhou等[16]利用CNN開發了一個每30 s提供1次腸道準備評分并顯示結腸鏡檢查退出階段每個評分的累積幀比的名為ENDOANGEL的新系統;該系統在人機競賽中以93.33%的準確率優于所有內窺鏡專家;在帶有氣泡的圖像中達到了80.00%的準確率;在20個結腸鏡視頻中,準確率為89.04%。這為我們提供了一種新穎且更準確的腸道準備評估方法。這種客觀、穩定的系統——ENDOANGEL可以在臨床中可靠、穩定地應用。
Zhou等[17]基于波士頓腸道準備量表(Boston Intestinal Preparation Scale,BBPS)開展了一項前瞻性觀察性研究;該研究納入3個月內616例接受結腸鏡篩查的患者,結果顯示,e-BBPS分數與腺瘤發現率之間存在顯著的負相關(r=-0.976,P<0.010);e-BBPS得分1~8的腺瘤發現率分別為28.57%、28.68%、26.79%、19.19%、17.57%、17.07%、14.81%和0;確定e-BBPS評分3分作為閾值,以保證腺瘤發現率超過25%,從而實現高質量的內窺鏡檢查。e-BBPS系統有可能為充分腸道準備的量化提供更客觀和精細的閾值。
結腸鏡作為一種操作者依賴性檢查,受內鏡醫師的主觀意識影響較大,檢查過程中內鏡醫師的操作質量對腺瘤發現率起關鍵作用[18]。內鏡醫師對腺瘤的重視程度和操作水平參差不齊。即使是三甲醫院,也存在因腸道準備差、內鏡檢查人數多、檢查時間過快、初級內鏡醫師對放大染色內鏡圖像判別能力欠佳、內鏡醫師圖像觀察專注水平隨疲勞程度增加而下降等問題導致漏診。如何提高結直腸腺瘤發現率已經成為各級醫院消化內鏡中心最關注的問題之一。結腸鏡退鏡過程中的檢查時間、腸道清潔度、檢查完整度均可影響結直腸腺瘤檢出[19]。基于標準操作流程的質量控制可降低操作者間的差異,提高結腸鏡檢查質量,從而提高結直腸腺瘤檢出率[20]。
Wang等[21]通過結腸鏡檢查時闌尾口的出現證實結腸鏡完全穿越全部結腸,從而作為評估結腸鏡檢查完整率的指標;首先,通過提取闌尾孔圖像中新的局部特征,新特征基于沿邊的橫截面的幾何形狀、照明差異和強度變化;然后通過顯示至少3 s闌尾孔檢查的附錄視頻來表明闌尾口的良好可視化,再利用近相機停留檢測來填補缺失的邊緣欠清晰的闌尾孔圖像,并剔除一些錯誤的分類,從而識別闌尾口并將其作為評估結腸鏡檢查完整率的指標;研究結果中監測新月形闌尾孔圖像的平均靈敏度和特異度分別為96.86%和90.47%。
Su等[22]創建了一種基于CNN模型的實時自動質量控制系統以降低內窺鏡醫師檢查時間和水平上的波動性,以此來穩定結腸鏡檢查的常規質量控制;與對照組相比,實時自動質量控制系統組實時自動質量控制系統腺瘤發現率(0.289比 0.165,P<0.001)、每次手術的平均腺瘤數量(0.367比0.178,P<0.001)、息肉檢出率(0.383比0.254,P<0.001)和每次手術檢測到的息肉平均數量(0.575比0.305,P<0.001)均較高;此外,實時自動質量控制系統組退出時間(7.03 min比5.68 min,P<0.001)和充分腸道準備率(87.34%比80.63%,P=0.023)均優于對照組;這項研究表明,實時自動質量控制系統可顯著提高息肉和腺瘤的檢測能力,提高結腸鏡檢查的質量。
隨著最近人工智能的發展,在醫學的各個領域以及胃腸病學中,已經實現了對醫學圖像上的疾病的自動診斷或分類。有些在結腸鏡檢查領域取得了很好的性能,不僅用于檢測大腸息肉[23],而且還用于大腸息肉的分類[24-25]。然而,大多數研究集中于使用放大窄帶內鏡或內窺鏡檢查的特定圖像來區分腫瘤性和非腫瘤性病變[26],這限制了其實際應用。近10余年來CNN技術廣泛應用于腸道檢查的各個環節,但尚缺乏真正投入臨床使用的臨床試驗,例如目前的研究多為回顧性研究,而回顧性研究學習材料的來源渠道通常較單一且多為靜態有傾向性的高質量內鏡圖像。人工智能走向未來臨床實時應用需優化的內容:⑴內鏡圖像選擇偏倚,導致回顧性研究結果往往優于臨床操作實際結果;⑵圖像數據集臨床實時應用具有一定的片面性和局限性,不能涵蓋病變所有形態特征,而視頻集的應用能較好解決上述問題;⑶內鏡檢查過程中的視頻一般包含相對數量低清晰度的真實圖片,這是單純篩選出的高質量的固定像素圖片很難涵蓋的,利用視頻里截取的大量畫面作為學習材料,一定范圍內可減少假陽性和假陰性率[27]。通過不斷改良CNN模型,提高臨床試驗的準確率、靈敏度及特異度,為人工智能走向未來臨床實時應用打下堅實基礎。
近年來DL策略的應用在結腸鏡檢查領域取得了很好的性能,對于未來類似的DL方法也有巨大潛力。消化道腫瘤的早期診斷一直是醫學界亟待攻克的熱點。利用DL的方法在結腸鏡檢查中對結腸病變監測、定位和分類,以幫助內鏡醫生減少漏診率,提高腺瘤發現率。然而,消化系統早期癌前病變一般累及范圍小、深度淺,內窺鏡下形態表現不明顯,難以發現;而且,內窺鏡檢查的評估結果往往取決于手術醫生的主觀經驗,主觀性很強,對醫生的臨床技能和工作經驗要求很高,低資質或疲憊的醫生更有可能誤診病變。CNN可能有助于內窺鏡醫生識別病變并將不良反應降至最低。盡管DL方法取得了巨大的成功,但臨床驗證和應用仍然是必須的。創建更大、分類更細的公共數據集,需要較少訓練樣本的新算法和通用驗證框架的創建將保持上升趨勢,并將最終應用于計算機輔助診斷系統的臨床應用,以幫助胃腸病專家提高腺瘤發現率和早期發現結直腸癌[28]。
現階段越來越多的研究證明了CNN在提高息肉光學診斷方面的潛力。CNN的使用可能會減輕內窺鏡操作人員之間的可變性,使實時采用“切除并丟棄”或“離開”策略成為可能。這將為醫療系統帶來顯著的社會效益,避免不必要的非腫瘤性息肉切除術,并提高結腸鏡檢查的效率。但是,這需要前瞻性的多中心隨機對照試驗和公開可用的基準測試數據集來進一步評估CNN的有效性和普適性。此外,隨著這些模型出現在內窺鏡檢查單元中,迫切需要制定指南來確定它們在臨床工作流程中的作用。
作者貢獻聲明石澤璇:研究實施,論文撰寫,數據采集,統計學分析;付梓龍:研究實施;李靚璐:數據采集;劉軍娜:統計學分析;牛瓊:研究指導,論文修改,經費支持