馮夕紋,李素貞,向鵬飛,史廣蒙,綦利平
(武漢科技大學附屬武漢亞心總醫(yī)院 1.消化內(nèi)科;2.普外科,湖北 武漢 430056)
腺瘤性息肉已被證明是結(jié)直腸癌的癌前病變[1],結(jié)腸鏡檢查是目前發(fā)現(xiàn)并切除腺瘤性息肉的主要方法之一[2],但結(jié)腸鏡檢查質(zhì)量卻有所差異。判斷結(jié)腸鏡檢查質(zhì)量高低的指標分為術(shù)前質(zhì)量指標(腸道準備)、手術(shù)質(zhì)量指標[盲腸插管率、退鏡時間和腺瘤檢出率(adenoma detection rate,ADR)]和術(shù)后質(zhì)量指標(監(jiān)測間隔)[3]。雖然臨床不斷改進結(jié)腸鏡檢查的方法,以提高檢查質(zhì)量,但結(jié)腸鏡檢查中的腺瘤漏診率仍高達27%[4]。人工智能(artificial intelligence,AI)已在醫(yī)學領(lǐng)域廣泛應(yīng)用,深度學習(deep learning,DL)是一種機器學習方法,是AI 應(yīng)用領(lǐng)域的一個重要組成部分[5],在成像應(yīng)用方面有著巨大的發(fā)展前景。DL是應(yīng)用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的機器學習模式,與傳統(tǒng)的機器學習相比,DL 擁有更強大的學習能力,無需進行大量數(shù)據(jù)的預處理和手動提取,即可自動提取特征,還可進行多任務(wù)學習[6]。在醫(yī)學成像方面,DL可應(yīng)用于病變檢測及分類,同時進行輔助診斷,從而提高臨床工作的準確性和效率[7]。因此,DL模型在胃腸內(nèi)鏡檢查領(lǐng)域中發(fā)展迅速。最近的研究[8]表明,計算機輔助檢測(computer-aided detection,CADe)可以準確檢測大腸息肉,降低漏檢率。但現(xiàn)有的研究在評估息肉檢測效能(如:息肉大小、形態(tài)、位置和組織學等)上數(shù)據(jù)比較分散。為此,本研究系統(tǒng)總結(jié)了AI 輔助結(jié)腸鏡對結(jié)直腸息肉檢測率的影響,以及其與病變特征之間的關(guān)系。
檢索自建庫至2021年5月Cochrane Library、PubMed、Embase、Web of Science、中國知網(wǎng)(CNKI)、萬方數(shù)據(jù)(Wanfang Data)和維普網(wǎng)(VIP)中關(guān)于AI 輔助結(jié)腸鏡檢查的研究。采用主題詞與自由詞相結(jié)合的方法進行檢索:artificial intelligence 、colonoscopes、colonoscopy、人工智能和結(jié)腸鏡。
1.2.1 納入標準①研究對象:行結(jié)腸鏡檢查的門診或住院患者,年齡≥18歲;②研究類型:隨機對照試驗(randomized controlled trial,RCT);③干預措施:AI 組采用AI 輔助結(jié)腸鏡檢查,對照組采用常規(guī)結(jié)腸鏡檢查;④腸鏡檢查質(zhì)量:波士頓腸道準備評估量表(Boston bowel preparation scale,BBPS)≥ 6 分,退鏡時間 ≥ 6 min,盲腸插管率≥85%。
1.2.2 排除標準①重復發(fā)表的文獻;②無全文、信息不全或無法進行數(shù)據(jù)提取的文獻;③會議論文、綜述和個案報告;④非中文或英文文獻。
1.3.1 主要指標①ADR;②息肉檢出率(polyp detection rate,PDR)。
1.3.2 次要指標①腺瘤位置(左半結(jié)腸、右半結(jié)腸);②腺瘤大小(≤5 mm、6~9 mm和 ≥10 mm);③腺瘤形態(tài)(有蒂腺瘤和無蒂腺瘤);④息肉位置(左半結(jié)腸和右半結(jié)腸);⑤息肉大小(≤5 mm、6~9 mm和 ≥10 mm);⑥息肉形態(tài)(有蒂息肉和無蒂息肉);⑦退鏡時間(不包括活組織檢查或治療時間)。
1.3.3 相關(guān)定義結(jié)直腸息肉定義:任何已經(jīng)切除并進行組織學檢查的內(nèi)鏡下病變。腺瘤定義:組織學證實為腺瘤成分的息肉。
1.4.1 文獻篩選剔除重復文獻后,依據(jù)納入與排除標準進行文獻篩選。由兩名研究者根據(jù)納入與排除標準,獨立進行文獻篩選、提取資料與核對,如遇分歧,則咨詢第三方協(xié)助判斷。文獻篩選時,首先閱讀文題和摘要,在排除明顯不相關(guān)的文獻后,進一步閱讀全文,以確定是否納入。
1.4.2 資料提取主要包括:①文獻的一般特征:第一作者、發(fā)表時間、國家、研究類型、樣本量、性別和年齡;②結(jié)局指標;③文獻質(zhì)量評價。
由兩名研究者按照Cochrane偏倚風險評估對納入的文獻進行質(zhì)量評價。對于RCT,評價標準包括:隨機序列產(chǎn)生、分配隱藏、實施者及研究者是否盲法、研究結(jié)果盲法評價、不完整的數(shù)據(jù)結(jié)果、選擇性報道和其他偏倚等7 項,每項均采用“是”“否”和“不清楚”進行評價,“是”為低度偏倚,“否”為高度偏倚,“不清楚”為缺乏相關(guān)信息或偏倚情況不確定。
采用RevMan 5.4 軟件進行Meta 分析。二分類變量采用相對危險度值和95%CI 計算;連續(xù)型變量采用加權(quán)均數(shù)WMD值和95%CI計算。P<0.05為差異有統(tǒng)計學意義。結(jié)合I2和P值進行異質(zhì)性檢驗,若P>0.1或I2<50%,提示研究間異質(zhì)性較小,采用固定效應(yīng)模型;若P≤ 0.1和I2≥ 50%,提示研究間異質(zhì)性較大,采用隨機效應(yīng)模型進行合并分析。
在計算機上手動檢索查詢,共獲得文獻865 篇,逐層篩選后,最終納入8 篇[9-16]RCT,共6 217 例(AI組3 095 例,對照組3 122 例),個體研究樣本量為669~1 058 例。文獻篩選流程見圖1。納入研究的基本特征見表1。

表1 納入研究的基本特征Table 1 Basic features of the included studies

圖1 文獻篩選流程圖Fig.1 Flow chart of literature screening
8 篇RCT 偏倚風險評價中,1 篇文獻[10]未描述隨機序列產(chǎn)生的方法和分配隱藏;6 篇文獻[9-14]未對實施者或參與者實施盲法,7 篇文獻[9-12,14-16]未對結(jié)局指標實施盲法,8篇文獻均無不完整數(shù)據(jù)及選擇性報道。見圖2。

圖2 風險評估Fig.2 Risk assessment
2.3.1 ADR納入的8 篇[9-16]研究均報道了ADR,各研究間異質(zhì)性小(P=0.090,I2=43%),采用固定效應(yīng)模型分析。根據(jù)使用的AI 系統(tǒng),分為Wision AI 系統(tǒng)和其他系統(tǒng)兩個亞組。結(jié)果顯示:AI 組的ADR 均高于對照組(=1.43,95%CI:1.33~1.55,P=0.000);亞組分析中,Wision AI 系統(tǒng)(=1.31,95%CI:1.17~1.46,P=0.000)和其他系統(tǒng)(=1.58,95%CI:1.41~1.77,P=0.000)的ADR均高于對照組。見圖3。敏感性分析:將隨機效應(yīng)模型轉(zhuǎn)換,并逐一去除每篇文獻后,對異質(zhì)性進行檢驗,轉(zhuǎn)換前后各項指標結(jié)果基本一致,表明Meta分析結(jié)果穩(wěn)定。

圖3 兩組ADR比較的森林圖Fig.3 Forest plot of comparison of adenoma detection rate between the two groups
2.3.2 PDR納入的8 篇[9-16]研究均報道了PDR。根據(jù)使用的AI 系統(tǒng),分為Wision AI 系統(tǒng)和其他系統(tǒng)兩個亞組。4 項使用Wision AI 系統(tǒng)的研究[11,14-16]異質(zhì)性大(P=0.090,I2=54%),采用隨機效應(yīng)模型分析。結(jié)果顯示:AI 組的PDR 均比對照組高(=1.40,95%CI:1.30~1.51,P=0.000);亞組分析中,Wision AI 系統(tǒng)(=1.38,95%CI:1.22~1.55,P=0.000)和其他系統(tǒng)(=1.45,95%CI:1.31~1.61,P=0.000)的PDR 高于對照組。見圖4。敏感性分析:將隨機效應(yīng)模型轉(zhuǎn)換并逐一去除每篇文獻后,對異質(zhì)性進行檢驗,轉(zhuǎn)換前后各項指標結(jié)果基本一致,表明Meta分析結(jié)果穩(wěn)定。

圖4 兩組PDR比較的森林圖Fig.4 Forest plot of comparison of polyp detection rate between the two groups
2.4.1 腺瘤位置共7 篇文獻[9-15]報道了腺瘤位置。各研究間異質(zhì)性小(P=0.230,I2=20%),采用固定效應(yīng)模型分析。根據(jù)腺瘤的位置,分為左半結(jié)腸腺瘤和右半結(jié)腸腺瘤兩個亞組。結(jié)果顯示:AI組,左半結(jié)腸(=1.57,95%CI:1.42~1.73,P=0.000)和右半結(jié)腸(=1.72,95%CI:1.55~1.91,P=0.000)的ADR均高于對照組。見圖5。

圖5 兩組不同位置ADR比較的森林圖Fig.5 Forest plot of comparison of ADR at different locations polyp detection rate between the two groups
2.4.2 腺瘤大小共6 篇文獻[9-12,14-15]報道了腺瘤大小。根據(jù)腺瘤大小,分為 ≤ 5 mm、6~9 mm和 ≥ 10 mm 3個亞組。6項腺瘤 ≤ 5 mm的研究[9-12,14-15]異質(zhì)性大(P=0.040,I2=57%),采用隨機效應(yīng)模型分析。結(jié)果顯示:AI 組<10 mm 的ADR 均高于對照組,即:≤ 5 mm(=1.74,95%CI:1.52~1.99,P=0.000)和6~9 mm(=1.35,95%CI:1.08~1.69,P=0.008)的ADR 均高于對照組,≥ 10 mm(=1.39,95%CI:1.01~1.93,P=0.050)的ADR差異無統(tǒng)計學意義。見圖6。

圖6 兩組不同大小ADR比較的森林圖Fig.6 Forest plot of comparison of ADR in different sizes between the two groups
2.4.3 腺瘤形態(tài)共5 篇文獻[10-11,13-15]報道了腺瘤形態(tài)。根據(jù)腺瘤形態(tài),分為有蒂腺瘤和無蒂腺瘤兩個亞組。5 項有蒂腺瘤的研究[10-11,13-15]異質(zhì)性小(P=0.980,I2=0%),5 項無蒂腺瘤的研究[10-11,13-15]異質(zhì)性小(P=0.160,I2=39%),采用固定效應(yīng)模型分析。結(jié)果顯示:AI組中無蒂的ADR高于對照組(=1.81,95%CI:1.66~1.98,P=0.000),AI 組有蒂的ADR 與對照組相比,差異無統(tǒng)計學意義(=1.13,95%CI:0.89~1.43,P=0.330)。見圖7。

圖7 兩組不同形態(tài)ADR比較的森林圖Fig.7 Forest plot of comparison of ADR with different morphology between the two groups
2.4.4 息肉位置納入的6 篇[9-11,13-15]研究報道了息肉位置。根據(jù)息肉位置,分為左半結(jié)腸息肉和右半結(jié)腸息肉兩個亞組。6 項右半結(jié)腸息肉的研究[9-11,13-15]異質(zhì)性大(P=0.005,I2=71%),采用隨機效應(yīng)模型分析。結(jié)果顯示:AI 組左半結(jié)腸(=1.68,95%CI:1.54~1.83,P=0.000)和右半結(jié)腸(=2.02,95%CI:1.73~2.36,P=0.000)的PDR均高于對照組。見圖8。

圖8 兩組不同位置PDR比較的森林圖Fig.8 Forest plot of comparison of PDR at different locations between the two groups
2.4.5 息肉大小共5 篇文獻[9-11,14-15]報道了息肉大小。。根據(jù)息肉大小,分為 ≤ 5 mm、6~9 mm和 ≥ 10 mm 3 個亞組。5 項息肉≤5 mm 的研究[9-11,14-15]異質(zhì)性大(P=0.000,I2=88%),采用隨機效應(yīng)模型分析。結(jié)果顯示:AI 組<10 mm 的PDR 高于對照組,即:≤ 5 mm(=1.96,95%CI:1.65~2.32,P=0.000)和6~9 mm(=1.30,95%CI:1.11~1.52,P=0.000)的PDR均高于對照組,兩組 ≥ 10 mm(=1.36,95%CI:0.92~2.01,P=0.120)的PDR比較,差異無統(tǒng)計學意義。見圖9。

圖9 兩組不同大小PDR比較的森林圖Fig.9 Forest plot of comparison of PDR in different sizes between the two groups
2.4.6 息肉形態(tài)共5 篇文獻[10-11,13-15]報道了息肉形態(tài)。根據(jù)息肉形態(tài),分為有蒂息肉和無蒂息肉兩個亞組。5 項無蒂息肉的研究[10-11,13-15]異質(zhì)性大(P=0.002,I2=79%),采用隨機效應(yīng)模型分析。結(jié)果顯示:AI組中無蒂的PDR高于對照組(=1.92,95%CI:1.69~2.18,P=0.000),兩組有蒂的PDR 比較,差異無統(tǒng)計學意義(=1.24,95%CI:0.99~1.54,P=0.060)。見圖10。

圖10 兩組不同形態(tài)PDR比較的森林圖Fig.10 Forest plot of comparison of PDR with different morphology between the two groups
2.4.7 退鏡時間共6 篇文獻[9-11,13-15]報道了退鏡時間。各研究[9-11,13-15]間異質(zhì)性大(P=0.000,I2=93%),采用隨機效應(yīng)模型分析。結(jié)果顯示:AI組與對照組的退鏡時間無差異(MD=0.27,95%CI:-0.01~0.55,P=0.060)。見圖11。

圖11 兩組退鏡時間比較的森林圖Fig.11 Forest plot of comparison of exit time between the two groups
采用漏斗圖評估發(fā)表偏倚,結(jié)果顯示:主要結(jié)局指標中的ADR 和PDR 漏斗圖左右基本對稱,提示發(fā)表偏倚較小。次要結(jié)局指標中的腺瘤大小、腺瘤位置、腺瘤形態(tài)、息肉大小、息肉位置和息肉形態(tài)漏斗圖左右不對稱,提示有一定的偏倚;退鏡時間漏斗圖左右基本對稱,提示發(fā)表偏倚較小。見圖12和13。

圖12 主要結(jié)局指標漏斗圖Fig.12 Funnel chart of primary outcome indicator

圖13 次要結(jié)局指標漏斗圖Fig.13 Funnel plot of secondary outcome indicators
結(jié)直腸癌是全球第三大常見癌癥,其發(fā)病率在逐年上升[17-18],結(jié)腸鏡檢查是公認的最有效的篩查方法之一[19]。目前,結(jié)腸鏡檢查質(zhì)量在不斷提高,但腺瘤漏診時有發(fā)生,主要原因有:內(nèi)鏡醫(yī)師的注意力或識別能力有差異,進鏡過程中未完全暴露結(jié)直腸黏膜,腺瘤切除不完全[20-21]等。雖然黏膜暴露取決于內(nèi)鏡醫(yī)師的檢查技術(shù)、腸道準備的質(zhì)量和內(nèi)鏡本身的旋轉(zhuǎn)角度,但可以通過AI 輔助來改善息肉在內(nèi)鏡屏幕上可見卻不能識別的問題。AI 系統(tǒng)可以根據(jù)圖像之間的特征差異來識別病變,并對圖像進行快速處理[6],可以在內(nèi)鏡檢查期間實時使用[22]。因此,AI系統(tǒng)可以在內(nèi)鏡檢查期間標記可疑區(qū)域,從而輔助內(nèi)鏡醫(yī)生識別息肉。
本文共納入8篇RCT,Meta分析結(jié)果顯示:AI輔助結(jié)腸鏡檢查提高了ADR 和PDR;次要結(jié)果中,AI組與對照組相比,腺瘤和息肉的檢出率與位置、大小和形態(tài)相關(guān)。AI 組<10 mm 腺瘤和息肉的檢出率提高,考慮原因是:腺瘤和息肉直徑越小,肉眼越不容易觀察到,利用AI 可以幫助識別病變;無蒂腺瘤和息肉的檢出率增加,考慮原因為:無蒂的腺瘤和息肉基底部較寬,呈扁平狀,內(nèi)鏡醫(yī)師肉眼不容易識別。AI 輔助可以彌補人眼的識別缺陷,增加檢出率。此外,兩組患者的退鏡觀察時間比較,差異無統(tǒng)計學意義。由此可見,即使用AI 輔助結(jié)腸鏡檢查,亦不會增加時間效率。
近年來,LIU 等[11]、WANG 等[14]、WANG 等[15]和WANG 等[16]均使用Shanghai Wision AI DL 系統(tǒng),結(jié)果均顯示:AI 輔助結(jié)腸鏡檢查增加了ADR 和PDR,且有較高的靈敏度和特異度。REPICI 等[23]報道了一項前瞻性RCT,該研究由10 名非資深的內(nèi)鏡醫(yī)師(操作<2 000 例)使用DL CADe 系統(tǒng),將660 名患者隨機分組,結(jié)果顯示:CADe 能明顯提高ADR(53.3%和44.5%,P<0.01),且AI 輔助結(jié)腸鏡的PDR 穩(wěn)定,不受內(nèi)鏡醫(yī)師的經(jīng)驗影響。
AI 在臨床實踐中實施時,還有許多問題需要解決。AI 和DL 模型的算法仍在不斷發(fā)展[24],不同模型和訓練數(shù)據(jù)之間存在很大的差異,每個AI 系統(tǒng)都需要獨立的前瞻性驗證。將DL 應(yīng)用于結(jié)腸鏡檢查時,仍然需要臨床醫(yī)生提供結(jié)腸鏡診斷圖像等臨床數(shù)據(jù),再讓機器學習,最后才可做出診斷[5,25],可能會因無法識別系統(tǒng)中未包含的疾病亞型而導致漏診,也有可能因數(shù)據(jù)不足,將較為罕見的疾病亞型識別為疾病常態(tài),從而導致誤診的發(fā)生[26]。DL 亦無法識別出新的病種,且DL 依賴于高質(zhì)量的圖像數(shù)據(jù),若患者腸道準備不足,或有出血灶等導致圖像清晰度較低時,則可能無法準確識別[27]。因此,需完善統(tǒng)一各模型的數(shù)據(jù),增加數(shù)據(jù)庫的儲備,提高DL對圖像的處理功能;隨著5G技術(shù)的普及以及與AI和大數(shù)據(jù)的結(jié)合,AI在腸鏡中的應(yīng)用將更標準化和規(guī)范化。
本研究具有一定的局限性。首先,納入的部分研究未提及隨機分組和分配隱藏的方法,文獻質(zhì)量有待提高;其次,部分文獻的結(jié)局指標數(shù)據(jù)格式不統(tǒng)一,可能導致Meta分析產(chǎn)生偏倚,影響結(jié)果的可靠性。
綜上所述,腸鏡檢查中應(yīng)用AI 輔助可以提高PDR 和ADR,與息肉和腺瘤的位置、大小及形態(tài)相關(guān),與退鏡時間無關(guān)。