徐可,石波,周春美,曾卓華,謝楊,劉家開
成都醫學院第二附屬醫院·核工業四一六醫院 超聲醫學科,四川 成都 610057
近年來的研究表明,成年人中甲狀腺結節的患病率高達65%,其中甲狀腺癌又是一類高發的惡性腫瘤,因此對甲狀腺結節性質的準確判斷顯得尤為重要[1-2]。超聲因其簡單、無創、快速、便攜等優勢已廣泛應用于甲狀腺結節的篩查與診斷中[3]。甲狀腺結節診斷指南是判斷結節良惡性的重要依據與標準,結合我國國情,2020年中華醫學會超聲醫學分會淺表器官與血管小組制訂并推出《2020甲狀腺結節超聲惡性危險分層中國指南:C-TIRADS》[4]。林蔚等[5]研究發現,中國(超聲)甲狀腺影像報告和數據系統(Chinese Thyroid Imaging Reporting and Data System,C-TIRADS)評估甲狀腺結節時有較高的敏感性。近年來人工智能(Artificial Intelligence,AI)技術得到了快速的發展,Lee等[6]利用VGG激活模型圖開發了一個用于定位和區分轉移性淋巴結的AI預測模型,該模型預測淋巴結轉移的靈敏度、特異性、準確率分別為79.5%、87.5%、83.0%,與李盈盈等[7]研究的AI預測模型診斷效能相近。Peng等[8]研究發現,深度學習AI模型(ThyNet)輔助策略可以顯著提高超聲科醫生的診斷能力,并有助于減少甲狀腺結節不必要的穿刺。雖然AI技術在醫學影像診斷方面已展現出一定優勢,但尚處于起步階段,有其自身的局限性,如產品性能不穩定、容易受超聲圖像質量及圖像采集標準化影響,從而使判讀結果的準確性大大降低,因此不能直接作為參考標準[9]。本研究旨在探討AI診斷系統聯合醫師C-TIRADS分類對甲狀腺結節以及不同大小結節的診斷效能,以期為臨床工作中最大程度地發揮AI輔助的診斷作用提供依據。
回顧性分析2020年10月至2021年5月于我院行甲狀腺超聲檢查并有病理結果的514例患者的臨床資料。納入標準:① 結節以實性或實性部分為主(囊性部分<25%)者;② 術前行超聲診斷且資料完整者;③ 手術或穿刺病理結果明確的甲狀腺結節者;④ 術前未行內分泌、化療及放療、消融及同位素治療者。排除標準:① 超聲圖像質量較差,對結節特征不能充分顯示者;② 病灶過多,不能區分病理結果者。最終224例患者入組,結節共225個,其中男性56例、女性168例,平均年齡(43.88±12.70)歲,結節最大長徑85 mm,平均長徑(21.54±16.14)mm。根據結節最大長徑分組,≤10 mm結節98個,>10 mm結節127個。所有患者均對本研究知情并簽署知情同意書,且通過本院倫理委員會審查(2016016)。
1.2.1 超聲檢查
采用法國聲科公司的SuperSonic Aixplorer超聲診斷儀,SL15-4探頭(頻率4~15 MHz),將探頭探查條件調整為甲狀腺模式,由1名高年資醫師進行甲狀腺超聲掃查,囑患者取仰臥位,充分暴露頸部,橫切、縱切動態掃查甲狀腺腺體,詳細記錄結節的大小、位置、形態、邊界、內部回聲、形狀、縱橫比、有無鈣化等。結果判讀:由另外1名高年資醫師對結果進行判讀,當結果不一致時進行討論,以討論一致的結果作為最終診斷結果。嚴格按照《2020甲狀腺結節超聲惡性危險分層中國指南:C-TIRADS》[4]對結節進行分類,指南中對滿足垂直位、不規則、模糊、甲狀腺外侵犯、實性、極低回聲、微鈣化的結節各加1分,對伴有彗星尾征象的減1分,對1個結節全面評估后進行計數。-1分為2類結節(惡性風險0),0分為3類結節(惡性風險<2%),1分為4A類結節(惡性風險2%~10%),2分為4B類結節(惡性風險10%~50%),3~4分為4C類結節(惡性風險50%~90%),5分為5類結節(惡性風險>90%),6類結節為經活檢證實為惡性結節。將≤4A類定義為良性,≥4B類定義為惡性[10]。
1.2.2 AI甲狀腺輔助診斷系統
AI甲狀腺輔助診斷系統由浙江德尚韻興公司研發,該系統采用自主研發的深度學習框架DE-Light,只檢測灰階二維超聲圖,不檢測血流圖、彈性圖。由進行超聲掃查的同1名高年資醫師操作,操作前已經過系統的AI操作培訓,分別于甲狀腺橫切面、縱切面采集圖像,該AI輔助診斷系統直接與采集卡對接,圖片實時進行傳輸,AI根據算法自動識別病灶,并圈畫出該結節,同時給出結節良、惡性概率值,若發現AI無法自動識別結節,醫師手動在輔助診斷系統勾畫靶區結節,切忌隨意勾畫,必須沿著毛刺邊緣進行勾畫,不同切面系統給出的概率值不同,測量3次,取最高數值作為AI最終診斷結果,定義<0.6為偏良性,≥0.6為偏惡性。
1.2.3 聯合診斷
以C-TIRADS分類診斷結果為基礎,若AI診斷為惡性則上調一個類別,但5類不再上調;若AI診斷為良性,則C-TIRADS分類下降一個類別,但2類不再下調。
采用SPSS 23.0和MedCalc 18.2.1軟件進行統計分析。以病理結果為金標準,繪制受試者工作特征(Receiver Operating Characteristic,ROC)曲線,計算各指標的靈敏度[即真陽性率=a/(a+c)]、特異性[即真陰性率=d/(b+d)],其中a代表真陽性,即病例組內陽性的例數;b代表假陽性,即對照組內陽性的例數;c代表假陰性,即病例組內陰性的例數;d為真陰性,為對照組內陰性的例數。并計算約登指數(即正確指數=靈敏度+特異性-1)。ROC曲線下面積(Area Under Curve,AUC)>0.8表示指標具有良好的診斷效果,采用Z檢驗進行C-TIRADS分類、AI、AI+C-TIRADS分類的各評價指標的差異比較,以P<0.05為差異具有統計學意義。
225個結節中惡性結節占比58.2%,良性結節占比41.7%,良惡性結節病理類型及分布數量如表1所示。

表1 225個結節病理結果[n(%)]
225個結節中,醫師C-TIRADS診斷良惡性結節準確度為91.1%,AI診斷良惡性結節準確度為82.7%,AI+CTIRADS分類診斷良性結節準確度為95.1%,聯合診斷的準確度優于2種方法單獨診斷,見表2。

表2 C-TIRADS分類、AI、AI+C-TIRADS分類的診斷結果及與病理對照
對于≤10 mm結節,醫師C-TIRADS分類診斷良惡性結節準確度為81.6%,AI診斷良惡性結節準確度為89.8%,AI+C-TIRADS分類診斷良惡性結節準確度為98.0%,聯合診斷的準確度優于2種方法單獨診斷,見表3。

表3 醫師C-TIRADS分類、AI、AI+C-TIRADS分類對≤10 mm結節的診斷結果與病理對照
對于>10 mm結節,醫師C-TIRADS分類診斷良惡性結節準確度為98.4%,AI診斷良惡性結節準確度為77.2%,AI+C-TIRADS分類診斷良惡性結節準確度為92.9%,醫師C-TIRADS分類診斷的準確度優于其余2種診斷方法,見表4。

表4 醫師C-TIRADS分類、AI、AI+C-TIRADS分類對>10 mm結節診斷結果與病理對照
AI+C-TIRADS分類診斷特異性(95.74%)、約登指數(0.9040)、AUC(0.952)均高于醫師C-TIRADS分類診斷(Z=2.085,P=0.037)及 AI診斷(Z=5.547,P<0.001);醫師C-TIRADS分類診斷靈敏度(96.95%)及AUC(0.900)高于AI單獨診斷(Z=2.054,P=0.040),差異有統計學意義(P<0.05),見表5和圖1。

圖1 3種診斷方法對總體ROC曲線

表5 醫師C-TIRADS、AI、AI+C-TIRADS分類對總體診斷效能比較
對于≤10 mm結節,AI+C-TIRADS分類診斷靈敏度(98.36%)、特異性(97.3%)、約登指數(0.9566)、AUC(0.978)均高于AI(Z=2.828,P=0.005)及醫師C-TIRADS分類診斷(Z=4.185,P<0.001);AI診斷的特異度(89.19%)、約登指數(0.7940)、AUC(0.897)高于醫師C-TIRADS分類診斷(Z=1.993,P=0.046,差異有統計學意義(P<0.05),見表6和圖2~3。

圖2 3種診斷方法對≤10 mm結節ROC曲線

圖3 二維超聲甲狀腺左側葉≤10 mm結節超聲聲像圖及AI識別圖像

表6 醫師C-TIRADS分類、AI、AI+C-TIRADS分類對≤10 mm結節診斷效能比較
對于>10 mm結節,C-TIRADS分類診斷的靈敏度(100%)、特異性(96.49%)、約登指數(0.9649)、AUC(0.982)均高于聯合診斷(Z=2.269,P=0.023)及AI診斷(Z=5.464,P<0.001);AI診斷的靈敏度(74.29%)、特異度(80.70%)、約登指數(0.5499)、AUC(0.775)不及聯合診斷(Z=4.803,P=0.001),差異有統計學意義(P<0.05),見表7和圖4~5。

表7 醫師C-TIRADS、AI、AI+C-TIRADS分類對>10 mm結節診斷效能比較

圖4 3種診斷方法對>10 mm結節ROC曲線

圖5 二維超聲甲狀腺左側葉>10 mm結節超聲聲像圖及AI識別圖像
目前甲狀腺結節的檢出率逐年增加,臨床用于甲狀腺超聲檢查的指南也在不斷更新,從2011年韓國學者Kawk在Radiology發表的Kawk-TIRADS(甲狀腺影像及數據報告系統)[11]、2016年韓國放射學會和甲狀腺放射學會發表的Korean-TIRADS指南[12],再到2017年美國放射學會發布的ACR-TIRADS[13],每一種指南都有其優勢和局限性,且各個醫院對指南的使用并不統一,會給患者和臨床醫生帶來困惑。《2020甲狀腺結節超聲惡性危險分層中國指南:C-TIRADS》[4],從我國的實際出發,是一種全新的計數分類的方法,指南中通過回歸方程篩選出5個可疑惡性征象并對其賦值進而計數分類,使用簡便快捷,可操作性強。Zhu等[14]對2309個甲狀腺結節分別用美國放射學會ACRTIRADS指南、中國版C-TIRADS指南、韓國版Kawk-TIRADS指南及美國甲狀腺協會ATA指南對甲狀腺結節進行良惡性診斷,發現C-TIRADS指南的準確性為84.71%,高于其他3種指南,并且AUC最大為0.905,進一步說明C-TIRADS相比其他3種指南有較高的診斷效能。本研究發現醫師C-TIRADS分類對總體樣本診斷的靈敏度高于聯合診斷及AI單獨診斷,即可篩出較多的惡性結節,差異有統計學意義(P<0.05)。李潛等[15]研究發現,應用C-TIRADS指南診斷比AI診斷技術S-detect聯合醫師C-TIRADS診斷有更高的靈敏度(97.37%vs.96.21%),與本研究結果相近。本研究認為醫師C-TIRADS分類診斷靈敏度高而特異性偏低的原因為良惡性結節在超聲征象上有重疊,且C-TIRADS指南是通過對可疑惡性征象進行計數進而分類,這可能會導致部分良性結節如腺瘤、結節性甲狀腺腫、炎性病變等分類過高,假陽性率上升。
AI技術可對復雜的醫學圖像特征進行定量評估,已經被越來越多地應用于甲狀腺結節的診斷中[16]。本研究發現AI單獨診斷的AUC及約登指數低于聯合診斷及C-TIRADS單獨診斷,與方明娣等[10]的研究結果一致。Wildman-Tobriner等[17]研究發現,運用AI輔助診斷系統來修正ACR-TIRADS分級后,相比醫師ACR-TIRADS分級,AUC由0.91提高至0.93,特異性也由47%提高至65%,本研究中AI單獨診斷及AI聯合醫師C-TIRADS診斷特異性較醫師C-TIRADS單獨診斷特異性高,與Verburg等[18]的研究結果一致。本研究采用的德尚韻興公司研發的AI輔助診斷系統是基于算法的學習來自主識別結節,繼而得出結節的良惡性概率值,與傳統的通過識別結節惡性征象而判讀結節良惡性有所不同,其診斷的過程不依賴人的主觀性。
對于≤10 mm的甲狀腺腫瘤,其被定義為甲狀腺微小癌,其中絕大多數為甲狀腺乳頭狀癌,鑒于其病灶微小,惡性征象表現不顯著,且部分患者甲狀腺腺體內常出現良惡性病灶并存的表現,常規超聲常出現漏診、誤診的情況,因此探尋一種新的可靠的診斷方法顯得尤為重要[19-20]。本研究將甲狀腺腺結節按最大長徑分為≤10 mm組及>10 mm組,發現AI、AI+C-TIRADS分類對≤10 mm結節診斷的特異性、約登指數及AUC均大于醫師C-TIRADS分類單獨診斷,差異有統計學意義(P<0.05)。本研究中部分甲狀腺小結節在早期并不會出現典型的惡性征象,即沙礫樣鈣化,且向周圍組織浸潤性生長也不明顯,纖維化改變不顯著,所以醫師主觀上可能會出現誤判的情況。AI是對10萬余例有病理結果的結節進行深度學習繼而研發所得,所以其能快速對異常區域進行標記,進而量化分析得出良惡性概率值,降低了誤判的概率[21-22]。
本研究發現對于>10 mm結節,AI及聯合診斷的診斷效能低于醫師C-TIRADS分類診斷。方貞燕[21]的研究發現,隨著結節體積增大,AI診斷的靈敏度及準確性呈下降趨勢,且AI診斷的準確性與該系統的技術原理和系統的穩定性密切相關,不同品牌的AI診斷系統在臨床實踐中的表現可能會出現較大的差異,因此醫師需要對所使用的AI系統的優勢充分了解,最大程度地發揮AI的輔助作用。
本研究存在的局限性:① 樣本量過少,在今后研究中進一步將>10 mm結節按照大小進行分組,探討AI診斷系統聯合醫師C-TIRADS分類對其的診斷效能;② 樣本中惡性結節偏多,絕大部分是乳頭狀癌,對分類診斷準確性有一定影響。
AI診斷系統聯合醫師C-TIRADS分類可提高對良惡性結節診斷的準確度、特異性,尤其對于≤10 mm結節,其整體診斷效能更優;對于>10 mm結節,醫師C-TIRADS分類診斷的準確度、靈敏度、特異性更好。