周躍 李衛民 范曉芳 高啟 吳文娟 賈磊
1江南大學附屬醫院超聲醫學科(江蘇無錫 214000);2東南大學附屬中大醫院超聲醫學科(南京 210009)
甲狀腺結節是臨床最常見的疾病之一,研究表明,19% ~68%的普通人群有甲狀腺結節,其中惡性率約占7% ~15%[1-5]。超聲具有簡便、快捷、分辨率高的優點,對甲狀腺結節的檢出及評估價值也逐漸為臨床認可,并成為其首選的檢查手段[6-9]。2017年美國放射學會(American College of Radiology,ACR)制定的甲狀腺影像報告和數據系統(thyroid imaging reporting and data system,TIRADS)對甲狀腺結節良惡性的鑒別具有較高權威性和指導意義[10-12],但其超聲特征眾多,評分系統復雜,如何快速準確地評估甲狀腺結節的超聲特征并進行分類成為臨床研究的難點。隨著技術水平的不斷進步,人工智能逐步應用于甲狀腺的臨床應用中,研究表明,人工智能可在一定程度上提高甲狀腺結節診斷的準確性。甲狀腺自動掃查助手(scanning assistant thyroid,S-Thyroid)是由開立公司研發的基于人工智能算法的技術,可快速提供甲狀腺結節的特征、評分并進行分類,但其對甲狀腺結節超聲特征評估的準確性及診斷效能的臨床研究尚未見報道。本文通過分析276 個經病理確診的甲狀腺結節,評估S-Thyroid 和超聲醫師對甲狀腺結節超聲特征評估的一致性,并分析二者的診斷效能。
1.1 一般資料選取2020年12月至2022年7月于江南大學附屬醫院和東南大學附屬中大醫院就診,且經手術病理確認的甲狀結節患者253 例共276 個結節,其中男51 例,女202 例,年齡21 ~73歲,平均(43.37±10.67)歲,結節最大徑4 ~35 mm,平均(14.38 ± 6.18)mm。納入標準:(1)初次發現的甲狀腺結節;(2)有明確的病理結果;(3)超聲影像資料清晰、切面完整。排除標準:(1)以往經穿刺或治療等可能影響甲狀腺結節超聲特征;(2)同時切面合并兩個以上結節,S-Thyroid 難以準確逐一識別;(3)超聲影像模糊或部分切面缺失,超聲醫師和S-Thyroid 均難以準確評估。
1.2 方法
1.2.1 病理分析根據2017年第四版《WHO 內分泌器官腫瘤》(甲狀腺)分類指南[13-14]對甲狀腺結節良惡性進行分類。
1.2.2 S-Thyroid采用開立S60 彩色多普勒超聲顯像儀,選擇線陣探頭,探頭頻率為7.8 ~15 MHz。所有病例的掃查及評估均由具有10年以上工作經驗的副主任及以上資歷的超聲醫師完成,檢查時,患者采用仰臥位,充分暴露雙側頸部,對甲狀腺采用橫斷面和縱斷面相結合的掃查方法,對其內的甲狀腺結節行多切面、多角度地動態觀察。在采集相應的甲狀腺結節靜態標準切面及動態影像后進行存儲,并根據靜態影像按下儀器自帶的S-Thyroid 鍵,對結節的超聲特征進行智能評估,每個甲狀腺結節均進行橫、縱標準切面的智能評估,當兩個切面的評估出現誤差時,以其中評分高的特征為準。S-Thyroid 對甲狀腺結節的評估根據ACR TI-RADS 指南進行評估并分類。
1.2.3 超聲醫師評估超聲醫師的評估由另外2名具有10年以上工作經驗的副主任及以上資歷的超聲醫師針對采集的甲狀腺結節超聲圖片進行獨立、盲法評估,當2 名醫師的評估出現誤差時,由1 名主任醫師再次評估,并以此為準。超聲醫師的評估也以ACR TI-RADS 分類為準。
1.3 ACR TI-RADS 分類及評價標準(1)根據ACR TI-RADS 分類系統[11],超聲評估內容及評分:①成分:囊性或幾乎全為囊性0 分,海綿狀0 分,囊實混合性1 分,實性或幾乎為實性2 分。②回聲:無回聲0 分,高或等回聲1 分,低回聲2 分,極低回聲3 分。③形態:縱橫比<1 為0 分,縱橫比≥1 為3 分。④邊緣:光滑或模糊0 分,分葉或不規則2 分,向甲狀腺外延伸3 分。⑤強回聲:無或大彗尾0 分,粗大鈣化1 分,周圍型鈣化2 分,點狀強回聲3 分。(2)按照指南對以上5 項指標進行評分,計算各結節的總得分后確定TI-RADS 分類,①TR1類:0 分,良性結節;②TR2:2 分,惡性風險<2%,考慮良性;③TR3:3 分,惡性風險<5%,低度可疑惡性;④TR4:4 ~6 分,惡性風險5%~20%,中度可疑惡性;⑤TR5:>7 分,惡性風險>20%,高度可疑惡性。
1.4 統計學方法采用SPSS 20.0 統計學軟件,計量資料采用均數±標準差表示,比較采用獨立樣本t檢驗;計數資料使用例數和百分數表示,比較采用χ2檢驗和Fisher 精確概率法。采用Cohen's Kappa 檢驗評估超聲醫師和S-Thyroid 對甲狀腺超聲特征及分類的一致性,當0<Kappa≤0.20 時,表示一致性較差;0.20<Kappa≤0.40 時,表示一致性一般;0.40<Kappa≤0.60 時,表示一致性中等;0.60<Kappa≤0.80 時,表示一致性較強;0.80<Kappa≤1.00時,表示一致性強。根據ACR TI-RADS評分繪制受試者工作特征曲線(receiver operating characteristic curve,ROC),并計算各組曲線下面積(area under the curve,AUC)、臨界值及其對應的敏感度和特異度;AUC 為0.85~0.95 表示診斷效能很好;AUC 為0.7 ~0.85 表示診斷效能一般;AUC為0.5 ~0.7 表示診斷效能較低。Youden 指數最大時所對應的評分為各組評分的最佳臨界值。P<0.05 為差異有統計學意義。
2.1 甲狀腺結節的病理資料276 個甲狀腺結節中良性結節89 個,發生率32.25%,惡性結節187個,發生率67.75%(表1)。

表1 甲狀腺結節的病理結果Tab.1 Pathological results of thyroid nodules
2.2 S-throid 和超聲醫師對甲狀腺結節超聲特征評估的一致性兩者評估甲狀腺結節形態、內部結構以及回聲的一致性強(Kappa 值分別為0.973、0.886、0.805),對強回聲灶和邊緣評估的一致性中等(Kappa 分別為0.613、0.597),見表2。從數據可知,超聲醫師和S-throid 對部分甲狀腺結節超聲特征的評估會出現一定的差異(圖1),對部分甲狀腺結節超聲特征的評估高度吻合(圖2)。

圖1 患者,女,35 歲,結節性甲狀腺腫Fig.1 A 35-year-old female patient with nodular goiter

圖2 患者,女,47 歲,甲狀腺乳頭狀癌Fig.2 A 47-year-old female patient with papillary thyroid carcinoma

表2 S-Thyroid 和超聲醫師對甲狀腺結節超聲特征的評估情況Tab.2 Evaluation results of ultrasonic characteristics of thyroid nodules by S-Thyroid and ultrasonic doctors 例
2.3 超聲醫師和S-throid 對甲狀腺結節TIRADS分類的一致性基于甲狀腺結節的超聲特征進行TI-RADS 分類,超聲醫師和S-Thyroid 對甲狀腺結節分類的總體一致性強(Kappa=0.863),對C-TIRADS 2 類、4 類以及5 類結節的一致性強(Kappa 分別為0.818,0.909,0.855),對C-TIRADS 3 類結節的一致性較強(Kappa=0.774)。見表3。

表3 基于甲狀腺結節超聲特征的TIRADS 分類Tab.3 TIRADS classification based on ultrasonic characteristics of thyroid nodules 例
2.4 S-Thyroid 和超聲醫師對甲狀腺結節的診斷效能S-Thyroid 和超聲醫師對甲狀腺惡性結節的敏感度、特異度分別為82.01%vs. 86.24%,86.21%vs.83.91%,差異均無統計學意義(均P>0.05);AUC 分別為0.835(95%CI:0.801 ~0.926)、0.891(95%CI:0.846 ~0.936),診斷效能均較高(表4)。ROC 曲線見圖3。

表4 S-Thyroid 和超聲醫師對甲狀腺結節的診斷效能Tab.4 Diagnostic efficacy of S-Thyroid and ultrasonic doctors for thyroid nodules

圖3 S-Thyroid 和超聲醫師ROC 曲線圖Fig.3 ROC curves of S-Thyroid and sonographer
近年來,人工智能伴隨著計算機技術、數學算法和統計學的進步也有了快速的發展。在醫學影像診斷方面,人工智能可輔助影像科醫師發現并分析病灶,避免因臨床醫師經驗及知識水平等主觀因素帶來的失誤,從而提高診斷的效率和準確率[15-19]。在甲狀腺結節的超聲特征評估方面,目前的研究表明,人工智能系統對甲狀腺結節的診斷具有較高的靈敏度,可輔助超聲醫師提高對甲狀腺結節的診斷效能[20-22]。作為具有我國自主知識產權的S-Thyroid 系統,由于其可快速提供甲狀腺結節的特征、評分并進行分類,目前已應用于臨床相關研究中,且取得了較好的市場效益[23]。本研究以ACR 版TI-RADS 分類指南為基礎,通過對276 個經手術病理確診的甲狀腺結節超聲特征進行分析,發現S-Thyroid 對甲狀腺結節超聲特征的評估與超聲醫師有著較好的一致性,且具有較高的診斷效能。
本文的研究結果表明,超聲醫師和S-Thyroid對甲狀腺結節形態、內部結構以及回聲的評估一致性強,在評估結節的形態方面,S-Thyroid 首先自動勾畫感興趣區,并在感興趣區的基礎上進行評估,當感興趣區能準確勾畫甲狀腺結節時,其可準確評估甲狀腺結節的形態,然而,當病灶邊界模糊時,感興趣區的勾畫會出現一定的誤差,這也會在一定程度上影響甲狀腺結節形態評估的準確性。在甲狀腺結節的內部結構方面,S-Thyroid 與超聲醫師的主要差異在于S-Thyroid 在一定程度上會將伴有低回聲暈的實性甲狀腺結節誤認為囊實性,部分囊實性結節也可被S-Thyroid 評估為實性或幾乎完全實性。在甲狀腺結節回聲的評估方面,差異的主要部分在極低回聲、低回聲、等回聲或高回聲方面,對于部分甲狀腺結節的回聲的評估,目前以甲狀腺實質和頸前肌群作為分界標準。然而,臨床實際應用過程中,在極低回聲和低回聲的評估方面超聲醫師也存在著一定的差異。
在強回聲灶和邊緣評估的評估方面,超聲醫師和S-Thyroid 評估的一致性中等。在強回聲灶方面,筆者發現,對于數量少的微小鈣化灶,S-Thyroid 系統無法準確評估,這可能與S-Thyroid 僅能對靜態超聲影像評估有關,超聲檢查強調動態觀察,在某一靜態圖像上,部分信息仍會因為缺乏全面的信息而無法準確評估。同時,由于感興趣區勾畫時無法準確包含部分甲狀腺結節的周邊特征,部分甲狀腺結節邊緣強回聲也無法準確評估,這些可能均是造成超聲醫師和S-Thyroid 對強回聲灶評估準確性一般的原因。對于邊緣特征的評估,超聲醫師和S-Thyroid 的差異主要在于邊界模糊和分葉/不規則之間的差異,部分結節超聲醫師評為邊緣模糊的結節,S-Thyroid 則評為分葉/不規則,而ACR TI-RADS 將光滑或模糊均評為0 分,而分葉或不規則為2 分,模糊并非甲狀腺結節的可疑特征,這也是本研究中二者對邊緣評估一致性中等的主要原因。
在評估甲狀腺結節超聲特征的基礎上,可進行相應的評分并進行分類,結果表明,超聲醫師和S-Thyroid 對甲狀腺結節分類的總體一致性強(Kappa=0.863)。同時,通過繪制的ROC 曲線分析發現,S-Thyroid 和超聲醫師對甲狀腺結節的診斷效能均較高,S-Thyroid 和超聲醫師對甲狀腺惡性結節的敏感度、特異度差異均無統計學意義,這表明,S-Thyroid 對甲狀腺結節的評估能力與中-高年資超聲醫師的水平接近,由于ACR TI-RADS 指南評估內容的多樣性及賦分的復雜性,S-Thyroid 也在一定程度上降低了超聲醫師的負擔,提高了診斷的效率。
本研究的不足以及下一步研究的方向:(1)本研究中納入的病例以手術病理為金標準,這在一定程度上降低了樣本量,后續的大樣本研究結果可能與本文有一定的差異。(2)超聲醫師對甲狀腺結節的評估屬于回顧性分析,對甲狀腺結節超聲特征的評估準確性可能會降低。(3)與ACR 分類系統相比,我國周建橋教授制定的C-TIRADS 分類系統[24]更適合我國的具體國情,因此,基于C-TIRADS 分類系統建立甲狀腺人工智能系統有勢在必行。(4)S-Thyroid 僅能對靜態的甲狀腺超聲影像進行分析,無法進行動態評估,這在一定程度上降低了S-Thyroid 評估的準確性,因此,建立基于動態圖像進行評估的甲狀腺結節的人工智能系統,多切面、多角度的動態評估甲狀腺結節可能是后續的研究方向。
綜上所述,以ACR TI-RADS 為基礎,S-Thyroid與超聲醫師對甲狀腺結節超聲特征的評估及分類具有較高的一致性,且具有較高的診斷效能,值得進一步推廣應用,從而提升超聲醫師工作的效率,降低超聲醫生的日常工作負擔。