姜自容,周祖邦,時潤莉,張雪婷,薛亞娥,張明華
(1.甘肅中醫藥大學,甘肅 蘭州 730000;2.甘肅省人民醫院,甘肅 蘭州 730000)
甲狀腺癌在內分泌腫瘤中的發病率居首位,近幾十年來發病率明顯升高[1-2]。超聲檢查具有操作方便、檢查費用低和便于醫生與患者病情交流等特點,是當前使用最廣泛的甲狀腺結節影像學檢查方法,但其準確率高度依賴操作者的經驗技術,且易受環境、儀器等因素干擾。人工智能與醫學大數據的結合促成了新的診斷方法,即計算機輔助診斷(CAD)技術。客觀穩定、操作便捷且準確率高的CAD軟件的應用,一方面有助于加快超聲醫師的診療進程,縮短患者等待時間;另一方面可提高TI-RADS分級的準確性和一致性,避免因主觀因素及診斷技術不同導致的過度細針抽吸活檢(Fine-Needle Aspiration,FNA)。目前,已有大量研究證實CAD軟件對乳腺結節[3]及肺結節[4]的臨床應用價值,而將CAD軟件對甲狀腺結節的診斷效能與超聲醫師相比較的研究較少。為此,本研究應用CAD軟件判讀經病理證實的106個甲狀腺結節,并與超聲醫師的判讀結果進行比較,分析CAD軟件對甲狀腺結節判讀的穩定性及鑒別診斷效果。
回顧性分析我院超聲醫學科2019年8—12月行FNA的甲狀腺結節患者資料,所有患者均符合FNA標準[1,5]。惡性結節以術后病理檢查結果為診斷依據,良性結節以術后病理檢查或Bethesda甲狀腺細胞病理學報告結果[6]為診斷依據。所有研究對象簽署知情同意書。排除標準:(1)超聲下結節最長徑小于1 cm;(2)結節圖像顯示不完整、不清晰;(3)細胞病理學診斷不明確且未經手術證實。共納入患者102例(106個結節),男25例,女77例;年齡21~78歲,平均(47.2±10.5)歲。病理檢查結果:良性37個,惡性69個。
1.2.1 檢測儀器 本研究所用彩色多普勒超聲診斷儀型號為GE LOGIQ E9,配備9L及ML6-15探頭,甲狀腺超聲CAD軟件由浙江德尚韻興醫療科技有限公司提供。
1.2.2 FNA及圖像采集 甲狀腺結節FNA由一位具有15年介入超聲工作經驗的醫師進行操作。FNA前,由介入組醫師采集結節橫切、縱切及反映結節特征切面的聲像圖至少一張,記錄結節最大徑。基于介入組醫師采集的聲像圖利用CAD軟件進行鑒別診斷。
1.2.3 結節判讀 CAD軟件自動識別導入的圖像并勾畫感興趣區域,量化分析結節影像特征(包括邊緣、結構、高回聲點、均勻性、回聲類型、縱橫比6個特征),綜合分析后,對結節進行評分(評分范圍0~1分,<0.4分為偏良性,≥0.4分為偏惡性),見圖1。

圖1 CAD軟件自動量化結節聲像圖特征并評分
醫師判讀依據為Kwak建立的TI-RADS分類標準[7],將4~5類歸為偏惡性結節,3類歸為偏良性結節[8]。兩名工作10年以上的高年資醫師基于甲狀腺結節圖像獨立判讀并行TI-RADS分級,同時評估邊緣、結構、高回聲點、均勻性、回聲類型、縱橫比6個特征。兩名工作一年的低年資醫師進行獨立判讀及TI-RADS分級,一周后,再利用CAD軟件對結節進行分級。判讀過程中,醫師不知曉患者病理檢查結果,判讀有分歧時由該組醫師討論后得出結論。
1.2.4 CAD軟件及醫師判讀結果比較(1)比較高年資醫師與CAD軟件的診斷效能,包括診斷靈敏度、特異度、準確率、陽性預測值、陰性預測值;評估高年資醫師與CAD軟件對甲狀腺結節6個影像特征及良惡性分類的觀察一致性,Kappa值<0為觀察一致性極差,0~0.2 為微弱,>0.2~0.4 為弱;>0.4~0.6 為適中,>0.6~0.8 為顯著,>0.8~1.0 為最佳[9]。(2)比較低年資醫師單獨診斷與低年資醫師利用CAD軟件診斷甲狀腺結節的診斷效能,包括診斷靈敏度、特異度、準確率、陽性預測值、陰性預測值,評價CAD軟件的診斷價值。(3)比較CAD軟件對不同大小、類型甲狀腺結節的診斷準確率,評價其診斷各類型甲狀腺結節的穩定性。
采用SPSS 21.0統計軟件進行數據處理,對結節特征、良惡性的觀察采用Kappa一致性分析,采用χ2檢驗或Fisher確切概率法進行組間比較,計算受試者工作特征曲線下面積(AUC)并采用Z檢驗進行分析。以P<0.05為差異有顯著性。
高年資醫師的診斷特異度高于CAD軟件,差異有顯著性(P<0.05);兩者靈敏度、準確率比較差異無顯著性(P>0.05),見表1。高年資醫師的 AUC為 0.873(95%CI:0.795~0.930),CAD 軟件的 AUC 為 0.780(95%CI:0.689~0.855),二者比較差異有顯著性(Z=2.166,P<0.05),見圖2。Kappa 一致性檢驗結果顯示,CAD軟件、高年資醫師對甲狀腺結節良惡性判讀(Kappa=0.68)及回聲類型(Kappa=0.77)的觀察一致性顯著,對高回聲點(Kappa=0.60)、均勻性(Kappa=0.51)的觀察一致性適中,對邊緣(Kappa=0.36)、縱橫比(Kappa=0.35)、結構(Kappa=0.25)的觀察一致性弱,見表2。

表1 CAD軟件與高年資醫師的診斷效能比較(%)

圖2 CAD軟件及不同操作者的ROC曲線圖

表2 CAD軟件、高年資醫師對甲狀腺結節超聲特征及良惡性判別結果比價(n)
低年資醫師利用CAD軟件判讀的靈敏度、準確率比其獨自診斷時高,差異具有顯著性(χ2=4.923、P=0.022,χ2=7.563、P=0.004);特異度比其獨自診斷時高,但差異無顯著性(χ2=1.333、P=0.250),見表3。低年資醫師利用CAD軟件的AUC為0.751(95%CI:0.657~0.830),其獨自診斷的 AUC 為 0.645(95%CI:0.546~0.736),兩者比較差異有顯著性(Z=2.502,P<0.05),見圖2。

表3 低年資醫師利用CAD軟件診斷與高、低年資醫師獨自診斷的診斷效能比較(%)
CAD軟件對各類型惡性結節的診斷準確率比較差異有顯著性(P<0.05),CAD軟件對不同大小的良性結節的診斷準確率比較差異無顯著性(P>0.05),見表4。

表4 CAD軟件對不同類型、大小結節的診斷結果比較(n)
對于甲狀腺結節優先選擇的是超聲檢查,指導醫生決定結節是否行FNA[10],超聲診斷結果易受操作醫師經驗的影響[11]。近年來,CAD技術在醫學影像學科中的運用越來越廣泛,利用CAD軟件對甲狀腺結節進行鑒別診斷有望提高超聲醫師的診斷效能,降低變異性[12]。
Wang等報道CAD軟件的診斷準確率為90.3%,靈敏度為90.5%,與超聲醫師獨自診斷的準確率、靈敏度比較差異無顯著性(P>0.05);CAD軟件的特異度為89.9%,高于超聲醫師(P<0.05)[13]。我們的研究發現,CAD軟件的靈敏度(88.4%)和準確率(81.1%)與高年資醫師相近(P>0.05),特異度(67.6%)低于高年資醫師(P<0.05)。CAD軟件的診斷效能不同于以往研究[13]的原因可能與軟件使用者的自學能力、研究對象不同有關——本研究納入的良性結節患者因超聲診斷有難度而行FNA或診斷性手術。盡管不同研究中CAD軟件診斷甲狀腺結節的靈敏度和特異度存在一定差異,但其均能有效鑒別甲狀腺結節的良惡性,對決定是否進行FNA有幫助。
本研究中,CAD軟件和高年資醫師對結節良惡性判讀的觀察一致性顯著(Kappa=0.68)。有研究報道,4名具有5年以上工作經驗的醫師對甲狀腺結節良惡性評估的觀察一致性中等(Kappa=0.54)[11],低于我們的研究結果。因此,我們推測CAD軟件對甲狀腺結節良惡性的判讀穩定,且與高年資醫師有較好的觀察一致性。CAD和高年資醫師對結節超聲特征的觀察,僅在高回聲點和回聲類型方面一致性較好。兩者對其他特征的觀察一致性適中或弱,這種觀察者間的變異性反映了醫師自身對特征觀察的變異性[11]。由于CAD軟件對病灶聲像圖自動量化的特征數目有限,未來完善結節形態、鈣化、后方回聲、聲暈、血流、彈性及部位等數據,有助于提高其準確率,便于醫師出具智能診斷報告,提高工作效率。
低年資醫師利用CAD軟件診斷的靈敏度和準確率高于其獨自診斷(P<0.05),ROC曲線下面積也證實了低年資醫師利用CAD軟件后診斷價值顯著提高,且與CAD軟件診斷接近(P>0.05)。分析原因為低年資醫師參考了CAD軟件對結節特征及最終類別的決策判斷,使得判讀更加客觀準確,減少了主觀錯誤。本研究中,經驗豐富的高年資醫師診斷特異度優于CAD軟件及低年資醫師利用CAD軟件,提示經驗對甲狀腺良性疑難病例的鑒別有重要意義。因此,豐富低年資醫師經驗或增加CAD軟件良性病例數量可提高診斷特異性。
CAD軟件診斷準確率與甲狀腺惡性結節的類型相關,差異有顯著性(P<0.05),其中乳頭狀癌(92.2%)的診斷準確率最高,其在本組惡性病例中的占比最高(92.8%),也是臨床上最常見的甲狀腺癌類型。本研究中結節大小、良性結節類型對CAD軟件診斷準確率無明顯影響,表明CAD軟件對不同大小、類型的良性結節檢出率穩定。本研究中,甲狀腺濾泡癌、髓樣癌、轉移癌、炎性結節病例數過少,還需擴大樣本進一步研究。此外,9L探頭和ML6-15探頭掃查結節同一切面得到的CAD軟件評分不同,其原因是不同的探頭頻率成像清晰度不同,因而影響CAD軟件診斷準確性。CAD軟件只能采集單幀靜態圖像,無法獲取結節全部信息。因此,改進圖像采集方式,實時、動態多切面顯示結節,有助于提高CAD軟件的診斷準確率。
CAD軟件對甲狀腺結節判讀穩定,靈敏度和準確率與高年資醫師一致,能有效提高低年資醫師甲狀腺結節診斷準確率,是當前甲狀腺結節發病率逐年升高形勢下具有發展前景的人工智能診斷技術。本研究的局限性包括納入的甲狀腺結節最大徑不小于1 cm可能導致選擇偏差,以及納入樣本數量有限。今后還需要大樣本、多中心的研究進一步驗證。