陳祖峰,陳 銘,王 韋,沈若宇,金修才(通信作者)
(海軍軍醫大學第一附屬醫院超聲診斷科 上海 200433)
近年來,甲狀腺癌的發病率不斷上升[1]。超聲是甲狀腺癌的首選檢查手段,其在診斷中發揮著十分重要的作用。目前,在甲狀腺結節的超聲診斷中,人工智能(artificial intelligence,AI)的應用越來越廣泛,并且關于甲狀腺良惡性結節的診斷已取得良好的研究成果[2-3]。但是,從現有的研究數據來看,大部分研究集中于以甲狀腺乳頭狀癌為主體的甲狀腺惡性結節上。甲狀腺髓樣癌系起源于甲狀腺濾泡C 細胞的一種罕見的甲狀腺癌,復發率高,預后不良[4]。常規超聲對甲狀腺髓樣癌的診斷符合率要低于甲狀腺乳頭狀癌[5]。現階段研究針對甲狀腺髓樣癌的AI 應用的研究較少,診斷價值尚不明確。因此,本文主要探討AI 對于甲狀腺髓樣癌的診斷價值。
回顧性分析2012 年10 月—2022 年10 月期間于海軍軍醫大學第一附屬醫院超聲科進行檢查的47 例甲狀腺髓樣癌患者的臨床資料。上述患者均于海軍軍醫大學第一附屬醫院進行外科手術切除,術后病理證實為甲狀腺髓樣癌。47 例患者中男性20 例,女性27 例,年齡13~84 歲,平均(50.30±15.97)歲。本研究采用隨機數字表法,按1:2比例,納入同期筆者醫院手術病理證實的94 例甲狀腺乳頭狀癌患者作為對照組,其中男性33 例,女性61 例,年齡25~74 歲,平均(46.71±11.28)歲。所有超聲圖像均由同一名工作10 年以上的超聲科醫生獲取,至少包含橫切面及縱切面的清晰、規范的超聲圖像一幅。本研究為回顧性研究,所有數據均已取得患者知情同意。
納入標準:(1)病理診斷明確;(2)超聲資料完整且采集圖像均達到超聲圖像質量評價標準;(3)術前未行抗甲狀腺癌治療。排除標準:(1)病理診斷不明確;(2)超聲資料不完整,采集圖像未達到超聲圖像質量評價標準;(3)有甲狀腺切除病史或甲狀腺放射治療、化學治療等輔助治療史。
儀器均采用西門子ACUSON S2000 的高端超聲儀器的高頻線陣探頭[L12-5 探頭,頻率(5~12)MHz]。AI 輔助診斷軟件采用脈得智能科技有限公司研發的Ian Thyroid Solution 100(以下簡稱“IST100”)超聲影像智能系統。以病理結果作為金標準,分析醫生讀圖和AI系統診斷對病灶的診斷符合率。
1.2.1 醫生讀圖 所有病例的圖像均從本院超聲報告工作站中提取,在未知任何臨床信息及病理結果的情況下,由2名從事超聲工作10 年以上的超聲科醫生,分別獨立對圖像中病灶大小、位置、內部結構、回聲、邊緣、鈣化及縱橫比進行分析、評估并記錄,同時按照2017 版ACR-TIRADS 診斷標準進行分類。將TI-RADS 1~3 類歸類為偏良性,TI-RADS 4~5 類歸類為偏惡性。當2 名醫生分級結果不一致時,由第3 名從事超聲工作15 年以上的醫生加入,協商一致后給出結果并進行記錄。
1.2.2 AI 診斷 本研究采用脈得智能科技有限公司研發的IST100 超聲影像智能系統。導入甲狀腺髓樣癌47 例患者及甲狀腺乳頭狀癌94 例患者的超聲圖像,圖像清晰、規范。當IST100 發現圖像中的結節時,能自動標識病灶并實時定位結節。AI 運用計算機視覺、深度學習技術,建立基于卷積神經網絡的甲狀腺結節良惡性AI輔助診斷模型,在診斷模型對輸入結節圖像進行特征提取與計算之后,模型輸出兩個概率值,分別為AI 認為該結節是惡性的概率值和是良性的概率值。當AI 預測該結節的惡性概率值≥良性概率值時,認定模型預測結果為惡性,顯示紅色“Malignant”標識;反之為良性,顯示綠色“Begin”標識。其百分比代表可能性大小。該操作全程由1 名脈德公司的工程師進行規范的監督、指導。見圖1。

圖1 IST100 人工智能系統界面
以病理學檢查結果為金標準,比較AI、醫生對甲狀腺髓樣癌的診斷符合率,以及AI 對甲狀腺髓樣癌、甲狀腺乳頭狀癌的診斷符合率。
采用SPSS 25.0 統計軟件分析數據,符合正態分布的計量資料以均數±標準差()表示,采用t檢驗;計數資料以頻數(n)、百分率(%)表示,采用χ2檢驗或Fisher 精確概率法進行比較,檢驗水平α=0.05。以P<0.05 為差異有統計學意義。
甲狀腺髓樣癌組和甲狀腺乳頭狀癌組的性別比例、年齡差異無統計學意義(P>0.05),結節的平均大小差異有統計學意義(P<0.05)。見表1。

表1 甲狀腺髓樣癌組、甲狀腺乳頭狀癌組的一般臨床資料比較
兩組的內部結構、邊緣、縱橫比構成比差異有統計學意義(P<0.05),而回聲、鈣化灶構成比差異無統計學意義(P>0.05)。見表2。

表2 甲狀腺髓樣癌和甲狀腺乳頭狀癌患者的圖像特征情況[n(%)]
AI 對髓樣癌組的診斷符合率為51.1%(正確診斷24 個,錯誤診斷23 個),對乳頭狀癌組的診斷符合率為88.3%(正確診斷83 個,錯誤診斷11 個),AI 對兩組的診斷符合率差異有統計學意義(差值0.37,差值95%CI:0.21~0.52,P<0.001)。見表3。

表3 AI 對甲狀腺髓樣癌組、甲狀腺乳頭狀癌組的診斷效能
在甲狀腺髓樣癌組中,AI 對甲狀腺髓樣癌診斷符合率為51.1%(正確診斷24 個,錯誤診斷23 個,見圖2),醫生對甲狀腺髓樣癌診斷符合率為72.3%(正確診斷34 個,錯誤診斷13 個),兩種方法對髓樣癌診斷符合率差異有統計學意義(差值0.21,差值95%CI:0.02~0.39,P<0.05)。見表4。

表4 AI、醫生對甲狀腺髓樣癌的診斷效能

圖2 甲狀腺髓樣癌的AI 診斷
自AI 出現后,其一直是相當熱門的研究領域。近年來,AI 在超聲診斷方面,尤其在甲狀腺結節的診斷方面取得較好的成果。Liu 等[6]的AI 軟件對甲狀腺結節的靜態圖片進行檢測的準確率達97.5%。Fang 等[7]AI 軟件實現對結節圖像的實時動態監測,這將AI 更進一步貼近于臨床超聲檢查的工作中,且精確率達92.7%。目前,AI 診斷研究成果多集中在以甲狀腺乳頭狀癌為主體的甲狀腺惡性結節上,其中在郭芳琪[8]、方明娣等[9]的文章中顯示,AI 對其的診斷準確率達到86.5%、85.7%。針對甲狀腺髓樣癌的研究較少,本研究的目的主要是將AI 應用于甲狀腺髓樣癌的診斷中,評估其對甲狀腺髓樣癌的診斷價值。本研究采用的AI 軟件是脈得智能科技有限公司研發的ITS100 超聲影像智能系統,該系統運用超大規模卷積神經網絡、深度學習技術。目前該AI 已經學習了35 萬枚甲狀腺結節數據,實現了對圖像中的結節準確定位、自動勾勒及結節良惡性的輔助診斷,該AI 軟件在王冰等[10]研究中對甲狀腺結節診斷準確性上的與術前穿刺的結果達到一致水平。
本研究中,AI 對甲狀腺乳頭狀癌組的診斷符合率達到88.3%,這與既往其他學者應用AI 診斷甲狀腺乳頭狀癌的研究結果類似[11]。但是,AI 對甲狀腺髓樣癌組的診斷符合率只有51.1%,數據表明,AI 對髓樣癌組的診斷符合率低于對乳頭狀癌組的診斷符合率(51.1% vs 88.3%),差異顯著(P<0.001)。另外,醫生與AI對甲狀腺髓樣癌診斷符合率(72.3% vs 51.1%)差異有統計學意義(P<0.05),醫生對其的診斷符合率要高于AI。
分析可能導致產生以上數據的原因主要為:(1)現階段AI 系統相較于甲狀腺乳頭狀癌而言,甲狀腺髓樣癌的病例樣本大數據輸入相對缺乏,AI 系統對甲狀腺髓樣癌的深度學習程度不夠,從而導致診斷效能不高。(2)在甲狀腺惡性腫瘤中,甲狀腺乳頭狀癌的超聲特征較為典型,其特征主要為實性低回聲、邊緣不規則、縱橫比>1 等[12],AI 識別更為敏銳。但是,部分甲狀腺髓樣癌的超聲表現不夠典型。在本研究中發現甲狀腺髓樣癌相較于甲狀腺乳頭狀癌呈現出體積更大、更多的縱橫比≤1、囊實性及邊緣清晰的特點(P<0.05),這與既往的研究結果一致,這可能影響了AI的判斷能力[13]。
通過此次研究,發現AI 在甲狀腺乳頭狀癌上的診斷價值較高,但AI 在對甲狀腺髓樣癌的診斷價值仍有待提高。一方面,這提醒我們今后在甲狀腺AI 軟件的發展中,需要在樣本庫中輸入更多、更大的甲狀腺髓樣癌的數據,深化AI 對髓樣癌的學習程度,從而提高對髓樣癌的診斷價值。同時,目前的AI 系統只能對灰階超聲圖像進行評估,對于甲狀腺結節的血流成像、彈性成像等多模態超聲還不能進行診斷。今后可以研發多模態超聲AI 診斷系統,獲取更豐富的結節信息,從而提高對甲狀腺髓樣癌的診斷價值。另一方面,這也警示醫生在現階段使用AI對甲狀腺結節良惡性判別的過程中,當AI 提示為良性時,醫生還需要結合灰階圖像特點、彩色多普勒、彈性成像、超聲造影等技術,考慮該結節是否可能為超聲特征不典型的惡性腫瘤,如甲狀腺髓樣癌等。關于甲狀腺髓樣癌的診斷,除了超聲檢查以外,應結合更多的手段,如降鈣素、CEA[14]等實驗室檢查,還可以進行細針穿刺[15-16]檢查,從而提高對其檢出率。
在本次研究中,仍然存在一些不足之處。首先,本研究僅對一家公司的AI 軟件對甲狀腺髓樣癌進行了分析,未采用多家AI 軟件對髓樣癌診斷效能進行比較。其次,由于是回顧性研究,大多數圖像信息為靜態圖像而不是動態圖像,導致在圖像的判讀過程可能出現不同程度的偏差。最后,本文的研究設計屬于單中心樣本研究,可能存在因樣本量較少而導致的選擇偏倚的情況。未來將進行多中心的、前瞻性的AI 研究,爭取納入更多甲狀腺髓樣癌的病例,進一步研究AI 對甲狀腺髓樣癌的診斷價值。
綜上所述,在甲狀腺髓樣癌方面,目前AI 對其的診斷價值仍有待提高,未來AI 對其應用和發展需要更進一步的研究。