張興梅,張興華,張 剛,郝帥營,李永忠
(1.北京和睦家醫院放射科,北京 100032;2.北京交通大學理學院,北京 100044;3.海南博鰲恒大國際醫院放射科,海南 瓊海 571400)

圖1 基于DL的乳腺X線腫塊檢測系統算法結構圖
乳腺癌是女性死亡率最高的惡性腫瘤[1],早期診斷是降低死亡率的關鍵[2-3]。近年來,以深度學習(deep learning, DL)為代表的人工智能(artificial intelligence, AI)技術在醫學影像、人臉識別、機器翻譯等領域均取得顯著進展[4-6],使計算機輔助診斷系統的性能明顯提升。本研究探討基于DL的乳腺X線腫塊自動檢測系統診斷乳腺腫塊的價值。
1.1 一般資料 回顧性分析2016年2月—2019年6月于北京和睦家醫院接受乳腺X線檢查的298例女性患者,年齡28~68歲,平均(47.6±10.0)歲。納入標準:①乳腺X線檢查前未接受手術切除、放射及化學治療;②圖像質量、拍攝條件及投照位符合本研究要求。排除標準:①存在乳腺植入物;②圖像質量不佳或投照位拍攝缺失。
1.2 儀器與方法 采用Hologic Selenia Dimensions數字乳腺X線機。按照文獻[7]標準常規拍攝雙側乳腺頭足位(cranio-caudul view,CC)和內外斜位(medio-lateral oblique, MLO)片。
將Dicom格式X線片傳入Bacro RadiForce GX550工作站,采用Dr.Wise乳腺X線影像輔助系統(以下簡稱AI系統,深睿博聯科技有限責任公司)自動檢測并顯示腫塊[8],見圖1。將經過預處理的X線片輸入DL檢測模型基于區域的分割卷積神經網絡(mask region-based convolutional neural network,Mask R-CNN)[9]中,結合雙側乳腺圖像,獲得最終腫塊檢測結果。
1.3 乳腺腫塊檢測參考標準制定 由3名有10年以上乳腺X線診斷經驗的放射科醫師經過中華醫學會放射學會《乳腺X線攝影檢查和診斷共識》[7]和美國放射學會推薦的第5版BI-RADS標準[10]培訓后,分別以盲法閱讀298例X線片,評估腫塊的美國放射學院(American College of Radiology, ACR)腺體構成分類、乳腺影像報告和數據系統(breast imaging reporting and data system, BI-RADS)分類、邊緣、形狀和密度;將3名醫師的結果匯總并統一,作為檢出腫塊的參考標準。
1.4 圖像分析 由2名工作時間<5年、近1年乳腺X線讀片量不低于500份的放射科醫師在無AI輔助下獨立盲法閱片,并標記腫塊作為對照(簡稱醫生1和醫生2);經過1個月洗脫期后再于AI輔助下閱片并標記腫塊(簡稱醫生1+AI和醫生2+AI)。
1.5 統計學分析 采用Python 3.7統計分析軟件。以χ2檢驗比較計數資料。P<0.05為差異有統計學意義。
298例中,131例共檢出176個乳腺腫塊,ACR腺體構成分類為非致密型18個,致密型158個;BI-RADS分類2級12個,3級86個,4a級26個,4b級10個,4c級4個,5級38個;腫塊邊緣清晰85個,模糊17個,遮蔽25個,分葉23個,毛刺26個;腫塊圓形6個,橢圓形117個,不規則形53個;腫塊含脂肪密度2個,低密度1個,等密度125個,高密度48個。醫師1+AI、醫師2+AI腫塊檢出率分別高于醫生1、醫生2(χ2=4.287、5.731,P=0.038、0.016),見表1及圖2~5。

表1 醫師與醫師+AI檢出腫塊結果比較[%(個)]
醫師1檢出非致密型腫塊18個、致密型124個,醫師2檢出非致密型腫塊17個、致密型120個;醫師1+AI檢出非致密型腫塊18個、致密型138個,醫師2+AI檢出非致密型腫塊18個、致密型136個。醫師、醫師+AI針對不同ACR腺體構成分類腫塊檢出差異均無統計學意義(P均>0.05),見表2。

表2 醫師、AI與醫師+AI檢出不同ACR腺體腫塊比較[%(個)]
對于BI-RADS分類2~5類腫塊,醫師1分別檢出10、64、23、7、2、36個,醫師2分別為7、62、23、7、2、36個;醫師1+AI分別為9、74、25、8、4、36個,醫師2+AI分別為9、72、25、8、4、36個。醫師1、醫師2對不同BI-RADS分類腫塊檢出差異有統計學意義(P均<0.05),而醫師+AI差異無統計學意義(P>0.05),見表3。
醫師1檢出邊緣清晰腫塊64個、模糊10個、遮蔽22個、分葉22個、毛刺24個,醫師2檢出邊緣清晰腫塊63個、模糊8個、遮蔽20個、分葉22個、毛刺24個;醫師1+AI檢出邊緣清腫塊73個、模糊12個、遮蔽22個、分葉23個、毛刺26個,醫師2+AI檢出邊緣清晰腫塊73個、模糊11個、遮蔽21個、分葉23個、毛刺26個。醫師、醫師+AI針對不同腫塊邊緣檢出差異均有統計學意義(P均<0.01),見表4。
醫師1檢出圓形腫塊4個、橢圓形91個、不規則形47個,醫師2檢出圓形腫塊4個、橢圓形87個、不規則形46個;醫師1+AI檢出圓形腫塊4個、橢圓形102個、不規則形50個,醫師2+AI檢出圓形腫塊4個、橢圓形100個、不規則形50個。醫師及醫師+AI對不同形狀腫塊檢出差異均無統計學意義(P均>0.05),見表5。
醫師1檢出含脂肪密度腫塊2個、低密度0個、等

表3 不同BI-RADS分類腫塊檢出率比較[%(個)]

表4 不同邊緣腫塊檢出比較[%(個)]

圖2 患者女,46歲,乳腺腫塊(高年資醫師診斷為乳腺不規則形、邊緣模糊、等密度、BI-RADS 4a類腫塊) A、B.分別為醫師1和醫師1+AI檢出結果,醫師1漏檢,醫師1+AI診斷為乳腺不規則形、邊緣模糊、等密度、BI-RADS 3類腫塊 圖3 患者女,44歲,乳腺腫塊(高年資醫師診斷乳腺卵圓形、邊緣部分遮蔽、等密度、BI-RADS 3類腫塊) A、B. 分別為醫師2和醫師2+AI檢出結果,醫師2漏檢,醫師2+AI診斷為乳腺卵圓形、邊緣部分遮蔽、等密度、BI-RADS 3類腫塊

表5 不同形狀腫塊檢出率比較[%(個)]

表6 不同密度腫塊檢出率比較[%(個)]

圖4 患者女,42歲,乳腺X線片 A~C.分別為乳腺局部放大圖、CC位和MLO位X線片;高年資醫師意見:CC位片可見腫塊樣輪廓,但MLO位片中未見明確對應,為拍攝時局部纖維腺體組織重疊;醫師1+AI(假陽性)診斷為乳腺卵圓形、邊緣清晰、等密度、BI-RADS 3類腫塊
密度96個、高密度44個,醫師2檢出含脂肪密度腫塊2個、低密度0個、等密度92個、高密度43個;醫師1+AI檢出含脂肪密度腫塊2個、低密度0個、等密度111個、高密度43個,醫師2+AI檢出含脂肪密度腫塊2個、低密度0個、等密度109個、高密度43個。醫師1、醫師2及醫師1+A對不同密度腫檢出差異均有統計學意義(P均<0.05),醫師2+AI針對不同密度腫塊檢出差異無統計學意義(P>0.05),見表6。
醫師1檢出伴隨可疑鈣化腫塊16個、不伴隨可疑鈣化腫塊126個,醫師2檢出伴隨可疑鈣化腫塊15個、不伴隨可疑鈣化腫塊122個;醫師1+AI檢出伴隨可疑鈣化腫塊16個、不伴隨可疑鈣化腫塊140個,醫師2+AI檢出伴隨可疑鈣化腫塊16個、不伴隨可疑鈣化腫塊138個。醫師與醫師+AI針對不同密度腫塊檢出差異均無統計學意義(P均>0.05),見表7。
如何有效評價DL對于臨床工作的輔助作用是當前研究熱點之一[11-13]。作為輔助閱片手段,AI的有效性直接影響閱片效果;同時,不同類型病灶的漏檢風險不同,對AI檢出的穩定性提出了要求。本文評估基于DL的乳腺X線腫塊檢測系統的有效性和穩定性,發現AI系統輔助醫師可以顯著提升腫塊檢出率,尤其對于BI-RADS 3類和4類腫塊,檢出率提升10.07%(30/298)以上,提示AI系統對于減少低年資醫師漏檢具有臨床意義的乳腺腫塊具有一定價值。相比醫師,醫師+AI假陽性率小幅升高,原因可能在于AI將一些局部纖維腺體重疊誤認為腫塊,對醫師造成了誤導。醫師獨立閱片時,對不同BI-RADS分類、邊緣腫塊的檢出有所差異,而在AI輔助下,該差異不再顯著。針對不同ACR腺體構成分類腫塊,醫師、醫師+AI檢出差異均無統計學意義,但在AI輔助下,P值均有所提升,提示AI輔助有助于減輕不同ACR腺體構成分類對檢出的影響,從而提升醫師對不同種類腫塊檢出的穩定性。

表7 伴隨及不伴可疑鈣化腫塊檢出率比較[%(個)]
本研究對象為亞洲女性,腺體較致密,相比既往研究[12-13],腫塊檢出難度增加;AI輔助診斷更有意義。漏檢不同征象和BI-RADS腫塊帶來的風險后果不同。腫塊形狀、邊緣、密度等征象對于判斷其良惡性有重要參考價值;BI-RADS分類則直接反映對腫塊惡性概率的評估。作為輔助閱片手段,AI系統的穩定性極為重要。本研究探索了不同腫塊征象、BI-RADS分類下的腫塊檢出情況以及AI輔助下的檢出穩定性,發現AI輔助診斷對于提升醫師檢出腫塊的穩定性具有重要臨床價值。
本研究的主要局限性:①為單中心研究;②AI系統存在假陽性,給低年資醫師診斷帶來困擾,如何降低是進一步研究的方向。
綜上,基于DL的乳腺腫塊X線檢測系統有助于減少低年資醫師漏檢腫塊,提升其對不同征象和BI-RADS分類腫塊檢出的穩定性。