馬明明,張耀峰,王祥鵬,張曉東,秦乃姍,王霄英
1.北京大學第一醫院醫學影像科,北京 100034;
2.北京賽邁特銳醫學科技有限公司,北京 100011
女性乳腺癌現已超過肺癌成為2020年全球發病率最高的癌癥,每年估計有230萬例新增病例,占所有癌癥病例的11.7%[1]。磁共振成像(magnetic resonance imaging,MRI)可用于乳腺癌高危患者的診斷、術前分期、化療效果監測、乳腺假體植入物評估等[2]。乳腺MRI背景實質強化(background parenchymal enhancement,BPE)是乳腺動態對比增強MRI(dynamic contrast enhanced MRI,DCE-MRI)時正常乳腺纖維腺體組織(fibroglandular tissue,FGT)的強化區域,BPE水平與乳腺癌的發生密切相關[3],也可用于新輔助化療治療效果的預測[4]。為了實現BPE的標準化定量,在臨床工作中放射科醫師根據乳腺影像報告和數據系統(Breast Imaging Reporting and Data System,BIRADS)對BPE進行分類[5],將BPE分為極小、輕度、中度、顯著4類。BPE的主觀視覺評估容易出現觀察者之間和觀察者內的差異,因此需要更客觀、簡便的方法來評估BPE。
目前,深度學習技術已應用于乳腺MRI中FGT的分割[6]和強化體積的計算[7],但關于BPE分類的研究很少。北京大學第一醫院已經完成了基于U-Net深度學習模型對乳腺DCE-MRI圖像中乳房和乳腺癌強化病灶的自動分割[8],本研究進一步探討基于深度學習和閾值分割方法對BPE進行自動分類的可行性,并將BPE分類結果自動接入到結構化報告系統中,未來擬自動完成BPE的客觀定量,并將BPE定量應用于乳腺癌化療效果預測的研究。
收集2010年1月1日—2018年10月30日于北京大學第一醫院接受乳腺DCE-MRI檢查的患者的影像學資料,共納入547例患者,患者均為女性,年齡22~82歲,平均年齡(52.3±11.6)歲。納入標準:① 所有患者均使用相同的標準MRI掃描方案,圖像質量合格;② 乳腺腫瘤標本(活檢或手術)病理學檢查結果為惡性;③ 患者未接受任何治療(包括手術、化療、放療等)。排除標準:① 假體植入術后;② 乳腺內極少FGT(幾乎全是脂肪);③ 雙側乳腺癌患者。由2名高年資放射科醫師(A和B)共同讀片,根據第5版BI-RADS對健側BPE進行4分類并作為金標準。BPE分類標準如下[9]:① 極小,<25%FGT的強化;② 輕度,25%~50%FGT的強化;③ 中度,50%~75%FGT的強化;④ 顯著,>75%FGT的強化。
本研究經過醫院倫理審查委員會的批準,研究工作按照北京大學第一醫院人工智能(artificial intelligence,AI)模型訓練規范進行。
根據北京大學第一醫院AI訓練管理方法,首先定義研發乳腺MRI圖像上BPE分類模型的用例。包括模型的ID、臨床問題、場景描述、模型在臨床工作中的調用流程、模型輸入及輸出數據結構等。AI模型返回結果為BPE分類“極小、輕度、中度、顯著”。BPE分類模型預測結果返回到結構化報告中的“背景強化”模塊(圖1)。
圖1 本研究簡要流程圖
采用美國GE公司的Signa Excite HD 1.5 T MRI掃描儀,使用4通道雙穴乳腺線圈行乳腺MRI檢查。掃描序列包括軸位T1加權成像(T1-weighted imaging,T1WI)、壓脂T2加權成像(T2-weighted imaging,T2WI)、彌散加權成像(diffusion-weighted imaging,DWI)及DCE。其中DCE的參數如下:重復時間(repetition time,TR)為3.9 ms,回波時間(echo time,TE)為1.7 ms,層厚1.4 mm,層間距0 mm,視野36 cm×36 cm,矩陣320×320。靜脈注射釓對比劑0.2 mmol/kg,注射速率2 mL/s,隨后使用20 mL生理鹽水沖管。注射同時開始掃描,每個時相掃描時間為55 s,共掃描9個時相。
將DICOM圖像轉換為NiFTI格式。由1名高年資放射科醫師使用ITK-SNAP軟件標注100個數據的FGT區域,訓練分割模型。以本單位既往訓練好的U-Net 3D模型分割乳房作為掩膜(mask)[11],進一步訓練FGT分割模型。使用547個數據進行外部驗證,分別為262個左側FGT和285個右側FGT(圖2)。以DCE-MRI第一期圖像為基線,使用上述模型分割得到基線FGT的體積。
圖2 訓練乳腺FGT U-Net 3D分割模型的流程及主要參數
以增強掃描第三期圖像和基線圖像做減影,得到DCE-sub圖像。在DCE-sub圖像上對547個數據的BPE進行閾值分割,取全圖中信號強度>50%區域為BPE(圖3)。最后計算BPE體積與基線FGT體積的比值,公式:BPE比值=BPE體積/基線FGT體積×100%。根據BPE比值分為4類:極?。ǎ?5%);輕度(25%~50%);中度(50%~75%);顯著(>75%)。
圖3 典型病例1~4(4類BPE強化類型的乳腺癌)MRI圖像、FGT和BPE標簽
對乳腺FGT分割效果的評價指標為Dice相似性系數(Dice similarity coefficient,DSC)。對乳腺BPE分類結果的評價使用多分類混淆矩陣,計算其準確度、F1評分和Kappa值。
FGT分割模型的平均DSC為0.902,模型預測FGT區域與高年資醫師標注區域一致性高。
BPE分類的混淆矩陣和診斷效能見表1、2。
表1 BPE分類混淆矩陣
表2 BPE分類的診斷效能
乳腺MRI增強檢查已被廣泛應用于乳腺癌診斷、化療效果評估,其不僅提供了腫瘤的形態學信息,還可提供定量的功能信息。BPE是乳腺癌風險和新輔助化療(neoadjuvant chemotherapy,NAC)效果評估的主要參數之一[3-4]。本研究使用U-Net 3D分割模型對乳腺MRI中基線FGT區域進行分割,并利用閾值分割技術得到增強后圖像中BPE區域,通過計算二者的體積之比來定量評估BPE的4分類。既往Ha等[10]已經提出關于使用全卷積神經網絡(convolutional neural network,CNN)方法量化乳腺MRI中FGT和BPE,但是BPE采用了手動標注的方法,標注工作量大,且測試集中FGT和BPE的準確度分別為0.813和0.829。本研究與前人比較,相同之處是也使用了深度學習方法。不同之處有兩點:第一,本研究中BPE為程序自動分割,操作簡便,并且結果優于前人,FGT分割的DSC值達0.902,BPE分類準確度達0.95;第二,本研究的結果可自動分類接入到結構化報告中,對醫學影像工作流程優化有益。
本研究提出的BPE自動分類方法整體準確度較高,但是從混淆矩陣中可以看出BPE的4種類型的數據不均衡,這是由本組數據的性質決定的。本組數據BPE自動分類結果提示中度強化類與人工分類差別較大,其錯誤分類發生在較輕強化類別中,大部分發生在相鄰類別的輕度分類。分析其可能原因有以下兩個方面。一方面,本研究以人工分類為參考標準,且由2名醫師共同讀片,雖然分類的把握度較高,但仍可能存在主觀偏差。本研究中醫師通過在影像存儲與傳輸系統(picture archiving and communication system,PACS)工作站上連續翻動圖像獲取BPE的三維印象,對于輕度、輕-中度、中度之間的判定可能有一定誤差。另一方面,本研究中使用固定閾值分割BPE體積,研究結果表明大部分患者使用固定閾值是可行的,但可能個別患者需要使用有針對性的閾值方能準確地分割BPE體積。上述誤差在臨床實際工作中是可以糾正的,我們的工作流程是DCE-MRI掃描完成后,程序自動對BPE進行分類并輸入到結構化報告中,醫師打開報告確認BPE分類是否正確,基于目前的結果可知,僅極少數病例的BPE自動分類結果需要醫師修改,絕大多數病例的BPE自動分類結果不需要醫師修改,直接接受即可。這種流程既可以提高醫師的工作效率,又可以保證最終報告的準確性。
本研究的局限性在于以下幾個方面。① 納入對象僅為乳腺癌初診患者,有研究[4]表明,通過定量評估NAC前后DCE-MRI中BPE的變化可反映NAC效果。因此,今后BPE相關研究應同時納入NAC前后患者,為后續預測NAC效果做準備。② 本研究以2名高年資放射科醫師共同對BPE實施的分類結果作為金標準,而醫師評估的不一致性很常見[11]。為了使BPE分類標準更加可靠,將來需要對觀察者一致性進行評估。③ 本研究排除了乳腺內極少FGT的數據,由于此類數據乳房內幾乎無FGT,BPE計算可能不準確。為了適用于復雜的臨床實際工作場景,后續研究應針對不同FGT含量的患者進行分層分析。④ 本研究選擇了一個固定閾值分割BPE,這是根據經驗選擇的,后續研究需要選用個性化的動態閾值進行定量計算BPE。最后,所有研究是在同一機構的磁共振設備進行的,未來應使用多中心的數據對模型進行驗證。
總之,基于U-Net深度學習模型和閾值分割技術對BPE進行自動分類的準確度高,有可能應用于臨床實踐,也有可能用于探索BPE與NAC效果的相關性研究。