呂明慧,周 帥,朱 強
(首都醫科大學附屬北京同仁醫院超聲診斷科,北京 100730)
2018年全球女性乳腺癌新發病例約208.88萬,占女性新發癌癥的24.2%[1]。中國乳腺癌世界人口標準化發病率約36.1/10萬,雖低于其他國家,但呈逐年增長趨勢,如能及時診斷并進行干預,患者死亡率可低于其他惡性腫瘤[2-3]。不同于歐美女性多為脂肪型乳腺,中國女性乳腺以纖維結締組織含量較多的致密型腺體為主,超聲聲像圖中病變與腺體明顯不同。超聲是我國診斷及篩查乳腺癌的主要手段,但較依賴操作者經驗,診斷結果差異較大。除須提高超聲醫師專業素質及診斷能力外,還應從技術角度尋找解決方案[4]。
計算機輔助診斷(computer-aided diagnosis, CAD)系統采用機器學習方法對醫學圖像進行識別和概率性判斷,是人工智能技術的一大分支[5]。通過模擬人腦神經網絡結構,深度學習(deep learning, DL)將信息從低層傳至高層,提取圖像特征并分類,是當下極具應用前景的機器學習方法之一[6]。基于DL的CAD系統在提高診斷準確率、減少漏診或誤診及減輕醫師工作負荷等方面均具有極大潛力和應用價值。本文對乳腺CAD系統的背景及基于DL的乳腺超聲CAD系統研究進展進行綜述。
LEDLEY[7]于1966年首次提出CAD系統。隨著計算機技術及算法等方面的進步,直至20世紀八九十年代,相關研究才得以在醫學影像學領域縱深開展,并逐步成為影像科醫師的輔助工具,例如輔助分析肺CT、乳腺及前列腺MRI和甲狀腺超聲等[8-12]。1998年R2 Technology公司開發了乳腺CAD系統,并通過了美國食品藥品管理局認證,基于鉬靶X線圖像進行診斷。隨后國外諸多相似乳腺CAD產品應運而生,側重于檢測微鈣化及識別病變等。近年來,亞洲國家及擁有部分拉丁裔、亞裔人群的西方國家越來越重視乳腺超聲的應用,乳腺超聲CAD系統的研發逐漸興起[13],其過程中所運用的核心算法也逐步從傳統機器學習算法過渡到更為智能的DL算法[4]。
傳統CAD系統處理步驟主要包括圖像預處理、選擇和定位ROI及提取ROI特征并分類,高度依賴人工選擇及分類器整合特征[14]。DL具備自動提取特征能力,能處理大量圖像,其應用提高了CAD系統的魯棒性及泛化能力[15],代表算法為卷積神經網絡(convolutional neural network, CNN)。
2.1 DL DL的概念源自人工神經網絡。人工智能研究的一大難點是計算機面對大量數據信息時如何能夠快速提取特征信息并加以處理。DL的本質在于使機器在大量帶標簽樣本中學習最佳特征,尋找數據內在規律,減少人工定義特征帶來的不準確性。
2.2 CNN基本結構及技術 CNN是包含卷積計算且具有深度結構的前饋神經網絡,由輸入層、隱藏層及輸出層組成,可實現“端-端”模型訓練,廣泛用于計算機視覺領域[16-17]。輸入層導入圖像;隱藏層包括卷積層、池化層(下采樣層)及全連接層,其中卷積層利用卷積核提取圖像特征,池化層對提取出的特征進行降維,以減少參數且在一定程度上保持特征尺度的不變,可提高模型的泛化能力及魯棒性;卷積層與池化層交替排列,層數不固定;全連接層可對輸出特征進行分類;輸出層輸出最終分類結果[18]。
學習模型在訓練過程中易出現參數過擬合現象,可影響模型在測試數據集中的泛化性能,而數據增強、Dropout模塊(訓練中按一定概率將神經網絡單元暫時丟棄)及隨機下采樣可避免該現象[19-20]。訓練CNN需要大量數據。即使加入增強數據,醫學圖像的樣本量仍有所不足。遷移學習可將預訓練模型用于另外任務,從而減輕訓練數據量對模型性能的影響[17,21]。基于DL搭建CAD模型時,采用遷移學習方法微調模型,可利用較小樣本量獲得性能較好的模型,有助于縮短訓練時間。
2.3 研究及應用現狀 通過設計不同CNN架構或使用不同DL算法可提高模型的診斷效能。BYRA等[22]觀察882幅超聲聲像圖,利用經過ImageNet預訓練的VGG19 CNN模型將乳腺病變分為良性和惡性,提高了系統的診斷效能。YAP等[23]提出一種基于CNN模型自動檢測乳腺病變的超聲CAD系統,并比較3種不同模型(基于補丁的LeNet、U-Net和基于遷移學習的FCN-AlexNet)的診斷效能,結果顯示基于遷移學習的FCN-AlexNet性能最佳。CAO等[24]利用乳腺數據集評估不同DL框架,發現SSD 300和DenseNet分別在檢測病變區域和分類任務中展現出最佳性能,表明高性能的CNN框架可提高檢測和分類乳腺病灶的效能。HUANG等[25]提出一種兩階段CNN模型,即ROI-CNN(用于識別ROI)和G-CNN(用于分類),對乳腺超聲聲像圖進行乳腺影像報告和數據系統(breast imaging reporting and data system, BI-RADS)分類,針對BI-RADS 3類及4A、4B、4C及BI-RADS 5類乳腺病灶,其準確率分別為99.8%、94.0%、73.4%、92.2%及87.6%。SEUNG等[26]提出一種弱監督和半監督學習的系統算法,以少量強注釋數據及更多弱注釋數據進行模型訓練,可有效避免過擬合。TANAKA等[27]結合2個CNN模型(VGG19和ResNet152)構建出1個集成網絡,微調后綜合評估針對病變的全部圖像,并對其進行分類,顯示出優異的分類性能,敏感度為90.9%[95%CI(84.5,97.3)],特異度為87.0%[95%CI(79.5,94.5)],曲線下面積(area under curve, AUC)為0.95[95%CI(0.916,0.987)]。
乳腺超聲CAD系統具有一定臨床應用價值。乳腺超聲CAD系統多側重于建立魯棒性及泛化能力較強的模型,以彌補聲像圖質量良莠不齊且頗具主觀性的缺陷,具有極大潛力和發展前景。利用乳腺超聲聲像圖區分良惡性腫物,CNN模型的診斷效能與超聲醫師相同或更高(敏感度95.8%和58.3%~91.7%,特異度92.5%和60.4%~77.1%,準確率92.5%和65.8%~79.2%)[28]。CHOI等[29]指出,基于DL的乳腺超聲CAD系統可提高超聲醫師診斷乳腺癌的特異度、準確率及陽性預測值,且不降低其敏感度和陰性預測值。LEE等[30]發現CAD系統可顯著提高經驗不足的超聲醫師的診斷水平。冀鴻濤等[31]構建基于CNN的CAD模型,鑒別診斷乳腺良惡性結節的敏感度為84.1%,特異度為95.0%,準確率為91.2%。ZHOU等[32]發現通過DL模型可有效預測原發性乳腺癌腋窩淋巴結轉移風險,其中性能最優的CNN模型的AUC達0.89。HAN等[33]采用Google LeNet模型分析4 254個乳腺良性病變和3 154個惡性病變的聲像圖并進行分類,敏感度為86.0%,特異度為93.0%,準確率為91.0%,AUC>0.90。
2.4 面臨的挑戰 DL雖在處理大數據等方面具有顯著優勢,提高了CAD系統的性能,但仍面臨多重挑戰;其運行的關鍵步驟是收集數據,并評估其準確度、完整性及可信度等,數據量較大時易發生遺漏與錯誤。目前尚無影像學診斷相關數據庫及其統一使用標準或指南,且罕見疾病數據收集不足可能會產生類別不平衡等問題。常用于評估CAD系統性能的方法包括特異度、敏感度、準確率、受試者工作特性曲線、AUC、陽性預測值及陰性預測值等,為加以充分評估,往往需結合多種方法,但尚無統一標準。目前乳腺鉬靶X線CAD系統已商品化且被納入常規診療流程,其他大多僅用于教學與培訓;若以CAD系統進行診斷決策,影像科醫師如何正確解讀診斷結果仍是需要解決的問題。為此需臨床醫師與計算機專家緊密合作,于臨床應用和技術領域等發現問題,并不斷改進。此外,乳腺超聲CAD系統面臨患者隱私泄漏及責任劃分等倫理問題,需通過加強隱私和數據保護、建立完善的法律法規和監督體系等措施加以解決[34]。
基于DL的乳腺超聲CAD系統超越了傳統的技術系統,可提高模型性能,在輔助診斷與鑒別診斷乳腺癌領域已取得業界的初步肯定,對縮小不同年資醫師之間、不同地區及級別醫院之間專業水平差異有一定價值。
目前乳腺超聲CAD系統僅通過分析超聲聲像圖得出診斷,尚不能整合病史、體格檢查、實驗室指標及隨訪信息等;將這些臨床信息匯總并導入CAD系統,進而得出更全面、準確的診斷是未來的目標。建立中國女性乳腺多中心超聲聲像圖數據庫,為訓練CAD模型提供病史詳細、病種豐富、圖像或視頻質量規范的數據集,將可使CAD模型具有更好的魯棒性和泛化能力,為篩查及診斷乳腺癌提供更加可信的輔助工具。