徐立芳,傅智杰,莫宏偉
(1. 哈爾濱工程大學 工程訓練中心,黑龍江 哈爾濱 150001; 2. 哈爾濱工程大學 自動化學院,黑龍江 哈爾濱 150001)
乳腺癌是女性中最常見的癌癥,也是全世界癌癥死亡的主要原因之一,其死亡率僅低于肺癌[1],根據美國癌癥協會(american cancer society)對2019年癌癥患者的統計,在美國經確診的浸潤性乳腺癌有約268 600例新病例和非浸潤性乳腺癌約62 930例新病例以及41 760例因乳腺癌死亡的病例,乳腺癌已經影響了約12%美國女性日常生活[2],早期發現可以增加患者治療的機會進而提高患者的生存率[3-4],因此,乳腺癌的篩查及早期診斷尤為重要,現階段,乳腺癌診斷的方法主要有:磁共振成像(magnetic resonance imaging, MRI)、正電子發射型計算機斷層顯像(positron emission computed tomography, PET)、超聲成像和X線攝影等,其中MRI和PET價格較為昂貴且具有輻射性[5];X線攝影只能對特定的斷面進行診斷,靈敏度低[6];相比于MRI、PET和X線,超聲成像技術不僅價格低廉、不具有放射性,而且可以將各個斷面的絕大部分的病變區域顯示出來,尤其針對亞洲年輕女性較為緊密的乳腺組織,超聲成像技術有著更好的檢測效果,更適合于對乳腺腫瘤進行大規模的檢查[7-8]。
雖然超聲成像已成為早期診斷的最受歡迎的檢測方式,但超聲檢測在實際應用中仍然存在較多的困難:
1) 超聲成像過程較為復雜容易造成嚴重的噪聲,同時鑒于乳腺腫瘤的浸潤性,其對比度和分辨率比較低,邊界模糊;
2) 由于超聲波頻率較高、纏頭能力強,對于較多的小于10 mm的小腫瘤很難進行準確的鑒別;
3) 超聲波束具有反射、折射等特點,而不同人體的組織器官的聲阻抗具有較大差異,而極易導致超聲圖像生成偽像。
然而,影像科醫生往往都是根據自己的工作經驗來分析超聲圖像,借助腫瘤的形狀、大小、能量、密度等相關的特征來分辨腫瘤良惡性,對于相同的一幅圖像,不同醫生的分析可能會有一定差異,不同時期圖像的屬性也有所不同,因此判讀結果也會不同,除此之外,乳腺超聲圖像的診斷工作較為復雜,特別對于中型和大型醫院病人較多、工作量較大的情況,單純依賴醫生診斷容易發生錯誤診斷,這將大大影響病人的有效治療時間,給病人的生命財產造成嚴重的影響,基于以上原因,完全依賴醫生的人工處理容易由于疲勞而造成誤診率上升的現象[8],隨著人工智能相關理論的發展,基于深度學習的乳腺超聲腫瘤識別技術有著重要的研究價值和意義。
目前乳腺腫瘤的識別方法主要可分為2類:乳腺腫瘤傳統識別方法以及基于深度學習的乳腺腫瘤識別方法。
乳腺腫瘤傳統識別方法包含了乳腺超聲腫瘤圖像預處理、區域分割、特征提取和分類4步。由于先前的過程會影響后續過程,因此這些方法都需要非常精確地處理每一個步驟,按照是否強調分類和強調目標感興趣區域(region of interest,ROI)提取將傳統方法分成2類,其中強調分類的方法通常需要人工手動或半自動獲取ROI區域,更加側重于開發區分良性惡性腫瘤的有效特征和分類器的選擇;而強調ROI區域提取的方法都是側重于開發更優的圖像分割方法定位超聲腫瘤的ROI區域。
Cai等[9]首先提取出 138 個病例的乳腺超聲圖像的 ROI 區域,之后提出了一種結合相位一致性和局部二值模式(local binary pattern, LBP) 特征的局部紋理描述符特征,最后采用 支持向量機(support vector machine, SVM)分類器來區分乳腺超聲圖像中的良惡性腫瘤;Huang等[10]首先利用分水嶺算法來獲取乳腺超聲圖像初始輪廓,然后采用最小化能量函數進一步得到精確的腫瘤邊界,最后采用支持向量機對乳腺腫瘤超聲圖像做良惡性識別;Shahriar 等[11]將得到的超聲圖像先尋找輪廓,之后提取紋理和統計特征,最后采用神經網絡來分類;Menon等[12]首先采用基于局部區域的主動輪廓法對預處理后的乳腺超聲圖像精確地確定 ROI 區域,接著提取紋理及形態等特征,最后采用 SVM 對其進行分類。
這些傳統的識別方法雖然在一定程度上實現了超聲腫瘤識別,但都基本需要進行人工的特征提取,往往識別精度較低、魯棒性較差、通用性不強,故很難應用到實際的診斷中。
近幾年,隨著深度學習的興起,部分研究人員又提出基于深度學習的方法來進行腫瘤識別,例如:Xiao Ting等[13]提出采用深度遷移融合的方法來實現乳腺超聲腫瘤識別,其采用 Resnet50、Xception 和 Inception V3 這3種卷積神經網絡提取的不同的特征進行遷移融合,接著采用前向神經網絡來分類。Han等[14]首先對獲取的 5 151 例患者的 7 408 張超聲圖像進行了 ROI 區域人工提取,之后將其輸入到改進后的 GoogLeNet 網絡中進行特征提取和分類,結果顯示,AUC 大于 0.9,準確性為 90%,靈敏度為 86%,特異度為 96%。梁舒和王恒立等[15-16]分別采用優化后的 U-net 和全卷積網絡進行超聲乳腺腫瘤 ROI 區域的分割,最終在數據集上分別實現了 82.5% 、 83.48% 的準確率。
1、標題完整,作者明確,多位作者分屬不同單位時作者與單位應一一標注,單位要求具體到科室,地市齊全,郵編正確。
目前基于深度學習乳腺腫瘤識別方法,基本都是僅限于采用圖像分割的方法定位ROI區域或將給定的ROI區域分類為良性或惡性,而并不能同時實現對ROI區域的定位和對腫瘤的分類,給醫護人員的診斷帶了極大的不變,最近,Osman[17-18]提出采用基于改進的 FCN-AlexNet 和基于改進的Mask R-CNN 語義分割模型實現端到端的超聲腫瘤識別,同時執行定位和分類,目前這種采用圖像分割的乳腺超聲腫瘤識別的方法,雖然較為精確地定位超聲腫瘤的邊界且實現了良惡性識別,但這種圖像語義分割的方法需要手動標注大量腫瘤分割的數據集,而制作分割數據集的過程非常繁瑣,極大地增加了專業醫生標注的負擔,因此并不適合大規模的應用。
2019年5月Shin等[19]在 IEEE Transac-tions on Medical Imaging 首次提出采用基于深度學習中的目標檢測算法來同時實現乳腺超聲腫瘤的定位和分類,其采用Faster R-CNN算法并借助合作醫院所提供的數據集對模型進行訓練和測試,但由于Faster R-CNN算法檢測速率和檢測精度較低,無法直接應用到實際中,因此本文仍沿著這一思路,首先使用檢測速率和精度均較高的YOLOv3算法進行腫瘤識別,然后針對乳腺超聲腫瘤識別中的相關問題對算法進行改進。
YOLOv3算法將目標檢測問題轉化為回歸問題,合并分類和定位任務到一個步驟,直接預測物體的位置及類別,其包含了新特征提取網絡Darknet-53以及3種尺度的YOLO層,分別用于特征提取和與多尺度預測,網絡結構如圖1所示[20]。

圖1 YOLOv3網絡結構Fig. 1 YOLOv3 network structure
其中Darknet-53層由1個卷積塊DBL和5個殘差塊Resn(n=1,2,4,8)組成,DBL是卷積(conv)、批規范化(BN)和激活函數(leaky relu)的集合,這也是YOLOv3中的最小組件,Resn中的n表示殘差網絡Res的個數,而Res是2個DBL加上短連接(shortcut)組成,經過Darknet-53網絡特征提取后,輸出大小為13×13×1 024特征圖,經過上采樣與淺層特征圖拼接(見圖1中的concat),輸出3個尺度的特征圖用于YOLO層的檢測結果的預測,也就是每個box負責對3個Anchor box進行回歸,其預測結果包括目標的中心位置x和y、寬高w和h、置信度以及類別,在YOLOv1版本中,x、y、w、h是直接預測物體實際值,預測值的微小變化都會被放大到整個圖像的范圍, 導致坐標波動較大, 預測不準確,YOLOv3采用改進后的算法求解預測值,之后通過對置信度設定閾值過濾掉低分的預測框,然后對剩下的預測框執行非極大值抑制算法(non-maximum suppression, NMS)處理,得到網絡最終的預測結果。
盡管YOLOV3在目標識別算法中表現優異,但乳腺超聲腫瘤圖像相對其他圖像而言,邊界更加模糊、噪聲更大、對比度更低,導致特征更難提取,更容易出現錯誤識別和遺漏目標的問題,本節針對乳腺超聲圖像特征難提取的問題,從3個角度對YOLOv3的特征提取網絡DarkNet-53進行改進并進行實驗驗證,以提高網絡圖像特征的提取能力。
YOLOv3中的Residual殘差模塊結構在特征提取過程中參考了ResNet結構,ResNet克服了梯度消失問題,增強了特征表達力,本節中,為了擴大每個網絡層的感受野,提取更加有效的特征,充分利用單層內的特征,考慮通過改進ResNet網絡多樣性角度來改進網絡結構,提出將SE (sequeze and excitation)模塊和Res2Net 2種網絡進行融合組成SE-Res2Net以改進原始的ResNet結構。
SE模塊是2017年由胡杰[21]提出的,SE模塊則是從卷積的通道特征角度通過局部的感受野將深度信息和空間信息進行融合,其結構如圖2所示。SE模塊可分為Squeeze和Excitation 2個部分,其中X為輸入,Ftr為卷積操作,U為卷積輸出,其特征圖大小為W×H×C,其首先將卷積后的特征圖U送到Squeeze中,對其沿著通道方向采用一個全局平均池化操作對特征圖進行壓縮,將整個輸入的二維平面變成一個實數,采用這個實數來表示整個二維平面的特征信息,輸出 1 ×1×C的特征圖,之后將其送入Excitation中,用于增強卷積層通道間的相互依賴性,Excitation模塊在2個全連接網絡中采用了通道的壓縮,第1個全連接網絡通道數變成原來的C/r,其中r為壓縮的倍數,第2個全連接網絡將通道數變成C,2個全連接網絡不僅增加了網絡非線性,而且通過縮放倍數也實現了降低參數量的效果,接著將Excitation的輸出經過一個激活函數將權值縮放到0 ~1,最后將權值乘以最初輸入的特征圖U的各個通道中,實現對特征的重新分配。

圖2 SE模塊網絡結構Fig. 2 Network structure of SE block
SE模塊具有遷移性強的特點,可以嵌入到任何的網絡結構中,為最大化利用提取到的超聲影像中的乳腺腫瘤特征,本節將其與Res2Net[22]結合組成SE-Res2Net,Res2Net是2019年的IEEE國際計算機視覺與模式識別會議提出的新網絡,網絡結構如圖3(b)所示,Res2Net結構采用新的卷積方式來代替ResNet中3×3卷積,首先采用一個1×1卷積核將輸入的特征圖分成4個特征子圖,每個特征子圖均對應一個3×3卷積 (第1個特征子圖除外),將每個特征子圖與上一個特征子圖對應的卷積的輸出的和作為該子圖對應的3×3卷積的輸入,然后將4個通道的特征圖進行融合,顯然Res2Net中每個特征子圖下的3×3卷積均可利用之前的特征,并且它的輸出可以獲得更大的感受野,其在單層內增加了尺度,擴大了感受野范圍,更好地利用了上下文信息,充分結合上下文信息可以令分類器更容易檢測出具體目標,同時使用多尺度的方法來提取特征使得網絡的整體語義表征能力更加出色,特征表現力更強,最后在1×1卷積之后融合SE模塊,能進一步結合SE模塊的優點:對通道特征進行重新加權,抑制無用的特征,充分利用了單層中的特征。

圖3 殘差網絡和SE-Res2Net網絡Fig. 3 Residual network and SE-Res2Net network
DarkNet-53在每個殘差模塊前均會有一個步長為2,大小為3×3的卷積核做下采樣,DarkNet-53中一共有5個這樣的卷積操作,該模塊容易造成特征丟失,會在一定程度上影響識別的性能,因此本節綜合考慮各種因素,引入類似Inception的結構Downsample下采樣模塊來改進DarkNet-53的下采樣結構,其首先采用多個1×1的卷積核將特征圖擴展,之后采用池化層和幾個不同大小的卷積核來做下采樣,接著將下采樣后的特征圖進行融合,這種融合與ResNet殘差網絡的融合不一樣,其只是通道的融合,特征圖的尺寸不會發生改變,最后使用1×1濾波器來降低尺寸,將其尺寸變成整個Downsample下采樣模塊輸入模塊的一半,如圖4所示。

圖4 Downsample下采樣模塊Fig. 4 Downsample network
DarkNet-53每次下采樣輸出特征圖后,均會進入一個Residual的殘差模塊,3.1節將網絡中的ResNet替換為SE-Res2Net,3.2節將3×3的下采樣模塊替換為Downsample模塊,為進一步提高網絡的特征提取能力,在前文基礎上,本節引入殘差網絡ResNet和密集連接網絡DenseNet并將其合并為殘差密集連接網絡Res-DenseNet,為了方便描述改進后的網絡,本節以第5個Residual的殘差模塊為例解釋這一過程,如圖5所示,其由一個Downsample下采樣模塊和4個殘差網絡Res2Net組成,輸入特征圖尺寸是26×26×512,先經過一個Downsample進行下采樣特征圖變成13×13×1 024,連續經過4個SE-Res2Net后輸出。

圖5 原始殘差模塊網絡結構Fig. 5 Network structure of original residual module
在引入密集連接網絡DensetNet和ResNet后,改進后的Res-DenseNet網絡如圖6所示,殘差密集網絡Res-DenseNet在DenseNet網絡基礎上引入ResNet,以充分利用圖像的特征,前面所有模塊的輸出均作為下一個模塊的輸入,這樣越靠后的模塊,特征數量就會越多,容易造成特征的冗余,為了消除冗余,提取更加高效的特征,在最后一個模塊后加入1×1卷積進行降維,隨著網絡深度的增加,特征的增多,會造成網絡難以訓練,因此借鑒殘差連接的思想,將殘差密集網絡中的所有模塊均當作ResNet中的卷積層,將Downsample下采樣的輸出與當前模塊的輸出進行像素相加,這樣不僅實現了內部特征上的融合,而且還會加快網絡的收斂速度,除此之外,就參數上講,添加1×1卷積層,對網絡總參數量幾乎沒有影響。
顯然,整個網絡輸入特征圖尺寸是26×26×512,在經過下采樣模塊后,特征圖是13×13×1 024,先將所有SE-Res2Net模塊的輸出都兩兩進行了連接,使得網絡中每一層輸出都接受它前面所有層的特征作為輸入,則每個SE-Res2Net輸出后,經過特征拼接,輸出特征圖大小分別為13×13×1 280、13×13×1 536、13×13×1 792、13×13×2 048,考慮到最后一個殘差網絡SE-Res2Net輸出后,經過特征拼接,特征圖維度是經過下采樣后特征圖維度的2倍,采用一個conv1進行特征降維輸出13×13×1 024的特征圖,之后借鑒殘差網絡ResNet對應通道像素相加的思想,將第一個conv3下采樣輸出的特征圖與經過conv1特征降維后的特征圖進行對應通道像素的相加,最后輸出大小為13×13×1 024的特征圖。

圖6 Res-DenseNet網絡Fig. 6 Res-DenseNet Network
本文在Ubuntu 16.04操作系統下完成軟件環境平臺的搭建和實驗,GPU選用NVIDIA Ge-Force 1080Ti,軟件:Python (3.6);keras ≥ 2.1.5;tensorflow-gpu (≥ 1.4.1)。
本文實驗采用的乳腺超聲數據是由專業醫生從相關醫院的數據庫選取從2015-2019年不同年齡層次、地區和人種的2 011例原始病例,共計有13 586張原始圖像,圖像大小為768×576,如圖7所示,經過專業醫生篩選剔除后,得到含有腫瘤的有效圖片共計3 259例,其中良性患者共計1 199例,惡性患者共計2 060例,考慮到雖然原始圖像邊框中含有較多的標注信息,如影像保存時間、超聲探頭發射頻率、探測深度和部位,同時標注位置不固定,但為了提高算法的魯棒性,方便實際應用,本實驗不再進行人工的區域裁剪,而是直接使用經過篩選的原始圖片作為目標圖片。

圖7 超聲乳腺腫瘤原始圖像Fig. 7 Original ultrasound images of breast tumor
該數據庫中除了包含有圖像信息外,還提供了所有病例的病理診斷結果,其良惡性均經過活檢證實,經過專業醫生借助ImageLab軟件結合病例信息對進行腫瘤位置和類別標注,生成的PASCAL VOC格式的文件構建了本實驗所需的乳腺腫瘤數據集,考慮到數據集較小,直接將數據集按照3∶1∶1分成訓練集、驗證集和測試集,其中訓練集1 955張,良性719張、惡性1 236張;測試集652張,良性240張、惡性412;驗證集652張,良性240張、惡性412,如表1所示。

表1 乳腺超聲數據集劃分Table 1 Dividing breast ultrasound data sets
本文采用了與YOLOv3[20]相同的損失函數,整體的損失函數由3部分組成:類別誤差、置信度誤差以及目標框誤差。為了加快網絡的訓練速度和防止過擬合,本文采用Adma算法來做梯度優化,其中設置初始學習率為0.001,每100次迭代后學習率衰減為原來的1/10,沖量為0.9,衰減系數為0.0 002,epoch設置為25,batch size設置為8,之后對原始的YOLOv3和不同配置的YOLOv3算法在預訓練模型上進行訓練,不同配置的YOLOv3算法見表2所示,其中YOLOv3(1)表示在原YOLOv3算法上引入SE-Res2Net網絡,YOLOv3(2)表示在原YOLOv3上引入SE-ResNet和Downsample下采樣模塊,YOLOv3(3)表示在YOLOv3上引入SE-Res2Net、Downsample下采樣模塊和殘差密集網絡,最后通過查準率?查全率(precision-recall,PR)曲線、精度均值(average precision, AP)和平均精度均值(mean average precision, mAP)評價模型的性能。

表2 不同配置的YOLOv3算法Table 2 YOLOV3 algorithm with different configurations
1) AP和mAP
待訓練完成后將模型分別在測試集測試,得到良性樣本的PR曲線和惡性樣本的PR曲線如圖8、9所示,之后通過計算PR曲線下的面積可得到良惡性樣本的AP,YOLOv3(1)良惡性AP相對YOLOV3算法提高1.59%和1.73%,其mAP提高1.66%,這是因為Res2Net在單層內增加了尺度,充分利用了單層內的特征;YOLOv3(2)良惡性AP相對于YOLOv3(1)提高了1.18%和3.08%,mAP提高2.13%,這是由于DownSample模塊在一定程度上克服了3×3下采樣容易丟失特征的缺陷;YOLOV3(3)良惡性AP相對于YOLOv3(2)提高了0.99%和0.56%,mAP提高0.775%,這是由于殘差密集網絡充分利用了前面所有層特征;YOLOv3(3)相對YOLOv3良惡性AP提高了3.76%和5.37%,mAP提高了4.56%,證實了本文在引入Res2Net、DownSample模塊和殘差密集網絡后,YOLOv3模型的整體性能得到較大的提升。

圖8 測試集上良性樣本的PR曲線Fig. 8 PR curves of benign samples on test set

圖9 測試集上惡性樣本的PR曲線Fig. 9 PR curves of malignant samples on test set

表3 乳腺超聲數據集劃分Table 3 Dividing breast ultrasound data sets %
2)平均IOU
除了以上評價指標外,本文還引入平均重疊度(intersection over union, IOU)來判定腫瘤的定位誤差,4種算法的在測試集上結果如圖10所示,顯然,在訓練集上的4種算法平均IOU明顯高于測試集上對應算法的平均IOU,YOLOV3、YOLOV3(1)、YOLOV3(2)和YOLOV3(3)算法在測試集和訓練集上平均IOU依次增加,這也證實了本文在引入Res2Net、DownSample模塊和殘差密集網絡后,YOLOv3特征提取能力更強。
從數據庫中隨機抽取一個惡性樣本,采用改進后的YOLVO3算法進行識別,如圖11所示,YOLOV3、YOLOV3(1)、YOLOV3(2)和YOLOV3(3)算法均將其識別為惡性,識別的置信度分別為95.39%、97.652%、99.31%和99.97%;從數據庫中隨機抽取一個良性樣本,如圖12所示,YOLOV3、YOLOV3(1)、YOLOV3(2)和YOLOV3(3)算法均將其識別為惡性,識別的置信度分別為97.28%、98.48%、98.89%和99.97%,顯然本文在引入Res2Net、DownSample模塊和殘差密集網絡后,YOLOV3特征提取能力更強。with applications, 2012, 64(5): 1153–1162.

圖10 訓練集和測試集上的平均IOUFig. 10 Average IOU on training set and test set

圖11 惡性測試樣本效果展示Fig. 11 Malignant test sample effect display


圖12 良性測試樣本效果展示Fig. 12 Benign test sample effect display
針對傳統乳腺超聲腫瘤識別方法均采用人工提取的特征逐步實現ROI區域定位和腫瘤分類往往識別精度低、魯棒性較差且通用性不強,目前基于深度學習的方法又僅限于腫瘤ROI區域的定位或對給定的腫瘤ROI區域進行分類,本文提出采用深度學習中的YOLOv3算法同時實現了對良惡性的分類和腫瘤ROI區域的定位,同時針對乳腺腫瘤識別中的問題對算法進行了改進,經過實驗證明,在引入Res2Net、DownSample模塊和殘差密集網絡后YOLOv3算法有著更高的檢測精度,其在測試集上mAP達到0.795 9,平均IOU達到0.825 9,相比于傳統的YOLOv3算法分別提高了4.56%和2.35%,今后可進一步優化算法提高檢測精度。
經專業醫生鑒定,采用改進后的YOLOv3算法不僅同時實現對腫瘤ROI區域的定位和良惡性的分類,而且取得了較好的檢測效果,使得人工智能應用更接近實際操作環境,有效提升基層醫生診斷能力,降低專科醫生工作強度,有著極大的應用價值。