武 寬,秦品樂,柴 銳,曾建朝
(1.山西省醫學影像與數據分析工程研究中心(中北大學),太原 030051; 2.中北大學 大數據學院,太原 030051)
甲狀腺結節是最常見的內分泌癌之一,根據全球的流行病學資料顯示,甲狀腺惡性腫瘤的發病率呈現逐年遞增的趨勢。超聲檢查已經成為檢測和診斷甲狀腺癌最廣泛的使用方式,超聲是一種安全、方便、無創傷、可重復的檢查技術,它能夠準確定位甲狀腺腫塊,辨別甲狀腺結節內回聲特征,發現腫塊內部環狀、點狀的血流信號,檢測出微小病灶并評價病灶血流情況。與計算機斷層成像(Computed Tomography, CT)和磁共振成像(Magnetic Resonance Imaging, MRI)相比,超聲檢測在病理特征上區分良性和惡性結節有著更顯著的能力,為臨床的早期診斷和治療方式的選擇提供了極大的幫助[1]。隨著醫療成像技術的快速發展,計算機輔助診斷(Computer Aided Diagnosis, CAD)有助于解決當前方法中很大程度依賴于臨床醫生個人經驗的主觀診斷問題。全自動化的計算機輔助診斷(CAD)過程包括:圖像預處理,感興趣區域(Region Of Interest, ROI)提取,分類。目前,前兩個階段的工作受到了很多的關注,而使用超聲圖像進行分類的工作仍然很少,特別是甲狀腺結節分類。在分類問題中面臨的主要挑戰是如何有效地選擇具有較強區分性的特征,因此大多數的研究都集中在各種類型的特征設計上,如形態特征與紋理特征。彭文獻等[2]使用灰度共生矩陣和灰度梯度矩陣的統計學紋理特征在CT圖像上對甲狀腺結節良惡性進行了鑒別,實現了0.76的準確率。Owjimehr等[3]使用局部二值(Local Binary Patterns, LBP)紋理特征實現了對肝臟超聲圖像進行分割和分類;Zakeri等[4]提出了一種有效的紋理特征來區分乳腺結節;Ding等[5]結合了B-mode圖像與彈性圖像下的局部特征以及彈性圖像的全局特征去完成甲狀腺結節的分類;Raghavendra等[6]融合了空間灰度依賴與分形紋理特征來對常規超聲下的甲狀腺結節進行判別,實現了0.944 5的接收者操作特征曲線下面積值(Area Under the Curve of receiver operating characteristic, AUC),但是這些特征方法并不適用于實際的臨床應用,主要是因為這些方法需要介入精細的手工標注信息去標注結節的輪廓,精度有限。
深度學習尤其是卷積神經網絡正廣泛地應用于圖像分類、目標檢測等[7-8]各種視覺任務中,并取得了非常好的效果。卷積神經網絡可以看作一個復雜的特征提取器,它所提取到的特征可以看作圖像的復雜分層表示,其局部連接與權值共享的性質也決定了它可以有效地提取到圖像內部的深層隱性信息。Wu 等[9]對比了放射科醫生人工判斷與貝葉斯、支持向量機、神經網絡等方法在甲狀腺結節分類上的結果,神經網絡方法可以達到0.8474的準確率和0.9103的AUC,接近于人工判斷的效果。Wang等[10]提出了一種使用半監督學習的方法,設計了一種有效的期望最大化(Expectation Maximization, EM)算法來訓練卷積神經網絡,對弱標注的超聲數據進行結節分類,準確率達到了0.882 5以及0.928 6的AUC;然而由于卷積神經網絡上百萬的參數需要學習,意味著只有大規模的數據集才能滿足卷積神經網絡的訓練要求。醫學領域中一直存在數據獲取困難與數據標注不精確的問題,這樣大規模的數據集是很難獲得的。缺乏足夠的圖像數據將導致過擬合問題的出現,兩種可能的解決方法是遷移學習[11]與數據增廣。如圖1所示,遷移學習采用預訓練的深度學習模型,然后使用現有的特定任務的圖像進行微調,調整預訓練模型的參數使其適應于當前的分類任務[12]。葉晨等[13]基于卷積神經網絡,利用遷移學習改善網絡性能的策略,在甲狀腺CT影像上進行了結節良惡性的分類,實現了0.916 0的準確率。遲劍寧等[14]融合了深度網絡和淺層紋理特征對甲狀腺結節癌變進行診斷。Liu等[15]提出了將方向梯度直方圖(Histogram of Oriented Gradient, HOG)、LBP等低維紋理特征和遷移后的卷積神經網絡高維語義特征進行混合。上述結合淺層紋理特征是一種很好的彌補數據不足帶來的特征不足的方式,但低維紋理特征的提取需要數據進行精細的輪廓標注,本文的數據集并不適用。至于數據增廣,通常會采用一些經典圖像增強的方法,比如裁剪、旋轉、翻轉和縮放。同樣,生成對抗網絡也是一種數據增廣的方法。Zhu等[16]就提出了一種基于卷積網絡的圖像增廣的方法,來提高超聲影像中甲狀腺結節的分類性能,但是常規圖像的數據增廣方法并不適用于醫學領域,因為醫學圖像的標注需要有經驗的臨床醫生來完成,這一點相比常規圖像的難度要大很多。上述方法都是針對常規超聲影像進行特征提取或者是數據增廣,并沒有使用到彈性超聲數據。

圖1 遷移學習Fig. 1 Transfer learning
隨著工藝和計算機技術的發展,彈性影像也更多地應用在臨床上來輔助醫生進行甲狀腺結節的診斷[17]。彈性超聲與常規超聲有著不同的成像原理,其成像效果如圖2所示,有著很大的不同。彈性影像反映的是生物力學特征,其成像原理是借助探頭向病灶施加外力,通過檢測外力作用下病灶的形變程度來間接反映組織硬度[18]:彈性系數較大的組織硬度較大,變形較小;而彈性系數較小的組織硬度較小,變形較大。另一方面,超聲彈性成像通過計算機技術對甲狀腺結節的病灶硬度進行客觀量化,也大幅度降低了操作醫生的主觀誤差,從而提高了診斷的特異度、靈敏度和可靠性,因此,彈性超聲影像在臨床診斷上對甲狀腺結節性疾病具有重要價值,值得在臨床推廣應用。美國臨床內分泌醫師學會(American Association of Clinical Endocrinologists, AACE)、美國內分泌學院(American College of Endocrinology, ACE)以及意大利臨床內分泌協會(Associazione Medici Endocrinologi, AME)共同發布的甲狀腺結節的診斷和管理指南中,把彈性影像列為甲狀腺超聲影像學檢查的一種,當常規超聲和細胞學檢查不能明確診斷時,可作為補充檢查手段,但不能完全取代常規超聲[19]。

圖2 常規超聲影像與彈性超聲影像對比Fig. 2 Comparison of conventional ultrasound image and elastic ultrasound image
因此,彈性影像對甲狀腺癌具有一定的指導意義。依據甲狀腺癌的病理特點與組織特征結合常規超聲影像能更有效地鑒別甲狀腺病灶的良惡性。本文將在ImageNet[20]上預訓練好的VGG16模型的參數遷移到超聲影像數據集,并驗證了選擇前6層卷積作為固定的特征提取器在超聲數據上進行遷移學習的效果最好。在此基礎上,同時提取出常規超聲和超聲彈性影像兩種不同圖像的特征組成混合特征空間,實現了一個端到端的分類任務模型。根據現有研究分析,這也是第一次在卷積神經網絡上同時使用常規超聲與彈性超聲進行甲狀腺結節良惡性判別的工作,實驗結果表明,本文提出方法的分類準確性在同等條件下較單一數據源方法有明顯的提高。
卷積神經網絡是一類深度學習模型,它可以提取出圖像數據的高層特征。卷積神經網絡采用前向傳遞的工作模式,前一層網絡生成的特征作為后一層網絡的輸入傳遞到下一層網絡中[21]。在分類任務中,卷積神經網絡通常作為特征提取器來使用,可以通過遷移學習的方式遷移到相關的分類任務中。雖然超聲圖像與自然圖像有著很大的不同,但是二者對特征的認知是相同的。訓練的樣本越多,特征就會越普遍。正是因為ImageNet為深度學習提供了一個大規模的圖像數據集,所以作為特征提取器部分的VGG16網絡[22]首先在ImageNet上進行了預訓練。VGG16是由牛津大學Visual Geometry Group提出來的一種卷積神經網絡結構,它由13層卷積、池化層和3層全連接層組成。卷積部分進行特征提取,全連接層部分完成分類器的工作。在這個過程中,卷積網絡每一層的輸出在某種程度上都可以被視為某種特征,不同層的特征有著不同的含義,其可視化結果如圖3所示。淺層卷積提取的是圖像的局部特征,在后續層通過下采樣擴大感受野,得到更為抽象的語義特征。從第3層卷積的可視化結果可以看出,淺層卷積共享類似的低級特征,例如圖像的邊緣、方向和亮度特征等信息,作用類似于Gabor濾波,這些特征也都是通用的。高層特征更多地表示圖像的抽象語義,從第7層卷積輸出的圖像可以發現,各種特征復合開始出現,可視化圖像變得較為抽象,這些特征才和具體的分類任務相關,因此在卷積神經網絡中,前幾層的特征通??梢栽谝粋€數據集上訓練得到并應用到另外一個相關的數據集上。本文針對預訓練的VGG16模型該選擇前多少層卷積作為通用特征的特征提取器進行了對比實驗。

圖3 某個卷積層的特征圖輸出Fig. 3 Feature map output of one convolutional layer
如表1所示,從前往后依次凍結前n層卷積的權重、偏置參數,使得預訓練網絡在甲狀腺超聲數據集上進行微調時反向傳播的梯度不會對其進行更新。這樣前n層卷積僅相當于一個固定參數的特征提取器,反向傳播的梯度只會對后續卷積、全連接層的參數進行更新,使其適應到新的分類任務中。在本文的數據集上,分別對常規超聲和彈性超聲兩組不同的數據進行實驗對比。每組實驗均分為14個批次,對于每個批次,進行了5次交叉驗證,每次均使用十折交叉驗證作為訓練集驗證集的采樣劃分,并取準確率的最大值作為該次的結果,每批次中的5次結果取平均作為該組該批次下的最終結果。實驗結果表明,在常規超聲與彈性超聲數據下,均是取前6層的卷積部分作為遷移學習中的通用特征提取器,并對后續的卷積層和全連接層在超聲影像上進行微調的效果最好。隨著凍結的前綴卷積層數越多,數據遷移的效果也會越好,直到達到某個臨界點,開始逐步變差,呈現出類似二次曲線的軌跡。

表1 遷移學習微調結果Tab. 1 Transfer learning fine-tuning results
本文的數據集包含了常規超聲圖像與彈性超聲圖像兩部分,因此需要對這兩個模態的數據進行結合來獲得更好的分類效果。基于不同成像原理的超聲數據有著不同的特征分布,并對甲狀腺結節分類的效果有不同的影響,這些特征組合會產生更全面的特征空間來表示結節的病理特征。針對這兩種不同的數據,本文只使用了它們在卷積網絡中提取到的高層特征,并沒有使用任何低維特征。
本文使用了下面三種不同的方法。
1) 混合訓練。
既然不同成像原理的圖像一定有著不同的特征分布,那么網絡是否可以學習到兩種不同特征分布的共有特征?基于此想法,直接將常規超聲圖像和彈性超聲圖像混合成一個數據集進行訓練。如圖4所示,首先要對原始超聲數據進行預處理,提取出常規超聲圖像和彈性超聲圖像并完成相應的數據增廣以保證更好的泛化能力。數據加載中,采用高斯隨機采樣的方式讀入每一個批次的數據作為預訓練好的VGG16模型的輸入,模型輸出的特征為4 096維度,在輸出的特征上對其進行分類。
2) 數據融合。
對于混合訓練的方式,會使得網絡學習到的特征表示在兩種不同的分布下搖擺不定。從臨床的角度來分析,對于同一幅原始超聲影像,其常規圖像與彈性成像必須被當作一個樣本來看待,二者的特征信息是互補的關系,因此,需要對兩種不同的數據進行融合使其作為一個整體輸入到網絡中。如圖4所示,在完成數據預處理后,將三通道的常規超聲圖像和三通道的彈性超聲圖像組合成一個六通道的張量。張量的前三個通道為常規超聲的數據信息,后三個通道為彈性超聲圖像的數據信息,這樣組成一個224×224×6的張量。然后使用1×1的卷積進行通道降維,將張量轉為224×224×3作為預訓練好的VGG16模型的輸入,輸出的特征為4 096維度,最后對其進行分類。
3) 特征融合。
考慮到不同的超聲圖像數據有著不同的特征分布,二者信息互補的前提是彼此相互獨立,因此直接將兩個不同的數據混合可能會造成特征表示不明顯的效果,所以如圖4所示,獨立地對常規超聲圖像和彈性超聲圖像進行采樣,將兩個不同的數據輸入到兩個獨立的預訓練好的VGG16模型中進行特征提取,在第5層池化層后將兩個獨立的特征提取器所提取出來的特征進行級聯操作,這樣卷積神經網絡輸出的特征維度是普通VGG16模型的兩倍,同樣地使用全連接層將特征降維到4 096維度,最后進行分類。這樣可以保證不同的數據源中不同特征提取過程中的獨立性,根據鏈式法則,最后特征混合的級聯操作,也使得反向傳播梯度傳遞時不同的卷積神經網絡參數更新對不同的數據互相獨立。

圖4 本文方法主要流程Fig. 4 Main flowchart of proposed method
設Y表示二分類的結果:
(1)
其中:X1、X2分別表示兩個卷積神經網絡提取出來的特征向量;Ω1、Ω2分別表示兩個特征向量對應的分類貢獻權值。

(2)
(3)

(4)
因此:

(5)
(6)
(7)

可以看到,最后的分類結果Y對兩個相互獨立的特征、權值求偏導的結果也是相互獨立的,證明了在反向傳播中使用梯度更新卷積神經網絡參數進行微調的過程也是相互獨立的。
本文實驗中使用的數據由慧影醫療科技(北京)有限公司提供,經過臨床病理結果驗證。本文實驗數據來源于Aixplorer 的超聲設備,探測器的頻率是 10 MHz~14 MHz。在本文的實驗中使用1 156 張甲狀腺結節超聲圖像,包括578 個橫切面圖像和578 縱切面圖像,總計含有520個良性圖像和636個惡性圖像,每幅超聲圖像包含常規超聲與彈性超聲兩部分,并且所有結節的類型由醫生標注,沒有輪廓信息的標注。
在數據預處理中,先通過顏色通道轉化的方式預先提取出了每幅結節影像的感興趣區域,并根據醫生的標注信息在預處理中分別提取出每幅圖像中的常規超聲數據部分和彈性超聲數據部分,二者是同一個位置且標注相同,分別組成常規超聲數據集與彈性超聲數據集。
分類性能評估的定量指標如下:
1)Accuracy=(TP+TN) / (TP+TN+FP+FN);
2)Sensitivity=TP/ (TP+FN);
3)Specificity=TN/ (TN+FP);
4)接收者操作特征曲線下面積(Area Under the Curve of receiver operating characteristic, AUC)。
其中:TP(真陽性)和TN(真陰性)分別代表正確分類的正負樣本數;FP(假陽性)和FN(假陰性)是假分類的陰性和陽性樣本數。在甲狀腺結節中,陽性表示的是惡性結節,陰性表示的是良性結節。敏感度(Sensitivity)和特異性(Specificity)分別定義了判定惡性和良性結節的可能性。
本實驗訓練模型的服務器運行64位的Ubuntu 系統,版本為16.04, 配置了Intel Xeon E5 2620 v4 處理器,128 GB內存,4個Tesla V100顯卡,每個顯卡顯存32 GB。本實驗的開發環境基于Python 3.6,深度學習框架為 PyTorch 1.0。
首先分別在常規超聲、彈性超聲數據下完成了對預訓練模型微調的測試。對于常規超聲和彈性超聲數據集,均是凍結前6層卷積參數作為后續層的特征提取器效果最好。
在此基礎上,完成了五組方法的對比,分別是:常規超聲數據遷移(Conventional ultrasound transfer)、彈性超聲數據遷移(Ultrasonic elastography transfer)、混合訓練(Mixed training)、數據融合(Fusion re-extraction feature)、特征融合(Extraction feature re-fusion)。對于每組方法,均使用了十折交叉驗證作為訓練集驗證集的劃分,所有評價指標的細節對比如表2所示。

表2 不同方法詳細評價指標對比Tab. 2 Comparison of detailed evaluation indicators of different methods
在單一數據源的對比上,可以發現在彈性超聲數據上的準確率要優于常規超聲。常規超聲的敏感性指標較好,對惡性結節的判斷效果更好;彈性超聲的特異性指標更好,對良性結節的判別效果優于常規超聲。再對比三種不同的數據融合方式,混合訓練遷移和數據融合方法在準確率、AUC上均有略微的提升,但是提升效果并不顯著。本質上還是不同的數據混合、融合后,對于不同的特征分布,關鍵特征的提取效果不好。數據混合方法中,不同成像原理的數據混合訓練會影響到特征提取器對目標數據的特征分布的判斷;數據融合的方法中,由于基礎網絡輸入參數的限制,需要對數據進行通道降維,而1×1卷積進行通道的降維本質上相當于將兩個不同數據源的數據進行不同權重的像素級疊加,同樣對不同數據特征分布的獨立性產生了影響,無法從本質上改善特征表示空間的準確性以提升模型的性能。在特征融合方法中,該方法的各項性能指標相比前面四種方法均有較大程度的提升,表明了在不影響各數據源數據分布的前提下,分別提取出其特征并進行特征級聯的方法在該問題上有很好的表現。
更為直觀的結果對比如圖5~6所示。

圖5 三種融合方法的AUC對比Fig. 5 AUC comparison of three fusion methods
由圖5~6可以看出,特征融合方法的AUC指標相比其他方法有著較大的優勢。在數據集不平衡的情況下,AUC可以較好地體現分類器的性能。特征融合方法上較高的 AUC 表明了該方法具有更好的分類性能。

圖6 特征融合和單一數據源的AUC對比Fig. 6 AUC comparison of feature fusion and single data source
針對甲狀腺結節的良惡性判別,本文提出了一種對常規超聲和彈性超聲影像的特征分別提取并進行融合的方法??紤]到彈性超聲在臨床上的實用性,同時使用常規超聲與彈性超聲兩種不同的數據源對甲狀腺結節的良惡性進行判別,互相獨立的特征提取方式也保證了不同的特征提取器對目標數據域數據分布判斷的獨立性,常規超聲影像具有更高的敏感性,彈性超聲影像則具有更高的特異性,融合其兩者的優勢帶來了更好的性能提升。同時,僅使用了高層特征的端到端的實現方式,也在訓練和推理階段帶來了更高的計算效率,不需要精細地標注信息也在實際臨床上有更廣泛的利用價值。本文方法的準確率為92.4%,與其他僅使用單一數據源方法的對比也體現出了較為明顯的優勢。在未來的工作中,計劃對基礎網絡進行進一步的調整,嘗試使用其他更為高效的網絡結構,并引入低層特征,繼續提高分類性能。
此外,考慮到醫學影像領域多數據源的情況普遍存在,將繼續嘗試將該方法拓展到其他的醫學任務中,以獲得更為廣泛的應用。