喬世昌,胡紅萍,郝 巖,白艷萍
(中北大學 a.理學院; b.信息與通信工程學院, 太原 030051)
癌癥是世界范圍內致死率最高的疾病之一,其中乳腺癌(breast cancer)是全球女性死亡率最高的癌癥之一[1]。乳腺癌組織病理學檢查是乳腺癌診斷的“金標準”,因此對乳腺癌組織病理學圖像的識別成為了醫學圖像處理領域的研究熱點。常用的乳腺癌組織病理學圖像識別算法包括基于傳統的人工特征提取方法[2],以及基于深度學習的分類方法[3-4]。人工提取乳腺癌組織病理學圖像特征的方法需要手動設計圖像中感興趣的區域,并提取其中的特征,再對提取的特征進行選擇,在分類精度方面沒有基于深度學習算法得到的分類精度高。但基于深度學習的方法對乳腺癌組織病理學圖像進行分類需要大量的被標記的圖像數據,而在實際中,大量被標記的乳腺癌組織病理學圖像是很缺乏的。Araújo等[5]利用卷積神經網絡(convolutional neural network,CNN),以及CNN與支持向量機(support vector machine,SVM)相結合的方法對Bioimaging 2015數據集進行二分類,其分類精度分別為80.6%和83.3%。Wang等[6]應用所提出的方法對Bioimaging 2015數據集進行四分類,得到了83.0%的分類精度。Spanhol等[7]提出了BreaKHis乳腺癌組織病理學圖像數據集,并對該數據集進行腫瘤的良惡性分類,其分類的準確范圍為80%~85%。
本文提取了乳腺癌組織病理學圖像的紋理特征以及顏色特征并將其進行融合。首先對乳腺癌組織病理學圖像進行染色分離處理,提取了染色分離后4個方向上的灰度共生矩陣特征和小波特征以及Tamura紋理特征,并根據顏色自動相關圖提取原始圖像的顏色特征,同時也提取染色分離前水平方向上的灰度共生矩陣特征作為紋理信息的補充,最后將提取到的特征進行融合,并輸入到SVM中進行訓練,從而實現乳腺癌組織病理學圖像的分類,并得到83.33%的分類準確率。實驗直接對原始尺寸大小的圖像進行特征提取,不需進行裁剪、平移等擴充圖像數據的步驟,可操作性較強。
由于組織病理學圖像自身的特點,實現乳腺癌組織病理學圖像的自動分類是一項極具挑戰性的工作。組織病理學圖像中的細胞重疊現象、顏色分布不均勻以及圖像之間細微的差異性等因素,為乳腺癌組織病理學圖像特征的提取帶來很大困難[8]。常見的圖像特征包括圖像的紋理特征、形狀特征、顏色特征以及灰度分布等。本文通過灰度共生矩陣、小波變換以及Tamura特征的方法對乳腺癌組織病理學圖像提取了紋理特征,并利用顏色自動相關圖提取了其顏色特征,進而將提取到的特征進行融合,并輸入到分類器中以實現乳腺癌的自動分類,圖1為本文方法整體框架。

圖1 本文方法框架
灰度共生矩陣(gray level co-occurrence matrix,GLCM)是一種常用的紋理統計分析方法[9],圖像紋理特征的差異由像素值的排列分布來反映。通過空間特性來描述灰度圖像的紋理特征,能反映出圖像灰度關于相鄰間隔、方向以及變化幅度上的空間信息。取大小為N×N的圖像中任意一點(x,y)以及偏離于該點方向θ,距離d的另一點(x+a,y+b),其灰度值分別為p1、p2,并統計灰度值為p1、p2同時出現的概率p。概率p的計算如下式所示:
P(i,j,d,θ)={[(x,y),(x+a,y+b)]|f(x,y)=
p1,f(x+a.y+b)=p2}
(1)
其中,x,y=0,1,…,N-1。圖像上所有在θ方向,距離為d,灰度值為p1、p2的像素點對出現的頻率構成灰度共生矩陣,并通過計算得到共生矩陣的部分特征值,這些特征值分別代表圖像的某些紋理特征。θ常取值為0°、45°、90°和135°,顯然a=0,b=1時,θ=0°;a=-1,b=1時,θ=45°;a=1,b=0時,θ=90°;a=1,b=1時,θ=135°[10]。給出圖像Ⅰ,如圖2所示,則該圖像以距離為1,90°方向上的灰度共生矩陣為
(2)

圖2 圖像矩陣Ⅰ
小波變換的實質是將信號分解為一系列小波函數的疊加。由于小波變換在時域、空域以及頻域同時具有良好的局部化性質,而圖像的紋理描述是圖像的局部區域特征,并且具有尺度性,當分辨率不同時,同一局部會表現出不同的紋理特征。應用小波變換將圖像分解為它的多分辨率表示,且圖像的多分辨率表示提供了圖像紋理沿頻率軸方向基于尺度的信息分布[11]。而圖像自身的特點決定了在將小波變換應用到圖像處理中時,需要使用二維小波變換。令f(x1,x2)∈L2(R2)表示一個二維信號,ψ(x1,x2)表示二維基本小波。則二維小波變換為:
(3)

本文應用小波變換對乳腺癌組織病理學圖像進行多尺度分解,得到各尺度上的近似細節分量、水平細節分量、垂直細節分量以及對角細節分量。由于近似細節分量是原圖像的低頻分量,水平細節分量、垂直細節分量以及對角細節分量是原圖像的高頻分量,而圖像的高頻分量包含了其主要的紋理信息,因此取不同尺度上各子圖高頻分量的能量作為圖像的紋理特征。
顏色特征是彩色圖像基本的視覺特征,與其他視覺特征相比,對圖像本身的方向,尺寸以及視角的依賴性較小,而與圖像中所包含的物體或場景相關。常用的提取顏色特征方法有顏色直方圖、顏色矩等。而顏色直方圖描述的是不同色彩在整幅圖像中所占的比例,無法描述圖像中的對象。顏色矩一般只有9個分量(3個顏色分量,每個分量上3個低階矩),特征維數較少,難以完整描述圖像的顏色信息。因此,由于顏色直方圖以及顏色矩的局限性,本文選取顏色自動相關圖(color auto-correlogram)來描述乳腺癌組織病理學圖像的顏色特征。
顏色自動相關圖是在顏色相關圖的基礎上得到的。顏色相關圖不僅可以反映一幅圖像中某種顏色的像素數量占整個圖像的比例,同時還可以反映不同顏色對之間的空間相關性[12]。對圖像I而言,令Ic(i)表示顏色為c(i)的所有像素,則顏色相關圖可以表示為:
(4)
其中,|p1-p2|表示p1和p2的距離,Pr為求概率的運算。即顏色相關圖可以看作是一張用顏色對索引的表,其中的第k個分量表示顏色為c(i)的像素和顏色為c(j)的像素之間距離等于k的概率。若考慮圖像中任何顏色之間的相關性,則圖像的顏色相關圖會非常復雜龐大,因此,本文僅僅考慮具有相同顏色的像素之間的空間關系,即顏色自動相關圖。
Tamura等[13]基于對紋理視覺感知的心理學研究提出了一種紋理特征的描述方法,并定義了6個用于描述紋理的特征量,分別為粗糙度、對比度、方向度、線性度、規則度和粗略度。這6個特征量的具體定義為:
1) 粗糙度
粗糙度反映了圖像灰度變化的劇烈程度,紋理粒度越大則該紋理圖像越粗糙。其定義為:
(5)
其中,M、N為圖像尺寸大小,(i,j)為圖像像素位置,Skbest=2k為整幅圖像中各像素最優尺寸,k為參與計算的像素范圍。
2) 對比度
對比度是對像素強度分布情況的統計,反映了灰度圖像中最亮和最暗灰度的層級,其差異范圍決定了對比度的大小。其定義為:
(6)
其中,α4=μ4/σ4為灰度統計量的峰態,μ4表示四階矩均值,σ為圖像灰度值的均方差。
3) 方向度
方向度反映了圖像紋理沿某方向集中的強度。其定義為:
(7)
其中,p表示某個峰值,np為峰的數目,ωp表示圍繞方向角的峰值與谷值的范圍,r為與角度θ量化水平相關的歸一化因子,φp為第p個峰值的位置,HD(φ)為相應方向上的直方圖。
4) 線性度
線性度反映圖像紋理是否具有線性結構。其定義為:
(8)
其中,Pd(i,j)表示距離為d的一組元素,方向編碼分別為i、j時出現的次數,m為劃分角度的數量。
5) 規則度
當圖像中存在某一局部區域與整幅圖像紋理特征不一致時,圖像的規則度減弱。其具體定義為:
Freg=1-η(σcrs+σcon+σdir+σlin)
(9)
其中,σcrs、σcon、σdir、σlin分別為Fcrs、Fcon、Fdir、Flin的標準方差,η為標準化因子。
6) 粗略度
粗略度是粗糙度和對比度2個特征量的合成。其定義為:
Frgh=Fcrs+Fcon
(10)
本文所研究的乳腺癌組織病理學圖像數據來自Bioimaging 2015乳腺癌組織病理學圖像分類挑戰,所有圖像均在相同的采集條件下數字化,放大倍數為200倍,像素大小為0.42 μm×0.42 μm(2 048×1 536像素)。圖像經過蘇木精與伊紅(hematoxylin and eosin,H&E)染色,由于蘇木精和伊紅的特性,組織病理學圖像中的蛋白質會被伊紅染成粉紅色,而蘇木精則將細胞核染成藍紫色。每幅圖像均有四類標記,分別為正常組織(Normal)、良性病變(Benign)、原位癌(In Situ)以及浸潤性癌(Invasive),其中正常組織與良性病變為非癌類,而原位癌與浸潤性癌為癌類,如圖3所示。

圖3 Bioimaging 2015數據集中乳腺癌組織病理學圖像示例
數據集中的類別標記由兩名病理學專家負責,提供了圖像內容的診斷,且專家之間存在意見分歧的病理圖像被丟棄。該數據集由249幅圖像的訓練集和36幅圖像的測試集組成(其中有16幅為模糊度增加的圖像,稱之為“擴展”測試集)。研究目標是利用機器學習的方法對該數據集進行客觀的病理分類,將其分為癌類與非癌類。表1為該數據集各類數量分布。

表1 Bioimaging 2015數據集各類組織病理學圖像分布
組織病理學圖像的染色分離對于病理學家和計算機輔助診斷都可能有幫助。用于自然圖像的分離技術可能會導致組織病理學圖像染色組織的結構特性發生改變,并產生不良的顏色失真。常用于H&E圖像染色分離的方法是將RGB空間轉換到光密度上實現的。由于染色分離是對每個染色劑密度圖的估計,因此需考慮RGB顏色和每個像素的染色密度之間的關系:染色組織在一定的光譜中會根據其吸收染色劑的類型和數量使光衰減變弱。
令I∈Rm×n為透射光強度,其中m=3為RGB圖像的通道數,n為圖像像素總數,令I0為入射光強度,則光密度V可表示為[14]:
(11)
令V=WH,即給定觀測矩陣V,目標是找到染色外觀矩陣W和染色密度圖矩陣H。即解決以下問題:
(12)
由于該問題是一個非凸優化問題,可能會收斂到局部最優而不是全局最優,并得出不理想的染色向量,因此Vahadane等[15]提出了一個稀疏非負矩陣分解(sparse non-negative matrix factorization,SNMF)框架,對式(12)添加稀疏約束:
(13)
其中,λ是稀疏正則化參數,j表示染色劑種類(j=1,2,…,r),對于H&E圖像,r=2,并利用LARS-LASSO算法[16]對式(7)求解,得到W與H,從而實現H&E圖像的染色分離。圖4為采用該方法對Bioimaging 2015數據集中乳腺癌組織病理學圖像的染色分離結果。

圖4 乳腺癌組織病理學圖像的染色分離結果
在圖像識別中,原始圖像具有大量的冗余信息,嚴重影響圖像的分類精度。因此,選擇合適的特征提取方法對圖像識別至關重要,提取到有效信息的同時也降低了特征維度,避免了維數災難問題。本文主要提取了乳腺癌組織病理學圖像的紋理特征和顏色特征。具體來講,不需要對該數據集中的圖像進行裁剪、旋轉、平移等擴充圖像數據的操作,而是直接對乳腺癌組織病理學圖像提取特征。在對圖像進行染色分離之后,利用GLCM提取特征時,分別計算步長為1,角度為0°、45°、90°和135° 4個方向上的自相關、對比度、相異性、能量、熵、和方差、最大概率、方差、和平均值、和熵、聚類突出特征、聚類陰影特征、方差差異性、差異熵、反差分、逆差距,以及通過2種方法分別計算得出的相關性、同質性以及相關性的信息量度,構成一個88維的特征向量。在通過小波變換對乳腺癌組織病理學圖像提取特征時,采用coif5小波基函數對圖像進行3層分解,并提取每層高頻分量的能量作為特征,共同構成一個9維的特征向量。另外,采取Tamura紋理特征方法提取了粗糙度、對比度、方向度、線性度、規則度和粗略度等6個紋理特征,并根據顏色自動相關圖,對染色分離前的圖像提取了128個分量作為顏色特征。本文采用基于徑向基核函數支持向量機作為分類器對腫瘤的良惡性進行分類,其中令懲罰參數c為2,核函數參數g為1。
本文將提取到的幾種紋理特征以及顏色特征,分別輸入到SVM分類器中進行乳腺癌圖像分類。同時也比較了不變矩和Gabor特征等方法的分類效果。為驗證圖像預處理階段中H&E圖像染色分離對分類效果的影響,將上述各個特征分別進行了染色分離前后的分類效果比較。結果表明,對乳腺癌組織病理學圖像染色分離后的分類精度比對原始圖像直接進行特征提取再分類,在效果上有明顯提升,如表2所示。另外,與其他特征相比,由不變矩提取到的特征分類精度較低,因此在特征融合中不考慮該方法。

表2 基于SVM分類器的單一特征分類比較
在提取乳腺癌組織病理學圖像的顏色特征時,將本文所采用的顏色自動相關圖與顏色直方圖以及顏色矩等的方法進行了比較,結果表明,所采用的顏色自動相關圖方法對癌類與非癌類的識別效果最佳,如表3所示。

表3 基于SVM分類器的顏色特征分類比較
選取表2和表3中表現較好、維數較低的特征進行融合。以上特征提取方法分類效果最好的是GLCM特征和Gabor特征,但由于Gabor特征維數為7 680維,特征維數較大,與其他特征融合以后,分類效果不佳,因此,在特征融合時將這種特征排除在外,在GLCM特征上依次添加小波特征和顏色自動相關圖以及Tamura紋理特征,分類準確率分別為77.78%、80.56%和80.56%。即將4個方法提取到的特征進行融合,分類精度得到了明顯提高。另外,考慮到染色分離后的圖像雖然突出了細胞核的分布、大小形態以及聚集密度等特點,但可能會減弱圖像中細胞整體的分布輪廓。比如原位癌的病變部分主要發生在導管內,并未發生擴散,而浸潤性癌中發生癌變的細胞,穿過導管壁并侵入到乳腺周圍組織,這些分布信息可能在染色分離之后的圖像中有所損失,因此,在將以上特征融合的基礎上,考慮另外再提取原始圖像步長為1,水平方向上的22維GLCM特征,以補充乳腺癌組織病理學圖像紋理特征的信息。實驗結果表明,將這5種特征融合之后,分類精度提高到83.33%,如表4所示,其中F1、F2、F3、F4、F5分別表示上述4方向上的88維GLCM特征、小波特征、顏色自動相關圖、Tamura紋理特征以及水平方向上的22維GLCM特征。同時,在實驗過程中,我們也對以上方法中的任意2種、3種以及4種特征進行了融合,但分類精度均未高于83.33%。

表4 基于SVM的多特征融合分類比較
另外,實驗過程中,我們分別進行了5次獨立實驗,平均運行時間僅0.065 6 s,并將本文應用5種特征進行融合(F1+F2+F3+F4+F5)的方法與文獻[5]中所采用的2種深度學習算法進行了比較,如表5所示。結果表明,文獻[5]中最高的分類準確率為83.3%,但其運用的是深度學習算法,需要一系列的操作以擴充大量圖像數據,且在訓練中需要優化大量的參數,運行時間相對本文的方法較為緩慢,因此,本文提出的方法是一種快捷有效、易于實現且可行性強的方法。

表5 本文實驗與相關文獻分類結果對比
通過對乳腺癌病理圖像進行特征提取,減少了大量的冗余信息。由灰度共生矩陣、小波變換以及Tamura特征等方法提取了乳腺癌組織病理學圖像染色分離后的紋理特征,同時根據顏色自動相關圖提取了乳腺癌原始圖像的顏色特征,并提取了圖像染色分離前水平方向上的灰度共生矩陣特征作為紋理信息的補充,最后將提取到的特征進行融合,并通過SVM分類器進行分類。實驗將Bioimaging 2015數據集分為癌類與非癌類,達到了83.33%的分類精度。實驗表明:文中采用的方法是一種快捷有效、易于操作、正確率較高的乳腺癌組織病理學圖像識別方法。在今后的工作中,將嘗試進行乳腺癌組織病理學圖像癌變部分的檢測以及細胞核分割等方面的研究,進一步提高乳腺癌組織病理學圖像的識別精度。