于月娜 梁光明 劉任任
(1.湘潭大學信息工程學院 湘潭 411100)(2.國防科技大學電子科學與工程學院 長沙 410000)
宮頸癌是一種發病率很高的婦科惡性腫瘤疾病,已經嚴重影響到了婦女的健康[1],目前在國內外病理學研究領域中都很重視對于該疾病的研究。宮頸細胞形態學研究是為了準確檢測宮頸細胞的數量、形態種類、分布密度與核質比等,為宮頸癌前病變檢測提供有力的依據。其中,在宮頸細胞形態學研究中細胞核與細胞質分割效果的好壞在很大程度上影響特征的提取和分類的準確性。
目前已提出許多宮頸細胞核質分離算法,如用支持向量機方法分割[2],采用K-means 聚類算法[3],基于分水嶺改進的分割[4]、GVF Snake[5]等。這些方法會出現細胞分割不完整、背景誤判為目標等缺陷,而且對于粘連細胞和變形較嚴重癌變細胞核質分離效果差的問題沒有得到有效解決,并且效率也不是很高。
基于以上研究,本文主要研究如何提高宮頸細胞核質分離的準確率和分割效率,提出了一種基于Grab Cut算法結合Canny算子邊緣檢測高效分離宮頸細胞核與細胞質的方法。對獲取宮頸細胞圖像進行灰度變化預處理求得灰度直方圖,根據直方圖求解確定Canny 算子雙閾值,進而獲取宮頸細胞核和細胞質的輪廓;根據獲取的輪廓利用改進的Grab Cut 算法進行核質分離,并且針對Grab Cut 算法在分割效率方面的不足也進行相應改進,使其高斯混合模型的參數的確定效率提升。實驗結果表明,本文所提出的算法不僅有較好的分割效果而且效率也很高。
邊緣檢測是圖像處理中用于精確定位目標圖像的一項重要技術。圖形邊緣作為圖像的基本特征是圖像分割和特征提取分析及分類識別的重要依據[6]。經典的邊緣檢測算子有Robert、Prewitt、Log 等,其優點是簡單、易于實現,同樣存在對噪聲敏感、抗干擾性能差,邊緣不夠精確的缺點[7]。相比這些算子,Canny 算子具有更好的信噪比和檢測精度,在圖像邊緣檢測領域中具有更加廣泛的應用范圍。
2.1.1 傳統的Canny邊緣檢測
傳統Canny 算子檢測是通過灰度圖像信號的極大值獲取到邊緣信息。Canny 算子檢測的提出是基于準確的信噪比、定位精確性和邊緣相應唯一性三個準則;其實現包括圖像高斯濾波平滑處理、計算求解梯度幅值和方向、非極大值抑制處理和雙閾值邊緣檢測和連接四個步驟。
傳統的Canny 邊緣檢測算子基于邊緣檢測準則和簡單快遞處理特點在圖像處理領域應用[8~10]很是廣泛,但是傳統的Canny 邊緣檢測算子存在一個重大缺點是雙閾值參數的選取困難,通常是根據人工經驗確定的,而沒有通過圖像真實特征信息計算確定,這樣就導致了其算法適應性稍差,處理的圖像產生邊緣信息不完整和假邊緣存在;而且人工經驗確定需要反復驗證,很大程度地降低了分割效率。
針對傳統的Canny 邊緣檢測算子這種缺點本文提出一種快速確定Canny 算子雙閾值的方法,可以解決雙閾值選取困難的問題,而且可以快速準確地確定高低閾值,更多地保留圖像的真實邊緣信息,從而更好地獲得圖像邊緣。
2.1.2 改進的Canny邊緣檢測算子
1)灰度直方圖圖像預處理
在細胞圖像的灰度直方圖中不同的峰谷值對應不同灰度分布[1],直方圖圖像預處理在醫學圖像處理中應用非常廣泛;特別是在宮頸細胞圖像(如圖1 所示)中主要包括細胞質、細胞核和背景不同的組織,在圖像中可以發現其灰度差異比較明顯,非常適合灰度直方圖預處理,可以獲取很多圖像的基本信息。
宮頸細胞的邊緣檢測是得到細胞核的邊緣或者得到整個細胞的邊緣,宮頸細胞圖像(如圖1 所示)灰度直方圖如圖2 所示;直方圖中可以明顯看出兩個波谷的存在,兩個波谷分別表示細胞核分割閾值和細胞與背景的分割閾值大致范圍。

圖1

圖2
2)確定雙閾值
根據宮頸細胞的灰度直方圖分布特點,兩個波谷就是大致的分割閾值G1,G2;而閾值處的像素變化最大,梯度也就最大,經研究分析決定采用如下方法來確定其雙閾值:
(1)運用一對卷積陣列(分別作用于x 和y 方向):

(2)使用下列公式計算梯度幅值:

(3)先求閾值G1處的最大梯度作為雙閾值中的高閾值Kh,然后根據Kh=3K1求出來K1。根據雙閾值利用Canny算子獲取宮頸細胞核的邊緣。
(4)同理先求閾值G2處的最大梯度作為雙閾值中的高閾值Kh,然后根據Kh=3K1求出來K1。根據雙閾值利用Canny算子獲取宮頸細胞的邊緣。
形態學處理是較為常用圖像分割定位方法,其基本思想是利用稱為結構元素的“探針”收集圖像信息;形態學[13]處理主要方法有膨脹和腐蝕以及開運算和閉運算,假設A和B都是Z2中的集合,

由于噪聲的影響,宮頸細胞圖像在Canny 算子處理過后所得到的輪廓邊界通常都存在不平滑和不連通區域。本文對Canny 算子處理過后所得到的輪廓邊界用4×4 的橢圓結構元素進行先閉運算后開運算去除噪聲,平滑邊界;得到的區域作為Grab Cut 分割的前景,這樣能夠得到更好的分割效果。
Grab Cut 算法是基于圖論的一種交互式的高效分割算法,是對Graph Cuts 算法的改進算法,引入了迭代的思想融入了傳統圖像分割的邊界信息,通過高斯混合模型(Gaussian Mixture Model,GMM)來標記圖像的像素分布情況,通過迭代估計和非完全標記法實現能量最小化進而完成圖像分割。Grab Cut 算法能夠在復雜背景中快速高效提取目標圖像,其分割準確率高、交互量少、分割速度快。
在Grab Cut算法圖像分割中,一般都采用高斯混合模型聚類算法來表示前景和背景的顏色分布;設整幅圖像為y=( y1,y2,…,yN),其label 集為α=( α1,α2,…,αN),用高斯混合模型(Gaussian Mix?ture Model,GMM)θ 表示圖像數據,那么圖像分割就可以轉化為數學表達式:

其中,E( α,k,θ,y )為圖像的Gibbs能量函數:

公式里的R( α,k,θ,y )和B( α,y )分別表示區域項和邊界項。
Grab Cut 算法分割過程是根據RGB 顏色空間和三分圖信息,通過計算全協方差GMM 對背景和前景進行建模。每個前景與背景區域創建的GMM有K個高斯分量,根據用戶標記的未知區域TU和背景區域TB,設,前景區域TU=?;Grab Cut算法通過初始化TU和TB的GMM 參數,并迭代TU區域的GMM 參數使其達到最小化來獲取圖像最小割。
Grab Cut 算法在處理最小化迭代計算獲取最小割的過程中,由于高斯模型進行初始化過程中所采用的聚類方法不同會導致產生不同的效果,也會很大程度上影響算法的效率,常用的聚類算法有K-Means算法[11]、K-Medoids算法[12]、Clarans算法[13]、和EM算法[14],通常采用EM算法。
Grab Cut算法在分割過程中通過利用Alpha 值和聚類算法對高斯混合模型進行初始化構建,然后通過迭代估計的方式確定GMM參數在很大程度上限制了圖像分割效率;高斯混合模型的參數的確定通常采用EM 算法,其優點是計算穩定、收斂速度快。

式中,k 是高斯混合模型的成分數,aj是滿足的混合比例參數,是第j 個高斯成分密度函數其表示形式為

其中,θj=( μj,Σj)是第j 個高斯分布均值和協方差矩,Θk=( θ1,θ2,…,θk,a1,a2,…,ak-1) 為模型的參數集合。
EM 算法就是我們常說的期望最大算法,最早是在1977 年由Dem pster 等提出的應用于求解參數極大似然估計的一種方法。通過迭代EM 算法求解混合模型似然函數準則,估計模型中的參數,從而解決問題。準則函數可以表示為

其中,L( Θk,x )是似然函數,表示為


EM 算法具體流程為
Step 1:在參數樣本I中選取一個合適的初始參數Θ0;
Step 2:根據選取的Θ0,設計并計算輔助函數:


同時更新參數:

如上述所示,EM 算法主要是確定符合高斯混合模型分布的數據集中不同的樣本的特定高斯分布。
EM 算法在求解GMM 模型參數的整個過程中,由于似然函數是單調遞增的,可以根據初始模型和參數求解得出每個成分下各數據點的概率,然后通過不斷修改參數值,不斷重復直到收斂某個極值點為止。
EM 算法流程中設計與計算Q 輔助函數其實就是求解似然函數的期望,這是EM 算法的核心步驟,就是為了將完整數據集{X,Y}中的隱藏變量Y轉化為別的統計量,從而可以消除隱藏變量Y 對后續計算不明確的影響;而求解Q 輔助函數的極大值就是保證Q函數是遞增的。
在EM 算法中存在兩個問題,一個是算法容易陷入局部最優而導致求解結果不是全局最優解,如圖3 所示,圖中橫坐標表示一個未知參數,縱坐標表示其似然函數L,此時選擇的初始點分別為A 和B 時,分別收斂到M1 和M2 是似然函數的全局極大值點和局部極大值點,得到對應的解就分別為全局最優解和局部最優解;另一個問題是傳統EM 算法需要預先設定混合分量個數,這樣就導致擬合效果不穩定,參數確定過程復雜效率較低。

圖3 極值點分布圖
根據試驗結果分析,在Grab Cut 算法分割過程中確定GMM 參數的時間占整個分割時間的80%以上,經過對高斯混合模型和EM 算法[15]基本原理的學習與研究,本文針對Grab Cut算法在分割效率方面的不足,對傳統EM 算法作了相應改進,使其高斯混合模型的參數的確定效率提升,這在很大程度上提高了Grab Cut 算法分割效率。
本文針對傳統EM 算法存在的問題進行了改善與優化,針對算法容易陷入局部最優的情況對數據點集進行多個劃分,具體根據馬氏距離劃分為K組,然后根據每組數據點選取合適的初始值進行參數估計收斂得到K 組對應的估計值,最后對K 組極值點進行比較得到最大的一個極值點就是對應的最優解。

在上述過程中所有參數更新過程是并行進行的,這樣不會影響到算法的效率但是也不會提高很多,針對這點本文對EM 算法進行相應改進,提高其算法效率。傳統EM 算法的Step 2 和Step 3 在更新參數迭代過程中每次都進行參數的更新,這樣會一定程度上影響算法的效率。本文對其進行改進改為在每更新完一個成分的參數后,不是進行下一個成分的更新,而是利用更新的參數重新更新似然函數函數L( Θk,x )的期望,然后再更新下一步;同時在迭代過程中將混合分量的權重為0 的成分去除,不再進行更新,這樣就可以加快算法的收斂速度,提高算法的效率。
本文改進的EM算法流程為
Step 1:在參數樣本I中根據馬氏距離將其劃分為K 組,并在K 組中分別選取并賦予合適的初始值ΘK0;
Step 2:根據賦予的ΘK0,設計并計算輔助函數:


同時更新參數:

則繼續更新下面參數:

Step 6:在K 維數組Qmax中求得最大的對應參數,輸出結果。
經過改進的EM 算法可以改善傳統EM 算法容易陷入局部最優的缺陷,使得擬合結果更加穩定,同時可以使算法收斂速度更快,效率得到很大的提高。
本文對200 多幅宮頸細胞圖像進行了分割實驗。圖4 列出了本文算法GVF Snake 模型以及K-means 聚類算法對其中一類癌變宮頸細胞圖像的核質分離分割效果圖。通過效果圖可以看出本文提出的算法對于宮頸細胞的核質分離有很好的分割效果。

圖4 分割效果圖
GVF Snake 模型基本思想是:把梯度場向圖像邊緣通過迭代的方式進行擴算形成GVF 力場;然后定義動態輪廓能量函數,通過求解能量函數的局部最小值來實現動態輪廓逐步接近圖像真實輪廓。但是GVF Snake 模型存在著明顯的不足是無法檢測到凹型輪廓或具有較高曲率的凸型輪廓和物體內部輪廓;同時,整個運算過程較為復雜,涉及的參數也難以確定。
K-means 聚類算法是一個采用距離作為相似性指標反復迭代的聚類算法[3]能夠準確、快速地處理大數據集,并且有可伸縮、高效的優點[16]。但是,該算法對噪聲敏感而且K 值及初始聚類中心有不確定性,使其在圖像分割中容易造成圖像的誤分割,并且在實際應用效率也不高。

圖5 不同算法分割時間與準確率對比柱狀圖
通過對比分析,發現本文算法在速度和準確率上均有較大的提高。
本文提出了一種基于Grab Cut算法結合Canny算子邊緣檢測高效分離宮頸細胞核與細胞質的方法。對獲取宮頸細胞圖像進行灰度變化預處理求得灰度直方圖,根據直方圖求解確定Canny 算子雙閾值,進而獲取宮頸細胞核和細胞質的輪廓;根據獲取的輪廓利用改進的Grab Cut 算法進行核質分離,并且針對Grab Cut算法在分割效率方面的不足也進行相應改進,使其高斯混合模型的參數的確定效率提升。實驗結果表明,本文所提出的算法不僅有較好的分割效果而且效率與分割準確率也很高,非常適合在實際應用中實現宮頸細胞圖像的核質分離。