劉一鳴,張鵬程,劉 祎,桂志國
(中北大學 生物醫學成像與影像大數據山西省重點實驗室,太原 030051)(*通信作者電子郵箱gzgtg@163.com)
宮頸癌是全球女性因癌癥死亡的最重要原因之一,每年有近27萬人死亡[1]。巴氏涂片由Papanicolaou[2]于1942年提出,是宮頸癌預防和早期檢測的最簡單但是最重要的細胞學篩查手段之一[3]。
在傳統的宮頸癌細胞學篩查中,細胞涂片是通過細胞學家或者病理學家手動篩查的,是高重復性、高耗時的工作,即使是最有經驗的細胞學家或者病理學家,在長時間的篩查中也會因為疲倦和注意力下降等原因錯分很多細胞, 因此,宮頸癌的自動計算機輔助細胞學篩查與診斷系統的發展具有重要的臨床意義。這類系統的主要目的是在一張涂片中,將少量可疑的異常細胞從數千個細胞中挑選出來,供醫生進行進一步篩查與診斷。實際上,醫生是通過TBS(The 2001 Bethesda System)來判斷細胞是否有異常[1],而這些異常細胞多數表現為細胞核的特征異常(如:形狀、顏色、尺寸等),這些特征在醫生的決策中起到了非常重要的作用。
輔助診斷系統可以利用這些特征來進行篩查, 總體上需要執行細胞核的分割,特征提取和分類等步驟才能將特征異常的細胞自動篩查出來; 而分割作為這些處理過程的第一步,其精確度和效率決定了異常細胞識別的準確率和可實施性。但是由于涂片中細胞的不規則形狀和染色質的不均勻分布等因素,準確分割細胞核較為困難[4]。
近年來,針對分割細胞核的算法,主要基于活動輪廓[5]、基于水平集[6]、基于分水嶺[7-8]、基于聚類方法[9]、基于無監督分類[10]以及基于形狀建模[11]等方法。其中,大多數算法未用到細胞核的先驗知識,僅運用細胞圖像的空間域信息來進行分割,在某些細胞核與細胞質的不明顯過渡區域,分割精度較差,少數算法用到了細胞核的形狀等簡單先驗知識,但也因先驗知識有限,分割結果不夠魯棒, 例如,Garcia-Gonzalez等[11]提出了一種首先運用多尺度邊緣檢測進行初始分割,然后運用橢圓形狀逼近的方法。該方法在某些分割場景下,如異常細胞的細胞核形狀不規則時,得到的結果較差。
針對現有方法結合空間域信息與先驗知識不充分而分割不夠魯棒的問題,本文提出一種結合了全卷積網絡(Fully Convolutional Network, FCN)[12]和全連接條件隨機場(Conditional Random Field, CRF)[13]的細胞核圖像分割算法。本文先構建符合Herlev巴氏涂片數據集的微型FCN(Tiny-FCN, T-FCN),T-FCN以每個像素的類別作為監督信息,其多層網絡在訓練過程中可自主學習對分割結果有利的特征,學習到的特征數量與層次都較以往的先驗信息多。由于在經過多個池化層后,分割精度下降,T-FCN只能得到粗分割結果,而全連接CRF可以充分運用細胞圖像中全部像素的色彩值和位置信息[14],因此,本文最終通過最小化全連接CRF的能量函數來最大化粗分割圖像的后驗概率,優化T-FCN的粗分割結果。
為了有效利用空間域信息與先驗知識,本文結合了T-FCN與全連接CRF兩種方法: T-FCN利用標注圖像(Ground Truth, GT)的像素級先驗知識作為監督來訓練模型; CRF則利用了T-FCN得到的粗分割圖像和圖像本身的空間域信息進行優化。
本文方法包括兩個階段,即粗分割階段和優化階段,如圖1所示。在粗分割階段,搭建了T-FCN,訓練該網絡得到用于細胞核粗分割的模型。在優化階段,通過全連接CRF來將分割輪廓細化,并剔除較小的誤分割區域。
1.1.1 FCN
卷積神經網絡(Convolutional Neural Network, CNN)一般由輸入層、卷積層、激活層、池化層和全連接層組成: 輸入為圖像的像素值,卷積層配合池化層,從底層到高層,隨著感受野的擴充,完成低級特征到高級特征的提取; 在全連接層,將最終得到的前向傳播運算結果傳遞到損失層; 損失層以真實類別作為監督信息,以最小化分類誤差為目標,通過反向傳播來調整網絡各層的權值,完成模型的訓練。
FCN已成功應用于語義分割,FCN將CNN中的全連接層替換為卷積層,保留了高級特征的空間信息,再通過反卷積層將特征圖還原到原始圖像的尺寸,形成pixel-to-pixel的監督。這就使得CNN的圖像整體分類轉變為圖像中所有像素的分類,從而實現整幅圖像的語義分割[15]。
1.1.2 T-FCN
對于T-FCN而言,感受野的設定與可檢測到的目標的尺度密切相關。感受野,即為決定某一層特征圖中一個響應值所對應的輸入層的區域尺寸,CNN由于全連接層的存在,感受野一定能夠包含全圖信息。FCN缺乏全連接層,因此對于特定的數據集,需要設定具有適合目標區域感受野的網絡。若感受野小于目標尺寸,則預測值只是目標的局部響應,此時屬于相同目標的像素可能產生不連續的預測,若感受野大于目標尺寸,則目標可能被忽略而預測為背景[16]。以FCN-VGG16為例,運用FCN- 8s分割的分割結果,如圖2所示。

圖2 感受野與目標分辨率不符產生不良分割
現有的FCN一般都基于ImageNet圖像分類競賽著名網絡設計,如Alexnet[17]、VGGNet[18]和GoogLeNet[19]等網絡。從感受野的角度來看,大體符合ImageNet數據集中圖像目標的分辨率,Alexnet最后一個池化層的感受野為195,VGG16最后池化層的感受野為212,GoogLeNet loss1均值池化層感受野為235。Herlev數據集中的7類圖像,低度鱗狀上皮細胞核最小,且細胞核外接矩形短邊尺寸基本不小于30,非典型增生細胞最大,且細胞核外接矩形短邊尺寸基本不超過85。由于在臨床條件中,巴氏染色圖像的放大率保持不變,因此,本文保持了Herlev的原始放大率,即不進行圖像的縮放。對于當前Herlev數據集,細胞核分辨率范圍較廣,不存在可以同時良好分割出不同分辨率細胞核的感受野,這就需要確定對不同分辨率細胞核的分割優先級。T-FCN作為粗分割,首先要求識別出所有的細胞核,因此需要先分割出小分辨率的細胞核,則感受野的設定應當以小分辨率細胞核外接矩形短邊尺寸為依據。即對于外接矩形短邊不小于30的細胞核分辨率,需要在分割最小細胞核的前提下盡可能提升大目標的分割效果。考慮到細胞核與細胞質在圖像中的過渡區域的紋理信息約為5個像素,感受野應增加10像素,因此確保利用所有細胞核信息的感受野尺寸不小于40。
在相同感受野條件下,小尺寸卷積核和非線性激活函數交替的結構,由于可以更好地非線性化特征而比大尺寸卷積核表現更好[18]。因為提取像素八鄰域信息的最小卷積核尺寸為3×3,本文采用3×3的卷積核與池化層構造FCN。VGG的所有結構可以近似為3×3卷積核CNN的一個遍歷,在這些結構中,VGG16的C結構pool3的感受野為36,VGG16的D結構pool3的感受野為44。從感受野的角度來看,VGG16的D結構中pool3層前的網絡構造出的FCN可以良好分割出鱗狀上皮細胞的細胞核。因此本文在上述網絡結構后添加一個卷積層和一個上采樣層作為T-FCN的初始結構,如圖3所示。

圖3 T-FCN初始網絡
T-FCN的輸出類別包括背景、正常細胞核和異常細胞核三類,這里將正常細胞核和異常細胞核兩類合并為細胞核一類,得到包含細胞核區域和背景區域的預測圖像。
運用Zhang等[20]提出的方法進行細胞核的篩選,即選取距離圖像中心最近的輪廓區域的長寬均擴展20像素的區域與邊界的交集作為該細胞圖像的細胞核區域,其他區域均賦值為背景。因此,T-FCN最終的輸出為具有單個細胞核區域和背景區域的預測圖像。
T-FCN的下采樣,在獲取高級特征的同時也犧牲了分割精度,在不平滑的邊緣分割較為粗糙,這是所有FCN固有的缺點,且T-FCN由于感受野根據細胞核來設計,不能有效利用全局細胞圖像的信息,在細胞圖像中部分較小的孤立區域存在誤分割。
1.2.1 全連接CRF
全連接 CRF考慮了細胞圖像中所有像素間的關系,以最小化包含有細胞圖像全部像素標簽信息、位置信息和色彩值信息的能量函數為目標,來細化T-FCN的分割邊緣,并剔除較小的誤分割區域。
像素的標簽信息來自T-FCN最終的輸出,即包含單個細胞核區域和背景區域的預測圖像,其中每個位置的像素值都對應標簽集合L={l1,l2,…,lk}中的一個標簽變量,這里k=2,即背景和細胞核,所有的變量構成一個隨機場Y={Y1,Y2,…,YN},Yj為像素點j對應的類別標簽。在另一組變量上定義另一個隨機場X={X1,X2,…,XN},N為細胞圖像的像素數量,Xj代表細胞圖像像素點j的顏色向量。則條件隨機場(X,Y)可以通過一個吉布斯分布表示:
(1)
其中,Z(X)為歸一化項

(2)
E(Y|X)為輸入圖像像素點分布為X、標簽分布為Y時的能量。條件隨機場的目標即求最大后驗概率對應的隨機場y∈LN,由于以輸入圖像像素點分布X為固定條件,為了表示方便,后續推導過程中,將省略條件X的表示。則對于y∈LN分布,其對應的吉布斯能量為:
(3)

ψu(yi)=-lnyi
(4)

ψp(yi,yj)=
(5)
式中,μ(yi,yj)為標簽兼容性函數,這里運用Potts模型:
(6)
括號中第一個指數函數被稱為Appearance Kernel,第二個指數函數被稱為Smooth Kernel,p表示像素的位置。對于RGB圖像而言,Appearance Kernel相當于在五維空間中衡量像素的相似性,即鼓勵位置相近,顏色相似的像素具有一致的分類,θα和θβ控制相近和相似的程度。Smooth Kernel則用于移除孤立小區域,θγ控制像素相近的程度。
1.2.2 T-FCN-全連接CRF推斷
全連接CRF的成對能量項數量龐大,使用傳統的算法推斷時間復雜度太高,因此運用由Kr?henbühl等[13]提出的基于平均場近似的高效推斷方法。該方法提出了一種可以替代CRF原始分布P(y)的簡單分布Q(y),且Y在這個分布內相互獨立:
(7)
最小化Q和P的KL(Kullback-Leibler)散度:
(8)
得到迭代更新公式:
Qi(yi=l)=
(9)
整個推斷過程,以T-CRF的最終預測圖像為輸入,以迭代結束后的y作為全連接CRF的輸出,輸出的y為了觀測方便,映射為彩色圖像,即為流程圖中的CRF優化結果。
本文方法通過一個公共數據集進行評估,即Herlev巴氏涂片新版數據集。該數據集由海萊烏大學醫院 (Herlev University Hospital, HUH)和丹麥科技大學(Technical University of Denmark, TUD)搜集,其中包含了917個單獨的巴氏涂片細胞圖像。Herlev數據集中的圖像是在0.201 μm/pixel的放大率下得到的,平均圖像尺寸為156×140。所有圖像的長寬中,最長的邊為768,最短的邊為32,變化范圍大。917個細胞圖像分為7類, 如圖4所示,其中,前3類為正常細胞,后4類為異常細胞。每個細胞均有細胞學家和醫生手工標注的實際細胞核、細胞質和背景區域。7類示例細胞及其GT圖像如圖4,為了保留圖像中細胞核的相對尺度信息,這里未統一示例細胞圖像尺寸,GT圖像中黑色區域內深灰色區域代表細胞核,黑色區域代表細胞質,淺灰區域代表主體細胞周邊背景,黑色區域外深灰區域是整幅圖像的背景,也即與主體細胞無關區域。

圖4 Herlev數據集中7類示例圖片
Herlev數據集中917張細胞的詳細分布情況見表1。

表1 Herlev數據集細胞分布
對于宮頸細胞數據集Herlev而言,如圖4中的(b)、(c)、(f)和(g),并不只是包含主體細胞本身,在GT圖像的黑色區域外深灰區域存在其他細胞的細胞核和細胞質,但是并未進行標注。因此,以此標注得到的標簽作為細胞的監督信息直接進行訓練,會引入較多干擾,且完全通過限制長寬來分離主體細胞圖像較為困難。考慮到FCN的訓練存在減均值的步驟,本文將GT圖像中黑色區域外深灰區域對應的細胞圖像中的區域用數據集中細胞圖像整體的均值來替代, 由此得到的圖4中細胞圖像的主體細胞區域提取結果如圖5所示。

圖5 細胞圖像區域提取
對于細胞圖像中各像素的標簽:若像素對應GT圖中的黑色區域外深灰區域、淺灰區域和黑色區域,賦值為0;若對應黑色區域內深灰色區域則根據其所屬類別,正常細胞核賦值為1,異常細胞核賦值為2。
從表1中可以看出,Herlev數據集中正常和異常細胞的數量比較失衡,從圖5中可以看出,正常細胞核的像素數量也較異常細胞核的像素數量少,這就使得在FCN訓練階段,正常細胞核像素數量嚴重少于異常細胞核與背景兩類的像素數量,考慮到Herlev數據集本身的圖像數量較少,本文通過增強訓練集中正常細胞圖像的數量,來平衡訓練集中正常細胞核像素和異常細胞核像素的數量。
對于訓練集中的正常細胞圖像,增強的倍數應當至少使得正常和異常兩類像素數量基本相當,同時需要防止因增強倍數太大而導致的模型過擬合,因此,將正常細胞核的增強倍數確定為3。為了確保所有的增強圖像有效,要求圖像中所有細胞核在增強后依然在圖像中,因此采用隨機水平或垂直翻轉、幅度為0.01的隨機平移抖動的組合來進行增強。
對于細胞核分割結果的評估,需要細胞核和整個細胞的GT圖。以3個像素級精度的參數作為分割結果的評價方法,分別為查準率(Precision)、查全率(Recall)和Zijdenbos相似性指數(Zijdenbos Similarity Index, ZSI)[21]:
(10)
(11)
(12)
其中:TP為檢測正確的細胞核像素數,FP為檢測為細胞核但在GT中不是細胞核的像素數,FN為在GT中為細胞核但是未檢測到的像素數。查準率反映正確檢測為細胞核像素數占所有檢測為細胞核像素數的比例, 查全率為正確檢測為細胞核的像素數占所有GT中細胞核像素數的比例,查準率低表明誤檢像素較多,查全率低則代表漏檢像素較多,因此一個良好的分割要求兩者均具有良好的表現。ZSI則綜合考慮了TP、FP和FN,根據Zijdenbos的描述[21],檢測到分割邊界與GT在ZSI大于0.7時高度匹配。
本文使用第2章得到的數據集進行實驗,在Windows 10的Caffe[22]框架上實現。梯度下降算法運用隨機梯度下降法(Stochastic Gradient Descent, SGD), 批大小為4,迭代次數為100 000,動量為0.9,學習率策略為inv,基礎學習率為0.001,gamma為0.000 1,power為0.75,dropout為0.5。為了評估的客觀性,采用10折交叉驗證。
在T-FCN訓練階段,由于感受野的限制,只截取了VGG16的D結構的pool3層前的網絡,使得網絡提取的特征較少,因此需要充分挖掘底層的特征,本文將各卷積層的卷積核數量擴展為原卷積核數量的2倍。
從訓練集和測試集的角度進行本次修改的評估。訓練集以訓練損失(Loss)作為評估指標,在測試集上,由于圖像中背景比重太大,直接以全局像素精度(Overall Accuracy, OA)度量所得結果中背景部分的影響將遠大于細胞核部分。平均像素精度(Mean Accuracy, MA) 是OA的一種提升,首先計算每個類別中正確分類像素的比例,然后求所有類別的正確分類像素比例的均值,可以避免某一類像素多或少產生的影響。以第3折為例,評估結果如圖6。

圖6 T-FCN卷積核數量優化
圖6結果顯示,將卷積核數量擴展為2倍,可以穩定提升網絡性能,因此本文以擴展2倍數量的卷積核得的網絡作為最終的T-FCN。
在FCN- 8s中,由于感受野與細胞核分辨率相差太大,導致網絡不收斂,與本文最終的T-FCN的結果對比如圖7。圖7中,在訓練階段,T-FCN的損失下降快并收斂于0.1以下,而FCN- 8s的損失并未收斂;在測試階段,T-FCN的測試MA達到0.8,而FCN- 8s一直為0.33。模型實測圖像顯示,FCN- 8s將所有的像素均分為背景。實驗結果表明,本文針對Herlev數據集修改的T-FCN可以明顯提升細胞核分割結果。對于單幅圖像的平均粗分割時間,FCN- 8s用時1.359 s,而T-FCN用時0.192 s,極大提升了粗分割效率,滿足了臨床對細胞學圖像分割實時性的需求。

圖7 T-FCN與FCN- 8s表現對比
在優化階段,CRF涉及參數有θα、θβ、θγ以及迭代次數n,對于θα、θβ和θγ,經過多次實驗并結合文獻[12],在θγ=1、θα=20和θβ=10時,實際表現良好。迭代次數n在高于10時,Q和P的KL散度幾乎停止下降,考慮到計算復雜度,n確定為10。
確定T-FCN與全連接CRF參數后,本文方法與幾種分割方法[9, 23-24]的對比結果見表2。其中,文獻[23]主要運用了多尺度分水嶺與二分類等方法,文獻[24]則主要運用了放射梯度向量流(Radiating Gradient Vector Flow, RGVF)與聚類等方法。表2中,從Herlev數據集中917張細胞學圖像的平均分割指標來看,本文是四種算法中唯一一種在查準率、查全率以及ZSI三個指標上,均達到0.90以上的算法。
文獻[23]在查準率與查全率上有一個較好的權衡,因此在ZSI上領先RGVF。RGVF則由于過度側重于查全率,導致其在查準率上僅為0.83,表明其雖然對細胞核的漏檢較少,但是誤檢較多,因此不能為后續細胞學圖像的診斷提供較為可靠的分割結果。本文算法兼顧了查準率與查全率且二者均表現較優,在ZSI上表現最好。
對于異常細胞而言,隨著異常程度的增大,傳統算法很難克服染色質分布不均勻以及細胞核形狀的高度不規則等困難,因此在查準率或查全率上具有一定取舍,實驗結果的三個指標無法做到全部都表現良好。而在本文中,T-FCN對細胞核像素級先驗知識的運用與全連接條件隨機場對空域信息的運用都非常充分,提取到不同層次不同尺度的眾多特征,因此實驗結果的三個指標不僅不受細胞核形狀不規則程度增大等因素的影響,反而更好。實驗結果表明本文方法對異常細胞的篩查更加有效。

表2 4種方法分割結果對比
本文根據Herlev數據集的特點,為了提高細胞核分割的查全率,結合VGG16的D結構,搭建出適合Herlev數據集中較小細胞核語義分割的T-FCN, 但是T-FCN在分割數據集中大尺寸的細胞核時,存在將部分細胞核區域分割為背景的情況,同時可能將細胞圖像中尺寸較小的雜質分為細胞核。對此,本文通過細胞核子圖的確定來排除部分誤分割結果,得到最終粗分割結果;將粗分割結果輸入到包含有全圖像素標簽信息、位置信息和色彩值信息的全連接CRF中,通過最小化全連接CRF的能量函數來優化分割結果,進一步剔除了粗分割結果中的誤分割區域,同時細化了分割的邊界。臨床細胞圖像的采集具有固定背景、光照以及更為穩定的蘇木精-伊紅(Hematoxylin-Eosin, HE)染色法等優點,而Herlev數據集中的細胞學圖像背景復雜、對比度變化范圍較大且染色效果不夠穩定。由于臨床數據集的缺乏,本文未能完成臨床性能的評估。但是在Herlev數據集上的實驗結果顯示,本文提出方法的查準率、查全率和ZSI三個評價指標均超過0.9,表明細胞核分割結果與GT圖中的細胞核高度匹配,相較其他三種方法具有明顯的優勢。本文算法表現出的較優的魯棒性和較強的泛化能力有望在臨床取得更好的細胞核分割結果, 且本文算法對異常細胞核分割的優秀表現也更加契合計算機輔助宮頸癌細胞學篩查系統的需求。
從最終實驗結果來看,本文的T-FCN滿足了優化階段的精度需求,極大提升了粗分割效率,且粗分割存在的問題在全連接CRF中基本得到解決。但是T-FCN是一個相對簡單的模型,如何將更加優秀的語義分割技術整合進來并提升分割精度是進一步努力的方向。