王文濤,王嘉鑫,張 根,陳大江
(1.中南民族大學計算機科學學院,武漢 430074;2.湖北省制造企業智能管理工程技術研究中心,武漢 430074)
宮頸癌是女性最常見的惡性腫瘤之一,據世界衛生組織估計,目前全世界約有100萬婦女患有宮頸癌。幸運的是,宮頸癌是目前唯一明確病因、可預防、早發現可治療的癌癥[1]。宮頸細胞涂片篩查是早期檢測宮頸癌的重要細胞學篩查方法之一,但傳統的細胞涂片需要專業病理學家進行手動篩查,分析過程繁瑣、耗時,長時間工作下容易出錯,因此,計算機輔助篩查在該領域有著重大意義。
細胞學篩查需要觀察細胞形態特征,如形狀、顏色、尺寸等,分辨是否為異常細胞[1],計算機輔助篩查系統通過自動分割核質邊界、特征提取和自動分類等方式來自動篩查異常細胞。而細胞分割作為首要任務,其精確度決定了后續分類篩查的準確率,但細胞涂片中的細胞形態極其不規則,染色質不均勻導致細胞邊界不清晰,想要在涂片中準確分割出核質是非常困難的。目前對細胞進行語義分割的方法主要有以下兩類:
(1)基于形態學的傳統細胞語義分割方法。2011年,Plissiti等[2]使用分水嶺與基于形態學先驗的方法,先對圖像核質區域進行粗分割,再使用距離相關規則以及支持向量機(support vec?tor machine,SVM)的像素分類方法進行分割的細化。2015年,Chalfoun 等[3]通過計算局部對比度來檢測像素強度變化較大的區域,即可能是細胞主體的區域,再使用局部對比度閾值來分割出細胞邊界,并且使用了一種迭代算法將細胞邊緣的光暈去除。但傳統的分割方法只分析了底層特征,無法提取高級的結構特征,存在精確率低、泛化能力差、效率低等問題。
(2)基于深度學習的細胞語義分割方法。隨著深度學習的快速發展,其在細胞分割領域中的運用越來越廣泛,深度學習避免了人工提取特征的局限,并提供更高的精確度和更快的速度,其中卷積神經網絡(convolutional neural net?works,CNN)是最常用的模型之一。2018 年,Liu 等[4]使用了一種利用像素先驗信息的神經網絡Mask R?CNN(mask regional convolutional neural network),先通過基于殘差網絡(residual net?work)和特征金字塔(feature pyramid network)的特征提取網絡確定細胞的感興趣區域,再進行區域卷積獲得粗分割的掩膜圖,最后通過一個局部全連通條件隨機場對分割圖進行細化,得到了更高的準確度。2021年,Roy等[5]利用一個基于編碼器-解碼器的語義分割模型DeepLabv3進行細胞分割,編碼器包含了空洞卷積與多尺度并行的空間金字塔池化模塊,可以提取豐富的語義信息,通過簡單有效的雙線性上采樣解碼器模塊進行空間信息的恢復,有效地提高了精度與運行效率。此外,DenseNet[6]、D?MEM[7]、ICPN[8]等模型也被用來提高分割性能。雖然這些算法在一定程度上提高了準確率,但通常具有適應特定任務或是數據的網絡結構特點,且數據不平衡時模型性能較差。
在眾多卷積神經網絡模型中,全卷積網絡(fully convolutional networks)[9]是醫學圖像分割領域中的研究熱點之一,在各種全卷積網絡體系中,U?Net[10]模型是其中應用最為泛用的模型之一。U?Net模型是一個像素到像素、端到端的網絡,編碼器與解碼器之間有跳躍連接層,只需要較少的訓練數據就保留很多特征信息,然而,向標準的U?Net結構中直接添加更多層,會使網絡太深,導致梯度消失,難以收斂。
本文受U?Net 模型的啟發,結合Inception?Res[11]結構的優點,采用了一個改進的端到端模型IR U?Net(Inception?Res U?Net),主要貢獻如下:①通過Inception?Res 結構增加網絡寬度的同時減少了冗余計算,并能提取多尺度特征,提高網絡精確度;②通過使用Leaky?ReLU 減少“神經元死亡”導致的網絡稀疏特征多、難以收斂的問題;③采用改進的損失函數Focal?Dice Loss 來解決細胞圖像部分邊界模糊、目標區域大小差異大、學習困難的問題。
本節將介紹模型的整體結構以及內部模塊的具體結構,整個網絡以U?Net作為主干網絡模型,內部多尺度特征提取與特征融合模塊為In?ceptioni?Res 結構,模型為不包含全連接層的端到端模型,輸入輸出為分辨率相同的圖像。
圖1展示了模型的整體結構,模型上半部分為編碼器,用于特征提取;下半部分為解碼器,用于像素還原。解碼器中上采樣的輸出將與相應編碼器同層特征圖進行拼接,作為解碼器下一層輸入,將原始模型中編解碼器部分的3 × 3卷積模塊替換為Inception?Res模塊。

圖1 模型結構圖
模型的輸入圖像分辨率為224 × 224,通道數為3,編碼器中最大池化層(MaxPooling)對特征圖進行下采樣,使特征圖分辨率縮小一半,經過四個Inception 模塊和池化層后,特征圖縮小至14 × 14 的大小。解碼器部分的上采樣層(UpSampling)將特征圖分辨率還原至原來的一倍,經過四個Inception 模塊和上采樣層后,圖像將恢復到與輸入分辨率相同,其中四次跳躍連接加強了淺層與深層特征的融合,使得分割結果更為精細。最后經過一個包含1 × 1 卷積層與sigmod 激活層的分類器,對像素進行分類,輸出一個三通道的語義分割結果。
本文采用了一種改進的Inceptioni?Res 結構,如圖2所示,該結構與原始卷積結構不同,使用了三個不同分支結合的卷積核,主要目的是使用不同分支不同大小的卷積核輸出一個聚合特征圖,多分支的優點主要在于網絡能夠靈活調整出對訓練有益的卷積核大小,并形成密集的聚合特征圖,配合殘差結構,使學習效率增加。結構中多個1 × 1 卷積核能夠改變輸入維度以減少訓練參數,使得學習更加容易。

圖2 改進的Inceptioni?Res結構
在本文模型中,每個卷積層后加入了批標準化模塊(batch?normalization)[12],當數據通過卷積層后,其特征分布可能會發生偏移,當卷積層增加時,偏移會加重,這會產生梯度消失等現象,批標準化可以在保留卷積層的同時,使得數據始終保持標準正態分布,加快訓練速度。批標準化的計算首先是對輸入數據B={x1,x2,…,xi}進行標準化:
式(2)將標準化后的數據再進行一個線性變換,雖然這里重新對數據進行偏移,但神經網絡可以學習變換參數γ與β來自動衡量標準化操作是否對優化產生效果。
批標準化后,使用了ReLU(rectified linear unit)激活函數的變體Leaky?ReLU[13]進行一個輸入端到輸出端的非線性映射。原始ReLU 激活函數在訓練時,值小于0的神經元的梯度會一直為0,容易產生“神經元死亡”的問題,這樣會導致網絡稀疏特征多,難以收斂。而Leaky?ReLU函數會給負軸微小的斜率,使得神經元的梯度不會完全消失,如圖3所示。

圖3 ReLU函數與Leaky?ReLu函數
Leaky?ReLU函數的表達式如下:
其中:k為一個固定參數且k∈(0,1),一般取0.01[13]。
語義分割常用的損失函數為交叉熵損失函數(cross entropy loss)與Dice 系數損失函數[14],公式如下:
其中:M為類別數量,當樣本i的真實類別為c,則yic取1,否則取0,pic為樣本i屬于類別c的預測概率。
其中:y為真實標簽;p為預測概率;c為類別;ε為平滑系數。
何凱明等[15]提出了改進的交叉熵損失函數焦點損失(Focal Loss),公式如下:
其中:
α、γ均為調節因子,且α∈[0,1],γ>0,α用來調節正樣本損失的重要程度,γ用來調節難樣本損失的重要程度。
交叉熵損失會對圖像中所有的像素點進行平等地計算,若圖像中存在區域非常小的像素類別,則容易被大范圍的背景區域干擾,導致分割不準確。Dice 損失函數是一個區域相關的損失函數,損失值不受背景區域大小的影響,所以Dice 損失函數善于挖掘前景區域,相比于交叉熵損失函數,更適用于類別不平衡的情況。本文通過焦點損失與Dice 損失函數結合解決數據不平衡的問題。改良的損失函數公式如下:
其中:wc為c類別的權重;β為調節因子,且β∈(0,1),使得模型更加關注Dice 損失較小的樣本,本文中β一般取0.5。
本節將介紹實驗數據、預處理過程、評價指標、與其他分割算法的性能對比實驗分析以及展示模型各模塊影響的消融實驗分析。
本文的實驗均在公開的Herlev 宮頸細胞數據集[16]上進行,該數據集是由丹麥赫列夫大學醫院(Herlev university hospital)采集的樣本制作而成,其具體組成如表1所示。

表1 Herlev宮頸細胞數據集組成
該數據集由917 張單個宮頸細胞圖像組成,共有七類細胞,每一張圖像都對應著一張語義標注GT(groud truth)圖像,如圖4 所示,所有的類別以及GT 圖都是由權威專家人工標注得來,GT 圖像中淺藍色區域代表細胞核,深藍色區域代表細胞質,灰色區域代表細胞ROI(region of interest),紅色區域為背景區域。圖像的分辨率為0.201微米/像素,平均大小為156 × 140像素。其中最長邊達到768 像素,而最短邊僅有32 像素,尺寸差異范圍較大。

圖4 Herlev數據集部分圖像
由于數據集每張圖像大小形狀不一,為了在統一輸入尺寸的同時不改變分割區域的相對位置,在輸入模型前對圖像進行零填充,并將分辨率大小統一調整為224 × 224 像素。同時,本文采用基于像素的語義分割,GT 圖中的細胞主體都在其ROI內,無需先確定細胞的ROI,所以將ROI 并入背景中,最終的語義圖像共有三類像素,分別為細胞核、細胞質與背景區域,圖5為數據處理前后對比。

圖5 圖像處理前后對比
為了便于訓練,將像素進行編碼,表2為本文訓練所使用的像素類別索引。

表2 像素類別索引
深層網絡的訓練通常需要大量數據進行學習,否則容易產生過擬合,但醫學圖像數據難以獲取,本文使用的公開數據集僅有917 張圖像,因此本文對現有數據集進行旋轉、水平或垂直翻轉等仿射變換,將數據量擴充至原來的六倍,使得模型具有更好的泛化能力。
為了對語義分割結果進行評估,本文采用平均像素精度(mean pixel accuracy,MPA)與平均交并比(mean intersection over union,MIoU)作為評價指標,公式如下:
其中,假設共有k+1 個類別(0,1,…,k),pii表示類別為i的像素預測正確的數目,pij表示類別為i的像素被預測為j的數目,pji代表類別為j的像素被預測為i的數目。平均像素精度為每個類別中分類正確的像素總數與每個類別的像素總數之比的均值,平均交并比為每個類別真實標簽與預測結果之間交集與并集像素數量比值的均值,上述指標在用于評價分割模型性能時,值越大代表性能越好。
本文仿真實驗平臺為Windows 10,處理器為Intel i3?8100 CPU,12 GB 內 存,顯 卡 為NVIDIA GeForce RTX 2070,8 GB 顯存,在機器學習平臺Tensorflow 1.13.1 上進行網絡訓練,優化方法采用的是Adam 優化器(adaptive moment estimate optimizer),迭代次數為100 次,批量大小為4,初始學習率為0.001,數據集按照3∶1劃分為訓練集和測試集,使用擴充后的數據集進行訓練,輸入訓練圖像為4126張。
圖6 對比了FCN、U?Net 以及本文模型的損失值情況,其中FCN 模型穩定性差,U?Net模型收斂后的Loss 值比本文模型更大,本文模型收斂速度更快、更穩定,其精確度有一定的提升。

圖6 三種模型訓練過程中的Loss值對比
本文選擇了FCN[9]、U?Net[10]、Attention U?Net[17]、U?Net++[18]這幾種分割網絡與本文的改進模型進行對比,探究改進模型的優越性。表3展示了各個模型使用不同激活函數時,在測試集中的精度指標與完成整個測試集所用的時間。本組實驗使用的是改進的Focal?Dice 損失函數。從表3 結果可以看出,本文改進的模型相比于FCN 和U?Net,精確度分別提高了34.2%和13.7%,這是因為FCN 與U?Net 的特征提取與特征融合能力不足,無法有效利用編碼器提取到的特征。相比于另外兩種流行的U?Net改進網絡也提升了3.1%和0.6%。本文模型在測試時間上,雖相較FCN 與U?Net 模型多出了21.2%和12.7%,但其精確度卻提高了34.1%和13.6%,具有更好的性能。

表3 多種模型分割指標對比
另外,細胞核的特征中往往包含著更多可用信息[1],能將細胞核準確地分割出來具有一定的意義。本文在細胞核的分割上與近年來一些相關研究進行橫向比較(見表4),發現本文在細胞核這一類像素的分割上也提升了0.1%~1.5%。

表4 多種模型的細胞核分割指標對比
本文改進的損失函數中,權重因子的變化也會導致分割結果的變化,通過設置不同的權重因子來探究其對分割結果的影響。首先是類別權重,圖7展示了數據集中各個類別像素個數的均值,細胞核、細胞質、背景的比值接近于1∶2∶3,所以本文將類別權重設置為w0∶w1∶w2=1∶2∶3。

圖7 數據集每個類別像素的平均數量
表5 展示了不同w與β值下本文模型的指標。從結果來看,將w比值設置為1∶2∶3 時,相比于均衡的權值,僅在β取0.25時精確度有所下降,β取0.5 與0.75 時,精確度分別提升了0.1%和0.6%。當β取0.5 時模型效果稍好,相比于另外兩個取值所對應的精確度提升了0.1%和0.4%,所以本文將默認設置β為0.5。

表5 不同w和β值對模型的影響
為探究不同損失函數對模型性能的影響,本文在不同模型分別使用交叉熵損失、Dice 損失、Focal 損失以及本文改進的損失函數之間進行對比試驗。表6 展示了各個模型在不同損失函數下的分割效果,結果表明改進的Focal?Dice 損失函數相比交叉熵損失精確率提升了0.5%~3.5%,相比Dice 損失精確率提升了0.2%~5.6%,相比Focal 損失精確率提升了0.4%~1.4%。由于本文數據集的類別不平衡,單一損失函數很難衡量訓練時類別的重要性,當訓練細胞核這類數量較少的類別時,很容易被其他類別所影響,改進的損失函數針對這一點進行優化,使模型能夠更好地關注于類別少且難分類的像素點。

表6 不同損失函數對多種模型的影響
為了驗證本文改進方法的可行性,將三個改進模塊進行單獨實驗,探究每個模塊各自對模型性能的影響,在相同數據集上進行相應的消融實驗。
表7 中第一行實驗數據為原U?Net 模型下的分割精度,其效果達不到期望。第二行實驗數據表明,在加入Inception?Res 模塊后,各項指標分別提升了3.8%、11.6%和1.0%,結果優于原模型,這表明該模塊對模型性能提升有所幫助。第三、四行實驗數據中,分別再加上Leaky?ReLU 與Focal?Dice模塊,兩者使得模型的MPA分別提升了1.8%和2.3%,MIoU分別提升了1.3%和3.2%,由此證明了這兩個模塊對模型性能提升的有效性。

表7 不同模塊對網絡性能的影響
本文使用的所有網絡分割結果的可視化如圖8所示,結果表明,FCN模型由于特征提取與像素還原能力低,細胞邊緣細節刻畫效果不佳,細胞核尚未完全分割出來,整體效果非常粗糙,U?Net 模型存在同樣問題,雖然在細胞核分割上優于FCN,但其邊緣細節仍然未劃分出來,受背景影響嚴重。Attention U?Net 與U?Net++模型在細胞核刻畫上效果與本文模型相差不大,但細胞質邊緣區域分割效果仍然不佳。相比之下,本文的改進模型能夠有效地分割出細胞核質區域,對細胞主體的刻畫優于其他幾種模型,具有較好的效果,分割能力明顯提升,且在樣本不均衡,即細胞區域較小時也能達到較好的分割效果。

圖8 各模型分割可視化結果
目前宮頸細胞分割領域存在一定的問題,本文在U?Net結構的基礎上,結合了多尺度卷積與殘差連接的Inception 結構,加寬網絡的同時避免了梯度消失,并使用改進的損失函數獲得了較好的分割效果。結果表明改進的模型相比于目前常用模型均有精度提升,改進的損失函數相比原始損失函數在對模型精度提升方面更為優越,模型整體的分割結果與專業人員標記接近,具有一定的現實意義。