徐思則,劉 威
(1.武漢大學物理科學與技術學院,湖北武漢 430072;2.武漢大學深圳研究院,廣東深圳 518057)
據世界癌癥統計組織2020 年發表的相關報告[1]顯示,2020 年確診患癌的病人數量高達1 930 萬,而死于患癌的病人超過1 000 萬。其中,乳腺癌依然是女性中最常見的癌癥,在女性患癌種類中居于榜首(30%)。癌細胞的檢測對癌癥的前期診療具有重要臨床價值[2-3],而細胞圖像的自動化分析則是醫療輔助診斷的重要方法[4-5]。由于人工智能科技近年來取得了飛躍式的進步,目前已有許多團隊使用深度學習方法對癌細胞進行分辨[6-8]。
該文以乳腺癌腫瘤細胞(MCF-7)為例,基于Python3.7 平臺,利用數字圖像處理技術,結合深度學習,將采集到的乳腺癌腫瘤細胞顯微圖像在UNet 深度網絡中進行學習并得到用于腫瘤細胞圖像分割的模型。該模型可大量節省工作人員在腫瘤細胞識別和分割中的時間。
卷積神經網絡(CNN)不同于機器學習早期的SVM 等算法,其獨特的卷積操作發揮著至關重要的作用,不僅能夠削減網絡層數過多導致的大量內存,還大量降低了模型中權重和偏置的數量,從而達到減輕過擬合的目的。CNN 的設計理念最早由LeCun團隊發表,其設計的LeNet-5[9]包含5 個隱藏層,分別為2 個卷積層、2 個池化層和1 個全連接層。而CNN蓬勃發展的轉折點在2012 年,在該年的ImageNet 比賽中,AlexNet[10]憑借著超高的物體識別正確率贏得冠軍。該模型取得巨大進步的原因,一是李飛飛團隊制作的超大數據的、帶標注的數據集ImageNet,二是計算機設備的保障,特別是GPU 的發展,給高強度的數學運算帶來了有力的支撐[11-12],以及更為重要的算法的提升,包括網絡深層優化、數據集增加、ReLU 激活函數和Dropout 等。AlexNet 之后,深度學習進入爆炸式發展階段,目前部分模型的準確率已經高于人類識別的準確率。
單層的CNN 結構一般包括3 個部分,分別是卷積層、激活函數和池化層。
卷積層:卷積層的主要作用是卷積運算,其運算方式與數字圖像中的濾波器運算類似。如圖1 所示,n1個h1*w1的輸入數據,經過n2個h2*w2的卷積核運算,得到n3個h3*w3的輸出數據。

圖1 圖像卷積

式(1)中,xi代表第i層輸入數據,yj代表第j層輸出數據,wij和bj則分別代表該層的權值和偏移。
激活函數:在CNN 發展前期,激活函數經常使用Sigmoid 和tanh 等非線性函數,而近年來,ReLU 逐漸被更加廣泛地應用。ReLU 可以把參數小于0 的神經元置為0,從而達到稀疏模型的目的。相較之下,Sigmoid 或tanh 激活函數不具備單側抑制的功能,而ReLU 使得神經網絡層中大約50%的神經節點處于休眠狀態,具有更好的稀疏性。在訓練梯度下降時ReLU 比傳統的飽和非線性函數有更快的收斂速度,因此在訓練整個網絡時,訓練速度也比傳統的方法快很多。

池化層:最大池化(Max pooling)是最常用的池化方式。如圖2 所示,最大池化可以把經過卷積操作后的特征數據均分為若干個區域,并逐個區域計算最大值。池化層會提取出最關鍵的空間信息,減少數據冗余,因此參數的數量和計算量也會下降,這在一定程度上也控制了過擬合。

圖2 最大池化
Batch Normalization 在2015 年被提 出[13],其 思路是調整各層的激活值分布使其擁有適當的廣度,簡而言之,就是對數據進行整合,將其調整為N(0,1)的高斯分布。Batch Normalization 操作一般被插入到激活層之前,用來對數據分布進行正則化處理??偟貋碚f,Batch Normalization 具有加快訓練速度、降低對初始權重的依賴以及抑制過擬合的優點,因此Batch Normalization 是目前深度網絡中經常用到的加速神經網絡訓練、加速收斂速度及提高穩定性的算法。
由于醫學圖像語義較為簡單、結構較為固定、邊界較為模糊以及數據量較少的特點,自2015 年以來,在生物醫學影像語義分割領域,UNet被廣泛應用[14-15]。
如圖3[16]所示,UNet 網絡結構包括兩部分,第一部分為左側特征提取部分,第二部分為右側上采樣部分。由于其網絡結構類似字母U,所以被稱作UNet 網絡。在左側特征提取部分,每經過一個池化層,便會產生一個新尺度的特征圖,加上原圖共有5種尺度。在右側上采樣部分,每經過一次上采樣,便會產生一個和左側部分尺度相對應的特征圖,并和左側特征圖相拼接。最后輸出兩層,分別為前景和背景。

圖3 UNet網絡結構圖
實驗流程圖如圖4 所示。

圖4 實驗流程圖
由USB 接口和CMOS 傳感器構成的拍攝設備具有高傳輸速率、兼容性好等特點[17]。該實驗的圖像采集系統由CMOS 工業相機和三目螺紋接口顯微鏡攝像頭(40X)組成,通過USB2.0 與計算機建立通信,用其采集混有人體紅細胞的MCF-7 腫瘤細胞顯微圖像,共200 張,圖像如圖5 所示。

圖5 MCF-7腫瘤細胞圖像
通過幾何變換、顏色空間變換等方法,對采集到的圖像進行數據增強后,使用圖像標注軟件labelme,標記采集到的MCF-7腫瘤細胞輪廓,標注后的MCF-7腫瘤細胞圖像如圖6 所示。

圖6 標注后的MCF-7腫瘤細胞圖像
UNet網絡模型和參數如圖3所示,并在每次卷積操作后和ReLU激活函數之前加入Batch Normalization。Batch Normalization 的作用是將卷積后的結果歸一化,突出不同數據間的相對區別,減小絕對區別,提升學習效率。此外,由于深層網絡模型具有非常強的學習能力,如果沒有大量的樣本,會出現過擬合現象,使得學習后的模型難以應用。在圖像傳入UNet模型前,首先隨機旋轉圖像以增強樣本,進而達到抑制過擬合的目的。
該研究使用200 張MCF-7 細胞顯微圖像作為樣本,對UNet 網絡模型進行訓練,實現了對腫瘤細胞的語義分割。將訓練樣本按照8∶1∶1 的比例隨機劃分為訓練集、驗證集和測試集3 部分,每部分圖像數量分別是160、20 和20。輸入數據為顯微鏡采集到的原始圖片,經過5 層下采樣與5 層上采樣,最后經過一層1×1 的卷積層輸出。
使用200張MCF-7腫瘤細胞顯微圖像對網絡進行訓練,得到的結果如表1 所示,其中準確率(Accuracy,AC)、召回率(Recall,RE)、特異性(Specificity,SP)、精準率(Precision,PR)和F1 值(F1-score,F1)為評價網絡結構的5 個重要指標,其定義分別為:

表1 UNet網絡分割結果

式中,TP 為真正類(True Positive),TN 為真負類(True Negative),FP 為假正類(False Positive),FN 為假負類(False Negative)。從上式可得,準確率是正確預測與所有預測的比例,召回率是正確預測與所有實際正確樣本的比例,精準率是正確預測與所有預測為正的比例,而F1 值則為準確率與召回率的綜合加權。
由表1 可知,UNet 神經網絡在訓練集、驗證集和測試集的圖像分割準確率均高達90%以上,并且測試集的精準率高達89%,說明該網絡可以較好地在圖像中定位與分割MCF-7 癌細胞。而相比訓練集和驗證集,測試集的召回率較低,只有80%,分析其原因如下:
一方面是UNet 神經網絡的深度較深、參數較多,雖然該模型在訓練前對輸入的圖像進行了增強處理,并且加入了Batch Norm alization 層來抑制過擬合,但還是在一定程度上產生了過擬合現象;另一方面,顯微圖像中腫瘤細胞數目較少,導致標注區域只占背景的一小部分,也在一定程度上導致了網絡模型訓練的難度。
將訓練好的網絡模型自動保存,并將新的MCF-7腫瘤細胞圖像輸入網絡進行分割,得到的結果如圖7所示,可以看到該網絡模型能夠較好地識別和分割顯微圖像中的MCF-7 腫瘤細胞。

圖7 模型分割結果對比
該文使用UNet網絡,實現了對顯微圖像中MCF-7腫瘤細胞的識別與分割。實驗結果表明,該網絡模型的分割準確率達到91%,能夠滿足實際需求,具有一定應用價值。該網絡相比傳統的細胞識別算法,可以更精細地分割出細胞輪廓,并且分割后的顯微圖像還可用于細胞計數等應用。
該文的不足之處在于腫瘤細胞分割的準確率和召回率還可以進一步提升。下一步的研究重點可就分割不同種類的腫瘤細胞和分割不同時期的同一細胞進行探討,并將其與細胞計數相結合。