基于遷移學習與標簽平滑策略的宮頸細胞分類方法

2022-12-08 17:02:56劉美，周龍

現代計算機 2022年19期

劉美，周龍

（武漢輕工大學電氣與電子工程學院，武漢 430023）

0 引言

宮頸癌是影響婦女健康的重大疾病，在中國，宮頸癌是導致女性死亡的第二大殺手，2020 年我國新發宮頸癌數量達到了11 萬，占全球總量的18%［1］。然而，宮頸癌是一種早期可以發現的腫瘤，開展人群篩查是促進宮頸癌早診早治的有效措施。宮頸癌篩查，包括婦科檢查、宮頸癌初篩、陰道鏡檢查、病理組織學檢查等流程，其中宮頸細胞學檢查是早期發現宮頸癌最簡單、有效、方便的方式，且其準確性較高，適用于宮頸癌的早期診斷、普查和預防［2］。宮頸細胞學診斷是基于細胞形態學對宮頸細胞進行分類和統計，是臨床上對宮頸癌診斷的依據，醫學界稱之為巴氏涂片檢查。

傳統的巴氏涂片閱片方法是由病理醫師人工閱片，這種方法不僅效率低下，而且受限于病理醫生的主觀性和專業性，時不時會發生誤判和漏判。人工閱片的方法一方面需要消耗大量的人力物力，另一方面準確率得不到保證，這就導致了我國基層宮頸癌篩查工作進展緩慢，篩查質量不高，因此應用計算機輔助宮頸癌篩查是非常有必要的。

過去，計算機輔助系統中的宮頸細胞分類任務都是根據細胞核和細胞質的形態學特征來分類。而這些特征的選取是依靠人工來篩選的，不同的方法篩選的特征不同。Marinakis 等［3］使用了基于遺傳算法的特征選擇和最近鄰分類來進行巴氏涂片診斷； Kumar 等［4］設計了一個基于生物學可解釋特征的框架來分類癌癥；William 等［5］設計了一個模糊C 均值算法的宮頸癌輔助診斷工具。然而，這些手工設計的特征都有一些缺點，因為它們或多或少會受到特征或分類器選擇過程的影響。

人工智能（AI）技術正在改變當今的醫療實踐現狀。人工智能可以應用在各種各樣的任務中，George 等［6］將深度學習用于乳腺癌診斷；B?hland 等［7］用機器學習對甲狀腺癌進行自動分類； Song 等［8］對骨髓組織學的圖像進行檢測和分類，許多人工智能應用已經達到了專家級的診斷準確度。

卷積神經網絡（CNN）已被證明對醫學圖像分析處理中人工智能的成功具有重要意義。在宮頸細胞分類領域，近年來基于深度學習和CNN 的研究取得了很大進展。研究人員發現，CNN 可以作為特征提取工具，自動提取深層特征，對宮頸細胞進行分類。Zhang 等［9］將深度學習應用在宮頸細胞圖片分類中，使用CNN 模型自動提取宮頸細胞的深層特征，且無需事先分割；Plissiti 等［10］從細胞特征、圖片特征、深層特征三個方面出發探討了CNN 在輔助計算機檢測方面的可行性，并且提出了全新的宮頸細胞數據庫。在基礎上，Shanthi 等［11］用卷積神經網絡構建了預測模型，對宮頸癌進行不同等級的分類；Shi 等［12］用圖神經網絡對宮頸細胞進行分割和分類，深刻地探索了各類宮頸細胞圖像之間的潛在關系，進一步提高了分類性能。雖然上述方法在一定程度上提升了準確率，但在宮頸癌診斷上，特異性和召回率還存在不足，用于醫療輔助診斷還需要進一步提高指標。

為了進一步提高宮頸細胞診斷的準確率和特異性，本文提出了基于遷移學習和標簽平滑正則化損失函數的TLS-Net50 算法，在特征提取階段使用預訓練參數，使網絡能更好地學習到細胞特征，同時改進了交叉熵損失函數，使模型具有更好的泛化性和魯棒性。

1 基于遷移學習和標簽平滑策略的算法分析

TLS-Net50 總體框架如圖1 所示，首先對輸入的宮頸細胞圖像進行預處理。預處理包括對圖像的裁剪縮放。之后輸入到模型中進行特征提取，特征提取基于ResNet50 框架，其中卷積層的參數是通過遷移學習得到的，用卷積層提取圖像的深層特征。全連接層的參數則由SIPaKMeD 數據集進行訓練得到。在此基礎之上將原來的交叉熵損失函數進行改變，在原來函數的基礎上加上一點噪聲，最后經過softmax 函數進行輸出，得到模型的預測結果。

圖1 TLS-Net50模型總體框架

1.1 遷移學習

遷移學習是指在其他大規模圖像數據集上預訓練的深度學習模型的微調。深度學習需要大量有標注的數據，然而現實條件下無法獲得大量已標注的數據，因此考慮通過遷移學習的方法，將已有的知識遷移到目標領域中，解決僅有少量已標注樣本的學習問題。ImageNet 是廣泛應用于計算機視覺領域的大型數據庫，其中包含了100 萬幅圖，共1000 個類別。因此，在ImageNet 數據庫預訓練過的ResNet50 模型具有提取宮頸細胞深度特征的能力，尤其是卷積層具有充分的學習圖片邊緣和輪廓特征的能力。

經過預處理后，我們用在ImageNet 數據庫上預訓練過的ResNet50 的前幾個卷積層和池化層用作網絡的初始參數，在此基礎之上對全連接層進行隨機權重初始化。利用Sipakmed 數據集對網絡參數進行微調，就可以獲得融合了遷移學習的ResNet50模型。遷移學習的過程如圖2所示。

圖2 遷移學習

1.2 標簽平滑

標簽平滑是一種防止模型過擬合的正則化手段，在訓練深度學習網絡模型時使用標簽平滑的方法是很有效的［14］。標簽平滑可以應用在很多任務中，例如圖像分類、圖片分割、機器翻譯和語音識別，使用該方法可以提高深度學習模型的泛化性能和魯棒性。

在分類問題中，常用one-hot（獨熱分布）對向量進行編碼，編碼的標簽向量yi為：

其中正確的類概率是1，不正確的類概率是0。在訓練時，模型最小化損失函數H(y,p)：

其中，pi由模型前一個全連接層輸出的logits 向量z應用Softmax函數得到：

在正常的獨熱向量編碼標簽網絡學習過程中，鼓勵模型估計目標類別的概率接近1，非目標類接近0。但是，如果訓練數據不足以覆蓋所有情況，這不僅會導致網絡的過擬合還會降低模型的泛化能力，導致模型在預測集上表現不好。在數據集較少的情況下，使用交叉熵損失函數作為目標函數不一定是最優的。

因此考慮通過標簽平滑正則化（Label Smooth Regularization，LSR）來優化模型，LSR是通過在輸出y添加噪聲，實現對模型的預測概率的約束，降低模型過擬合程度的一種約束方法。運用了標簽平滑正則化策略后，我們用更新的標簽向量來替換獨熱編碼的標簽向量yhot：

其中K為多分類的類別總個數，ε一般是一個較小的超參數（一般取0.1），即：

帶有標簽平滑的交叉熵損失函數轉化為下面的公式：

這樣，標簽平滑后的分布就相當于往真實分布中加入了噪聲ε，避免模型對于正確標簽過于“自信”，減少正確目標和錯誤目標的概率的差距，從而避免過擬合，提高模型的泛化能力。

標簽平滑一般用在以下三個場景中：

（1）數據集比較大，且圖片中包含噪音，加入標簽平滑之后可以避免模型錯誤地學習到圖片中的噪音。

（2）分類任務中不同種類圖片具有很高的相似度，比如宮頸細胞圖片分類中，有些圖片又像空泡細胞又像化生細胞，利用此策略可以給兩類都提供監督效果。

（3）在模型比較小時，為了避免模型被訓練得太自信，這會導致過擬合，我們希望提高模型學習的難度，也會引入標簽平滑。

本課題研究的情況符合標簽平滑的使用場景，因此考慮引入標簽平滑策略。

1.3 TLS-Net50總體框架

宮頸細胞識別模型框架主要利用遷移學習將ResNet50 經過預訓練的參數遷移到卷積層、池化層，然后將原來1000 分類的softmax 函數改成所需要的目標分類函數（在此文中即五分類）。宮頸細胞識別模型的訓練和測試流程如下：

（1）輸入樣本。從宮頸細胞數據庫中每種細胞圖片按9∶1 比例抽取訓練集和驗證集，將訓練集樣本作為模型訓練輸入。

（2）對輸入圖片進行預處理。為了保證所有圖片輸入大小相同并且去除圖片中可能存在的噪音，對輸入的圖像統一進行縮放和裁剪操作。在訓練階段，將單個細胞圖像裁剪為224像素×224 像素大小，并且進行歸一化處理，使特征圖像趨近于正態分布，加快模型的收斂和訓練。

（3）構建TLS-Net50 宮頸細胞識別模型。基于ResNet50［13］模型，優化全連接層，將原來的分類器換成五分類輸出的分類器，這樣不僅可以減少模型學習和訓練的參數，還可以提升模型的識別效率。

（4）微調卷積層的參數。用Resnet50 經過ImageNet 數據集預訓練得到的參數通過遷移學習方式優化TLS-Net50 模型參數，主要是確定卷積層的權重、偏置等參數。

（5）訓練模型。隨機初始化模型參數，設定優化器的學習率和訓練輪數，通過損失函數的反向傳播，凍結卷積層的參數，訓練全連接層的權重。

（6）加入標簽平滑策略進行訓練。通過對損失函數進行改正，使模型具有更好的泛化性，避免了模型的過擬合。

（7）模型測試。抽取訓練集的圖片，作為測試樣本進行模型測試，以驗證模型的精度。

ResNet50 預訓練模型的權重參數數量為25.5 M，計算量為4.1 G，其中全連接層參數集中度較高，ResNet50 的預訓練參數是為1000 分類而設計的，而本模型只針對五個不同的類。因此本文將原來的全連接層改成五分類的輸出，這樣雖然稍微增加了模型的計算量，但是減少了模型的參數，還提高了模型的效率和精度。改進后的模型參數（params）與原來的模型參數和計算量（FLOPS）對比結果如表1所示。

表1 模型參數和計算量對比

TLS-Net50 模型的各層參數大體上與ResNet50一致。表2給出了模型每層的名稱，每層的輸入和輸出特征圖大小，以及每層的層結構。可以看到本模型的一個標志性特點就是特征圖的通道增加一倍時，特征圖的寬高會縮小一倍，這是為了保證在堆疊網絡的過程中，網絡不會因為繼續堆疊而產生退化。

表2 TLS-Net50模型各層設計

2 在宮頸細胞數據集上的實驗與分析

2.1 數據集的獲取

本實驗所用的宮頸細胞數據集是來自希臘約阿尼納大學在2018 年發表的公開數據集SIPaKMeD［10］，該數據集包含了五種宮頸細胞，共4049 張從966 個Pap 涂片的細胞簇圖像中手工切分的孤立細胞圖像，每類細胞的示例如圖3 所示。

圖3 SIPaKMeD中的五種宮頸細胞圖像

可以看出五類宮頸細胞圖像形態各異，且它們在成熟、衰老、癌變的過程中，其形態、大小都在發生著變化，因此可以根據每種細胞特異性的形態學特征進行辨別。

該數據集包含4049 張孤立細胞圖像，其中有831 張淺中層細胞，787 張副基底層細胞，825 張空泡細胞，813 張角化不良細胞，793 張化生細胞。表3所示為五類細胞的訓練集、驗證集分布。

表3 SIPaKMeD宮頸細胞數據集

2.2 實驗環境及評價指標

2.2.1 實驗環境

本文所有實驗結果均在同一實驗環境下得出。實驗環境如下：采用Intel（R）Core（TM）i5-6300HQ CPU @ 2.30GH 處理器，NVIDIA Ge-Force GTX 960M 顯卡，windows10 操作系統，PyTorch=1.7.0+cu110 深度學習框架。編程語言為python3.6，相關程序依賴包有：numpy、skimage、matplotlib、tqdm 等，模型均訓練30輪，采用Adam優化器，學習率為0.0001。

2.2.2 評價指標

以混淆矩陣為依據選取評價指標，混淆矩陣可以理解為下面一張表格，如表4所示，表中有四個基礎指標，分別是TP、TN、FP、FN，這四個指標是評價模型的一級指標。

表4 混淆矩陣

在分類任務中一般用ACC（準確率）、Precison（查準率）、Recall（查全率）、Specificity（特異度）、F1（綜合評價指標）來評價模型。查準率和查全率是一對矛盾的度量，一般來說，查準率高時，查全率往往偏低；而查全率高時，查準率往往偏低。而F1 就是綜合了查準率與查全率的加權調和平均值，F1 越高說明模型查準率查全率越好。計算公式如表5所示。

表5 評估指標標準公式

2.3 實驗過程及分析

為了證明本文算法的有效性，本文基于ResNet50 模型在測試集上做了相關的消融實驗，如表6 所示。下面的算法均以ResNet50 為基礎，評價指標為上文所提到的五類指標，其中TL 代表遷移學習（Transfer Learning），LS 代表標簽平滑（Label Smooth）。可以看到，N2 模型在N1 的基礎上F1 值提升了4.6%左右；N3 相比N1，其準確率、查準率、查全率、特異度、綜合評價指標均有大幅度提升，查準率提升了8%，查全率提升了8.7%，F1 提升了8.5%。NA 為本文的TLS-Net50 算法，對比N3 又提高了1.8%、0.4%、0.5%、0.2%和0.6%。

表6 消融實驗結果

通過消融實驗可以知道，融合遷移學習和標簽平滑策略可以在單獨使用的基礎上進一步提升模型效果。因此可以看出，遷移學習和標簽平滑策略是非常有用的。這也驗證了本文算法在宮頸細胞識別領域的有效性。

為了進一步分析不同模型對每一類宮頸細胞的識別結果，圖4 給出了N1、N2、N3、N4的混淆矩陣，混淆矩陣對角線代表著每類細胞被正確識別的數量。可以看到在四個模型中，副基底層細胞最好辨認，空泡細胞最難分類正確，且它和化生細胞有互被錯分類的現象，化生細胞有一定的概率被錯認為淺中層細胞，角化不良細胞有時候被認為是空泡細胞，淺中層細胞則有時被認為是角化不良細胞。

圖4 N1、N2、N3、N4模型混淆矩陣

表7 是N4 模型在測試集上的表現，對于五類不同的細胞，TLS-Net50 平均準確率、查準率、查全率、特異度、綜合評價指標分別達到了98.0%、95.2%、95.0%、98.8 和95.1%，副基底層細胞和淺中層細胞被完全分類正確，而空泡細胞和化生細胞的準確率稍低，說明這兩類細胞具有較高的相似度，區分較為困難。

表7 測試集評估指標

為了進一步說明本文算法對宮頸細胞分類的有效性，本文與其他的深度學習經典算法進行了對比，其中實驗參數均設置一樣，實驗結果如表8 所示。實驗說明了TLS-Net50 算法的良好性能，也說明了TLS-Net50 在計算機輔助宮頸細胞檢測中的有效性。

表8 與其他算法的性能對比

2.4 特征圖可視化

為了更好地理解深度網絡，可以將特征圖進行可視化。卷積核在訓練的過程中沒有對圖像的空間結構進行改變，因此直接將特征圖像素的值映射到0～255的范圍，就可以變成圖像。

本文對TLS-Net50 模型的特征圖進行可視化，結果如圖5 所示。圖5（a）是第一個卷積層的前12 張特征圖，從圖片可以看到，每個卷積核學習到的內容都不一樣。從不同層可視化出來的特征圖可以看出，模型前面幾層網絡可以提取到圖片紋理、細節特征，模型后面的深層網絡提取的是細胞的輪廓、形狀等特征。一般來說，淺層網絡因為卷積的程度不高，可以學習到更多的特征，也包含有圖片的關鍵特征。例如第一組特征圖的第6張特征圖，提取出的是細胞核邊緣。相對而言，層數越深，模型提取到的特征就越抽象。圖像的分辨率也會隨著卷積的操作而越變越小。

圖5 TLS-Net50模型特征圖可視化（續）

圖5 TLS-Net50模型特征圖可視化

這些經過訓練的卷積核包括各種頻率和方向的梯度以及不同的顏色斑點，這是宮頸細胞分類任務所必需的。除了卷積核之外，還提供了池化、激活函數的示例單元的特征圖，可以觀察到池化操作總結了先前的特征，并且特征變得越來越抽象。

由圖片所示的各層顯示結果可以知道，卷積神經網絡能夠有效地提取細胞的特征，說明本算法通過遷移學習和標簽平滑正則化能夠降低背景干擾、增強目標特征。

3 結語

針對計算機輔助診斷宮頸癌的需求，本文提出了一種基于卷積神經網絡的宮頸細胞分類方法TLS-Net50。本文對ResNet50 模型進行參數優化和標簽正則化，并通過實驗驗證，表明改進后的模型可以自動從圖像中學習到細胞特征，這樣就避免了常規方法中人工選取特征的不足。同時，TLS-Net50 模型相對于ResNet50平均準確率、查準率、查全率、特異性、F1 值依次提高了3.7%、8.4%、9.2%、2.3%和9.1%，可以滿足計算機輔助診斷宮頸癌的需求。

此外，本文所用模型可以準確地識別宮頸細胞的類型，并且減少了模型的參數量，可以在計算性能一般的硬件上進行應用，有利于基層宮頸癌篩查工作的展開。