尹 馨, 焦 娟, 常志紅, 夏迎龍, 劉 杰, 關坤萍
(1. 山西醫科大學 公共衛生學院, 山西 太原, 030001;2. 中國人民解放軍總醫院第七醫學中心 檢驗科, 北京, 100700;3. 山西醫科大學第二醫院 檢驗科, 山西 太原, 030001)
外周血細胞形態學檢查對于疾病的臨床診斷至關重要[1], 其中人工鏡檢法主要依靠檢驗人員,不僅耗時耗力,而且準確率欠佳,容易誤診或漏診。因此,外周血細胞的自動化分類問題亟待解決[2]。自動化分類主要依靠深度學習實現[3], 而計算機視覺是深度學習的熱門研究領域。近年來, Transformer模型已經從自然語言處理領域轉至計算機視覺領域,包括2020年提出的Vision Transformer模型和2021年提出的Swin Transformer模型。目前,大多數外周血白細胞分類相關研究均依靠卷積神經網絡,其不足之處在于僅通過1個卷積核提取局部特征,而Transformer模型則是通過注意機制學習整個圖像的特征[4]。鑒于此,本研究基于Swin Transformer模型進行白細胞分類,并與經典卷積神經網絡模型ResNet進行比較,現報告如下。
本研究符合《赫爾辛基宣言》基本原則,符合國家相關法規與政策,經中國人民解放軍總醫院第七醫學中心倫理委員會審核批準,并獲得所有患者的知情同意。隨機選取2022年4—6月在中國人民解放軍總醫院第七醫學中心就診的100例受試者的外周血樣本(靜脈血2 mL), 置于乙二胺四乙酸二鉀(EDTA-K2)抗凝管,受試者包括白血病患者33例、其他疾病患者34例和健康體檢者(醫院體檢結果顯示所有指標正常的人群)33例。檢驗人員先用SYSMEX-SP10染色機制備外周血染色涂片,然后用Cella Vision DI60自動分析儀采集白細胞的單個圖像(分辨率為360×366), 細胞圖像的類別標簽由2位經驗豐富的檢驗人員確認。將白細胞圖像按照各自類別放入不同文件夾中,然后過濾掉染色異常細胞。正常細胞與異常細胞的圖像見圖1。
本研究采集的白細胞包括中性粒細胞、嗜酸性粒細胞、嗜堿性粒細胞、淋巴細胞、單核細胞5個類別。本研究采集的外周血白細胞圖像數量有限,故需要進行數據增強,數據增強的作用是使訓練的模型具有更強的泛化能力,避免過擬合,此外,引入噪聲可以提升模型的魯棒性。本研究選用5種方法對樣本進行數據增強,包括圖像旋轉、增加亮度、增加對比度、裁剪和圖像添加高斯噪聲。其后,將數據進行歸一化,使數據映射到統一區間內,輸出范圍縮小至0~1, 這樣可以更快地找到最優解,模型也更容易收斂到最佳水平。

1.3.1 主要軟硬件: 顯卡為NVIDIA Tesla P100 PCIE 16GB, 主板為QC-B365-TDIMM。操作系統為Ubuntu 18.04.5 LTS, ResNet框架為tensorflow-gpu1.15, Swin Transformer框架為PyTorch1.8, 軟件包括cuda10.2、cudnn8.1.1、torchvision0.9、pycharm和Anaconda3。
1.3.2 Swin Transformer工作原理: Swin Transformer是一種基于Transformer的深度學習模型,其引入層次化構建方式構建Transformer, 并引入locality思想對無重合的窗口區域內進行自注意力計算。Swin Transformer網絡結構見圖2, 首先將圖片輸入Patch Patition模塊中,分成小塊,每相鄰的4×4像素為1個patch, 然后在channel方向展平。通過Linear Embeding層對每個像素的channel數據進行線性變換,通過4個Stage構建不同大小的特征圖,每個Stage都是類似的重復單元。Stage1先通過1個Linear Embeding層,其余3個Stage則先通過1個Patch Merging層進行下采樣,重復堆疊Swin Transformer Block, 堆疊次數為偶數。Swin Transformer使用窗口多頭自注意力(W-MSA)模塊和移位窗口多頭自注意力(sW-MSA)模塊代替多頭自注意力(MSA)模塊。為了不丟失全局信息, Swin Transformer增加了移位窗口以更好地與其他窗口交互,從而實現分層特性和線性時間復雜度。Transformer中提出的MSA模塊運算公式為:

(1)
Transformer中提出的MSA模塊的計算復雜度為:Ω(MSA)=4hwC2+2(hw)2C
(2)
Swin Transformer中提出的W-MSA模塊的計算復雜度為:Ω(W-MSA)=4hwC2+2M2hwC
(3)
h代表特征圖的高度,w代表特征圖的寬度,C代表特征圖的深度,M代表每個窗口的大小。
傳統Transformer基于全局圖像計算注意力,使用標準MSA執行全局自注意力,每個patch之間的關系根據其他patch計算,這會產生與patch數量相關的二次復雜度,且計算復雜度隨著窗口大小呈平方級增長,計算復雜度很高,不適合高分辨率的圖像。Swin Transformer通過將注意力計算限制到每個窗口而減少內存和計算量,能夠進行全局信息建模,層級式的優勢在于提供各個尺度的特征信息。Swin Transformer窗口是patch的集合,注意力只在每個窗口內計算,復雜度呈線性增長,大大降低了序列長度,效率更高。

1.3.3 訓練: ① 參數調節。網絡的訓練參數在config.py文件中設定, Batchsize為128, Lr為0.000 012, img size為224, Momentum為0.9, Epochs為300。② 網絡模型評價。訓練完成后,用測試集對模型的分類性能進行評價,計算準確率。計算公式為準確率=準確預測的細胞數/細胞總數×100%。
本研究匯總了5種白細胞分類的數量信息,共計13 940個白細胞,包括中性粒細胞8 485個、嗜酸性粒細胞195個、嗜堿性粒細胞145個、淋巴細胞4 225個、單核細胞890個,見表1。將每種類別按照8∶2比例劃分訓練集和測試集,然后將訓練集樣本采用圖像旋轉、增加亮度、增加對比度、裁剪和圖像添加高斯噪聲5種方法進行增強。

表1 訓練數據集和測試數據集詳細信息 個
2.2.1 網絡結構確定: 研究初期基于經典卷積神經網絡ResNet針對外周血白細胞分類設計一種深度卷積神經網絡,為了使模型能夠快速收斂,調整ResNet層數為36層,圖3為ResNet結構參數。結果發現, Resnet的測試準確率較低,僅為95.2%, 不能實現準確的醫學診斷。本研究隨后改用最新的Swin Transformer模型進行訓練和測試,準確率明顯提升。
2.2.2 學習率衰減: 在訓練網絡時,學習率的調節可控制參數的更新速度,學習率較小會降低參數的更新速度,學習率較大會使搜索過程發生震蕩,導致參數在極優值附近徘徊。為了防止學習率過大,在收斂到全局最優點時來回擺蕩,本研究在訓練過程中引入學習率衰減(PyTorch中學習率衰減的方式包括指數衰減和分段常數衰減,本研究選用指數衰減),曲線見圖4,根據運行Batchsize的輪數,動態更新學習率。訓練開始時,將學習率調節至較大使模型快速收斂,此后在降低學習率的同時降低收斂速度,從而找到最優值。指數衰減公式為:

lrate為當前學習率, Init_lrate為初始學習率, drop為衰減指數用, epoch為當前迭代次數, epochs_drop為調整系數。使用學習率衰減策略更容易獲得準確率高的分類模型。


對測試集的2 788張圖片進行測試,結果顯示, ResNet平均準確率最終收斂為95.2%, 而Swin Transformer的平均準確率達到99.1%。與ResNet相比, Swin Transformer對5種白細胞的識別準確率均有一定提升,在白細胞分類領域更為適用。見表2。

表2 Swin Transformer與ResNet的準確率比較 %
近年來,深度學習在醫學領域的應用日益廣泛[5-9], 其中亦包括外周血白細胞分類領域。但既往的多數研究基于公共數據庫進行分析,而公共數據庫并不能涵蓋臨床診斷中的各種真實情況[10-14]。MA L等[13]基于殘差神經網絡提出一種血細胞圖像分類框架,引入一個新的損失函數,準確率達到91.7%。HEGDE R B等[14]將深度神經網絡和支持向量機(SVM)相結合進行白細胞分類,獲得了98.8%的分類準確率。
本研究優勢在于采集的數據是醫院檢驗科的真實數據,圖像的多樣性和真實性有助于提升模型的魯棒性和泛化能力。為了從圖像中提取高維特征信息,本研究通過多種方法對圖片進行數據增強,如圖像旋轉、增加亮度、增加對比度、裁剪和圖像添加高斯噪聲。本研究以ResNet模型和Swin Transformer模型為基礎設計深度神經網絡,考慮到在學習率不變的情況下,梯度下降難以在最后達到收斂,所以在訓練過程中使用學習率衰減策略,隨著梯度下降的進行,學習率衰減有利于最后收斂至一個趨近最低點。在白細胞分類領域,全局信息是區分不同類別細胞的關鍵,如形狀和邊緣特征等。Swin Transformer模型通過移動,使得相鄰窗口之間有所交互,上下層之間有跨窗口連接,從而變相達到一種全局建模效果。同時,該模型通過限制在窗口內使用自注意力,帶來了更高的效率。此外,該模型層級式的結構不僅建模各個尺度的信息,而且計算復雜度隨著圖像大小而線性增長,具有高效、低計算量、高準確率的特點,與經典卷積神經網絡模型ResNet相比具有一定優勢。
綜上所述, Swin Transformer模型可減少計算量,更適用于白細胞分類識別,且準確率相較于ResNet模型更具優勢(準確率提高了3.9%)。但本研究尚存在一定局限性,例如選取的樣本來自于同一家醫院的100例患者,模型可能偏向于單中心的患者和機器,另外僅針對正常5類白細胞進行研究,并未包含異常淋巴細胞、漿細胞、原始細胞、中性早幼粒細胞等其他細胞,未來還需收集多中心樣本并針對差異小的類別以及干擾圖像的魯棒性進一步深入研究,從而提升模型的泛化能力。