







摘" 要: 為了解決液基細胞制染機的成片效果缺陷識別問題,補償設備最終成片率,文中提出一種VMF?UNet模型,模型以UNet為基礎模型,使用VGG16Net的卷積部分替代UNet神經網絡的編碼器部分,加入多尺度高效局部注意力機制(MELA),引入特征細化模塊(FRM),解決了圖像過分割、欠分割、成片缺陷區域邊緣不明顯、UNet模型視野受限的問題。實驗以醫學檢驗可用性為原則,將顯微鏡下分割的數據集標準標簽作為“金標準”。基于自建液基細胞成片缺陷區圖像數據集的實驗表明,改進網絡在分割時平均交并比(MIoU)、平均像素精確度(MPA)、[F1]?score與準確率(Accuracy)分別為:82.73%、93.56%、81.93%、96.10%。實驗結果證明,VMF?Unet模型對液基細胞制染機成片缺陷區域分割效果更好,可以有效補償液基細胞制染機的最終成片率,為設備復處理提供有效依據,提高液基細胞制染機的廣泛可應用性。
關鍵詞: 深度學習; 語義分割; UNet; 注意力機制; 缺陷檢測; 液基細胞制染機
中圖分類號: TN911.73?34; TP391.4" " " " " " " " "文獻標識碼: A" " " " " " " " " 文章編號: 1004?373X(2025)05?0036?07
VMF?UNet based image segmentation of defects in liquid?based"cell preparation staining machine
TIAN Wenhao, WANG Fanrong, QIAO Yihang
(School of Electrical and Electronic Engineering, Hubei University of Technology, Wuhan 430074, China)
Abstract: A VMF?UNet model is proposed to identify the defects in the preparation effect of liquid?based cell preparation staining machine and compensate for its final preparation rate. This model is based on the UNet. The convolutional part of VGG16Net is used to replace the encoder part of UNet neural network. A multi?scale efficient local attention (MELA) mechanism is added and a feature refinement module (FRM) is introduced, which aims to eliminate the image over?segmentation, image under?segmentation, unclear edges of preparation defect areas, and limited field of view of the UNet model. The experiments are based on the principle of medical testing availability. The standard labels of the dataset segmented by the microscope are used as the ″golden standard″. The experiments based on the self?built liquid?based cell preparation defect area image dataset show that the improved network has a mean intersection over union (MIoU), mean pixel accuracy (MPA), [F1]?score, and accuracy rate of 82.73%, 93.56%, 81.93% and 96.10% during segmentation. The experimental results demonstrate that the VMF?UNet model has a better segmentation effect on the preparation defect areas of the liquid?based cell preparation staining machine, and can effectively compensate for the final preparation rate of the machine, providing effective basis for equipment reprocessing and improving its applicability.
Keywords: deep learning; semantic segmentation; UNet; attention mechanism; defect detection; liquid?based cell preparation staining machine
0" 引" 言
在當今的醫療診斷中,醫學圖像如計算機斷層掃描、核磁共振、超聲等成像技術發揮著不可或缺的作用[1]。然而,這些圖像往往受到噪聲、偽影、邊緣模糊等問題的影響,給醫生的準確診斷帶來挑戰。醫學圖像分割技術的出現,極大地提高了圖像分析的精確性和效率,為醫生提供了更為可靠的診斷依據。隨著深度學習技術的不斷發展,尤其是卷積神經網絡(CNN)在圖像處理領域的廣泛應用,醫學圖像分割技術也迎來了新的突破。新型的網絡結構和算法不斷優化分割效果,提高了分割的準確性和效率。
在醫學圖像的語義分割領域,基于深度學習的語義分割方法得到了許多學者的關注,UNet神經網絡被廣泛應用于醫學圖像的分割,該神經網絡結構簡單,可以有效捕捉不同尺度的信息,有效處理不完整目標的分割任務,實現各種組織的位置分布定位,便于提取目標。目前UNet神經網絡改進大致分為兩個方面:結構改進與非結構改進。UNet模型在結構上的改進主要包括編碼器、解碼器、跳躍連接以及整體結構的改進。許多優化任務都是在現有的模塊之上添加如殘差、Dense、Inception和Attention這些傳統的網絡模塊,或者將它們融為一體,目的就是優化網絡的切割效果。文獻[2]在UNet中對編碼器子塊引入殘差連接,從而加速收斂。文獻[3]利用殘差塊作為UNet主干,不僅可以構建更深層的網絡而且能夠加速模型收斂。非結構改進將改進的重點放在決定方法性能和通用性的預處理、訓練、推理、后處理等方面。文獻[4]在分割醫學影像時在UNet網絡中使用了組歸一化(Group Norm, GN)方法,該方法減小了過小的batch、size對網絡性能和準確性的影響。傳統的UNet網絡在分割時容易受到如底色干擾、圖像邊緣不明顯以及模型視野受限等因素的影響,出現過分割以及欠分割的現象,降低了神經網絡的預測準確度。
針對前述問題,本文提出了VMF?UNet(VGG16Net,MELA(Multiscale Efficient Local Attention), and FRM(Feature Refinement Module) based UNet)網絡以增強分割的準確性。該網絡以UNet為基礎,插入了FRM模塊,使模型獲得更大的感受野來減少過分割現象,但在一定程度上引發了過分割現象,其次,利用MELA模塊獲取更深層次的特征,緩解過分割現象,提高分割精度,后續引入VGG16Net[5]加深了UNet網絡結構,有利于提取細胞圖像高維特征信息,增強網絡學習能力。
1" 算法原理
1.1" VMF?UNet網絡模型
UNet網絡由編碼器和解碼器組成[6],中間通過跳躍連接(Skip?Connection)將兩者連接起來,形狀呈U型,因此得名UNet。編碼器路徑又被稱為主干特征提取網絡,通過連續的下采樣操作,使圖像尺寸變小,通道數翻倍,從而獲取圖像的淺層特征信息。解碼器路徑則被稱為加強特征提取網絡,通過連續的上采樣操作,使圖像尺寸變大,通道數減半,從而還原圖像尺寸并進行分割。在圖像分割任務中,UNet網絡通過編碼器路徑對輸入圖像進行下采樣和特征提取,然后通過解碼器路徑對特征圖進行上采樣和分割[7]。跳躍連接將編碼器和解碼器對應層的特征圖進行拼接,從而充分利用圖像的上下文信息,提高了分割精度[8]。
VGG16Net所有卷積層均采用了大小為3×3、步長為2的卷積核,有效減少了網絡參數,降低了梯度爆炸的風險;池化層均采用了2×2的最大池化核,這種小池化核能夠更好地保留圖像的細節信息,有助于提升網絡的性能。將UNet網絡編碼器的部分替換為VGG16Net的特征提取部分,能夠更好地提取細胞圖像細節和上下文信息,有助于提升網絡對細胞圖像的識別和理解能力。
在主干特征提取網絡中,每次卷積后的特征進行下采樣前會經過MELA模塊的處理,利用條帶池化、1D卷積和組歸一化特征增強技術,可以提取更深層次的特征,提高細胞分割的準確率。在跳躍連接處引入特征細化模塊(FRM),使得經過MELA模塊處理后的信息在通道維度進行split操作,被均分為四等分,后續通過逐層卷積、批歸一化處理(BN)和激活函數(ReLU)與加強特征網絡中的上采樣特征完成拼接,最終通過1×1的卷積核將通道還原得到輸出。VMF?UNet網絡模型圖如圖1所示。
1.2" 改進ELA注意力機制(MELA)
注意力機制由于能夠有效增強深度神經網絡的性能而在計算機視覺領域獲得了重要的認可,本質是對關注的目標特征信息進行增強,而忽略背景等無用信息,這使得模型能夠更好地處理復雜的數據和任務。然而,現有的方法往往難以有效地利用空間信息,或者過于專注注意力機制減少通道維度或增加神經網絡的復雜性。
本文引入了一種高效的本地注意力(ELA)方法,實現了一個簡單的結構,大幅度改善性能。采用1D卷積和組歸一化(GN)特征增強技術的結合,通過有效地編碼兩個1D位置特征圖而無需降維,同時允許輕量級實現,從而實現感興趣區域的準確定位。在UNet主干特征提取網絡中,經過圖像卷積層處理后,部分關鍵特征在卷積操作中可能會丟失[9],這種信息丟失直接對液基細胞分割的準確度產生了負面影響。然而,僅僅依賴單一的ELA模塊來應對這一問題,其效果并不理想。為了更好地分割圖像,獲取更深層次的特征,引入了改進ELA機制(MELA),原理如圖2所示。
MELA先考慮卷積塊的輸出,表示為[RH×W×C],[H]、[W]、[C]分別表示高度、寬度和通道尺寸(即卷積核的數目)。為了應用條帶合并,更大范圍地提取不同的特征,在兩個空間范圍內對每個通道執行平均池化與最大池化:([H],1)沿著水平方向,(1,[W])沿著垂直方向。得出高度[h]處的第[c]個通道的輸出表示[10],以及寬度[w]處的第[c]個通道的輸出表示,如式(1)~式(4)所示:
[ZhcAh=1H0≤i≤HXch,i] (1)
[ZwcAw=1W0≤j≤WXcj,w] (2)
[ZhcMh=1H0≤i≤WXch,i] (3)
[ZwcMw=1W0≤j≤WXcj,w] (4)
基于上述公式獲得的定位信息嵌入,本文的MELA采用了一種新穎的編碼方法來生成精確的位置注意力圖。
通過式(1)~式(4)得到的[Zw]和[Zh]不僅捕獲了全局感官信息,還包含了精確的位置信息。
為了有效利用這些特征,本文設計了簡單的處理方法,應用一維卷積來增強水平和垂直方向上的位置信息。隨后,使用組歸一化(GN)方法來處理增強的位置信息,從而得到水平和垂直方向上的位置注意力表示,如式(5)~式(8)所示:
[yhA=σGnFhzAh] (5)
[ywA=σGnFwzAw] (6)
[yhM=σGnFhzMh] (7)
[ywM=σGnFwzMw] (8)
式中:[σ]表示非線性激活函數;[Fh]和[Fw]表示一維卷積。然后,將平均池化的結果與原輸入點乘,最大池化的結果與原輸入點乘,最后將二者進行add操作得出MELA模塊的最終輸出結果,可以通過應用式(9)獲得MELA模塊的輸出,表示為[Y]。
[Y=xcA×yhA×ywA+xcM×yhM×ywM] (9)
1.3" FRM模塊
在深度神經網絡中,隨著網絡層數的增加,梯度在反向傳播過程中可能會逐漸減小甚至消失,導致網絡難以訓練。跳躍連接通過將輸入信息直接傳遞到后續層次,允許梯度更容易地反向傳播,從而保持梯度的穩定性,使網絡更容易訓練。通過跳躍連接,網絡可以更好地利用低級特征,避免信息丟失,從而提高性能和訓練速度[11]。為了獲得更大的感受野,防止梯度爆炸,以使每個解碼器包含其對應編碼器的特征圖,本文在跳躍連接處引入特征細化模塊(FRM),其原理圖如圖3所示。
在訓練過程中,FRM模塊在channel從四個維度進行特征細化提取,將輸入特征圖[F]沿著通道維度拆分為4個相同大小的部分,即[f1]、[f2]、[f3]、[f4]。這樣處理的好處是可以保證特征圖通道維度的每個特征面的完整性。均分的[f1]首先通過殘差連接,與[f2]進行add操作得到[F1],之后經過3×3大小卷積核與歸一化處理,能夠在捕獲局部特征的同時保持較低的計算復雜度,接著將[F1]作為channel維度[f1]的輸出。之后將特征一的輸出[F1]、特征二的輸入[f2]與特征三的輸入[f3]進行add操作,隨后經過3×3大小卷積核與歸一化處理,以此類推,在均分的4個特征均輸出結果后,進行Concat操作,將所有特征拼接在一起,接著進行殘差連接,最后用批歸一化算法(Batch Normalization, BN)與激活函數ReLU對特征層進行優化得到特征[F],最終可以達到融合不同通道信息及提取特定特征的目的,計算方法如下:
[F1=ΒΝConv3×3(f1+f2)] (10)
[F2=ΒΝConv3×3(f2+F1+f3)] (11)
[F3=ΒΝConv3×3(f3+F2+f4)] (12)
[F4=ΒΝConv3×3(f4+F3)] (13)
[F'=ΒΝConv3×3ReLUConcat[F1,F2,F3,F4]+F] (14)
2" 實驗結果與分析
2.1" 實驗設置
針對液基細胞制染一體機成片效果的問題,實驗制備40架液基細胞玻片,共2 400張成片,其中不合格成片342張,選取缺陷區域特征明顯的300張不合格成片作為實驗模型的數據集,并提取目標檢測區域。
鑒于液基細胞成片的區域面積相對較小,且部分成片的醫學檢驗可用性難以通過肉眼直接辨別,遵循醫學檢驗可用性的原則,利用顯微鏡對選定的數據集進行精細分割,并為其生成了標準的分割標簽。為了有效地訓練模型,按照9∶1的比例將數據集劃分為訓練集和驗證集。模型初始學習率為0.000 1,batch size為5,epoch為100。
實驗樣本圖像采集過程中,使用的相機型號為索尼IMX503,實驗過程使用PyTorch框架,編程語言為 Python,計算機型號為Lenovo Legion Y7000P,CPU型號為Intel Core i7?13680,GPU型號為NVDIA GeForce RTX 4060。
2.2" 評價標準
為了評估分割效果,用平均交并比[12](Mean Intersection over Union, MIoU)、平均像素精確度(Mean Pixel Accuracy, MPA)、[F1]?score與準確率(Accuracy)來評價液基細胞圖像目標分割效果[13]。MIoU是圖像分割任務中常用的一個評估指標,用于衡量模型預測結果與實際標簽之間的相似度。MPA先對每個類別計算像素精確度(Pixel Accuracy, PA),然后再對所有類別的PA求平均,能夠更全面地反映圖像分割算法對于不同類別的分割效果,而不僅僅是整體上的精確度。
[MIoU=1k+1i=0kpiij=0kpij+j=0kpji-pii] (15)
[MPA=1k+1i=0kpiii=0kpij] (16)
式中:[pij]和[pji]分別表示預測結果為[i]、實際結果為[j]的像素總數和預測結果為[j]、實際結果為[i]的像素總數;[pii]表示預測結果為[i]、真實結果也為[i]的像素總數。
Accuracy表示預測正確的標簽占所有預測樣本的比例;[F1]?Score被定義為精確率和召回率的調和平均數,能夠更全面地評估分類模型的性能。
[Accuracy=TP+TNTP+TN+FP+FN] (17)
[F1?score=2TP2TP+FP+FN] (18)
式中:TP表示預測結果與真實值的交叉集合,為真正例;FP表示預測結果與真實值無交叉,為假正例;FN表示預測錯誤,為假反例;TN表示預測正確,為真反例[14]。
2.3" 各模塊對UNet網絡的影響
為了驗證各個模塊對UNet網絡的影響,本文做了5組實驗:僅UNet網絡;在UNet中分別加入VGG16Net、MELA、FRM模塊,共計3組;在UNet中同時加入3個組合模塊。結果如表1、圖4所示。
通過觀察表1可以看出,VGG16Net、MELA、FRM模塊對UNet神經網絡在性能效果上均有所提升,其中當UNet神經網絡中同時加入VGG16Net、MELA、FRM模塊,網絡模型的分割效果最佳,提升效果最為明顯,MIoU、MPA、Accuracy、[F1]?score分別為82.73%、93.56%、96.10%、81.93%,相較于原模型,分別提高了6.57%、1.7%、2.66%、7.83%。除此之外,當UNet神經網絡中僅加入VGG16Net時,相較于原網絡其他數值皆有所提升,但MPA卻降低了,這是因為模型更加準確地對像素進行了分類,減少了誤判,同時提高了模型的精度和魯棒性。
從圖4可以看出,單獨的UNet神經網絡在分割液基細胞過程中出現了邊緣欠分割與過分割的現象。添加FRM模塊后,可以發現欠分割現象明顯減小,對細胞邊緣分割也更為精細,模型分割性能有所提升,但是過分割現象依舊存在,甚至相較于原模型過分割現象加劇。添加MELA、VGG16Net網絡模塊后,可以更大限度地提取液基細胞特征信息,獲得更大的感受野,使得過分割現象與欠分割現象有所緩解。全模型分割效果最好,可以學習到準確的缺陷區域,更為精準地捕捉到邊緣信息,并且無論是分割完整度,還是分割的準確率都優于其他模塊。
2.4" 不同模型分割性能比較
為了進一步驗證模型性能,將本文模型與UNet、PSPNet、Triple?UNet、DeepLabv3這四種模型進行對比實驗,實驗結果如表2、圖5所示。由表2可知,本文網絡模型MIoU達到82.73% ,MPA達到93.56%,Accuracy達到96.10% ,[F1]?score達到81.93%。同時,比PSPNet在MIoU、MPA、Accuracy、[F1]?score分別提高13.6%、19.98%、2.43%、7.37%;比Triple?UNet分別提高12.54%、12.35%、3.73%、16.45%;比DeepLabv3分別提高10.96%、8.57%、3.67%、13.58%。以上數據說明,本文提出的模型可以有效捕捉到圖像的細節信息,提高UNet神經網絡的分割準確率,具有較強的魯棒性,在液基細胞制染一體機的成片效果識別方面具有一定優勢。
液基細胞分割任務中,過分割和欠分割是決定最終分割結果的主要因素。通過對比不同模型分割結果(見圖5),可以看出:各種模型對于簡單細胞形狀、底色干擾較小的細胞圖像均具有較好的分割效果;對于底色干擾較大的細胞圖像,DeepLabv3出現嚴重欠分割現象以及輕微邊緣分割模糊的現象,PSPNet易出現邊緣分割模糊的現象,Triple?UNet使用三分支結構捕獲跨維度交互來計算注意力權重[15],但仍然可能難以有效地整合全局信息,導致在處理底色干擾較大的細胞圖像時,容易出現過分割的現象;對于處理分割區域較小的細胞圖像,DeepLabv3由于多次最大池化和全連接層會易導致空間信息的丟失進而出現邊緣分割不清晰的現象[16]。本文模型解決了這些問題,分割出的圖像邊緣更加清晰、圖像更加完整、分割更加準確,分割結果與真實標簽最為接近。
3" 結" 論
針對液基細胞制染機的成片效果缺陷問題,本文設計了一種VMF?UNet模型。該模型基于UNet神經網絡,選取部分VGG16Net作為主干網絡,并且加入了MELA模塊、FRM模塊,解決了圖像過分割、欠分割、成片缺陷區域邊緣不明顯、UNet模型視野受限的問題。經過不同模塊實驗結果對比,證明了各個模塊的有效性;經過與其他模型的實驗結果對比,證明了VMF?UNet模型在液基細胞制染機的成片效果識別中具有較高的可用性和優越性,能夠有效補償液基細胞制染機的最終成片率,并且能夠為復處理提供有效依據,從而提高液基細胞制染機的廣泛可應用性。
注:本文通訊作者為田文豪。
參考文獻
[1] 張智超,趙景秀,孟靜,等.在體光聲微血管圖像提取方法研究[J].軟件導刊,2017,16(5):179?182.
[2] MILLETARI F, NAVAB N, AHMADI S A. V?Net: Fully convolutional neural networks for volumetric medical image segmentation [C]// 2016 Fourth International Conference on 3D Vision (3DV). New York: IEEE, 2016: 565?571.
[3] DROZDZAL M, VORONTSOV E, CHARTRAND G, et al. The importance of skip connections in biomedical image segmentation [C]// Deep Learning and Data Labeling for Medical Applications: First International Workshop. [S.l.: s.n.], 2016: 179?187.
[4] 黃泳嘉,史再峰,王仲琦,等.基于混合損失函數的改進型U?Net肝部醫學影像分割方法[J].激光與光電子學進展,2020,57(22):74?83.
[5] 陳思林,秦倫明,王悉,等.基于VSA?UNet的電氣設備紫外圖像分割[J].無線電工程,2023,53(1):230?238.
[6] 熊子涵,宋良峰,劉欣,等.基于深度學習的熒光顯微性能提升(特邀)[J].紅外與激光工程,2022,51(11):97?114.
[7] 譚大寧,劉瑜,姚力波,等.基于視覺注意力機制的多源遙感圖像語義分割[J].信號處理,2022,38(6):1180?1191.
[8] 張歡,仇大偉,馮毅博,等.U?Net模型改進及其在醫學圖像分割上的研究綜述[J].激光與光電子學進展,2022,59(2):1?17.
[9] 程龍,張靜纓,徐照.混凝土裂縫無損檢測的改進ResNet方法[J].人民長江,2024,55(9):210?216.
[10] 趙興旺,吳治國,劉超,等.基于CBAM VGG16?UNet語義分割模型的建筑物提取研究[J].齊齊哈爾大學學報(自然科學版),2024(3):34?40.
[11] 武錦龍,吳虹麒,李浩,等.基于改進DeepLabV3+的蕎麥苗期無人機遙感圖像分割識別方法研究[J].農業機械學報,2024,55(5):186?195.
[12] 李文舉,張干,崔柳,等.基于坐標注意力的輕量級交通標志識別模型[J].計算機應用,2023,43(2):608?614.
[13] 張桃紅,郭徐徐,張穎.LRSAR?Net語義分割模型用于新冠肺炎CT圖片輔助診斷[J].電子與信息學報,2022,44(1):48?58.
[14] 劉赫,趙天成,劉俊博,等.基于深度殘差UNet網絡的電氣設備紅外圖像分割方法[J].紅外技術,2022,44(12):1351?1357.
[15] 石育,王斌,陳超,等.基于視覺SLAM的可交互虛擬車間構建方法[J].機械設計,2022,39(5):1?9.
[16] 吳彤,李冰鋒,費樹岷,等.基于改進FCOS算法的架空輸電線路防振錘檢測[J].電氣工程學報,2023,18(1):143?152.
基金項目:國家自然科學基金項目(61903129)
作者簡介:田文豪(2003—),男,湖北襄陽人,碩士研究生,研究方向為圖像處理與電網控制。
汪繁榮(1979—),男,湖北天門人,博士研究生,副教授,研究方向為電網控制與智能制造。
喬一航(1998—),女,河南平頂山人,碩士研究生,主要從事圖像處理方面的研究。