李佳 邢丹 李柏德 潘云峰



摘要:為了更準確地診斷和評估新冠肺炎疾病,開發新冠肺炎CT圖像的精確病灶分割方法至關重要。本研究提出了一個基于改進的U-Net全卷積網絡的病灶分割方案,包括可學習的下采樣、多尺度特征融合,以及注意力機制等具體技術手段。實驗結果表明,該方案能夠準確識別感染區域,實現病灶的自動化分割,為后續的計算機輔助診斷系統提供支持,基本滿足新冠肺炎影像分析的需求。
關鍵詞:U-Net;醫學圖像;語義分割;神經網絡;深度學習
中圖分類號:TP181 文獻標識碼:A
文章編號:1009-3044(2024)13-0024-03 開放科學(資源服務)標識碼(OSID) :
0 引言
20在1全9年球1范2圍月內以快來速,新傳播型,冠對狀公病共毒健康肺安炎全(C構OV成ID了-重大威脅。最新研究表明,計算機斷層掃描(Computed Tomography,CT) 圖像可以清晰展示新冠肺炎的發展過程,是疾病定量評估的重要手段之一[1]。對確診患者的CT掃描圖像進行自動化分析可實現對肺部病變區域的精確分割,為病情診斷、進展評估及治療提供關鍵支持。新冠肺炎中醫學圖像分割在疾病評估和量化方面起著重要的作用。CT圖像可以捕捉磨砂玻璃和雙邊斑片狀陰影等典型特征,從而提供肺異常程度的視覺評價,并協助預后的過程。對肺部CT圖像中感染區域的分割是幫助對疾病進一步評估和量化的重要步驟。然而,從CT切片中分割感染區域面臨著許多挑戰,如不同患者感染區域的形態、大小、位置之間的差異。現有的深度學習分割方法往往依賴于大量標注數據進行學習,但在短時間內收集并標注大量數據難度較大。基于卷積神經網絡的U-Net展示出在醫學圖像分割任務上的卓越能力,被廣泛應用于腫瘤、器官等領域[2]。本研究擬采用U-Net模型框架,針對COVID-19患者CT圖像進行病灶區域的分割,去掉無關的背景結構,精確提取出病毒感染所導致的肺部病變區域。相較于傳統的基于閾值和形態學處理的分割方法,深度學習模型可直接從圖像數據中學習特征表示,對圖像中的標志性信息具有更強的學習與表達能力。本研究通過收集COVID-19患者CT數據集,并在U-Net模型框架內設計多尺度特征提取模塊、注意力機制等,以提高模型對感染病灶的識別能力。
1 方法
本文使用了典型的U-Net結構,采用了2D卷積層進行特征提取。2D卷積層的參數包括卷積核大小(如3×3) 、激活函數ReLU等。U-Net模型是一種改進的全卷積網絡(Fully Convolutional Networks,FCN) 結構,因其結構經論文作者畫出來形似字母U而得名,應用于醫學圖像的語義分割。它由左半邊的編碼器(Contracting Path) 和右半邊解碼器(Expansive Path) 組成。編碼器部分采用重復的卷積層和池化層來提取圖像特征,這一過程中特征圖(Feature Map) 大小持續減半,同時通道數量增加。編碼后得到的瓶頸特征代表整張圖像的語義信息。解碼器通過反卷積和上采樣恢復特征圖到原始大小,每層解碼特征通過跳躍連接與對應編碼特征聚合,實現高低級特征的多尺度融合,最后卷積層輸出分割結果。U-Net深層次特征提取和多尺度特征聚合具有很強的定位和還原細節的能力,廣泛用于醫學圖像分割。如圖1所示。
1.1 模型卷積
本文采用2D卷積,其操作原理如圖2所示。定義卷積核大小(例如3×3、5×5等)和數量。卷積核包含可學習的參數(權重和偏置)。在輸入特征圖(例如圖像)上滑動卷積核,與輸入特征圖的每個區域進行互相關(點積)運算。滑動卷積核以一定步長(Stride) 在特征圖上每次向右和向下移動,計算每個位置的卷積結果。卷積結果形成一個激活特征圖(Activation Map) ,通過激活函數(如ReLU) 進行非線性轉換。如果有多個卷積核,會輸出相應數量的激活特征圖。經過卷積提取特征后,可以接入池化層進行下采樣,減小特征圖大小或后接更多卷積層提取更高級特征。通過卷積層的疊加,網絡可以自動學習提取不同層次的特征,實現特征提取和圖像分類、分割等任務。
1.2 上采樣和下采樣操作
1.2.1 上采樣操作
該U-Net模型在上采樣部分使用的是轉置卷積的方法。轉置卷積在保留特征圖空間信息的基礎上可以實現對輸入特征圖進行上采樣,從而將下采樣部分提取的多尺度特征重構還原。在下采樣部分,模型使用的是經典的最大池化方法。最大池化相比平均池化,能更好地保留區域特征的強性表示,對細胞邊界和形狀輪廓識別更有利。
1.2.2 下采樣操作
下采樣(Down Sampling) 是圖像處理和計算機視覺中常用的一種操作,主要作用是減少圖像或特征圖中的像素點,從而降低分辨率。下采樣的基本原理是去除部分像素,在本文實驗中采用的方法是最大池化層,在模型的編碼路徑中,在每個卷積塊之間插入了一個2×2的最大池化層,來減半特征圖的空間大小,實現逐步下采樣。
1.3 損失函數
在本次實驗中,交叉熵損失用于多類別分割,通過最小化交叉熵損失可以提高預測類別的正確率。Dice系數用于直接評估分割結果與真值之間的重合程度,可有效緩解樣本類別不均衡問題。結合使用交叉熵損失和Dice系數,既考慮了像素級分類準確性,也強調了整體分割區域的一致性。損失函數為模型提供了優化目標,通過反向傳播并最小化損失函數,可以更新網絡參數,不斷優化模型分割性能。在訓練過程中監測損失函數值的變化情況,可以判斷模型的訓練和收斂狀況。驗證集上的損失函數評估可以判斷是否存在過擬合問題,以確保模型泛化性能。模型在訓練后期采用了降低學習率以幫助模型收斂,防止損失震蕩。
1.3.1 交叉熵損失(Cross Entropy Loss)
這是一種常見的分類損失函數,計算預測類別分布和真實類別分布之間的距離。模型試圖最小化交叉熵損失,以提高分類預測的準確率。如公式(1)所示:
L (y,p) =-Σyi ? log ( pi ) (1)
式中,y 為樣本的真實標簽,p 為模型預測的概率分布。
1.3.2 Dice 系數損失(Dice Loss)
這是一種用于分割任務的損失函數。Dice 系數用于評價分割的重合效果,如公式(2)所示:
式中,X 為預測分割,Y 為真值分割。Dice 系數越高表示兩者重合度越好。相應的Dice Loss如公式(3)所示:
L (y,p) = 1 - Dice(y,p) (3)
最小化Dice Loss意味著最大化Dice系數,也就是提高分割的重合效果。
2 實驗及結果分析
2.1 實驗環境
本文模型在Anaconda虛擬環境下實現,本機配置如下:操作系統為Windows 11 專業工作站版22621.2283,處理器為AMD Ryzen 9 5900HX,系統內存為32GB,顯卡為NVIDIA RTX 4090,內存為24GB,使用Pytorch2.0.1,CUDA12.2.138,Python3.9.18。
2.2 實驗結果分析
本次實驗訓練集來自 Kaggle 上的 COVID-19 RADIOGRAPHY DATABASE[3-5],采用了3616 張新冠肺炎肺部CT 圖像來對U-Net 模型進行混合精度訓練。共進行了3次實驗,分別迭代80次、100次和120 次。通過對訓練損失和驗證分數的對比可以看出,迭代100次時獲得的準確度最高且驗證分數最高。可以發現,訓練效果并沒有隨著迭代次數不斷增加而提高,而是在100次左右達到峰值后慢慢下降。筆者推測其中一原因是模型出現過擬合問題導致表現下降,另一個原因可能是訓練集數據不足以支撐模型更多迭代次數的進一步提升。
由圖3可以看出,兩次訓練模型在開始階段都出現了預測分數突然下降的情況。這是由于U-Net模型中的卷積層參數默認是隨機初始化的。在開始訓練時,這些隨機參數需要經過一定的迭代才能逐步調整到較優的值,因此訓練初期的效果會有所波動。
2.3 實驗總結
通過實驗可以發現,迭代次數增加時預測的精度逐漸提升,在100代時到達最大值。該模型只保存驗證集上效果最好的模型狀態,防止模型過擬合,并對數據集進行了隨機處理,提高了模型的泛化性,當檢測到驗證集損失不在下降時,模型會自動降低學習率來幫助收斂。該模型使用的混合精度訓練方法也極大降低了運算成本,用較小的精度損失換來訓練速度的大大提高。即使在醫學圖像標注樣本較少的情況下,U-Net也表現出了良好的分割效果,這對醫學領域的應用非常重要。實驗結果也驗證了該模型可以準確分割疾病區域,可為新冠肺炎的定量診斷提供支持。
2.4 評價指標
本研究采用了Yan等人[6]在新冠肺炎CT圖像分割任務中使用的Dice系數、IoU等指標,來全方位評價模型性能。其中,X為預測分割,Y為真值分割。此外,還對U-Net模型和FCN-8s模型進行了比較分析,以驗證模型性能。
1) DSC(Dice Similarly Coefficient,DSC) 。Dice 相似系數是一種計算集合相似度的指標,是醫學圖像分割中的常用評估指標之一。如公式(4)所示:
式中,X 為預測分割結果,Y 為真實分割結果。Dice系數越高表示預測結果和真實結果重合度越好。
2) IoU (Intersection over Union)。IoU也是圖像分割任務中的常用評估指標。如公式(5)所示:
式中,X 為預測分割結果,Y 為真實分割結果。IoU指標越高,則說明預測分割結果和真實分割結果的重合部分越大。
3) MIoU (Mean Intersection over Union)。計算每個類別的IoU,然后取平均值。綜合反映了各個類別的分割效果。
4) Recall) 。召回率是用于衡量分類模型的性能的指標之一。它表示分類器正確識別出的正樣本數占所有正樣本數的比例。召回率的計算公式如公式(6)所示:
式中,TP 為真正例數量,FN 為假反例數量。
通過計算這些指標對分割網絡的效果進行量化評價,從不同角度評估分割預測的質量。本文使用上述指標來評估模型在新冠肺炎CT圖像分割任務上的表現。
2.5 不同分割方法的比較
FCN模型中全為卷積層,無全連接層,能對無限制輸入尺寸的圖像進行像素級語義分割。它對最后一個卷積層的特征圖進行上采樣,在保留原始輸入圖像的空間信息的同時,恢復成輸入圖像尺寸。然而,FCN經過上采樣后結果仍然比較模糊,不夠精細,并且忽略了空間規整步驟,缺乏空間一致性。融合操作加上淺層和深層的特征值,導致高維特征不能較好利用。從理論上講,U-Net相較于FCN具有更好的分割效果。為驗證這一點,本文采用肺結節圖像數據集進行了實驗。表1中的數據也證實了這一點,本文采用了FCN-8S模型。
3 結束語
通過本次訓練可以看到,U-Net模型在新冠肺炎CT 圖像分割任務上取得了高精度和良好的泛化能力。作為一種端到端的全卷積網絡結構,U-Net網絡通過編碼器-解碼器的設計,充分利用了圖像的上下文信息。相比于傳統的全卷積網絡,U-Net增加了跳躍連接,可以更好地融合不同尺度的語義信息,提高了定位精度[7]。即使在標注樣本較少的情況下,U-Net 也展現出了良好的分割效果,這對醫學圖像應用十分重要。通過實驗結果展示,本文證實了U-Net模型可以準確分割新冠肺炎CT圖像中的病灶區域,為后續定量診斷提供了支持。然而,U-Net在訓練過程中也存在梯度消失、過擬合等問題,對圖像質量比較敏感[8]。隨著有限標注樣本的半監督和無監督學習方法進一步成熟,未來可繼續擴大數據集規模,探索少樣本或無樣本學習,進一步提升模型的魯棒性[9]。總體而言,U-Net是一個高效且精確的醫學圖像分割模型,值得繼續擴展和改進,以推動計算機輔助診斷技術的發展。
【通聯編輯:唐一東】
基金項目:寧夏自然科學基金項目(No. 2022AAC03149),北方民族大學校級創新項目(2024-XJ-JSJ-041)