自約束多尺度記憶網絡的超聲心動視頻分割算法研究

2025-07-28 00:00:00岳寶坤李智孫浩元萬岳

貴州大學學報(自然科學版) 2025年3期

中圖分類號：TP391.41 文獻標志碼：A

心血管疾病是全球主要的死亡和致殘原因之一。根據世界衛生組織（WHO）的數據[，每年約有1790萬人死于心血管疾病，占總死亡人數的三分之一。這些疾病嚴重威脅人類健康和生活質量。心動超聲視頻能幫助醫生評估心臟結構和功能，診斷冠心病、高血壓、慢性心力衰竭和心律失常等疾病，制定有效的治療方案，提高診斷的準確性和效率。

超聲心動圖分割是心動超聲視頻研究中的關鍵任務。在傳統的診斷過程中，醫生需要手工描繪左心室內膜邊界[3]，以測量左心室容積和射血分數等臨床指標，如 ASM^[4] 和 APM^[5] ，這種醫學圖像分割方法需要大量的特征工程知識或先驗知識才能獲得令人滿意的精度。隨著深度學習算法的日益革新，超聲心動圖分割逐漸被應用于醫學圖像分割方法中[，在有效緩解醫生繁重工作的同時帶來了更準確的分割效果。例如， TRAN^[7] 是最早將全卷積網絡（FCN）應用于左心室和右心室分割的研究者之一，他們的工作顯著提升了心臟圖像分割的準確性。SHELHAMER等[8進一步改進了FCN的架構，使其在語義分割任務中表現優異。RON-NEBERGER等[9提出U-Net結構，通過使用跳躍連接保留高分辨率特征信息，顯著提升了醫學圖像分割的性能。CICEK等[°擴展了U-Net，使其適用于三維醫學圖像分割。OKTAY等[1]引入了注意力機制，提出了AttentionU-Net，進一步提升了分割性能。

近年來，基于Transformer的算法也在醫學圖像分割中展現出優越的性能。例如，CHEN 等[12]提出的TransUNet結合了Transformer和U-Net的優點，將Transformer應用于編碼器部分，保留了U-Net的跳躍連接機制，在醫學圖像分割任務中取得了出色的效果。VALANARASU等[13]提出MedicalTransformer，利用帶門控機制的Transformer結構進行分割，證明了Transformer在處理醫學圖像中的有效性。CAO 等[14]提出的Swin-Unet結合了SwinTransformer和U-Net的優點，利用分層的自注意力機制和多尺度特征融合，顯著提升了分割的準確性和魯棒性。然而，這些先進的算法大多基于全監督學習方式進行訓練和測試。

醫學圖像數據集的標注數據通常較為有限，全監督方法的應用面臨一定挑戰，而半監督方法可以從有限的標注數據和豐富的未標注數據中學習，生成高質量的分割結果，具有顯著的實用價值和發展潛力。近年來，在超聲心動圖分割領域出現了一些優秀的半監督分割方法，例如基于生成對抗網絡的DAGAN[15]、自感知分割模型 SCP-Net[16]和基于時空記憶網絡的STM[17]。

然而，在標注樣本較少的情況下，半監督分割模型難以準確獲取細節特征，特別是在結構復雜的心動超聲圖像中。例如，在分割左心室時，由于右心室與左心室結構相似，模型可能出現過分割現象，甚至錯誤分割右心室。此外，超聲心動圖本身存在樣本量不足、掩碼數據少和掩碼質量低等問題[18]，導致模型難以學習到細節信息。心臟運動產生的運動偽影也進一步增加了左心室區域精確分割的難度。這些問題給研究者帶來了巨大的挑戰。

為了解決上述問題，本文提出一種基于自約束多尺度記憶網絡（selfconstrainedmulti-scalememo-rynetwork，CSTM）的超聲視頻分割算法，并通過在公開數據集EchoNet-Dynamic上的實驗結果，驗證了本文所提CSTM算法的有效性和正確性。

1 模型算法

CSTM算法主要包括目標檢測模型SAM-DE-TR和多尺度記憶網絡2個部分。SAM-DETR模型僅需少量掩碼數據即可學習待分割對象的魯棒區域特征，這些魯棒區域特征通過多尺度編碼器進行編碼，編碼后的特征將作為初始的約束信息存儲在記憶網絡中。對于輸人的超聲視頻中少量的掩碼幀，通過多尺度編碼器獲得基于視頻序列的時間和空間的記憶信息，并與歷史記憶信息融合，獲得更精確的分割對象信息并進行更新。當大量無掩碼的查詢幀進入時，系統會與記憶信息進行相似度匹配，并利用多層細化解碼器將匹配特征細致還原成掩碼圖像，從而在約束范圍內實現精確的分割效果。

CSTM結構如圖1所示。首先，將少量掩碼數據輸入到目標檢測模型SAM-DETR中，該模型通過語義匹配加速收斂，定位分割自標區域并提取左心室及其周邊組織的特征。左心室及其周邊組織的特征將作為約束性信息指導后續的待分割視頻幀，避免錯分現象。該步驟不需要使用大量的訓練數據或耗費大量的計算資源進行訓練，通過對檢測結果的多次融合操作，獲得左心室及周邊區域的魯棒約束特征信息。這些魯棒的約束信息將作為待分割超聲視頻的初始時空記憶信息，編碼成鍵和值映射，以指導后續的分割過程。

圖1CSTM總體架構圖Fig.1Overall architecture diagram of self constrained multi-scale memory network

在時空記憶網絡STM中，鍵用于尋址，通過計算查詢幀和記憶幀的鍵特征之間的相似性，檢索相關的記憶值。因此，鍵的學習旨在編碼視覺語義，即使每幀的左心室外觀發生變化，仍能進行魯棒匹配。值存儲用于生成掩碼估計的詳細信息，如目標對象和對象邊界。查詢幀和記憶幀的值有不同的用途，查詢幀的值通過學習，用于存儲詳細的外觀信息，網絡利用查詢幀的值可準確解碼對象掩碼。記憶幀的值通過學習，用于編碼視覺語義和掩碼信息，以判斷每個特征是屬于前景還是背景。

在正式分割時，查詢幀首先使用多尺度編碼器，提取超聲心動圖中每一幀的復雜結構特征，通過多層次的特征抽取與融合，獲得不同心動周期內多樣化的心臟形態，精確識別分割對象的細節，解決引人魯棒約束特征信息而引起的邊緣模糊問題。經過多層次的特征編碼后，所得結果與時空記憶網絡中的記憶信息進行密集匹配，并利用匹配分數查詢特征圖，返回相應的結果作為輸出。最后，采用多層次細化解碼器逐步細化并重建分割掩碼特征。在分割過程中，記憶信息通過不斷地更新和維護，在約束范圍內逐步細化分割對象的記憶信息，最終實現精準的分割效果。通過這種方式，時空記憶網絡可以在約束范圍內有效利用歷史信息，維持一個準確而魯棒的分割模型。

CSTM算法基于時空記憶網絡 STM^[17] 的編解碼結構進行改進，并與目標檢測模型SAM-DE-TR^[19] 分支共同構成了端到端的自約束多尺度記憶網絡，其充分結合了目標檢測和多尺度記憶網絡的優勢，得以有效處理復雜形變（如心動周期形變）和噪聲干擾方面（低質量圖片）的魯棒性。

1.1 目標檢測網絡

為了有效解決超聲心動分割過程中普遍存在的過分割現象，本文引人分割對象及其周圍組織結構的特征作為魯棒的約束性信息，幫助分割模型擴大對待分割對象的學習視野，準確區分相似的組織結構，從而減少錯劃分現象。模型效果如圖2所示。

為了實現這一目的，本文選用目標檢測模型SAM-DETR，通過語義對齊模型和可學習參考框功能，以較少的資源開銷和時間成本，快速獲取包含額外區域信息的特征。隨后，這些特征作為約束信息被映射到記憶網絡中，進一步提升分割模型的性能。

SAM-DETR在解碼器的第一層使用可學習的參考框 R_box 表示對象查詢的初始位置。利用這些參考框，語義對齊模塊接收前一層的對象查詢嵌入Q 和編碼的圖像特征 F 生成新的對象查詢嵌入Q_new 及其位置嵌入 Q_new^pos ，確保這些新的特征與編碼的圖像特征處于相同的特征空間，從而加速了匹配過程。公式如下：

Q_new，Q_new^pos=Resample（RoIAlign（F，R_box），R_box，Q）

式中：Resample為重采樣操作；RoIAlign為語義對齊。

在交叉注意模塊中，對象查詢和編碼圖像特征通過點積操作生成注意力權重圖，表示對象查詢與目標區域之間的匹配情況。語義對齊模塊確保這些嵌入在相同的嵌入空間中進行匹配。公式如下：

式中： K 為鍵矩陣； V 為值矩陣；為縮放系數。

通過卷積網絡和多層感知機預測每個區域的顯著點坐標 R_sp ，并從區域級特征中采樣顯著點的特征向量，將這些特征向量拼接作為新的對象查詢嵌入 Q_new^′ 。公式如下：

通過線性投影和Sigmoid函數生成重新加權系數，突出重要特征。公式如下：

Q_new=Q_new^′?σ（QW_RW1）

式中： W_RW1 為線性投影； ? 為逐元素乘法。

借助SAM-DETR的快速收斂特性，CSTM可以在樣本較少的情況下，以較短的時間和較低的成本，快速獲得分割對象及其周圍組織的魯棒特征表示。為進一步提升模型的分割效果，本文引入了時間特征融合模塊（temporal fusion attentionmodule，TFAM）[20]。該模塊通過使用通道和空間注意力機制，自動識別并強調視頻幀中最重要的通道信息與空間信息。在融合過程中，TFAM模塊利用權重調整策略來平衡前后視頻幀的融合比例，有效地保留所關注區域的關鍵信息，同時抑制不重要或零散的誤導性信息。這種融合方式使得特征表示更加魯棒，為后續分割過程相似區域的區分提供了更為準確的指導。調整尺寸后，該融合特征被輸人到記憶分割網絡中，從而有效緩解過分割現象。

1.2 多尺度記憶分割網絡

多尺度記憶網絡是一種集成多尺度編碼、時空記憶讀取和多層次細化解碼的綜合性結構，旨在應對復雜場景下的分割挑戰，顯著提升分割精度。待分割的超聲心動圖首先通過多尺度編碼器處理，以高效捕捉和融合不同尺度的細節特征。這些特征在編碼后以鍵和值的形式保留豐富的時空信息。

為了充分利用編碼后的特征，本網絡采用時空記憶讀取機制，通過計算查詢幀的鍵和內存中的記憶鍵之間的相似性，生成軟權重，從而能夠加權檢索內存中的記憶值，并與查詢值拼接起來得到受記憶信息指導后的待解碼查詢值。這一機制保證了分割過程的連續性和準確性，不僅確保了分割對象的全局視野，還能專注于有效的分割特征，避免無關信息對邊緣分割的干擾，尤其在處理復雜的超聲心動圖視頻時，能有效解決掩碼圖像少、質量低的問題。

多層次細化解碼器通過逐級融合和細化待解碼查詢值，進一步提高了分割結果的精度和魯棒性。該解碼器不僅增強了不同尺度特征的融合效果，還通過精細化處理使得最終的分割結果更為精確和可靠。

1.2.1多尺度編碼器

雖然目標檢測通過引入分割對象周邊的組織結構作為約束特征可以有效擴展分割視野，從而緩解過分割現象，但在最終分割階段，視野仍需聚焦于分割對象本身。此時，一些無關的約束特征可能會干擾分割效果，導致邊緣分割效果不佳。為解決這一問題，本文提出一個可以關注細節特征的多尺度編碼器，如圖3所示。該編碼器能夠精準提取和融合多級特征，區分出約束區域內的有效分割特征，并與多特征細化解碼器共同作用，顯著提升了邊緣分割的精度和質量。

為了使網絡更多地關注分割對象的細節，避免周圍組織影響邊緣分割精度，本文在編碼器的設計中，提出一種基于原型特征捕捉（prototypefeatureextraction，PFE）模塊，如圖4所示。

圖3多尺度編碼器示意圖Fig.3Schematic diagram of multi-scale encoder

圖4PFE模塊示意圖Fig.4Schematic diagram of prototype feature extraction module

該模塊利用卷積操作提取查詢幀 F 與掩碼 M 的特征，然后通過計算相似度的方法，用矩陣乘法計算捕捉原型圖像與掩碼之間的關聯性，最后沿通道維度拼接原型圖像特征 c 。PFE模塊通過相似度捕捉分割對象的重要特征，從而忽略周圍組織對邊緣分割帶來的負面影響。

在網絡的具體實現中，帶掩碼幀首先經過PFE模塊處理，以捕捉重要特征，并逐步減少周邊組織帶來的負面影響。這是因為帶掩碼幀需要更新記憶信息，因此在處理過程中必須增強對目標區域的關注。目標檢測任務中的約束性特征作為初始記憶信息，擴展了分割網絡的分割范圍。通過PFE模塊對掩碼特征逐步強化，記憶網絡得以更新，使得分割網絡的分割范圍逐漸聚焦于掩碼區域。最終，模型能夠在準確區分左心室區域的基礎上，實現高質量的分割效果，即模型學習到了正確的分割范圍。

1.2.1.1多尺度特征抽取

編碼器的主體結構參考了Yolov8中的特征金字塔網絡（featurepyramid networks，FPN）[21]，以ResNeSt50作為骨干網絡，從中提取3種不同尺度的特征圖。為了更好地捕捉多尺度的空間信息，通過快速空間金字塔池化（spatial pyramidpooling-fast，SPPF）算法處理骨干網絡的輸出特征圖，通過上采樣操作和SCConv_C2f模塊實現初步特征融合，然后逐步融合骨干網絡的不同尺度特征，重建在卷積過程中丟失的細節特征。

SCConv_C2f是本文基于SCConv（spatial andchannel reconstruction convolution）算法[22]對 C2f（CSPDarknet53to2-StageFPN）進行改進的關鍵模塊。對于 n 層瓶頸塊的中間輸入 X ，SCConv首先通過空間重構單元（SRU）精細化空間特征，消除冗余的空間維度。其次，信道重建單元（CRU）減少信道維度的冗余，進一步降低了計算和存儲的成本。改進后的SCConv_C2f模塊在低開銷的情況下高效提取多級特征，特別適用于如心動圖等復雜任務的建模需求。

初步特征融合后，生成的3種尺度特征圖與骨干網絡輸出特征相似。在接下來的二次特征融合過程中，網絡會利用卷積下采樣和SCConv_C2f模塊進一步融合多尺度特征，最終得到3種尺度的特征輸出：，這些特征將在隨后的多層次細化解碼過程中發揮重要作用。

1.2.1.2 多尺度特征融合

在處理掩碼幀時，我們利用多個卷積層和SP-PF模塊對不同尺度的特征輸出進行進一步處理，通過concat操作進行有效融合，幫助模型捕捉和表達輸人心動圖的復雜性和多樣性，從而學習到更細致的特征，以便更好地更新記憶信息。

1.2.1.3 特征編碼

對多尺度融合后的特征，我們采用通道注意力模塊和空間注意力模塊（convolutionalblockatten-tionmodule，CBAM）[23]進行重新加權，突出關鍵信息，抑制不相關特征，確保編碼特征在通道和空間位置上的有效性。CBMA會進行2個階段的精練，首先，利用通道注意力關注哪些通道是重要的，公式如下：

M_c（F）=σ（MLP（AvgPool（F））+MLP（MaxPool（F）））

式中： F 為多尺度融合向量;AvgPool和Max-Pool分別為全局平均池化和最大池化操作；MLP為多層感知機； σ 為Sigmoid激活函數。

其次，利用空間注意力關注哪里的信息比較重要，公式如下：

M_s（F）=σ（f^（7×7）（（AvgPool（F）;MaxPool（F）））

式中 ?f^（7×7）為一個 7×7 的卷積操作；（AvgPool（F） ;MaxPool（F））為將平均池化和最大池化結果沿通道軸拼接起來。最后，采用2個并行的C2f_SC-Conv 輸出2個特征映射——鍵 k^Q∈R^{（H×W×C/8）} 和值v^Q∈R^H×W×C/2 完成編碼。

1. 2. 2 時空記憶讀取

時空記憶讀取通過計算查詢關鍵圖和記憶關鍵圖中像素之間的相似性來生成軟權重。相似性匹配以非局部方式進行，比較每個位置，然后通過軟權重加權檢索記憶值，最后與查詢值連接，得到待解碼查詢值。公式如下：

式中： i 和 j 分別為查詢和記憶位置的索引；是歸一化因子;[；］為連接。相似性函數 f 定義為

1. 2.3 多層次細化解碼器

本文設計了一個結合多層次特征細化的解碼器（圖5），以增強特征的表示能力，并提高分割結果的精度。該解碼器使用C2f_SCConv對輸入的最高層待分割特征進行細化，得到更為精細的高層特征。然后，采用文獻[24]的方法分別對多尺度編碼器多尺度特征中的中間特征和低級特征進行處理，得到中間層和低層更為精細的待分割特征。通過逐級融合這些特征，通過雙線性插值將細化后的待分割特征進行上采樣到原始分辨率，得到最終的分割輸出。

圖5多層次特征細化解碼器Fig.5Multi level feature refinement decoder

這種多層次細化解碼器設計充分利用了不同尺度特征的信息，顯著提高了分割結果的精度和魯棒性，尤其適用于復雜的超聲視頻分割任務。

本文提出的CSTM網絡主要算法流程如下：輸入：V超聲心動視頻， s 分割掩碼， T 目標檢測掩碼

輸出：分割結果目標檢測階段：

步驟1將少量超聲心動視頻 V 和目標檢測標簽 T 輸入目標檢測模型SAM-DETR。

步驟2使用TFAM將目標檢測訓練輸出的魯棒特征進行融合，生成融合特征 F_det 。

步驟3將融合特征 F_det 作為約束信息，輸入自約束多尺度記憶網絡（CSTM），作為內存中的初始Key_mem 和 Value_mem ，用于指導后續分割任務。

分割階段：

步驟4輸入超聲心動視頻 V 和分割掩碼 s 到多尺度記憶分割網絡。

步驟5if（S）存在{輸入原型特征提取模塊PFE 進行掩碼特征加強

步驟6將視頻幀或掩碼強化特征輸入多尺度編碼器，經過多次采樣與融合形成大尺度、中尺度、小尺度的特征信息。

步驟7對多尺度特征進行融合，編碼生成 Key_new 和 Value_new ，并更新記憶信息：

Key_mem=Concat（Key_mem，Key_new） Value_mem=Concat（Value_mem，Value_new）

步驟8進行時空記憶讀取操作，通過查詢 Key_mem 和Value mem 來獲得查詢結果。

步驟9將查詢結果、大尺度特征和中尺度特征一起輸入多層次特征細化解碼器中，得到最終分割結果。

步驟10 計算損失函數。

2 實驗與分析

2.1實驗基本配置及數據集描述

2.1.1 基本配置

實驗基于4塊NVIDIAGeForceRTX2O80Ti顯卡。實驗環境運行在Ubuntu18.04LTS，采用CUDA12.1和cuDNN8.0.5，深度學習框架使用PyTorch 2.0.0+cul18 。

2.1.2 評估方法

在超聲心動視頻分割任務中，為了全面評估CSTM算法的性能，本文從3個方面測試模型性能：分割性能評估以Dice系數（dicecoefficient，DC）和豪斯多夫距離（Hausdorffdistance，HD）作為主要評估指標。這2個指標分別用于衡量分割結果的重疊程度和邊界匹配情況。通用性能評估則是采用準確率（accuracy，ACC）ROC曲線下面積（areaundertheROCcurve，AUC）、F1分數（F1-score）、召回率（recall）和交并比（intersectionoverunion，IOU）進行全面評估，以得到更準確的模型性能評價。最后，計算復雜度和實時性能的評估使用FLOPS評估模型的計算復雜度、參數量來評估模型的大小和復雜度，使用推理時間來評估模型的實時性能和響應速度。各指標公式如下：

式中：A為分割結果； B 為真實掩碼； d（a，b）為點 a 和點 b 之間的歐幾里得距離;sup和inf分別為上確界和下確界；TP為預測為正樣本實際也為正的真陽性；FP為預測為正樣本實際為負的假陽性；FN為預測為負樣本實際為正的假陰性；TN為預測為負樣本實際也為負的真陰性。

2.1.3 數據集

實驗使用EchoNet-Dynamic數據集。該數據集包含約10030個超聲心動視頻片段，每個片段包含16幀，分辨率為 112×112 像素，覆蓋一個完整的心動周期。數據集涵蓋不同患者和心臟狀況，提升了模型的泛化能力，同時由專業技師手動標注左心室內膜，確保了標注信息的高精度和一致性。

實驗中，EchoNet-Dynamic數據集按 70% 、15% 15% 的比例劃分為訓練集、驗證集和測試集。原始視頻數據先進行歸一化處理，每個視頻片段的像素值縮放到[0，1]區間。此外，本文還進行了數據增強操作，包括隨機裁剪、旋轉和翻轉等，以增加模型的泛化能力。手動標注的左心室內膜信息轉換為二值掩碼圖像，用于監督模型的訓練和評估。數據劃分按患者進行，確保訓練集、驗證集和測試集之間沒有交叉樣本，防正數據泄漏和過擬合。本文使用EchoNet-Dynamic數據集，在多樣性和標注精度方面確保了實驗的嚴謹性和可靠性，為CSTM算法提供了驗證基礎。

2.2 實驗結果

為了驗證CSTM算法的整體性能，在EchoNet-

Dynamic數據集上進行了大量實驗，并將其結果與目前先進的算法進行了對比。以Dice系數（DSC）和豪斯多夫距離（HD）2個評估指標展示了不同算法在EchoNet-Dynamic數據集上的分割性能，見表1。

表1不同算法在EchoNet-Dynamic多器官數據集上的分割效果

Tab.1 The segmentation performance of different methods on the EchoNet Dynamic multi organ datasel

本文CSTM算法在各分割指標均顯著優于上述方法。多尺度記憶網絡的引入有效捕捉了復雜心臟結構和變形特征，減少邊界信息的丟失。目標檢測約束機制提供了關鍵的初始特征，有助于在少量標注數據情況下提高分割精度，使得CSTM算法在處理復雜變形和細節信息時表現優異。例如，與TransUnet相比，CSTM在DSC上提高了 7.98% ，在HD上降低了 9.89px 。此外，盡管STM的性能較好，但CSTM仍然在DSC上提升了 1.71% ，在 HD上降低了 1.5px 。這些關鍵數據表明，CSTM能更好地捕捉復雜的心臟結構，減少邊界信息的丟失，證明了其在少量標注數據情況下的優越性。

通用評估指標ACC、AUC、F1-SCORE、RE-CALL和IOU提供了一個全面的視角，用以評估模型在不同維度上的性能表現。表2進一步展示了不同方法在通用評估指標上的表現。由表2可知：CSTM算法在多個通用評估指標上均表現出色，特別是在準確率（ACC）、F1-SCORE和交并比（IOU）上。CSTM在F1-SCORE和IOU上分別達到了90.06% 和 82.54% ，表明其在精確捕捉目標區域和減少誤分割方面具有明顯優勢。

除了對各種性能指標的對比外，我們進行了分割結果的可視化分析，如圖6所示。

表2不同算法在EchoNet-Dynamic多器官數據集上的通用指標對比單位： % （2號Tab.2Comparison of common metrics for diferent methods on the EchoNet Dynamic Multi multi organ dataset

由圖6可見：CSTM結合多尺度記憶網絡和目標檢測約束，在視覺上表現出更精確的邊界和更少的錯誤分割，進一步證明了方法的優越性和實際應用價值。

此外，為了更科學、全面地評估模型的性能，本文還通過對比每秒浮點計算次數Flops、參數量Params與推理時間Infer_time來展現CSTM方法在平衡計算復雜度和性能上的優勢，見表3。由表3可見：為了避免錯分和提升分割精度，在解決錯分問題的情況下得到細致的分割結果，尤其是在處理復雜和細致的心臟結構時表現出色，CSTM通過增加計算量和參數量構建多尺度分割模型，因而推理時間相對較長。值得注意的是，本文通過對C2f_SC-Conv模塊的改進，有效地將模型的參數量控制在一個合理的范圍內。這一優化展示了CSTM在計算復雜度和性能之間的獨特平衡優勢，不僅增強了模型在高計算需求下的表現，也避免了不必要的計算負擔。

表3不同算法在EchoNet-Dynamic數據集上的計算效率和參數量對比Tab.3Comparison of computational efficiency and parametercountofdifferentalgorithmson

2.3 消融實驗

為了驗證每個模塊對整體性能的貢獻，本文設計了2組消融實驗：

1）記憶網絡架構有效性驗證：對比采用/不采用多尺度編碼器與多層細化特征編碼器融合結構的效果。

2）檢測-分割約束機制驗證：評估目標檢測網絡引導分割網絡的策略影響。

實驗結果如表4所示。從表4可以看出：在僅保留目標檢測約束機制的情況下，模型的Dice系數和Hausdorff距離分別為88.16和5.95。這表明盡管去除部分樣本的錯分和過分割現象，但周圍組織的魯棒特征信息導致整體邊緣分割效果差。為了解決這一問題，本文引入了多尺度記憶網絡。

表4目標檢測約束機制與多尺度記憶網絡對分割精度的影響

Tab.4Impactofdetectionconstraintsand multi-scale

在僅保留多尺度記憶網絡的情況下，模型的Dice系數為89.23，Hausdorff距離為5.05，較無多尺度記憶網絡時均有所提升。這表明多尺度編碼器與多層次細化解碼器相結合很好地捕捉了邊緣的細節信息，雖然存在錯分現象，但分割精度有所提升，分割效果得到提高。

完整的CSTM方法在Dice系數和Hausdorff距離上均明顯優于去除任一組件的變體，分別達到了90.53和4.11。這表明多尺度記憶網絡和目標檢測約束的結合不僅有效地減少了錯分現象，還提升了分割精度和減少了邊界誤差，從而驗證了這2個模塊在整體模型性能中的關鍵作用。

綜上所述，實驗結果表明CSTM方法在復雜結構和大變形的超聲心動圖像分割任務中具有顯著優勢。通過將目標檢測獲得的特征作為初始約束信息，并利用多尺度記憶網絡進行編碼和解碼，CSTM方法有效地減少了區域混淆和錯誤分割，顯著提升了分割精度和魯棒性。這些結果驗證了CSTM方法在實際應用中的高效性和實用價值。

3結論

本文提出一種基于自約束多尺度記憶網絡（CSTM的超聲心動視頻分割算法，通過結合目標檢測引導的約束學習和多尺度記憶融合機制，有效解決超聲心動視頻中結構復雜和形變導致的區域混淆和錯誤分割問題，主要體現在以下3個方面：

1）提出了一種自約束多尺度記憶網絡的超聲心動視頻分割算法，有效解決了目前心動超聲圖分割樣本量不足、掩碼數據少和掩碼質量低等問題。

2）利用目標檢測模型SAM-DETR對少量掩碼樣本進行左心室及周邊組織結構的特征抽取，編碼得到魯棒約束性記憶信息來指導后續分割，有效解決過分割、錯分割問題。

3）提出一種多尺度記憶網絡，通過結合多尺度編碼器和多層次細化解碼器，有效解決冗余特征的問題，實現從少量掩碼數據中學習得到精細化的細節特征，并將這些細節特征編碼成記憶信息，指導大量未掩碼數據的分割，從而獲得精確的分割結果。

在EchoNet-Dynamic公開數據集的實驗中，CSTM模型的分割性能優于主流模型，Dice系數達到90.5，Hausdorff距離（HD）為 4.11px 。CSTM成功驗證了檢測約束分割算法的有效性，未來的工作將致力于進一步優化CSTM的計算效率，減少模型的計算開銷，并探索其在其他醫學影像分割任務中的應用潛力。

參考文獻：

[1]WHO. Global status on cardiovascular disease prevention and control[R].Geneva：World Health Organization，2011.

[2］胡盛壽，高潤霖，劉力生，等.《中國心血管病報告 2018》概要[J]．中國循環雜志，2019，34（3）：209-220.

[3]SMISTADE，OSTVIKA，HAUGENBO，etal.2Dleft ventricle segmentation using deep learning[C]//2017 IEEE International Ultrasonics Symposium（IUS）.Washington：IEEE，2017：1-4.

[4]COOTES TF，EDWARDSGJ，TAYLORCJ. Active shape models：their training and application[J].ComputerVision and Image Understanding，1995，61（1）： 38-59.

[5]COOTESTF，TAYLORCJ. Statistical modelsof appearanceforcomputervision[R].Manchester：Universityof Manchester，2001.

[6]HESAMIAN MH，JIA WJ，HE XJ，et al.Deep learning techniques for medical image segmentation：achievemems anu cnauenges [J」. Jounai ul Dignai maging： Springer Nature，2019，32（4）：582-596.

[7]TRAN P V. A fully convolutional neural network for cardiac segmentation in short-axis MRI[DB/OL].（2017-04- 27）[2024-08-22]. htps：//arxiv.org/abs/1604.00494.

[8]SHELHAMER E，LONG J，DARRELL T. Fully convolutional networks for semantic segmentation[J].IEEE Transactions on Pattern Analysis and MachineIntelligence，2017，39（4）： 640-651.

[9]RONNEBERGER O，FISCHER P， BROX T. U-Net：convolutional networks for biomedical image segmentation [C]// Medical Image Computing and Computer-Assisted Intervention（MICCAI）.Munich：Springer，2015： 234-241.

[10]CICEK O， ABDULKADIR A， LIENKAMP S S， et al. 3D U-Net：learning dense volumetric segmentation from sparse annotation[C]//Medical Image Computing and ComputerAssisted Intervention（MICCAI）. Athens ： Springer， 2016 ： 424-432.

[11]OKTAY O， SCHLEMPER J，FOLGOC L L， et al. Attention U-Net： learning where to look for the pancreas[DB/ OL].（2018-05-20）[2024-08-22]. https：//arxiv.org/ abs/1804.03999.

[12]CHEN JN，LU YY，YUQ H，et al. TransUNet： transformers make strong encoders for medical image segmentation[DB/OL].（2021-02-08）[2024-08-22].https：// arxiv. org/abs/2102.04306.

[13]VALANARASU J M J， OZA P， HACIHALILOGLU I， et al.Medical transformer：gated axial-attention for medical image segmentation[DB/OL]. （2021-07-06）[2024-08- 22]. https：//arxiv.org/abs/2102.10662.

[14] CAO H， WANG Y Y，CHEN J， et al. Swin-Unet： unetlike pure transformer for medical image segmentation [DB/OL]. （2021-05-12）[2024-08-22].https：//arxiv. org/abs/2105.05537.

[15]MIRI KHARAJI Z， HAMARNEH G. Semi-supervised learning in medical image analysis using GANs[DB/ OL].（2018-04-27）[2024-08-22]. htps：//arxiv. org/ abs/1804.10500.

[16]ZHANG Z X，RAN R，TIAN C N， et al. Self-aware and cross-sample prototypical learning for semi-supervised medical image segmentation[C]// Medical Image Computing and Computer-Assisted Intervention （ MICCAI）. VANCOUVER：Springer，2023：192-201.

[17]OHS W，LEEJY，XU N，et al. Video object segmentation using space-time memory networks[C]// Procedgs Ol te IEEE/Uvr ernauonaI Lomerence on Co puter Vision（ICCV）.Seoul：IEEE，2019：9226-9235.

[18]JIANGF，GRIGOREV A，RHO S. Medical image semantic segmentation based on deep learning[J]. Neural Computing and Applications，2018，29：1257-1265.

[19] ZHANG G J， LUO Z P，YU Y C， et al. Accelerating DETR convergence via semantic-aligned matching[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. New Orleans ： IEEE，2022：949-958.

[20]ZHAO S J， ZHANG X L， XIAO PF， et al. Exchanging dual-encoder-decoder： a new strategy for change detection with semantic guidance and spatial localization[J].IEEE Transactions on Geoscience and Remote Sensing，2023， 61： 4508016.1-4508016. 16.

[21]LIN TY，DOLLAR P，GIRSHICK R， et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Honolulu：IEEE，2017：2117-2125.

[22]LI JF，WEN Y，He JH，et al.SCConv：spatial and channel reconstruction convolution for feature redundancy reduction[C]// Proceedings of the IEEE/CVF Conferenceon Computer Visionand Pattern Recognition （CVPR）. Vancouver： IEEE，2023： 1234-1243.

[23]WOO S，PARKJ，LEEJY，et al. CBAM：convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision （ECCV）. Munich ： Springer，2018：3-19.

[24]OHSW，LEE JY，SUNKAVALLI K，et al. Fast video object segmentation by reference-guided mask propagation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition（CVPR）. Salt Lake City： IEEE，2018：7376-7385.

[25]CHEN L C， SchroffF， PAPANDREOU G，et al. DeepLabv3：rethinking atrous convolution for semantic image segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Salt Lake City：IEEE，2018：769-778.

[26]CHENLC，ZHUY，PAPANDREOUG，etal.Encoderdecoder with atrous separable convolution for semantic image segmentation[ C]// Proceedings of the European Conference on Computer Vision（ECCV）. Munich： Springer， 2018： 801-818.

（責任編輯：周曉南）

Research on the Echocardiography Video Segmentation Algorithm Based on Self Constrained Multi-Scale Memory Network

YUEBaokun，LI Zhi*，SUNHaoyuan，WAN Yuexin （College of Computer Science and Technology，Guizhou University，Guiyang 55OO25，China）

Abstract：In echocardiography videos，complex anatomical structures and deformation artifacts within the heartbeat cycle often lead to confusionand errors in segmentationregions.To address thisproblem，this paper proposes a semi supervised echocardiography video segmentation algorithm based on self constrained multi-scale memory network（CSTM）.The algorithm utilizes the object detection network SAM-DETR to locate the left ventricularregionineach frameof theechocardiogramvideo，thus efectively extracting features of the left ventricle and its surounding tissues using the network. These features are input as constraint information nto a multi-scale memory network to guide left ventricular segmentation and update memory information for frames with object masks.For the frames without object masks，segmentation is performed by querying memory information. This paper combines a multi-scale encoder with a multi-level refinement decoder to form a multi-scale memory network for solving the problem of edge information loss caused by constraint information，enabling CSTM to achieveaccurate segmentation results.The experimental resultson the publicly available dataset EchoNet Dynamic show that the proposed method achieves a Dice coeficient of 90.5 and a Hausdorff distance of 4.11， outperforming existing methods in segmentation.All thisvalidates the efectiveness and correctness of the proposed algorithm in echocardiography segmentation tasks.

Keywords： echocardiographic video segmentation; semi-supervised learning；object detection