












摘 要:在醫(yī)學圖像分割任務中,域偏移問題會影響訓練好的分割模型在未見域的性能,因此,提高模型泛化性對于醫(yī)學圖像智能模型的實際應用至關重要。表示學習是目前解決域泛化問題的主流方法之一,大多使用圖像級損失和一致性損失來監(jiān)督圖像生成,但是對醫(yī)學圖像微小形態(tài)特征的偏差不夠敏感,會導致生成圖像邊緣不清晰,影響模型后續(xù)學習。為了提高模型的泛化性,提出一種半監(jiān)督的基于特征級損失和可學習噪聲的醫(yī)學圖像域泛化分割模型FLLN-DG,首先引入特征級損失改善生成圖像邊界不清晰的問題,其次引入可學習噪聲組件,進一步增加數(shù)據(jù)多樣性,提升模型泛化性。與基線模型相比,F(xiàn)LLN-DG在未見域的性能提升2%~4%,證明了特征級損失和可學習噪聲組件的有效性,與nnUNet、SDNet+AUG、LDDG、SAML、Meta等典型域泛化模型相比,F(xiàn)LLN-DG也表現(xiàn)出更優(yōu)越的性能。
關鍵詞:醫(yī)學圖像分割; 域泛化; 表示學習; 特征級損失; 可學習噪聲
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2024)06-041-1882-06
doi:10.19734/j.issn.1001-3695.2023.08.0408
Domain generalization method for medical images based onfeature-level loss and learnable noise
Abstract:In medical image segmentation tasks, the domain shift problem affects the performance of trained segmentation models in the unseen domain. Therefore, improving model generalization is crucial for the practical application of intelligent models for medical images. Representation learning is currently one of the dominant methods for solving domain generalization problems, mostly using image-level loss and consistency loss to supervise image generation. However, it is not sensitive enough to the deviation of small morphological features of medical images, which can lead to unclear edges of the generated images and affect the subsequent learning of the model. In order to improve the generalization of the model, this paper proposed a semi-supervised feature-level loss and learnable noise domain generalization(FLLN-DG) method for medical image segmentation. Firstly, the introduction of feature level loss improved the problem of unclear boundaries of the generated images. Secondly, the introduction of the learnable noise components further increased the data diversity and improved the model generalization. Compared with the baseline model, FLLN-DG improves the performance in the unseen domain by 2% to 4%, which demonstrates the effectiveness of to feature-level loss and to learnable noise components. FLLN-DG also has the best generalization and segmentation results compared to typical generalization models such as nnUNet, SDNet+AUG, LDDG, SAML and Meta.
Key words:medical image segmentation; domain generalization; representation learning; feature-level loss; learnable noise
0 引言
近年,基于深度學習技術的醫(yī)學圖像智能分割模型(如U-Net[1]、ResNet[2]和VGG[3]等)表現(xiàn)出優(yōu)越的性能,有效提升了疾病診斷的效率和準確率。大多數(shù)分割模型都假設訓練數(shù)據(jù)與測試數(shù)據(jù)滿足獨立同分布(independent and identically distributed,i.i.d)[4],但實際上,由于成像設備和成像條件的不同,訓練數(shù)據(jù)與測試數(shù)據(jù)并不滿足該假設,即存在域偏移問題,將導致模型實際部署后性能急劇下降。
域泛化技術無須訪問目標域數(shù)據(jù)就可提升模型在不同域的泛化性,是解決域偏移問題的重要方法之一[4]。而增加數(shù)據(jù)多樣性,讓模型學習更多風格的數(shù)據(jù),是目前實現(xiàn)域泛化的主要思想和技術[5]。
醫(yī)學圖像域泛化分割模型通常分為數(shù)據(jù)增強和圖像分割訓練兩個階段。其中,數(shù)據(jù)增強是關鍵部分,大多采用基于表示學習的方法[6],即將圖像分解為域不變特征和域可變特征,之后通過混合、交叉合并等方法來增強數(shù)據(jù),進而提高模型泛化能力。在數(shù)據(jù)增強過程中,現(xiàn)有研究[7~9]大多采用圖像級損失和一致性損失來監(jiān)督圖像生成,以保持域不變特征,缺點是對醫(yī)學圖像微小形態(tài)特征的偏差不夠敏感,會導致生成圖像邊緣不清晰,影響模型的后續(xù)學習。此外,簡單將域不變特征和域可變特征混合的數(shù)據(jù)增強方法并不能很好地模擬實際的域偏移現(xiàn)象,限制了模型的泛化性。一些研究通過在數(shù)據(jù)增強過程中引入噪聲來提高模型泛化性[10~12],但其添加方式相對簡單,可能導致圖像邊界損壞,影響模型提取特征的能力。
針對上述問題,本文首先提出一種基于特征級損失的方法,通過將生成圖像映射到特征空間,并計算特征級損失,改善了生成圖像邊緣不清晰的問題。其次,本文在圖像生成過程中引入可學習噪聲,使編碼器和解碼器能夠?qū)W習噪聲對生成圖像的影響,進而使分割網(wǎng)絡中的噪聲添加更合理。最后,為了緩解醫(yī)學圖像標注少對模型性能的影響,本文采取半監(jiān)督學習策略,通過共同訓練有標簽和無標簽數(shù)據(jù),提高了模型的泛化性能。
1 相關工作
基于表示學習的醫(yī)學圖像域泛化方法的主要思想是讓模型學習域不變的特征表示,忽略域可變信息,如圖1所示。該過程分為兩個階段:第一階段為數(shù)據(jù)增強。首先選擇一個已知域的醫(yī)學圖像FI并將其分解為風格信息f1s與內(nèi)容信息f1c,其中風格信息與域相關,稱為域可變信息,內(nèi)容信息與域無關,稱為域不變信息;再選擇其他已知域的醫(yī)學圖像FR,提取其風格信息f2s;然后將f1s與f2s混合,再與內(nèi)容信息f1c組合,生成更多內(nèi)容相同而風格不同的圖像,它們共用圖像FI的標注結果,達到豐富標注數(shù)據(jù)集的目的。第二階段為分割網(wǎng)絡訓練。使用成對標注結果相同的增強圖像與原始圖像共同訓練網(wǎng)絡,計算它們的相似度損失,使模型更關注內(nèi)容信息,忽略風格信息,進而實現(xiàn)域泛化。
目前,域泛化研究主要針對數(shù)據(jù)增強階段進行改進,目標是提升增強數(shù)據(jù)的質(zhì)量,最終提高模型的泛化性。例如,Huang等人[13]利用輪廓圖和分割圖分離風格信息和內(nèi)容信息,使模型能夠持續(xù)學習。葉懷澤等人[14]定義了多個特定領域重構遷移網(wǎng)絡,提高對風格特征的提取能力。Liu等人[15]引入元學習方法,使內(nèi)容特征與風格特征盡可能遠離,以實現(xiàn)風格遷移。這些方法均提高了模型的泛化能力,但引入新網(wǎng)絡,導致模型參數(shù)量和訓練難度都有所增加。
一些研究集中于風格信息的提取,以便生成風格多樣化數(shù)據(jù),實現(xiàn)模型泛化。例如,劉義鵬等人[16]把風格特征分為低頻和高頻信息,對低頻分量進行隨機融合,中頻分量使用隨機權重增強,使風格提取更精細。Han等人[17]改進了傅里葉變化,使用窗格防止頻域泄露,更精細地提取了輸入圖像的不同特征。Liu等人[18]加入分辨率增強組件,便于生成風格更加多樣的圖像。Li等人[19]通過變分編碼器學習具有代表性的特征空間,以捕獲不同域數(shù)據(jù)的共享信息。上述方法只使用圖像級損失來重建圖像,可能導致圖像邊界不清晰。
還有一些研究通過增加噪聲的方式進一步提升數(shù)據(jù)的風格多樣性。例如,Chen等人[20]利用真實對抗生成數(shù)據(jù)的方法,通過增加多種擾動生成多樣化數(shù)據(jù),并且使用四種數(shù)據(jù)擴充方案對每種方案賦予權重,通過對抗的方式獲取數(shù)據(jù)增強的最優(yōu)方案,生成具有挑戰(zhàn)性的示例。Hu等人[21]通過對圖像添加隨機噪聲和反轉(zhuǎn)增加圖像的多樣性。這些方法通過對圖像添加噪聲擴充了數(shù)據(jù)的風格,但添加方式過于簡單,可能會導致圖像邊界信息丟失,從而影響模型的精確性。
綜上,現(xiàn)有研究在圖像重建過程中均使用圖像級損失,通過最小化生成圖像和原始圖像之間的差異來訓練網(wǎng)絡。雖然取得了一定效果,但對圖像細節(jié)的捕捉不夠精細,可能會導致圖像邊界模糊,從而使分割模型難以收斂并影響其性能。在重建圖像中添加噪聲,可增強數(shù)據(jù)的多樣性,但直接對重建圖像添加噪聲,也會導致圖像邊界信息丟失,影響模型性能。針對這些問題,本文提出一種半監(jiān)督的基于特征級損失和可學習噪聲的醫(yī)學圖像域泛化分割模型FLLN-DG(feature-level loss and learnable noise domain generalization,F(xiàn)LLN-DG),其創(chuàng)新點主要包括三方面:
a)在圖像生成階段引入特征級損失,提升圖像對細節(jié)的還原度,使生成圖像邊界更加清晰,進而更好地訓練分割網(wǎng)絡,提升模型的泛化性。
b)在圖像生成階段引入噪聲組件,使網(wǎng)絡能學習噪聲對生成圖像的影響,確保分割階段增加的噪聲不會影響網(wǎng)絡性能,增加了數(shù)據(jù)多樣性,進一步提升了模型泛化性。
c)引入半監(jiān)督分割框架,利用無標簽數(shù)據(jù)和有標簽數(shù)據(jù)共同訓練分割網(wǎng)絡,緩解醫(yī)學圖像標注樣本少的問題,提升模型性能。
2 基于特征級損失和可學習噪聲的醫(yī)學圖像域泛化分割模型
2.1 方法概述
本研究提出基于表示學習的FLLN-DG模型,整體架構與圖1類似,分為數(shù)據(jù)增強和分割訓練兩階段。首先利用生成網(wǎng)絡生成多樣化數(shù)據(jù),之后利用增強數(shù)據(jù)訓練分割網(wǎng)絡,提高模型的泛化能力。數(shù)據(jù)增強階段的主要組件是風格混合模塊,負責將不同域的數(shù)據(jù)風格進行混合,為分割網(wǎng)絡提供具有相同內(nèi)容但風格不同的輸入圖像。分割訓練階段包括兩個分割網(wǎng)絡,它們相互學習,使其分割結果一致,最終實現(xiàn)模型的精準分割。
風格混合模塊首先從一個域選擇一張圖像作為原始輸入數(shù)據(jù)FI,提取其風格特征f1s和內(nèi)容特征f1c,再從另一個域隨機選擇一張圖像FR,提取其風格特征f2s,然后將提取到的風格特征f1s與f2s按一定比例混合得到fhs,再將其與FI的內(nèi)容特征f1c進行組合,生成與原始圖像內(nèi)容相同但風格不同的圖像F′M。為了增加圖像風格的多樣性,對生成的圖像添加高斯噪聲,得到最終生成圖像。
分割訓練階段由兩個結構相同但初始權重不同的分割網(wǎng)絡組成,采用交叉?zhèn)伪O(jiān)督方式的半監(jiān)督架構[22]。為了解決域偏移問題中由于風格差異較大導致的偽標簽質(zhì)量較低的問題,本文引入置信度交叉感知方法[23],利用KL散度對得到的偽標簽進行判斷,改進偽標簽質(zhì)量,提高半監(jiān)督網(wǎng)絡性能。兩個分割網(wǎng)絡的輸入分別為原始圖像FI和生成圖像FM。FM的內(nèi)容特征來自FI,所以具有與FI一致的分割結果,本文將兩個分割結果的均值作為最終分割預測結果。兩個分割網(wǎng)絡的輸入內(nèi)容相同,應具有相同的分割結果,因此兩個網(wǎng)絡可以相互學習,相互指導,最終模型收斂,達到良好的分割性能。在測試階段,將一張測試圖片送入兩個網(wǎng)絡得到預測結果后取均值,即為模型的分割結果。
2.2 風格混合模塊
現(xiàn)有基于表示學習的方法大多利用圖像重建來增強數(shù)據(jù),提升模型泛化性。通過計算重建圖像與原始輸入圖像的像素級損失來訓練網(wǎng)絡,忽略了圖像特征級別的約束,會導致圖像細節(jié)的還原度不高,進而影響分割網(wǎng)絡的訓練。本文在風格混合模塊中引入圖像特征級損失來彌補該不足,如圖2所示。
風格混合模塊由內(nèi)容編碼器EC,風格編碼器ES,解碼器D1、D2和噪聲組件構成。內(nèi)容編碼器EC負責提取與分割任務相關的內(nèi)容特征,即圖像的邊界信息。風格編碼器提取與分割任務無關的風格特征,主要包括光照強度、背景信息等。解碼器D1將圖像FI從特征空間映射回圖像空間,通過與原始圖像FI計算圖像級損失,訓練編碼器EC、ES和解碼器D1。解碼器D2將混合后的風格特征fhs與原始圖像FI的內(nèi)容特征f1c解碼,得到與FI內(nèi)容相同但風格不同的圖像。再利用噪聲組件對生成的圖像添加高斯噪聲,得到最終的生成圖像FM。然后計算FM與FI的損失,并將其映射到內(nèi)容特征空間,進一步計算它們的特征級損失,以保證生成圖像的邊界更清晰。
具體來說,對于原始輸入圖像FI,將其送入內(nèi)容編碼器EC提取其內(nèi)容特征f1c,送入風格編碼器ES提取其風格信息f1s,再將提取到的特征送入解碼器D1中還原圖像,得到原始輸入圖像的還原圖像F′I,如式(1)所示。之后使用一致性損失約束生成圖像,與原始圖像保持一致,如式(2)所示,其中,LOSSMSE是均方差損失函數(shù)。
F′I=D1(f1c,f1s)=D1[EC(F1),ES(FI)](1)
LR1=LOSSMSE(F′I,F(xiàn)I)(2)
然后,將隨機選取的圖像FR送入風格編碼器ES,以提取其風格信息f2s,再將原始輸入圖像FI的風格特征f1s與FR的風格特征f2s混合,得到混合風格特征fhs,α為圖片混合率,如式(3)所示。
fhs=αf1s+(1-α)f2s(3)
將fhs與f1c共同輸入到解碼器D2,生成具有混合風格的圖像FM′,然后對圖像加入高斯噪聲擾動,使數(shù)據(jù)更具多樣性,如式(4)所示。由于FM的內(nèi)容特征來自FI,所以它們具有相同的內(nèi)容,故使用一致性損失來訓練生成網(wǎng)絡,如式(5)所示。
FM=D2(fhs,f1c)+noise(4)
LR2=LOSSMSE(FM,F(xiàn)I)(5)
現(xiàn)有方法使用圖像級損失保證生成圖像的質(zhì)量,但圖像級損失細節(jié)捕獲較差,導致生成圖像的邊界相對模糊。為了使生成圖像具有更好的邊界信息,文章引入特征級損失,即將生成的FM再次送入內(nèi)容編碼器EC中獲取其內(nèi)容特征,通過約束其內(nèi)容特征一致,以確保生成圖像的邊界清晰,為后續(xù)分割提供有效指導,該過程如式(6)所示。最后,基于特征級損失的生成網(wǎng)絡總損失如式(7)所示。
Lf=LOSSMSE(fhc,f1c)=LOSSMSE(EC(FM),EC(FI))(6)
LOSS=Lf+LR1+LR2(7)
2.3 噪聲組件
相較于自然圖像,醫(yī)學圖像標注樣本少,很難獲取到多樣化的數(shù)據(jù)來訓練網(wǎng)絡,從而提升模型泛化性。一些研究在分割階段對圖像直接添加一種或多種噪聲來增加數(shù)據(jù)多樣性,模擬域偏移現(xiàn)象,但這樣會導致數(shù)據(jù)邊界不清晰,使模型無法更好地訓練。為解決該問題,本文在圖像生成階段引入噪聲組件,讓噪聲也參與圖像生成的訓練,使得生成網(wǎng)絡能夠適應噪聲對圖像的擾動,即使在分割網(wǎng)絡中添加噪聲也不會導致圖像邊界差異太大,影響分割網(wǎng)絡的訓練,同時也實現(xiàn)了增強數(shù)據(jù)多樣性的目的。
由于拍攝設備不同、光照不同,可能會在圖像中引入高斯噪聲[24],醫(yī)學圖像的域偏移問題通常也是類似原因,所以本文使用高斯噪聲對生成圖像進行擾動,以增強模型的泛化性。高斯噪聲的分布概率服從高斯分布,如式(8)所示,其中μ是服從高斯分布中的均值,σ代表標準差,exp指以常數(shù)e為底的指數(shù)函數(shù),該表達式為一維表達。本文使用2D醫(yī)學圖像進行模型的訓練,所以對應的表達如式(9)所示,其中x和y是二維隨機變量的取值,μ1、μ2是兩個維度的均值,σ1、σ2是兩個維度的標準差,ρ表示相關系數(shù),相關系數(shù)用來衡量兩個變量相關程度的統(tǒng)計指標。
本方法將添加噪聲后的生成圖像與重建圖像進行相似度比較,保證添加噪聲后的圖像與原始圖像相似,并且將圖像送入編解碼網(wǎng)絡提取其內(nèi)容特征,保證生成圖像的邊界完整。
2.4 半監(jiān)督分割網(wǎng)絡
為解決醫(yī)學圖像標注樣本少的問題,本方法采用半監(jiān)督框架訓練分割模型,使用兩個結構相同但初始權重不同的網(wǎng)絡分割內(nèi)容相同的圖片,分割結果相互指導,使網(wǎng)絡最終收斂,如圖3所示。
首先,對數(shù)據(jù)增強階段生成圖像FM添加噪聲,然后將其與FI同時送入2個分割網(wǎng)絡,得到4個分割預測結果,分別是P1M、P1I、P2M、P2I。之后,兩個分割網(wǎng)絡分別對兩張圖像的分割結果計算均值,分別得到該分割網(wǎng)絡的預測結果FiE,i是分割網(wǎng)絡編號,如式(10)(11)所示。
為了進一步提升分割預測結果的可靠性,引入KL散度置信度感知算法,之后使用交叉熵損失函數(shù)優(yōu)化網(wǎng)絡。置信度感知算法如式(12)(13)所示,其中Y1、Y2是F1E、F2E預測結果的one-hot向量,Lce表示交叉熵損失函數(shù)。對于無標注數(shù)據(jù),使用無監(jiān)督損失,如式(14)所示。
L1=E[Lce(F2E,Y1)](12)
L2=E[Lce(F1E,Y2)](13)
Lc=L1+L2(14)
對于有標簽數(shù)據(jù),增加Dice損失函數(shù),進行有監(jiān)督訓練,損失函數(shù)如式(15)所示,其中,LDice表示Dice損失函數(shù),GT表示原始輸入圖片的標簽。
LDice=E[LDice(P1I,GT)+LDice(P2I,GT)](15)
因此,該網(wǎng)絡的總損失如式(16)所示,其中β是平衡兩個損失的超參數(shù)。對有標簽數(shù)據(jù),需使用Dice損失和無監(jiān)督損失Lc,對無標簽數(shù)據(jù),僅使用無監(jiān)督損失Lc。
L=LDice+βLc(16)
3 實驗評估
本實驗環(huán)境為IntelXeonCPU E5-2680 v4 @ 2.40 GHz 處理器,128 GB內(nèi)存,PyTorch框架和Python語言環(huán)境,訓練過程依靠NVIDIA TESLA P100 16 GB GPU進行加速。
3.1 數(shù)據(jù)集及參數(shù)設置
本實驗使用多中心、多供應商和多疾病的心臟分割數(shù)據(jù)集M&MS[25]進行評估。該數(shù)據(jù)集包含320名患者,使用西門子、飛利浦、通用電氣和佳能4個廠商的核磁共振儀,在3個不同國家、6個臨床中心拍攝。本實驗將相同廠商拍攝的圖像定義為一個域,即可獲得4個不同域的數(shù)據(jù),表示為A、B、C、D,其中只有心臟收縮末期和舒張末期的圖像是有標注的。
分割網(wǎng)絡的主干框架為DeepLabv3+[26],采用在ImageNet上訓練的權重,使用AdamW優(yōu)化器,學習率為1E-4,批次大小為8,運行6個epochs。式(3)中α設置為0.5,式(16)中的超參數(shù)β沿用文獻[23]的設置,值為3。
3.2 評價指標
本實驗使用Dice分數(shù)[27]評估模型性能,其定義如式(17)所示,其中P表示預測分割結果,GT表示標簽。|P∩GT|表示P和GT之間的重疊區(qū)域,|P|+|GT|表示并集區(qū)域。Dice越高表明預測結果與標簽更接近,即網(wǎng)絡的分割效果越好。
3.3 不同模型的性能對比
本實驗將FLLN-DG與nnUNet[28]、SDNet+AUG[18]、LDDG[19]、SAML[29]、Meta[15]等模型進行比較,除nnUNet以外,其他四種模型均為域泛化模型,對比結果如表1所示。
nnUNet: 一種基于2D和3D U-Net的自適應框架,可用于快速而有效的分割任務。雖然該框架并非專為領域泛化而設計,但也具有較好的泛化能力,是很多域泛化方法的實驗對比模型。
SDNet+Aug:首先將圖像縮放到不同的分辨率,以生成涵蓋不同掃描儀協(xié)議的數(shù)據(jù)。然后,通過將原始樣本映射到潛在空間并利用從不同領域?qū)W習的解剖和形態(tài)因素進行融合,生成更加多樣化的數(shù)據(jù)。
LDDG:提出了使用一種新的線性依賴正則化項,通過變分編碼來學習代表性特征空間的方法,以捕獲不同領域的醫(yī)療數(shù)據(jù)中可共享的信息。該模型在完全監(jiān)督的環(huán)境下應用于領域通用的醫(yī)學圖像分析。
SAML:是一種基于梯度的元學習方法,它以完全有監(jiān)督的方式約束元訓練集和元測試集上分割掩碼的緊湊性和光滑性。
Meta:是一個半監(jiān)督的元學習框架,它通過解耦來模擬域偏移,并通過基于梯度的元學習方法應用多個約束來提取健壯的解剖特征,從而以半監(jiān)督的方式預測分割掩碼。
在SDNet+AUG、Meta和FLLN-DG中,訓練域包含源域的所有未標記數(shù)據(jù)和5%的已標記數(shù)據(jù),其他模型僅使用5%的標記數(shù)據(jù)進行訓練。
從表1可知,F(xiàn)LLN-DG在A、C、D域上的性能達到最佳,與次優(yōu)模型Meta相比,平均提高3%。FLLN-DG在B域的性能未達最優(yōu),原因是B域數(shù)據(jù)來自兩個臨床中心,雖然使用同一廠商設備進行拍攝,但仍然存在一定差異。此外,B域數(shù)據(jù)與C、D域數(shù)據(jù)的風格相似度較高,使用風格混合的數(shù)據(jù)增強方法對于B域并沒有產(chǎn)生更多的域風格變化,導致其性能未達到最佳。類似地,本研究在B、C、D域上進行訓練,在A域上進行測試,實驗結果顯示其性能提升最大。A域數(shù)據(jù)與B、C、D域數(shù)據(jù)的風格存在較大的差異,使用本方法可以獲取風格多樣化的數(shù)據(jù),提高模型的泛化性能。
實驗從A、B、C、D四個域中分別隨機選擇一張圖像進行結果可視化,如圖4所示,紅色、藍色和綠色分別表示左室血池、右室血池和左室心肌。從圖4可知,大多數(shù)網(wǎng)絡相對準確地定位了待分割區(qū)域,但是某些方法在心肌分割方面存在不準確的情況,例如LDDG方法在B域的分割結果未能準確分割心肌結構。另外,在左室血池的分割方面,大多數(shù)方法均表現(xiàn)出較高的準確度,但是某些方法在右室血池的分割邊界上存在欠缺,甚至無法識別出右室血池。綜合觀察四個域的可視化結果,F(xiàn)LLN-DG表現(xiàn)與標簽結果最為接近。
3.4 消融實驗
為了驗證特征級損失和噪聲組件的有效性,本文進行了消融實驗,用Dice系數(shù)作為評估指標,結果如表2、3所示,本實驗的基線模型為不包含生成噪聲組件和特征級損失函數(shù)的模型。
3.4.1 噪聲有效性驗證
為了增加模型的泛化性,本文在基線模型中添加高斯噪聲,增加生成圖像的多樣性,如表2所示,該方法提高了模型的性能。其中噪聲1表示在圖像生成網(wǎng)絡中添加噪聲,噪聲2表示分割網(wǎng)絡中生成圖像后的添加噪聲,從表2中可知,添加噪聲組件后,模型的泛化性得到提升。
為更加直觀地觀察噪聲組件對模型性能的影響,本研究從每個域中隨機選取一張圖像進行可視化比較,如圖5所示,其中紅色、藍色和綠色分別表示左室血池、右室血池和左室心肌。
由圖5可知,基線模型基本能夠準確定位分割位置,隨著噪聲的加入,模型性能逐步提高,尤其對D域,添加噪聲后模型能夠逐步對右心室血池的外輪廓定位。實驗證明,在生成網(wǎng)絡和分割網(wǎng)絡中同時添加噪聲,模型的泛化性最佳。但是總體來看,分割結果與標簽仍然有一定差異,分割邊界不清晰,存在錯誤分割的問題。這是由于生成圖像邊界模糊,分割模型在相互指導時出現(xiàn)學習偏差,從而導致分割結果不準確。
3.4.2 特征級損失的有效性驗證
在基于編碼器-解碼器框架進行圖像生成任務時,標簽往往為原始輸入圖像。此前的工作通常采用圖像級損失來提高生成圖像與原始圖像的一致性,進而訓練模型參數(shù)。然而,筆者發(fā)現(xiàn)該方法可能會導致生成圖像邊界不夠清晰。本研究提出增加特征級損失,以進一步提高生成圖像的清晰度。具體方法是將生成圖像和原圖像映射到特征空間再進行比較,以計算生成圖像與原始圖像之間的特征級損失,從而提升生成圖像質(zhì)量,實驗結果如表3所示。
由表3可知,特征級損失對模型性能產(chǎn)生了重要作用,提升了生成圖像的恢復完整性。分割網(wǎng)絡的訓練受輸入圖像相似性的影響較大,本文所研究的域偏移現(xiàn)象來源于成像原理或光照強度不同等設備差異,因此生成具有相似內(nèi)容但風格不同的圖像時,保持分割邊界的清晰尤為重要。引入特征級損失可提高生成圖像的邊界清晰性,從而提高模型訓練的準確性和泛化性。
圖6展示了不同組件對網(wǎng)絡性能影響的可視化結果,其中l(wèi)oss表示特征級損失,noise1表示在圖像生成網(wǎng)絡中添加噪聲的操作,noise2表示分割網(wǎng)絡中生成圖像后添加噪聲的操作。隨機選擇每個域中的一張圖像進行分割時,即使不添加任何損失和噪聲,F(xiàn)LLN-DG也能準確地定位分割位置。隨著組件的逐步添加,分割性能得到顯著提高,特征級損失和噪聲組件的加入,可使模型在A、B、D三個域的性能達到最優(yōu)。值得注意的是,在C域經(jīng)過兩次添加噪聲后,性能略有下降。筆者認為這是由于C域待分割區(qū)域的顏色較深,在添加噪聲后影響了模型對邊界的判斷,從而影響了分割精度。
3.5 圖片混合率參數(shù)分析實驗
為進一步分析超參數(shù)α對模型分割精度的影響,本實驗進行了圖片混合率α的消融實驗,結果如圖7所示。由圖可知,當α取0.5時,模型性能達到最優(yōu)。
4 結束語
心臟結構的精確分割是醫(yī)生對心臟類疾病診斷、治療的首要步驟。但是域偏移問題的存在,會導致訓練好的模型無法適應新的領域而崩潰,所以提升模型的泛化性具有重要意義。本文提出一種半監(jiān)督的基于特征級損失和可學習噪聲的醫(yī)學圖像域泛化分割模型FLLN-DG,首先引入特征級損失改善了生成圖像邊界不清晰的問題,其次引入可學習噪聲組件,進一步增加數(shù)據(jù)多樣性,提升了模型泛化性,最后,引入半監(jiān)督學習框架,緩解了醫(yī)學圖像標注樣本少的問題。實驗結果表明,相較于其他方法,F(xiàn)LLN-DG具有更好的泛化性和更準確的分割效果。但是本研究對于B域的泛化性未達到最優(yōu),分析原因是B域數(shù)據(jù)擴充后的多樣性仍然較小。接下來將繼續(xù)對數(shù)據(jù)增強階段進行改進,利用聚類等方式將風格類別進行聚類,通過計算類間距找到風格差異最大的域進行風格混合,進一步提高數(shù)據(jù)的多樣性。在分割網(wǎng)絡階段,將通過添加注意力等方式,進一步提升分割精度,提高模型的泛化性。
參考文獻:
[1]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proc of International Confe-rence on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[2]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 770-778.
[3]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10). https://arxiv.org/abs/1409. 1556.
[4]徐海, 謝洪濤, 張勇東. 視覺域泛化技術及研究進展[J]. 廣州大學學報: 自然科學版, 2022, 21(2): 42-59. (Xu Hai, Xie Hongtao, Zhang Yongdong. Review of domain generalization in vision[J]. Journal of Guangzhou University: Natural Science Edition, 2022, 21(2): 42-59.)
[5]Wang Jindong, Lan Cuiling, Liu Chang, et al. Generalizing to unseen domains: a survey on domain generalization[J]. IEEE Trans on Knowledge and Data Engineering, 2022,35(8): 8052-8072.
[6]Zhou Kaiyang, Liu Ziwei, Qiao Yu, et al. Domain generalization: a survey[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022, 45(4): 4396-4415.
[7]Zhang Zuyu, Li Yan, Shin B S. Robust color medical image segmentation on unseen domain by randomized illumination enhancement[J]. Computers in Biology and Medicine, 2022,145: 105427.
[8]Li Chenxin, Qi Qi, Ding Xinghao, et al. Domain generalization on medical imaging classification using episodic training with task augmentation[J]. Computers in Biology and Medicine, 2022, 141: 105144.
[9]Ouyang Cheng, Chen Chen, Li Surui, et al. Causality-inspired single source domain generalization for medical image segmentation[J]. IEEE Trans on Medical Imaging, 2022,42(4): 1095-1106.
[10]Mahajan D, Tople S, Sharma A. Domain generalization using causal matching[C]//Proc of International Conference on Machine Lear-ning. New York:ACM Press, 2021: 7313-7324.
[11]Li Yumeng, Zhang Dan, Keuper M, et al. Intra-source style augmentation for improved domain generalization[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ:IEEE Press, 2023: 509-519.
[12]Liu Chang, Wang Lichen, Li Kai, et al. Domain generalization via feature variation decorrelation[C]//Proc of the 29th ACM International Conference on Multimedia. New York:ACM Press,2021: 1683-1691.
[13]Huang Yuhao, Yang Xin, Huang Xiaoqiong, et al. Online reflective learning for robust medical image segmentation[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2022: 652-66174a7c5f47a770285ed9d41173ea19ba2600e19684336c6062df3b03b07dcb2d2.
[14]葉懷澤, 周子奇, 祁磊, 等. 基于特定領域解碼的域泛化醫(yī)學圖像分割方法[J]. 數(shù)據(jù)采集與處理, 2023, 38(2): 324-335. (Ye Huaize, Zhuo Ziqi, Qi Lei, et al. Domain generalization via domain-specific decoding for medical image segmentation[J]. Journal of Data Acquisition and Processing, 2023, 38(2): 324-335.)
[15]Liu Xiao, Thermos S, O’Neil A, et al. Semi-supervised meta-learning with disentanglement for domain-generalised medical image segmentation[C]//Proc of the 24th International Conference on Me-dical Image Computing and Computer Assisted Intervention. Cham:Sprin-ger International Publishing, 2021: 307-317.
[16]劉義鵬, 曾東旭. 眼底數(shù)據(jù)頻域增強算法[J]. 小型微型計算機系統(tǒng),2024,45(1):177-184. (Liu Yipeng, Zeng Dongxu. Frequency domain augmentation algorithm for eye fundus data[J]. Journal of Chinese Computer Systems, 2024,45(1): 177-184.)
[17]Han Qi, Hou Mingyang, Wang Hongyi, et al. EHDFL: evolutionary hybrid domain feature learning based on windowed fast Fourier convolution pyramid for medical image classification[J]. Computers in Biology and Medicine, 2023, 152: 106353.
[18]Liu Xiao, Thermos S, Chartsias A, et al. Disentangled representations for domain-generalized cardiac segmentation[C]//Proc of the 11th International Workshop on Statistical Atlases and Computational Models of the Heart. Cham:Springer International Publishing, 2021: 187-195.
[19]Li Haoliang, Wang Yufei, Wan Renjie, et al. Domain generalization for medical imaging classification with linear-dependency regularization[J]. Advances in Neural Information Processing Systems, 2020, 33: 3118-3129.
[20]Chen Chen, Qin Chen, Ouyang Chen, et al. Enhancing MR image segmentation with realistic adversarial data augmentation[J]. Medical Image Analysis, 2022, 82: 102597.
[21]Hu Shishuai, Liao Zehui, Zhang Jianpeng, et al. Domain and content adaptive convolution based multi-source domain generalization for medical image segmentation[EB/OL]. (2021). https://arxiv.org/abs/2109.05676.
[22]Chen Xiaokang, Yuan Yuhui, Zeng Gang, et al. Semi-supervised semantic segmentation with cross pseudo supervision[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2021: 2613-2622.
[23]Yao Huifeng, Hu Xiaowei, Li Xiaomeng. Enhancing pseudo label quality for semi-supervised domain-generalized medical image segmentation[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2022: 3099-3107.
[24]Gu Shuhang, Zuo Wangmeng, Xie Qi, et al. Convolutional sparse coding for image super-resolution[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2015: 1823-1831.
[25]Campello V M, Gkontra P, Izquierdo C, et al. Multi-centre, multi-vendor and multi-disease cardiac segmentation: the M&Ms challenge[J]. IEEE Trans on Medical Imaging, 2021,40(12): 3543-3554.
[26]Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. (2017-12-05). https://arxiv.org/abs/1706.05587.
[27]Tanabe Y, Ishida T, Eto H, et al. Evaluation of the correlation between prostatic displacement and rectal deformation using the Dice similarity coefficient of the rectum[J]. Medical Dosimetry, 2019, 44(4): e39-e43.
[28]Isensee F, Jaeger P F, Kohl S A A, et al. nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation[J]. Nature Methods, 2021,18(2): 203-211.
[29]Liu Quande, Dou Qi, Heng P A. Shape-aware meta-learning for gene-ralizing prostate MRI segmentation to unseen domains[C]//Proc of the 23rd International Conference on Medical Image Computing and Computer Assisted Intervention. Cham:Springer International Publishing, 2020: 475-485.