回海生,張雪英,吳澤林,李鳳蓮
(太原理工大學 信息與計算機學院,山西 太原 030024)
全球腦卒中的發病率逐年增加,每年新增腦卒中發病人次達到1 030萬。自2015年起,腦卒中已經成為除慢性病外位列前三的致死疾病[1-2]。在腦卒中發病時,準確的腦卒中病情診斷和及時針對病變大小、位置的介入治療可以有效地降低致殘和致死率。因此,快速、準確的腦卒中病灶分割方法有重要的臨床意義。由于病灶的手動分割非常耗時,對于核磁共振影像(Magnetic Resonance Imaging,MRI)中單個形狀復雜的大病灶,需要耗費熟練標記者數個小時才能完成精確的標注和校驗[3]。因此,迫切需要一種快速、準確的自動腦卒中病灶分割方法,以在短時間內可以治療更多的患者。卷積神經網絡(Convolutional Neural Networks,CNN)及其持續發展的網絡結構在語義分割任務中具有出色的性能[4-5]。但是,這些基于卷積神經網絡的網絡模型需要數量較大的標注數據進行訓練,而醫學圖像的數據標注成本很大。U-Net的出現[6]在一定程度上解決了上述問題,它通過跳躍連接在對稱的編碼和解碼器之間建立不同尺度的特征融合通道,使網絡可以更好地利用圖像的全局和局部特征,非常適用于少量數據標注的醫學圖像分割任務。標準的5級U-Net特征通道總數多達上千個,待訓練參數數目較多,在訓練過程中編碼和解碼路徑需要反復提取深層特征。由于深層特征的抽象性和低分辨率特性,導致訓練難度增加,甚至訓練不穩定、不充分。文獻[7]中提出了Attention U-Net模型,其使用注意力門(Attention Gate,AG)生成網格化的注意力系數圖,用以隱式地抑制輸入圖像中不相關的區域,突出顯式對特定任務有用的特征,實現對目標區域的定位和捕獲,降低訓練難度,提高分割精度。
雖然 Attention U-Net在諸多分割任務中都取得了不錯的成績,但也存在明顯的不足。首先,在其解碼器結構中,深層特征含有更多的病灶位置信息和判別信息。用于生成深層注意力系數圖的特征通道數可達1 024個,其中大部分通道的病灶特征并不明顯,甚至無效,Attention U-Net缺少對有效特征通道進行選擇或者加權調整的機制。其次,自注意力機制本身也有明顯的不足。由于用于約束關注區域的注意力系數圖是由分割網絡中淺層特征與其衍生出的深層特征通過特定運算生成的,當病灶較小且病灶特征不明顯的時候,淺層特征不能很好地學習病灶特征,從而使注意力系數圖的關注區域偏離病灶區域,影響分割結果。為解決以上問題,基于全局注意力上采樣(Global Attention Upsample,GAU)模塊[8]和Attention U-Net,筆者構建了GAU-A-UNet模型。基于該模型提出一種主、輔路徑注意力補償網絡(Primary-Auxiliary Path Attention Compensation Network,PAPAC-Net);為了實現PAPAC-Net主、輔路網絡各自的功能,提出了加權的二進制交叉熵特維爾斯基(Weighted Binary Cross Entropy and Tversky,WBCE-Tversky)和容限(Tolerance)損失函數。
網絡結構如圖1(a)所示,其左側編碼路徑結構與Attention U-Net相同;右側解碼路徑基于注意力門和全局注意力上采樣進行了重新設計,即用全局注意力上采樣替換了Attention U-Net解碼路徑各層的解碼操作,對各層特征實現了通道間的全局加權調整,又通過4個全局注意力上采樣逐層上采樣實現了與解碼器相同的功能。該模型僅在解碼路徑的第2和第3級上使用注意力門模塊施加空間注意力,是因為第1級注意力門模塊太靠近輸出,所以進行下文提出的注意力補償易影響分割結果;而第4級注意力門的特征信號分辨率太低,單個像素對應的感受野太大,進行注意力補償會引起巨大波動。

圖1 GAU-A-UNet與GAU模塊結構示意圖
圖1(b)的GAU模塊[8]能夠利用深層特征空間定位信息感知力強的特點,生成全局上下文信息對淺層特征進行加權調整,突出具有詳細定位細節的淺層特征,抑制病灶位置信息不明顯的淺層特征,逐層對淺層特征加權選擇,從而在解碼階段逐層修復病灶定位的細節信息。筆者將全局注意力上采樣與Attention U-Net 結合,提出了GAU-A-UNet分割模型,既適用于僅有少量數據的醫療影像分割任務,又能夠利用注意力門提供的空間注意力信息,同時還能利用全局注意力上采樣對不同層級的特征信號進行全局加權調整。
該模型在進行病灶特征學習的過程中,當病灶與健康組織特征區分度不明顯時,基于病灶邊緣、紋理的淺層特征極易發生學習錯誤,后繼由淺層特征逐級生成的深層特征同樣也會發生偏差。這將導致由淺層特征和深層特征共同產生的注意力信號發生錯誤,從而使關注區域發生錯誤,影響模型的分割性能。為了解決上述問題,筆者提出了PAPAC-Net網絡結構,其由結構上完全相同的兩個自注意力基本分割網絡構成,簡稱主網絡和輔網絡。為實現注意力補償功能,使用完全相同的輸入數據和訓練目標對不同的主、輔損失函數進行模型訓練。主網絡使用一種能夠實現嚴格分割的損失函數訓練,以實現對病灶區域的精確分割并輸出最終分割結果;而輔網絡使用一種能夠實現注意力寬松化的損失函數訓練,從而生成一個覆蓋面積更大、更寬松的輔助注意力補償系數圖(Auxiliary Attention Compensation Coefficient Map,AACCM),以有效地彌補主網絡特征學習錯誤帶來的注意力損失。如圖2(a)所示,PAPAC-Net包含上下兩個完全相同的基本分割網絡 GAU-A-UNet,分別為主、輔網絡,其同時使用完全相同的輸入數據進行訓練。在訓練過程中,輔網絡通過圖中的垂直連接線將生成的寬松AACCM補償到主網絡的注意力門中,從而在主網絡生成的注意力系數圖發生錯誤時實現有效補償,最終由主網絡完成病灶分割并輸出分割結果。

圖2 PAPAC-Net與主、輔網絡注意力門的結構示意圖
輔網絡對主網絡補償作用的有效性分3種情況討論。首先,當主網絡注意力系數學習不充分時,關注區域部分正確,輔網絡加性補償面積更大的關注區域后,修正了主網絡注意力系數的關注區域,可以提升分割性能;其次,當主網絡注意力系數的關注區域完全正確時,雖然輔網絡加性補償面積更大的關注區域,但依然在主網絡正確的關注區域處疊加了最高的權重,對分割性能無影響;再次,當主網絡注意力系數的關注區域錯誤時,輔網絡生成的寬松化的輔助注意力系數關注區域同樣錯誤,對分割結果無影響。總體來說,最終數據集整體的平均分割性能得到了提升。圖2(b)和(c)分別對應給出了圖2(a)標記為(I)和(II)的注意力門結構圖。如在圖2(c)中,①和②是輔網絡注意力門的輸入,分別對應淺層和深層特征信號,它們通過使用加性注意力[7]生成注意力系數圖來決定需要關注的病灶區域。在對注意力系數圖進行特征通道復制重采樣后,將其與淺層特征信號進行相乘,得到注意力門輸出的特征信號④并送入解碼路徑。圖中標記為③的特征信號為輔網絡的AACCM,通過圖2(a)中的連接線送往主網絡相同層級、相同位置的標記為(I)的注意力門進行注意力系數補償。圖2(b)為主網絡進行注意力補償的注意力門的結構圖,結構與輔網絡基本一致,僅僅是在生成最終的注意力系數圖時,將來自輔網絡的AACCM和當前主網絡的注意力門生成的注意力系數圖進行了加性融合操作。需要注意的是,首先主、輔網絡必須使用完全相同的基本分割模型和同時輸入完全相同的訓練數據,以保證兩個網絡的注意力系數圖的特征區域一一對應;其次,由于兩個網絡訓練過程是彼此獨立的,輔網絡對主網絡注意力系數圖的補償雖然使主網絡局部增大了關注區域,但是這種補償產生寬松關注區域的運算并沒有參與到主網絡的整個訓練和反向傳播中,主網絡依然按照嚴格分割病灶的目標進行訓練,因此不會因為補償了大面積的注意力系數圖而生成假陽性過高的分割結果。這種補償僅僅是對局部注意力圖錯誤的補償,以使網絡在正確約束下更容易找到病灶,是對約束操作的補償,并不是對最終結果的直接補償。
如上所述,通過在主網絡和輔網絡上使用不同的混合損失函數進行訓練,從而實現各自不同的功能。首先,為了使主網絡生成比較嚴格的注意力系數圖,筆者提出了WBCE-Tversky混合損失函數對主網絡進行訓練;其次,為了使輔網絡生成覆蓋面積更大、更寬松的輔助注意力系數圖以補償主網絡可能發生的注意力系數圖錯誤,還提出了容限損失函數對輔網絡進行訓練。
1.3.1 WBCE-Tversky損失函數
Tversky損失函數的定義如下:
(1)
其中,p0(i)g1(i)代表像素i是病灶卻被判定為不是病灶,p1(i)g0(i)代表像素i不是病灶卻被判定為是病灶,分別對應了預測結果的假陰性(False Negatives,FN)和假陽性(False Positives,FP)。通過配置Tversky損失函數β值的大小,可以在假陽性和假陰性之間取得權衡。由于腦卒中病灶體積遠遠小于正常組織,以ATLAS數據集[3]中的239個核磁共振影像為例,病灶和健康組織的比例大致是3∶1 000,即分割網絡會因為數據不平衡性使模型更多的關注負類,將病灶預測為非病灶,帶來較高的假陰性。通過增大β可以有效地降低假陰性,減少病灶被預測為非病變的傾向,以提升對不平衡數據分割的準確性。然而當式(1)中分母值為極小值時,會導致反向傳播和求導的不穩定。為了解決這個問題,引入了加權的二進制交叉熵(Weighted Binary Cross-Entropy,WBCE)損失函數[9],其表達式為
(2)

Floss(β)=Wloss+Tloss(β) 。
(3)
1.3.2 容限損失函數
為了實現PAPAC-Net中的注意力系數圖的補償操作,輔網絡需要生成一個覆蓋面積更大、更寬松的AACCM。這種覆蓋面積更大的注意力系數圖,相當于在真實病灶區域的基礎上增大了關注面積,即有目的、適度的、有約束的產生一定的假陽性,提升一定的假陽率F(False Positives Rate,FPR)。考慮到假陽率F=1-S,在模型的評價指標中,特異性S(Specificity)代表了負例被正確識別成負例的比例。特異性越小,假陽率越大,輔助注意力系數圖越寬松。因此需要設計一個損失函數,在進行模型訓練時可以有目的的、適度的降低網絡的特異性,以生成一個適度寬松的輔助注意力系數圖去實現PAPAC-Net輔網絡的補償功能。于是提出了“特異性減小項”R(Specificity Reducing Item,SRI),表達式如下:
(4)
由于損失函數的訓練目標是使其值盡可能變得最小,即使式(4)中的S值 和δ的差的平方趨近于0,使S值逼近δ值,因此可以通過設定一個適度小的δ值,從而適度地減小模型的特異性,提升假陽率值,以生成適度寬松的輔助注意力系數圖。然而,僅僅使用SRI去訓練輔網絡是不夠的,因為其無法滿足“有目的、有約束”的要求,否則可能會生成一個任意位置、任意形狀的具有較高假陽率的輔助注意力系數圖,無法正確地補償主網絡。為了有目的地約束SRI,將其和Tversky損失函數組合,提出了容限損失函數:
(5)
通過加入超參數λ來控制SRI項在總體損失函數中的權重,同樣對Tversky損失函數項進行二次方以平衡公式的計算。引入Tversky損失函數,可以保證容限損失函數在生成較高假陽率、增大關注區的時候,其關注區域的位置、輪廓都不會與正確病灶產生較大偏離。作為訓練約束,Tversky損失函數的參數β取值和WBCE-Tversky損失函數保持一致即可。
本章節2.1至節2.5首先使用開源腦卒中病灶分割數據集ATLAS對所提出的GAU-A-Unet和PAPAC-Net網絡的構建原理和超參數選取進行詳細驗證和說明,并在節2.5給出不同模型在該數據集的對比實驗結果,以驗證方法的有效性;然后節2.6使用另一個缺血性腦卒中病變分割(Ischemic Stroke Lesion Segmentation,ISLES)數據集(2018年版本)進一步驗證所提出方法的有效性。
所有實驗將使用相同的實驗數據集劃分方法、軟硬件環境、參數設置和評價指標。ALTAS包含239個核磁共振影像數據,使用六折嵌套交叉驗證(Nested-Cross-Validation)對該數據集根據病灶體積大小的分布規律,按照約4∶1∶1的比例劃分為訓練集、驗證集和測試集。ISLES包含5種影像格式的94組影像數據,使用五折嵌套交叉驗證,按照3∶1∶1的比例劃分。選用Lookahead優化器[10]進行訓練,該優化器在兼顧動態調整學習速率、加速梯度下降的基礎上,提高了優化過程的穩定性。初始學習率設定為1×10-4。每次獨立訓練(包括使用不同網絡結構、不同損失函數配置和不同交叉驗證數據)的最大訓練迭代次數設為100,使用“提前停止”(Early Stopping)的回調函數來控制模型的停止和參數的保存。當損失函數的損失值減少不超過0.001時,停止訓練。實驗采用Keras深度學習框架,使用英偉達GTX1080TI進行硬件加速訓練。在訓練過程中,沒有進行數據擴張。由于所有的核磁共振影像數據在原始數據集已經進行過大腦影像的配準、圖像歸一化以及偏場矯正,所以不再進行額外的預處理操作,僅僅通過裁剪多余背景黑邊來改變原始圖像尺寸,以適應網絡結構的輸入要求。使用Dice相似度系數(Dice Similarity Coefficient,DSC)、F2得分(F2-score,F2)、準確率PRE(Precision)、召回率RE(Recall)和假陽率作為評價指標。由于腦卒中“漏檢”的代價和成本昂貴,召回率顯得更為重要,而F2恰好能夠偏向于關注召回率;假陽率能夠反映假陽性的水平,僅用于PAPAC-Net以等效評價所生成注意力系數圖的寬松化水平,間接測量輔網絡輔助補償注意力系數的寬松化水平,以及證明補償操作不會給主網絡的分割結果帶來較高的假陽性。
將GAU-A-UNet與U-Net、Attention U-Net進行對比實驗。從表1實驗結果可以看出,GAU-A-UNet比Attention U-Net的DSC和F2明顯提升,同時模型參數總數有所減少。證明了同樣作為自注意力分割模型,所提出的GAU-A-UNet對比Attention U-Net能夠提高腦卒中病灶的分割精度,并且降低了模型的復雜度。

表1 GAU-A-UNet模型對比驗證
為了測試和驗證WBCE-Tversky損失函數用于訓練PAPAC-Net的主網絡的分割效果,并確定超參數β的最佳值,按照從0.5到1.0的范圍以0.05的步長對其取值進行對比實驗,并與單獨使用WBCE和Tversky損失函數進行對比以證明其性能的提升。基于GAU-A-UNet使用上述不同損失函數和參數取值進行對比實驗,并將實驗結果根據β的不同取值畫成了折線圖(如圖3所示)。WBCE損失函數無超參數β值的實驗結果如下:DSC為48.31%、F2為47.45%、PR為65.17%和RE為46.66%。對比WBCE實驗結果及圖3(a)和圖3(b),可以看出在不同β取值下,WBCE-Tversky損失函數的DSC和F2總體上均高于Tversky和WBCE損失函數。當β=0.8時,WBCE-Tversky損失函數取得最佳分割表現。由于Tversky通過調整β值可以起到權衡調整準確率和召回率的作用,較大的β可以抑制假陰性,提升假陽性,從而提升了召回率。因此,隨著β的增大,準確率逐漸減小,召回率逐漸增大,這和圖3(c)與圖3(d)的實驗結果一致。圖3中WBCE-Tversky損失函數在準確率上整體好于Tversky損失函數,而在召回率上略低于Tversky損失函數。同時對比WBCE實驗結果及圖3(c)和圖3(d)可以看出,當β=0.8時,WBCE-Tversky損失函數在準確率和召回率之間取得了平衡,均取得了折中的取值。綜上,使用β=0.8的WBCE-Tversky損失函數訓練PAPAC-Net的主網絡,可以實現病灶的精確分割,同時也將β=0.8作為輔網絡的容限損失函數用于約束寬松化注意力系數圖的Tversky部分的參數取值。

圖3 不同參數配置下的WBCE-Tversky和Tversky損失函數性能對比
前文提到,在PAPAC-Net的輔網絡上使用容限損失函數以生成適度的、有約束的、覆蓋面積更大、更寬松的AACCM,為此需要對參數β、λ和δ進行適當取值。在式(5)中,β來自Tvesrky,起到約束作用,將β值按照圖3的實驗結果設為0.8。而δ為式(4)中設定的特異性的逼近目標值。δ越小,所得到的假陽率越大,即得到的注意力系數圖越寬松。因此將參數δ的取值范圍設定為0.6、0.7、0.8或0.9,用于生成不同寬松化水平的AACCM。將參數λ的取值范圍設定為1、2、3、4或5,用于調節SRI項在容限損失函數中的比重。依然在GAU-A-UNet上進行訓練,并將實驗結果畫成了折線圖,如圖4所示。在圖4(a)中,當δ值保持不變時,λ值越大,假陽率越高,這是因為較大的λ值為SRI項提供了更大的權重;而當λ保持不變時,δ值越小,假陽率越高,這是因為特異性以δ值作為訓練目標,越小的δ值就會生成越小的特異性值。而F=1-S,因此隨著特異性值的減小,假陽率會增大。

圖4 不同δ和λ配置容限損失函數下的假陽率值曲線
將不同λ和δ取值對應的假陽率進行升序排序,如圖4(b)所示,可以看出隨著參數配置的變化,假陽率逐漸升高。當λ=5,δ=0.6時,假陽率取得了最大值,高達15.06%。從圖4(a)可以看出,對于一對λ和δ的取值,其產生的假陽率與使用相鄰較大(或較小)的λ和相鄰較小(或較大)的δ產生的假陽率有時候數值會比較接近,也就是說假陽率的大小是λ和δ共同作用的結果。
本節依然使用節2.1的實驗條件進行對比實驗,以確定在PAPAC-Net上具有最佳的補償效果和分割性能的λ和δ取值。將圖4(b)升序排序后對應的λ和δ的配置組合應用到PAPAC-Net的輔網絡中進行模型訓練和驗證,得到圖4(c)所示的實驗結果。其中FPR*為圖4(b)中的假陽率升序排序后的結果,其代表了單獨訓練GAU-A-UNet時不同超參數組合的容限所產生的假陽率值,即等價于AACCM的寬松化水平。通過圖4(c)可以看出,隨著輔網絡的FPR*值的升高,PAPAC-Net的DSC和F2逐漸升高,這說明隨著AACCM的寬松程度的提升,其對主網絡的補償效果越來越明顯。當λ=4和δ=0.7時,DSC和F2取得最大值。隨著FPR*的值進一步增大,分割性能又逐漸下降。這說明并不是寬松化程度越高就越好。當FPR*值持續增大到較高水平時,會對主網絡產生負作用,導致分割性能急劇下降。從圖4(c)中可以看出,PAPAC-Net的主網絡分割結果的假陽率值并沒有因為輔網絡寬松的AACCM具有較高FPR*值而同樣變高,無論輔網絡使用什么樣的超參數組合,主網絡分割結果的假陽率值都相對來說較低,這說明輔網絡生成的寬松的AACCM補償主網絡的時候,并不會直接影響主網絡的分割結果,它只是作為一個起到約束作用的輔助補償系數出現的,不參與到主網絡的梯度運算和反向傳播,主網絡依然遵循其進行嚴格分割的訓練目的,不會生成較高的假陽性。綜上,當PAPAC-Net的主網絡選用β=0.8的WCBE-Tversky損失函數,輔網絡選用β=0.8、λ=4和δ=0.7的容限損失函數時,可以實現對ATLAS數據集最高的分割精度。需要注意的是,主、輔網絡損失函數的超參數β、λ和δ的取值與數據集的不平衡度有關,需要進行實驗選取。
基于ATLAS數據集,文獻[11]中提出一種在編碼階段融合了2D和3D的卷積特征的維度融合UNet(Dimension Fusion UNet,D-UNet)的結構;文獻[12]中提出一種基于跨層融合和上下文推理的CLCI-Net的方法。上述文獻結果將作為文中實驗的性能參考。此外,使用以下模型進行對比實驗以驗證所提出PAPAC-Net的分割性能:① U-Net[6];② Attention U-Net[7];③ GAU-A-UNet;④ PAPAC-Net。其中①、②和③均采用β=0.8的WBCE-Tversky損失函數進行訓練。實驗結果如表2所示。

表2 ATLAS數據集上不同方法分割結果和運算效率對比
可以看出,從無注意力到有自注意力機制(對比U-Net和GAU-A-UNet),DSC僅提升2.71%;從單路徑網絡到主輔路徑補償網絡(對比GAU-A-UNet和PAPAC-Net),DSC提升了5.22%。證明所提方法能夠明顯地克服在病灶特征不明顯時自注意力模型潛在的生成錯誤注意力系數的問題。同時對比當前其他文獻方法,PAPAC-Net比D-UNet提升了5.32%,比CLCI-NET提升了0.72%,說明了文中的方法在目前主流方法中依然具有出色的性能。在運算效率方面,從表中待訓練參數數目可以看出,在單路徑注意力模型中,Attention U-Net比U-Net 僅僅多了280萬個,但是訓練時間比U-Net增加了近50%。一個患者的核磁共振影像數據(本實驗為176個2D圖像切片)的預測時間也增大了2倍,這是因為基于注意力門模塊的多通道矩陣點乘和相加運算需要消耗大量的GPU運算資源,從而使Attention U-Net訓練和預測效率變低。而筆者提出的GAU-A-UNet使用全局注意力上采樣代替解碼路徑注意力門模塊,不僅減少了總的參數規模,同時降低了對GPU運算資源的消耗,因此GAU-A-UNet注意力模型在訓練時間和預測時間上大幅度低于Attention U-Net。這使得在雙路徑注意力模型中,即便基于GAU-A-UNet的PAPAC-Net待訓練參數數目幾乎翻一倍,PAPAC-Net的訓練時間也僅僅比Attention U-Net增加不到40%,預測時間幾乎沒變。考慮到PAPAC-Net比Attention U-Net的DSC提升了6.7%,分割性能的顯著提升,彌補了訓練時間的增加。
為了進一步驗證所提方法的有效性,選用了另一個腦卒中病灶分割數據集ISLES,基于表2中的前4個模型進行對比實驗,并將StrokeNet模型[13-14]作為本實驗的性能參考。該文獻提出一種3D殘差網絡,利用多級的3D精煉模塊自動聚合3D卷積層中的局部細節和時空上下文信息,從而顯著地提高性能,且該網絡使用Focal Loss[15]進行訓練來解決數據不平衡問題。實驗結果如表3所示,可以得出和表2一致的實驗結論。這里需要注意的是,對于不同的數據集PAPAC-Net,主、輔路徑損失函數的超參數選取與各數據集的不平衡度相關,經過對比實驗選取超參數β=0.7、λ=4和δ=0.8,可以使PAPAC-Net在ISLES數據集取得最佳分割性能。

表3 ISLES數據集上不同方法分割結果對比
筆者提出了PAPAC-Net網絡結構,通過在其主、輔網絡上使用不同功能的損失函數,實現輔網絡生成寬松的AACCM對主網絡注意力系數圖進行補償,從而解決了當病灶特征不明顯時,主網絡生成錯誤的注意力系數圖而影響模型分割性能的問題。為了實現上述功能,分別提出了WBCE-Tversky和容限損失函數,用以訓練主、輔網絡。實驗證明,所提出的PAPAC-Net模型,比單獨使用GAU-A-UNet時DSC提升了5.22%,證明了主、輔路徑雙通道注意力補償方法相對于單通道注意力方法在分割性能上有明顯的提升。同時對比其他文獻的方法,實驗結果也證明了所提方法的有效性。需要注意的是,盡管筆者提出的方法在ATLAS數據集上對比了D-UNet、CLCI-Net,在ISLES數據集上對比了StrokeNet,但考慮到訓練集、驗證集、測試集的劃分方法以及各自使用的損失函數不同,因此雖然所提方法在對比中達到了更好的分割結果,也僅表明筆者提出的方法達到了目前同樣研究中的較高水平。
在未來的工作中,將基于其他適用于不平衡數據的損失函數,例如基于StrokeNet所采用的Focal損失函數設計和改進損失函數用于PAPAC-Net訓練,從而進一步提升分割性能。