肖兒良,周 瑩,簡獻忠
(上海理工大學 光電信息與計算機工程學院,上海 200093)(上海市現代光學系統重點實驗室,上海 200093)
E-mail:tracer96@sina.com
醫學影像在臨床診斷和治療中發揮著重要的作用.由于不同的成像模式側重于不同類別的器官、組織信息,各自有其自身的優勢和局限性,因此僅由一種圖像通常不能為整個醫學診斷提供完整的信息.例如,計算機斷層掃描(CT)圖像顯示骨骼和種植體等致密結構的信息,而磁共振(MR)圖像顯示軟組織等高分辨率的解剖信息[1].我們可以通過把多種模態的醫學圖像進行融合,以集成來自不同模態的圖像的互補信息,從而利用融合圖像中獲得的附加信息進行更快速、精確的異常定位,來提高醫學診斷的魯棒性.
目前常用的圖像融合技術可以分為兩大類,基于傳統方法[2-5]以及基于深度學習方法[6-10].傳統圖像融合方法大都涉及圖像變換、活動水平測量和融合規則設計三個關鍵部分,這些都需要人為的設計與選擇,依賴于豐富的先驗知識.并且為了得到效果突出的融合圖像,人為設計的模型越來越復雜,需要選擇的參數越來越多,存在融合效果不穩定、運行速率低的問題.而深度學習可以自動化地提取圖像中更具表現力的特征,因此,近年來深度學習被應用于圖像融合中[6],可以解決傳統方法中由于人為因素影響融合效果不穩定的問題.
現有的基于深度學習的圖像融合技術多依賴于卷積神經網絡(Convolutional Neural Network,CNN)模型,文獻[7]提出了一種有效的三層CNN結構來解決泛銳化問題,通過添加幾個非線性輻射測量指數的映射來增強融合性能,實現了遙感圖像的融合.文獻[8]用一個CNN模型實現源圖像和焦點圖之間的直接映射,通過CNN聯合了活動水平測量和權重分配兩部分,從而對多聚焦圖像進行融合,并且在文獻[9]中將該模型成功用于多模態的醫學圖像融合.但這樣的模型仍然需要設計一種基于局部相似度的融合策略,以自適應地調整融合系數,才能得到效果良好的融合圖像.由于利用CNN實現圖像融合任務還存在需要人為設計融合規則的不足,文獻[10]提出一種利用生成對抗網絡的網絡模型,不需人為設計融合規則或選擇參數,只需給定標簽圖像即可以做到自適應地生成紅外與可見光圖像的融合圖像,實現了端到端的多模態圖像融合.但該模型對數據依賴性強,數據量的不足會影響深度學習網絡的性能.
在醫學領域,由于醫學圖像具有隱私性和特殊性,數據采集和標注成本也比較高,所以構建大規模的、高質量的注釋良好的數據集非常困難.目前已有數據增強(Data Augmentation)的方法[11],可以通過對現有數據集進行微小改動,例如旋轉、縮放或翻轉,從而利用已有數據創造出更多相關數據,來使得神經網絡具有更好的泛化效果.然而對于醫療影像這一小樣本領域,有效的數據增強技術相對較少、且不成熟,目前還沒有成熟的可以有效獲取足夠豐富且高質量的醫學影像數據的數據增強方法[12].隨著遷移學習的發展,可極大緩解深度學習中數據不足引起的問題.這激發了我們使用遷移學習來解決在利用深度學習網絡完成醫學圖像融合任務中訓練數據不足的問題.
在機器學習領域中,遷移學習研究如何將已有模型應用到新的不同的、但是有一定關聯的領域中.遷移學習主要有四種實現方法:樣本遷移、特征遷移、參數/模型遷移以及關系遷移.深度學習中應用的遷移學習屬于參數遷移,它具有非常強的數據擬合能力,能學習到與領域無關的,即泛化能力更強的特征表達[13].文獻[14]提出通過融合不同深度卷積神經網絡(DCNN)架構中提取的多種遷移學習特征,可以提高圖像分類的精度.文獻[15]提出一種遷移深度特征融合的學習框架,它可以有效地整合各個模塊的優勢,在人臉識別任務上表現出顯著的優越性.文獻[16]研究了域自適應在生成對抗網絡圖像生成中的應用,發現利用預先訓練的網絡可以有效地加速學習過程,并在目標數據有限的情況下,利用先驗知識可以縮短網絡收斂時間,顯著提高圖像質量.文獻[17]提出了一種基于對抗學習的非監督域適應模型,該模型增加了一個特征共享轉換網絡,直接將源域的特征映射到目標特征空間,在情緒分析、數字分類、自然圖像分類等任務上均表現良好.但國內外對遷移學習在醫學圖像融合中的研究還沒有引起足夠的重視.
基于以上對深度遷移學習應用的研究,本文首次提出利用遷移學習來提高用于多模態醫學圖像融合的Transfer-WGAN-GP模型的性能,從而自適應地生成高質量的CT與MR-T2的融合圖像.首先利用源域中大量的紅外與可見光數據預訓練網絡,提取在圖像融合過程中具有代表性的語義信息,學習融合圖像與源圖像之間的特征映射,并轉化為網絡中的參數,以得到一個基本網絡,然后利用目標域中少量的CT與MR-T2數據對模型進行微調,由此完成了將參數從源域遷移到目標域的特征空間中.最后,只需對訓練完成的生成器輸入待融合的CT與MR-T2的源圖像,即可快速得到充分保留源圖像信息的高質量融合圖像.
本文提出的Transfer-WGAN-GP模型中包含兩個在GAN的基礎上進行改進的網絡,兩個網絡之間通過遷移學習實現參數共享,每個網絡中都包括生成器G與鑒別器D兩個部分,如圖1所示.
網絡的訓練過程如圖1(a)所示,首先將待融合的兩幅多模態圖像以一幅圖像多通道形式輸入G,然后將通過G生成的融合圖像和標簽圖像分別輸入D,G與D根據改進的WGAN-GP損失函數相互博弈競爭,從而不斷優化網絡,最終使D完成區分真實的標簽圖像與G生成的假圖像的分類任務.預訓練中得到的生成器Gp與主訓練中得到的生成器Gm相當于兩個參數共享的特征提取器,預訓練中得到的鑒別器Dp與主訓練中得到的鑒別器Dm相當于兩個參數共享的分類器.
網絡的測試過程如圖1(b)所示,對于訓練好的Transfer-WGAN-GP,只需要將待融合的兩張圖像以一幅圖像多通道形式輸入到訓練好的生成器中,生成器就可以自動生成理想的高質量的融合圖像.
3.1.1 生成器的網絡結構
本文的生成器網絡結構是基于全卷積網絡進行設計的,如圖2所示.生成器的輸入是經過連接操作的紅外與可見光圖像或經過連接操作的CT與MR-T2圖像,不需要提取出圖像的特征圖來作為網絡輸入.網絡主要由五層卷積神經網絡構成,前四層中采用3×3的濾波器,最后一層采用1×1濾波器.為保持圖像大小不變,減少源圖像信息的丟失,每一層的步長均設置為1.此外,為了防止噪聲的引入,沒有設置填充操作.為避免醫學圖像在下采樣中丟失部分語義信息,整個生成器網絡中只引入了卷積層,沒有引入下采樣操作,這樣做還可以保證輸入圖像和輸出圖像大小相同.最后,對于激活函數的選擇,由于使用ReLU需要小心平衡學習率,效果可能不佳,因此本文在前四層選擇使用Leaky ReLU激活函數,來提高網絡的非線性程度,最后一層中采用tanh激活函數.
3.1.2 判別器的網絡結構
GAN中的鑒別器與生成器不同,其根本目的在于分類.它通過從輸入的圖像中提取特征,然后根據特征進行分類,判斷輸入圖像為真實的標簽圖像還是假的由生成器生成的圖像[18].本文的鑒別器網絡主要由四層卷積神經網絡構成,如圖3所示.四層中均采用3×3的濾波器,每一層的步長設置為2,最后一層linear層主要用于分類.值得注意的是,由于傳統的GAN存在的一些缺陷,本文采用改進的WGAN-GP網絡[19],由于該模型是對每個樣本獨立地施加梯度懲罰,為防止引起同一個批次中不同樣本的相互依賴關系,所以鑒別器網絡結構中去掉了批歸一化(Batch Normalization,BN)層.

圖3 鑒別器的網絡結構Fig.3 Network architecture of discriminator
損失函數是用于衡量網絡生成的數據與輸入的標簽數據之間的差距,網絡訓練的目的旨在使損失函數最小化.本文提出的Transfer-WGAN-GP網絡的損失函數主要包含兩部分,即生成器G的損失函數和鑒別器D的損失函數.
首先是G的損失函數,G的損失函數如式(1)所示,主要由兩部分組成:
LG=LGAN+ζLcontent
(1)
其中,LG表示總的損失函數,LGAN表示生成器G與鑒別器D之間的對抗損失,Lcontent表示內容損失.ζ用于在對抗損失和內容損失之間取得平衡,本文所做實驗中ζ取10.對抗損失具體定義如式(2)所示:
(2)

由于醫學圖像的信息由圖像中像素點強度和梯度信息表示,CT圖像中更多表現在邊緣的明暗信息,而MR-T2包含更多由梯度表達的紋理細節信息.為更好地學習到兩種圖像中包含的信息,我們需要使融合圖像更多的從標簽圖像中同時學習強度信息與梯度信息,所以內容損失函數Lcontent定義如式(3):

(3)
其中,If表示由G生成的融合圖像,IL表示輸入的標簽圖像.H和W分別表示輸入圖像的高和寬,‖·‖F表示矩陣的F范數,表示求梯度的函數.ξ是用于平衡兩部分的正則參數,本文中取值為8.
其次是D的損失函數,如式(4)所示.為使網絡訓練過程更穩定,防止產生模式崩潰等問題,在損失函數中仿照WGAN-GP加入了梯度懲罰項,重點在生成樣本集中區域、真實樣本集中區域以及夾在它們中間的區域上施加Lipschitz限制.這樣做還可以顯著提高訓練速度,加快網絡收斂.本文中λ取10,η為從[0,1]的正態分布中選取的隨機數.

(4)
Transfer-WGAN-GP模型的核心算法包括預訓練、參數遷移和主訓練三個部分,為了更好地理解網絡的工作原理,總結網絡訓練過程的偽代碼如算法1所示.
在預訓練過程中,網絡中G與D學習紅外與可見光圖像以及相應的融合圖像之間的特征映射,在迭代過程中相互對抗以優化損失函數中的參數,不斷縮小生成圖像與標簽圖像之間的差距;保存訓練好的G與D中的參數,選擇適當的微調方式,即開放或凍結部分卷積層的參數,再遷移到CT與MR-T2圖像以及相應的融合圖像的數據集中;在有基礎參數的網絡上繼續訓練,使G與D的損失函數中的參數繼續優化,直到最大迭代次數;最后對訓練好的G進行測試,即可得到CT與MR-T2的融合圖像.
Algorithm 1.Transfer-WGAN-GP醫學圖像融合算法
Parameter:α=0.0001,β1=0.5,β2=0.9
Require:訓練迭代次數t,批次數量m,G中的初始參數θ0,D中的初始參數ω0.
Part 1.預訓練
Input 1.經連接操作的紅外與可見光圖像PIR-VI(S)
Input 2.標準融合圖像PIV(X)
1.whileθ1沒有收斂 do
2. fori=1,…,t do
3. forj=1,…,m do
4. 采樣s1~PIR-VI(S)
5. 采樣x1~PIV(X)
6. 取一隨機數∈1~U[0,1]
10. end for
12. end for
14.end while
Part 2.參數遷移
15.存儲訓練好的G與D中的參數
16.選擇適當的微調方式對網絡中部分卷積層參數進行凍結
Part 3.主訓練
Input 3.經連接操作的CT與MR-T2圖像PCT-MR(S)
Input 4.標準融合圖像PCM(X)
17.whileθ2沒有收斂 do
18. fori=1,…,t do
19. forj=1,…,m do
20. 采樣s2~PCT-MR(S)
21. 采樣x2~PCM(X)
26. end for
28. end for
30.end while
31.對訓練好的G進行測試
Output:CT與MR-T2的融合圖像
本實驗的硬件平臺:CPU為IntelCorei7-8700,主頻3.20GHz;內存16G;GPU為NVIDIA 1080Ti 12GB.軟件平臺:操作系統為Windows10 64位;MATLAB版本為2017b;訓練環境為Tensorflow-gpu 1.8.0;Python版本為3.5.0.
4.1.1 標簽圖像數據集
本文所使用的紅外與可見光圖像來自于公開的TNO紅外與可見光圖像融合數據集[20],采用的醫學圖像來自Havard Medical School的The whole brain atlas(1)http://www.med.harvard.edu/aanlib/home.html.
為解決網絡訓練中缺少作為標簽的標準融合圖像的問題,具體的標簽圖像制作過程如下:從TNO數據集中選取45對來自不同場景的經過配準的紅外與可見光圖像,通過基于現有的性能優良的CSMCA[2]、GFF[3]、NSST[4]、NSCT[5]四種傳統方法分別得到融合圖像,然后使用以下6種多模態圖像融合任務中常用的圖像質量評價指標對得到的融合圖像進行分析,最后選取綜合評價指標更優的方法來產生標簽圖像.
我們選取的指標主要有3個無參考圖像的評價指標和3個有參考圖像的評價指標.無參考圖像的評價指標有:熵(Entropy,EN)、標準差(Standard Deviation,SD)和平均梯度(Average Gradient,AG).圖像的熵反映圖像包含信息量的多少;標準差反映圖像像素值與均值的離散程度;平均梯度反映圖像對微小細節反差的表達的能力.有參考圖像的評價指標有:基于熵的互信息指標(Mutual Information,MI),用于衡量融合后的圖像從源圖像中保留了多少信息;基于梯度的評價指標QAB/F,衡量融合圖像中對源圖像邊緣信息的保存程度;多層級結構相似性(Multi-Scale Structural Similarity,MS-SSIM)從亮度、對比度和結構三個方面衡量融合圖像與源圖像的相似程度,其值在[0,1]之間.需要指出的是,上述6個指標都是值越大表示圖像質量越好.

表1 源域中標簽圖像選取依據表Table 1 Selection of label image of source domain
從45組圖像中抽取一組評價指標數據作為展示,如表1所示,加粗的數值表示四組方法中的最佳得分,由于NSCT方法在6個指標中有3個指標為最優,并且其余3個指標與其他方法相差不大,因此選取NSCT方法產生的融合圖像作為在源域中預訓練使用的標簽圖像.為擴充源域中數據集的樣本數量、充分利用源域中的特征,要對紅外圖像、可見光圖像和標簽圖像數據集,以240×240大小的窗口進行滑動裁剪得到大量的圖像子塊,為保持與目標域所用的CT與MR-T2圖像大小一致,還需要將這些圖像進行標準化到256×256大小.這樣就得到了在紅外與可見光圖像上預訓練中使用的,包含紅外圖像、可見光圖像、以及相應的標簽圖像的數據集.

表2 目標域中標簽圖像選取依據表Table 2 Selection of label image of target domain
主訓練中采用的數據集從Havard Medical School的全腦圖譜數據集獲取.從10種不同病癥的腦部圖像中各選取15組切片,得到共150組CT與MR-T2圖像.與紅外與可見光圖像的數據集制作步驟相同,通過如表2所示指標對比,由于NSST方法得到的融合圖像有5個指標優于其它三種方法,QAB/F指標中的得分與其他三種方法也相差不大,所以選取NSST方法產生的融合圖像,作為在目標域中主訓練使用的標簽圖像.這樣就得到以CT、MR-T2、以及相應的標簽圖像構成的訓練集,作為主訓練中生成器的輸入.
4.1.2 數據增強數據集
為證明遷移學習相對于數據增強方法在深度學習網絡訓練中的優勢,首先要通過數據增強的方法,對原始數據集中樣本數量進行擴充,以滿足改進的WGAN-GP網絡的訓練.數據增強方法可以分為兩類,一類是離線增強,適用于較小的數據集;一類是在線增強,適用于較大的數據集.由于本文中使用的CT與MR-T2數據集只有150組,因此采用離線增強的方法.本文通過MATLAB對每一張原圖像進行翻轉、不同角度的旋轉,以及圖像亮度、對比度的調節等方法,把每一張圖片擴充出30張圖片,以達到數據量擴大的目的.
然而數據增強的方法雖然能有效解決樣本數量問題,但在解決樣本多樣性方面,所取得的效果并不是很理想.因為經過數據增強處理得到的數據集中的醫學圖像不夠多元化,類似場景的數據樣本過多,利用這些樣本網絡可能會只學習到一個場景,容易導致網絡的過擬合.因此通過數據增強的方法得到的數據集樣本數量不宜過多,通過實驗選擇,最終本文在基于數據增強的網絡訓練中用的數據集中CT與MR-T2的樣本數量為4650組.
本文提出的方法主要分為在源域的預訓練過程和在目標域的主訓練兩部分.源域中訓練集包含紅外圖像、可見光圖像以及對應的標簽圖像,目標域中訓練集包含CT圖像、MR-T2圖像以及對應的標簽圖像.為探究源域中樣本數量對于網絡性能的影響,將源域中樣本數量分別設置為4443組、6665組以及8450組,目標域中樣本數量固定為150組.構建相同的網絡,設置相同訓練次數,最后通過測試訓練好的網絡,以得到的融合圖像進行客觀評價指標的分析,結果如表3所示,加粗的數值表示三組實驗中的最佳得分.

表3 源域樣本數對網絡性能的影響Table 3 Influence of source domain sample size on network performance
從表中數據可以看到,源域中樣本數由4443組增加到6665組時,各項指標數據對比均有提升,即生成圖像質量更好,意味著網絡性能得到提高.但當源域中樣本數繼續增加到8450組時,各項指標對比均有下降,即生成圖像質量更差,意味著網絡性能變差.由此可見,源域中樣本的數量對網絡性能有所影響,并且不是一定樣本數量越多得到的網絡越好,而是需要在一定的范圍內合理選取源域中的樣本數量.由于三組實驗中,第二組實驗訓練得到的網絡生成的圖像質量最高,因此本文后續實驗中源域中的訓練集采用的樣本數設置為6665組.
在遷移學習中,為選擇性地利用一些在源域中學習到的特征,可以通過微調(finetune)網絡以提高網絡性能,加快網絡收斂速度[21].本文采用的微調的步驟如下:
1)在源域的紅外與可見光數據集的融合任務上訓練一個基本網絡;
2)將基本網絡中生成器GS的前p層復制到目標網絡生成器GT的前p層,基本網絡中鑒別器DS的前q層復制到目標網絡鑒別器DT的前q層,這樣可以將網絡學習到的源圖像與對應融合圖像之間的特征映射轉移到目標域的網絡上;
3)隨機初始化目標網絡的其余層,并在CT與MR-T2的數據集上進行圖像融合訓練.由于源域中的任務與目標域中的任務均為圖像融合,因此轉移的特征映射是通用的,同時適用于基本任務和目標任務,而不是特定于基本任務.
基于以上步驟,對如何微調網絡在CT與MR-T2的圖像融合任務中的影響進行了實驗.在源域與目標域中,我們采用相同結構的網絡,對如3.1.1和3.1.2中所示的生成器中的4個卷積層與鑒別器中的5個卷積層進行不同位置的凍結與微調,通過對最終得到的融合圖像質量的客觀指標評價分析來判斷如何微調能得到性能更好的網絡.四組實驗的評價指標如表4所示.加粗的數值表示四組微調方法中的最佳得分.

表4 微調對遷移學習效果的影響Table 4 Influence of fine tune on transfer learning effect
第1組實驗是把源域中訓練得到的WGAN-GP網絡不經任何微調直接用于目標域的數據集上,通過表4中數據可以看到,基于源圖像的評價指標都很差,說明融合圖像與源圖像的相似度非常低,保留的源圖像的信息量很少.這是因為只在源域中訓練過的網絡雖然可以根據輸入的源圖像生成融合圖像,但由于網絡中高層的卷積層學習到的特征具有特異性,只適用于紅外與可見光圖像的融合,而在CT與MR-T2圖像的融合中表現較差.
第2組實驗是把源域中訓練好的GS全部復制到GT,DS的前4層復制到DT,僅重新訓練DT中主要用于分類的最后一層.從表4中數據可以看到相對于第1組實驗,三個基于源圖像的評價指標MI、QAB/F、MS_SSIM指標均有提升,說明經過在CT與MR-T2數據集上的訓練,對基本網絡進行微調,使之學習到更多具有特異性的特征,從而使融合圖像包含更多源圖像的信息,與源圖像更為相似.
第3組實驗是把源域中訓練好的GS的后3層復制到GT,DS的前3層復制到DT,然后重新訓練GT中的第一層和DT中的最后一層.由于GAN中的生成器相當于一個特征提取器,網絡中的第一層學習到的是更特異于源域的特征,為提高特征提取器在目標域中的性能,選擇對GT的第一層微調.而鑒別器中最后一層相當于分類器,為了使其更適應與目標域中的特征,提高在目標域中的分類性能,要對DT的最后一層進行微調.從表4中數據可以看到,這種微調方法相對于其他三種方法得到的融合圖像質量較差,說明這樣的微調方法不適合于本文提出的網絡結構.
第4組實驗是把源域中訓練好的GS與DS的所有卷積層全部復制到GT和DT中,在經過初始化的網絡基礎上,利用網絡中保留的參數,開放所有層在目標域的數據集中繼續訓練.這樣做是因為源域與目標域中需要完成的任務是一致的,因此在源域和目標域中需要網絡學習的特征映射類似,可以使用預訓練的網絡當做特征提取器,用提取的特征映射訓練DT中的線性分類器,以提升整個網絡的性能,得到更高質量的融合圖像.由表4中最后一行數據可以看到這種微調方法得到的融合圖像質量相對較高.
綜合四組實驗結果可以發現,在網絡由源域遷移到目標域的過程中,從目標域中學習到的基礎特征的遷移效果受微調方法的影響.幾種微調方法中,第4組方法得到的融合圖像效果最好.這是因為目標域中的數據集樣本數很少,并且和源域中數據集樣本相似度較高,而且源域中與目標域中要完成的任務是相同的,所以在目標域中的任務上可以利用大部分從源域中學習到的特征,在此基礎上繼續學習,可以提高網絡性能,有利于得到更高質量的融合圖.
實驗中一方面采取上文4.3中選取出的最優的微調方法,在目標域中150組CT與MR-T2以及標準融合圖像的數據集中繼續訓練,得到一個基于遷移學習方法的網絡NT;另一方面構造與NT結構相同的網絡,在經過數據增強的4650組CT與MR-T2圖像以及標準融合圖像的數據集中訓練,得到一個基于數據增強方法的網絡ND;然后對網絡NT和ND分別進行訓練2000次、4000次、6000次的三組實驗;最后對訓練完成的網絡測試,以得到CT與MR-T2的融合圖像.
首先通過人眼觀察,對融合圖像效果進行主觀上的比較.

圖4 融合效果對比圖Fig.4 Contrast diagram of fusion effect

圖5 遷移學習有效性實驗的評價指標對比Fig.5 Comparison of evaluation indexes of transfer learning effectiveness experiment
除了對整幅圖像的全局觀察外,把每幅圖像中代表性區域放大,以便更好地進行比較.如圖4所示,為多發性栓塞性梗塞病癥的腦CT與MR-T2圖像融合結果.圖4(a)、(b)分別為CT與MR-T2的原圖像以及圖中方框所圈出的局部放大得到的細節圖;圖4(c)、(d)、(e)分別為通過數據增強訓練的網絡在訓練2000、4000、6000次時得到的結果,以及圖中方框圈出的局部細節放大圖;圖4(f)、(g)、(h)分別為本文提出的Transfer-WGAN-GP的網絡模型在訓練2000、4000、6000次時得到的結果,以及圖中方框圈出的局部細節放大圖.由醫學影像學可以知道,CT圖中亮度表示組織密度,MR-T2中的亮度表示組織的流動性和磁性.從圖4(a)中可以看到CT圖中呈現高亮度的為高密度低流量的顱骨,而相對灰暗的為充以低密度高流量的腦脊液的腦室.由于二者有明顯的亮度差異,融合圖中應保留這樣的語義信息.首先從6張融合圖像中可以看到兩種方法均較完整的保留了兩種源圖像中的語義信息,并且邊緣紋理都比較豐富;通過6張局部放大的細節圖可以看到,本文提出的Transfer-WGAN-GP網絡模型得到的融合圖像相比于數據增強的方法得到的融合圖像對比度稍高,圖像相對更清晰.
由于主觀評價雖然可以對融合圖像的視覺效果直接作出判斷,但是人為評價可能受很多主觀因素影響評價結果,并且如圖4所示,兩種方法得到的融合圖像視覺上差別不大,無法判斷哪種方法更優.所以需要通過前文提到的6種評價指標對融合圖像進行客觀的分析.為更加直觀的看出兩個網絡在6種客觀評價指標上的對比,對實驗得到的數據進行可視化得到如圖5所示.
從圖5中每個評價指標中的三組實驗的數據可以看到,隨著訓練次數的增加,各指標數值均有一定的提升,說明兩個網絡的性能隨著訓練次數增加有一定的提升.此外,在訓練次數相同的情況下,由本文提出的Transfer-WGAN-GP模型生成的融合圖像,相較于基于數據增強得到的網絡生成的融合圖像,在六個指標上均具有明顯優勢,說明本文提出的網絡模型性能更優.這是由于經過數據增強處理得到的數據集中的醫學圖像不夠多元化,類似場景的數據樣本過多,利用這些樣本網絡可能會只學習到一個場景,容易導致網絡的過擬合.而本文提出的方法是在經過初始化的網絡上繼續訓練,利用網絡在源域中學習到的基本的特征映射,可以提升網絡在目標域中的訓練效果,從而在小樣本的數據集上訓練也不會產生過擬合的現象,最終得到質量較高的融合圖像.
由此可以證明在生成對抗網絡中使用遷移學習在小數據集的訓練上有一定的優越性,有效抑制了網絡的過擬合,使得模型的泛化能力更好.
本文首次提出了一種Transfer-WGAN-GP網絡模型,利用從紅外與可見光圖像的融合數據中學習特征映射來提高網絡性能,從而在CT與MR-T2圖像的融合中得到高質量的融合圖像.利用Havard Medical School的全腦圖譜中的CT與MR-T2圖像進行融合,通過對比實驗可以看到,在數據集有限的情況下,相對于數據增強的方法,基于遷移學習的網絡可以得到更高質量的融合圖像,模型更具有優勢.驗證了提出的Transfer-WGAN-GP模型用于CT與MR-T2圖像融合的有效性,為深度學習方法用于小數據集的醫學圖像融合提供了一種新思路.由于本文中僅對醫學圖像中的CT與MR-T2圖像進行融合實驗,課題組下一步工作考慮通過修改現有模型,用于其他小數據集的多模態醫學圖像融合.