李恒鑫,常 侃,2*,譚宇飛,3,凌銘陽,覃團發,2
(1.廣西大學計算機與電子信息學院,南寧 530004;2.廣西多媒體通信與網絡技術重點實驗室(廣西大學),南寧 530004;3.廣西師范大學電子工程學院,廣西桂林,541004)
為了降低商用數碼相機的成本及技術難度,廠商通常在相機的光強傳感器前端增加一個顏色濾波矩陣(Color Filter Array,CFA)。其中,應用最廣泛的是Bayer 模式[1]。經過Bayer 模式采樣得到的圖片,包含有1/4 的紅色(R)通道、1/2的綠色(G)通道及1/4 的藍色(B)通道信息。由于在Bayer 采樣圖像上,每個像素點僅包含單個色彩通道信息,因此需要應用彩色圖像去馬賽克(Color image DeMosaicking,CDM)復原出全彩圖像。
已有的CDM 算法可以大致分為兩類:傳統算法和基于卷積神經網絡(Convolutional Neural Network,CNN)的算法。其中,CDM 傳統算法可分為基于插值的算法及基于重建的算法。基于插值的算法包含像素間簡單插值的算法[2-4]以及引入圖像的稀疏先驗信息的殘差插值算法[5-7]等。基于插值的算法運行速度較快,但容易使彩色圖像產生拉鏈效應及偽色彩效應。基于重建的算法通常將CDM 過程視為一個逆問題,引入一種或多種圖像先驗信息以約束求解。例如,黃麗麗等[8]結合稀疏編碼與字典學習,提出了非局部稀疏表示算法;Zhang 等[9]利用非局部圖像冗余先驗,應用非局部自適應算法抑制插值誤差;Chang 等[10]提出的CDM 算法則是聯合通道間相關性與非局部自相似性。基于重建的算法需要在線迭代求解優化問題,計算負擔過重,不易于實際應用。
隨著并行計算技術的發展,基于CNN 的算法突破了硬件瓶頸,近年來逐漸成為了CDM 算法的主流[11-15],其中較有代表性的算法是:Gharbi 等[11]將輸入的馬賽克圖像重新排列為四維特征圖,并使用原始圖像信息引導網絡重建過程;Tan等[12]將CDM 過程分為兩個階段(2-stage),其中第一階段產生中間結果,第二階段則通過殘差學習增強輸出圖像質量;在文獻[13]中,將訓練集分為粗糙、普通及光滑三類,獨立訓練3 個模型,并將3 個模型的輸出進行融合而得到最終結果;Cui 等[14]在2-stage 基礎上進一步提出了三階段(3-stage)網絡模型,其使用G 通道來引導R、B 通道的重建。
一般而言,通過增加網絡深度和寬度,能夠提升網絡性能,但是,網絡模型大小和計算量也會隨之增加。部分算法并未考慮龐大的模型尺寸在實際應用中的困難。例如,文獻[13]中提出對3 個去馬賽克網絡的輸出進行融合,但3 個網絡總的參數量達到了4.5×106,因此在設計CNN 網絡的同時,必須要考慮算法性能和復雜度/模型尺寸之間的權衡。
已有一些學者設計了高效的網絡構建模塊,旨在以較低的參數量獲得令人滿意的網絡性能。例如Chang 等[16]使用多支路以提取圖像中不同尺度的特征,但多支路方案使網絡的時間成本顯著增加。Hui 等[17]提出信息蒸餾模塊(Information Distillation Block,IDB),其部分特征通過跳躍連接實現信息蒸餾。但IDB 不針對蒸餾的信息進一步提煉特征,且存在著蒸餾特征與精煉特征不適配的情況。
為了以較小的網絡尺寸與計算復雜度獲得高質量的CDM 結果,本文提出了一種應用通道間相關性和增強信息蒸 餾(Inter-channel Correlation and Enhanced Information Distillation,ICEID)的彩色圖像去馬賽克網絡。本文的主要工作包括了三個方面:
1)提出了一種應用通道相關性的初始重建模塊(Interchannel-correlation-based Initial Reconstruction Module,IIRM)。該模塊直接在重排列的子色彩通道上提取特征,并利用R、G、B 三個色彩通道之間的相關性輔助進行丟失信號的初始重建。
2)為在網絡參數與網絡性能等之間獲得更好的平衡,提出增強信息蒸餾模塊(Enhanced Information Distillation Module,EIDM)。在該模塊中,通過引入信息蒸餾策略,有效地降低模型參數量;針對蒸餾的信息,進一步進行特征增強,以便與精煉的特征更好地適配,從而獲得更強的特征表達能力。
3)將IIRM 與EIDM 模塊進行級聯,構成了完整的CDM網絡ICEID。與其他典型的CDM 算法相比,所提出的網絡能夠以相對較低的網絡復雜度和網絡尺寸獲得最高的主觀質量與客觀質量。
Cui 等[14]提出的三階段網絡是一種較為經典框架,如圖1 所示。其中“Network”為通道重建子網絡,“LossG”“LossRG”“LossGB”“LossRGB”分別代表G 通道、RG 通道、GB 通道、RGB通道的損失函數。該算法首先將馬賽克圖像進行雙線性(Bilinear)插值得到初始圖像,再將初始圖像切分為R、G、B三通道分別進行重建。由于在Bayer 模式中,G 通道包含更多的采樣信息,故采用重建后的G 通道引導R、B 通道的重建,以獲得更高的重建質量。
圖1 三階段網絡的結構Fig.1 Structure of 3-stage network
但是,上述三階段網絡存在著以下問題:首先,其初始圖像由馬賽克圖像進行Bilinear 插值獲得,在插值后的圖像上提取信息,容易誤導網絡的學習過程;其次,在第一階段重建G 通道信號時,并未使用R 和B 通道的信息進行輔助,從而限制了G 通道的重建質量;最后,在通道重建子網絡中,對傳統的“卷積層+批歸一化+激活”模塊進行級聯,提取和精煉特征的效率不夠高。為了解決上述問題,一方面,本文提出IIRM 模塊進行初始的通道重建;另一方面,提出高效的EIDM 模塊進行特征提取和精煉。
Hui 等[17]提出了一種輕量化的信息蒸餾網絡(Information Distillation Network,IDN),其在網絡參數量與性能之間達到了較好的平衡。圖2 展示了IDN 中的基礎構建塊——信息蒸餾模塊(IDB),其中,“Conv”表示卷積層,“”表示特征通道的級聯(Concat)操作,“”表示特征通道的切分(Slice)操作,“⊕”表示特征通道的加操作。由圖2 可見,IDB 在結構中部對特征進行切分,部分特征與輸入特征級聯后直接連接到模塊末端,與經過提煉的特征進行相加。由于部分特征進行了跨層傳輸,IDB 的參數量得以減小。
圖2 IDB的結構Fig.2 Structure of IDB
IDB 的結構存在著下述問題:首先,被切分出來的16 個特征通道沒有作進一步的提煉,且與另一個支路的48 個特征通道的信息并不適配;其次,結構中存在多次特征通道的調整,需要過多地手工設計以匹配不同支路的特征維度,導致網絡設計不夠靈活。為了有效地解決IDB 中的缺陷,本文提出增強信息蒸餾模塊(EIDM),并將其作為本文去馬賽克網絡中的基礎構建塊。
本文提出了一種應用通道相關性和增強信息蒸餾(ICEID)的彩色圖像去馬賽克網絡。該網絡的結構如圖3 所示,主要由主要特征提取主支路與旁伴支路組成。為了避免Bilinear 插值所引入的誤導信息,將輸入的Bayer 圖像重排列為4 維特征“RG1G2B”,其長寬尺寸由H×W變換為×4。在主要特征提取支路中,“RG1G2B”通過IIRM 及EIDM,輸出特征尺寸為× 64,再傳遞給一個3×3 卷積層及子像素層[18](Sub-pixel),從而生成H×W× 3 的特征圖。在旁伴支路中,“RG1G2B”通過一層5×5 卷積層及子像素層生成H×W× 3 的特征圖,其輸出直接跨層連接至主要特征提取支路尾端以便于網絡進行殘差學習。最后,將輸出圖像中各個通道的Bayer 采樣位置像素替換為真實采樣值。ICEID 網絡內主要包含IIRM 與EIDM 兩個子模塊,采用端到端的訓練方式以解決CDM 問題,各個子網絡不進行獨立訓練。
圖3 應用ICEID的CDM網絡結構Fig.3 Structure of CDM network based on ICEID
如前文所述,從Bilinear 插值結果中提取特征,會一定程度上限制網絡的性能。為了高效、準確地從Bayer 圖像中提取特征,參照Gharbi 等[11]的算法,將H×W的Bayer 圖像重排列為4 個的子色彩通道“R”“G1”“G2”和“B”,并在這4個子色彩通道上進行特征提取。重排列的4 個子色彩通道可由式(1)得到:
其中:X表示輸入的Bayer 圖像,表示重排列特征圖像;(i,j)表示馬賽克圖像中像素的坐標位置,其中i∈[0,H/2-1],j∈[0,W/2-1];p=0,1,2,3 分別對應子色彩通道“R”“G1”“G2”和“B”。
圖4 為IIRM 的結構,該結構用于初步重建出3 個色彩通道的丟失信息。
圖4 IIRM的結構Fig.4 Structure of IIRM
具體地,對于R 和B 通道,IIRM 分別需要重建出3 個尺寸為的子通道;而對于G 通道,則僅需要重建出2 個的子通道。與文獻[14]不一樣,在本文提出的IIRM模塊中,在G 通道的重建過程中使用R、B 通道信息進行輔助,從而提升G 通道的重建準確性。由于G 通道具備更多的采樣信息,在G 通道重建后,再將其用于引導R、B 通道的重建。從上述結構可知,G 通道的重建準確度會影響R、B 通道的重建結果。因此在訓練中,本文將G 通道的重建誤差引入損失函數,以獲得高質量的G 通道重建結果。為了更為有效地提取特征,本文采用了殘差通道關注塊(Residual Channel Attention Block,RCAB)[19],該模塊的結構如圖5 所示,其中“?”表示特征通道的乘操作。通過引入通道注意力(Channel Attention,CA)機制,RCAB 可以獲得比傳統的殘差塊(Residual Block)更強的特征表達能力。但需要注意的是,因為IIRM 模塊僅負責對R、G、B 通道進行初始重建,所以在R、G、B 三個支路上都只使用了單個RCAB 塊。
圖5 RCAB的結構Fig.5 Structure of RCAB
在完成三個通道的丟失信息的初始重建后,將其分別與Bayer 采樣得到的3 個子色彩通道信息級聯,并采用3×3 卷積重新提取特征圖,以便進行下一階段的增強重建。
圖6 為EIDM 的結構圖,其由3 個信息蒸餾增強塊(Enhanced Information Distillation Block,EIDB)堆疊而成。在EIDB 中,“RCAG”代表殘差通道關注組(Residual Channel Attention Group,RCAG)。則EIDM 的函數形式可由式(2)表示:
圖6 EIDM的結構Fig.6 Structure of EIDM
其中:FEIDB-3(·)表示3 個EIDB 的級聯;為EIDM 函數輸入特征,C1表示1×1 卷積。
在EIDB 中,首先將輸入特征通過1×1 卷積層,以便隱式地學習如何進行特征的打包;接下來,通過Slice 操作,將前16 個特征通道劃分到上支路,剩余48 個特征通道劃分到下支路。針對上支路的16 個特征通道,采用了單個RCAB 塊進行特征提煉,針對下支路的48 個特征通道,采用RCAG 模塊進行特征提煉。RCAG 模塊的結構如圖7 所示,其中包含了M個級聯的RCAB 塊,以便有效地提煉48 個特征通道的深度特征。最后,將上下兩個支路的特征通道進行級聯,傳遞給下一個EIDB。
圖7 RCAG的結構Fig.7 Structure of RCAG
本文所提出的EIDB 的結構與文獻[17]中的IDB 結構的主要區別在于:一方面,在本文中,對蒸餾的信息,即上支路的16 個特征通道,也進行特征提煉;另一方面,經過蒸餾的信息與下支路精煉的信息是通過級聯操作進行合并。這樣的設計不僅有效地解決了兩個支路特征信息的不適配的問題,也避免了文獻[17]中超參數過多的問題。從參數量上來看,因為上支路僅針對16 個特征通道設置了一個RCAB 塊,所耗費的參數量遠低于下支路,所以仍然有利于將EIDB 的總參數量維持在相對較低的水平。而通過將多個EIDB 級聯構成的CNN 網絡,也能夠保持高效、輕量化的優勢。
為了能更好地證明本文算法的性能,將本文算法與自適應殘差插值(Adaptive Residual Interpolation for color image demosaicking,ARI)[7]、深度聯合去馬賽克與去噪(Deep Joint Demosaicking and Denoising,DJDD)[11]、基于深度殘差學習的彩色圖像去馬賽克(color image demosaicking via Deep Residual Learning,DRL)[12]、3-stage[14]這4 種主流的CDM 算法進行比較。其中,ARI 是傳統的CDM 算法,DJDD、DRL、3-stage 算法是3 種基于CNN 的算法。為了保證實驗的公平性,在本實驗中,使用相同的學習策略重新訓練DJDD、DRL與3-stage。具體地,使用自適應動量(ADAptive Momentum,ADAM)估計作為優化器,優化器初始化參數設置β1=0.9、β2=0.999 以及ε=10-8;網絡初始學習速率為2× 10-4,總訓練輪次(epoch)設置為200,其中學習率在epoch 為[100,140,180]時降低為之前的一半;使用Agustsson 等[20]提出的DIV2K 圖像庫作為訓練集,其輸入塊(patch)大小為96× 96,每個批次(batch)包含了64 對輸入塊及目標塊。
在本文網絡中,EIDM 是重要的基礎構建模塊。參照IDN 中相關參數設置,EIDM 中增強蒸餾支路特征通道維度為16,提煉支路特征維度設置為48;為了控制網絡參數量,EIDM 中M設置為3。本文算法采用L2 損失函數(loss function),如式(3)所示,其最終損失函數Loss由圖3 中的LossRGB與圖4 中的LossG組成:
其中:FICEID(·)表示ICEID 的函數形式,Θ1與Θ2分別表示初始G 通道重建階段與整體網絡重建階段的參數,Xk與Yk分別表示輸入Bayer 圖像與全彩目標參照圖像的第k個圖像塊表示全彩圖像塊Yk中的G 通道信號。
在測試階段中,使用廣泛應用的IMAX 與Kodak 數據集來測試網絡實際性能。本文采用彩色峰值信噪比(Color Peak Signal-to-Noise Ratio,CPSNR)及結構 相似指 數(Structural SIMilarity index,SSIM)作為客觀評價指標。以上所有實驗在一塊Nvidia GeForce RTX 2080Ti GPU 上進行。除ARI 外,所有算法在Pytorch 框架進行實驗。
表1 展示了本文所提網絡的不同變種模型的性能比較。其中,“Base”表示基礎網絡,其主體結構與ICEID 一致,但在EIDM 中僅使用特征通道數為48 的RCAG 替代EIDB;網絡“w/Bayer”表示在ICEID 網絡的基礎上,取消像素重排列,直接將Bayer 圖像輸入網絡;網絡“w/ID”表示在ICEID 網絡的基礎上,去除每個EIDB 上支路的RCAB,而直接將16 個特征通道與精煉后的48 個特征通道級聯;網絡“w/EID”表示在“Base”網絡中引入增強蒸餾機制,即完整的ICEID 網絡。
表1 在IMAX數據集上的消融實驗Tab.1 Ablation study on IMAX dataset
由表1 可知,在ICEID 網絡中取消像素重排列后,其CPSNR 下降了0.01 dB,SSIM 下降了0.000 3,說明了像素重排列能有效保留圖像結構特征信息,除此之外,像素重排列使色彩通道的分辨率降低為原來的1/4,能有效降低網絡的計算復雜度;在“Base”網絡中應用跨層傳輸結構后,其CPSNR 值提升了0.06 dB,說明了信息蒸餾結構能夠有效地提煉重要特征;在“Base”網絡中使用增強的信息蒸餾結構替代普通卷積后,其CPSNR 提升了0.09 dB,SSIM 提升了0.000 3,說明了增強的信息蒸餾策略能夠有效提升網絡的表達能力。從表1 可知,“w/EID”網絡相較“w/ID”網絡的參數量有少量的增加,原因在于“w/EID”在蒸餾信息支路增加了一個寬度為16 的RCAB。
將本文算法與4 種主流CDM 算法進行比較,其主觀結果見圖8、9,客觀結果見表2、3。
圖8、9 展示了本文算法與對比算法主觀質量上的差別。從圖8、9 中可以發現:傳統算法ARI 的主觀效果質量最差,其色彩偽影明顯,圖像邊緣鋸齒效應嚴重;DJDD、DRL、3-stage主觀效果有一定的提升,但在細節豐富的區域存在偽影現象。本文算法能夠獲得最優主觀質量:一方面,ICEID 能夠更準確地恢復圖像中的高頻特征;另一方面,ICEID 能較好的抑制色彩偽影、拉鏈效應等各類失真的產生。
圖8 對IMAX數據集中1號圖的各個CDM算法的主觀質量比較Fig.8 Subjective quality comparison of different CDM algorithms on Figure1 from IMAX dataset
由表2、3 可以看出,本文算法ICEID 在所有數據集中都獲得了最好的客觀結果。例如在Kodak 數據集中,相較于ARI[7]、DJDD[11]、DRL[12]、3-stage[14],本文算法在平均CPSNR上分別提升了3.37 dB、1.36 dB、0.72 dB、0.50 dB;在平均SSIM上分別提升了0.014 6、0.001 3、0.000 6、0.000 7。
表2 IMAX數據集上不同算法的定量比較Tab.2 Quantitative comparison of different algorithms on IMAX dataset
表3 Kodak數據集上不同算法的定量比較Tab.3 Quantitative comparison of different algorithms on Kodak dataset
圖9 對Kodak數據集中24號圖的各個CDM算法的主觀質量比較Fig.9 Subjective quality comparison of different CDM algorithms on Figure24 from Kodak dataset
如表4 所示,本文通過網絡參數量及浮點運算次數(FLOating Point of operations,FLOPs)衡量算法的復雜度,其中FLOPs 以目標參照圖分辨率為1 280×720 進行計算。由表4 可知,3-stage 網絡參數量遠大于其他對比算法,但其性能卻顯著低于本文算法;DJDD 網絡參數量雖然較小,但其重建性能較差。另外,DRL、3-stage 網絡采用馬賽克圖像的Bilinear插值結果作為網絡輸入,其特征運算尺寸為H×W;而DJDD與本文算法將馬賽克圖像重排列后作為網絡輸入,其特征運算尺寸為。所以,若在相同參數量下,DRL 與3-stage的FLOPs 約為本文算法的4 倍。
表4 不同算法的參數量和FLOPsTab.4 Parameter number and FLOPs of different algorithms
本文提出了一種被稱為ICEID 的彩色圖像去馬賽克網絡。首先,針對Bayer 模式設計特征提取網絡,能更充分、高效地利用彩色圖像通道間相關性進行初始重建;其次,作為基礎構建模塊,EIDM 能夠有效地對特征進行提煉,并保持相對較低的參數量。實驗結果表明,在相同的實驗環境下,與其他對比算法相比,ICEID 能夠達到最高的CPSNR 與SSIM,并且獲得最佳的主觀質量;其次,本文算法網絡參數量、復雜度都相對較低,更易于在實際應用場合中部署。下一步的工作重心是考慮在含有未知噪聲的應用場景中,提升網絡模型的性能與魯棒性。
致謝 此次論文數據獲得了廣西多媒體通信和網絡技術重點實驗室和廣西高性能計算平臺的支持,在此表示衷心的感謝!