王 雪,隋立春,2,楊振胤,康軍梅
WANG Xue1,SUI Lichun1,2,YANG Zhenyin3,KANG Junmei1
1.長安大學 地質工程與測繪學院,西安 710054
2.地理國情監測國家測繪地理信息局 工程技術研究中心,西安 710054
3.中國電建集團 西北勘測設計研究院有限公司,西安 710065
1.College of Geology Engineering and Geomatics,Chang’an University,Xi’an 710054,China
2.Engineering Research Center,Geographical Conditions Monitoring National Administration of Surveying,Mapping and Geoinformation,Xi’an 710054,China
3.Northwest Engineering Corporation Limited,POWERCHINA,Xi’an 710065,China
近些年來,隨著計算機技術、空間技術和信息技術的進步,遙感傳感器獲取技術呈現出多平臺、多傳感器、多角度的發展趨勢,高空間分辨率、高光譜分辨率和高時相分辨率的遙感影像日趨豐富[1]。遙感影像的空間分辨率越高,其識別地物的能力越強,因此可廣泛應用于城市信息提取、精準農業以及軍事測繪等方面。然而,在傳感器獲取影像的過程中,不可避免地受到光學成像系統、隨機噪聲和大氣擾動等影響。相比于改良硬件設施提高影像空間分辨率的方法,超分辨率重建技術成本較低,且耗費周期短,提升空間大,因此,該技術已成為提高空間分辨率的一種切實有效的方法。超分辨率重建技術(Super-Resolution Reconstruction,SRR)是通過處理一幅或多幅具有互補信息的低分辨率(Low Resolution,LR)觀測圖像來重構一幅高分辨率(High Resolution,HR)圖像,或者從多幅低分辨率觀測圖像獲得高分辨率圖像序列的一種技術[2-3]。目前,根據超分辨率重建方法的不同,主要分為:基于插值的方法、基于重建的方法和基于學習的方法。其中,基于重建的方法通過建立影像的幾何形變、模糊和下采樣模型,將多幅LR影像融合,生成HR影像。文獻[4]等針對超分辨率重建模型中圖像的保真項與正則化約束項,提出了一種使用分段函數自適應地求解最優范數解,在去噪和SRR中均取得較好的結果;鮮海瀅等[5]將單獨處理的圖像序列差異信息融入最大似然估計的HR影像中,取得較好的結果。此類基于重建的方法雖獲得較理想的結果,但針對遙感影像其同時刻、同地域的影像信息有限,不具有普適性,且當放大倍數較大時,LR影像提供的高頻信息不足,故兩種方法均無法滿足實際應用需求。為了充分利用HR影像本身的先驗知識,一些學者提出了基于學習的超分辨率重建方法。其中,Freeman和Kim等[6-7]提出了利用機器學習的基于樣本的超分辨率重建方法。近年來,隨著壓縮感知理論與稀疏表示理論的成熟,其理論在超分辨率重建的應用逐漸廣泛。Yang等[8-9]首次提出了基于稀疏編碼的圖像超分辨率重建方法(Super-resolution via Sparse Representation,ScSR),該方法通過聯合學習高、低分辨率字典,對預估計每個LR輸入圖像塊的高頻信息,在字典學習階段采用L1范數凸優化算法求解稀疏系數,采用Lee等[10]提出的拉格朗日對偶方法更新字典基。此方法在自然圖像的超分辨率重建和人臉識別方面均取得了較好的效果,對于模糊噪聲具有較強的魯棒性,自適應能力強。潘宗序等[11]針對全局字典無法稀疏表示所有圖像塊的問題,提出了一種自適應多字典學習的單幅圖像超分辨率重建算法。
在遙感影像的重建過程中,HR影像作為待估計影像是未知的,因此,若采用Yang[9]提出的聯合字典超分辨率重建方法,將地物特征復雜、信息量大的遙感影像作為訓練樣本學習字典,需耗費大量時間,且由此得到的字典因所提供的高頻信息不充分,無法對LR輸入影像進行較好的超分辨率重建。針對上述問題,本文將用于自然影像超分辨率重建的基于稀疏編碼方法引入到遙感影像的重建中,并進行了改進,提出了一種基于耦合字典對學習的遙感影像超分辨率重建方法。主要技術包括:(1)在數據預處理階段,實現了訓練樣本數據的自動選取,同時保證樣本庫豐富的地物類型,可以提高數據預處理效率;(2)在字典學習階段,將高、低分辨率兩個字典單獨進行學習,首先對LR影像塊進行字典學習,得到LR學習字典及稀疏系數,將其引入至HR字典學習中,對高分辨率字典進行優化更新;(3)在低分辨率字典學習過程中,為提高字典學習的效率,采用經典的最優方向(Method of Optimal Directions,MOD)字典學習方法。實驗表明,本文提出的方法字典學習效率得到明顯提高,且重建質量均好于其他兩種方法。
由于圖像本身存在冗余和自關聯性,通常情況下,圖像可以被特定的字典稀疏表示,即對于圖像信號x∈RN,可以由字典 D=[d1,d2,…,dM]∈RN×M(M>N)以及向量 α=[α1,α2,…,αM]T∈RM線性表示為:

其中,α為稀疏表示系數。
過完備字典的構造方法包括分析型和學習型兩種。基于學習的字典主要采用機器學習的思想,通過對樣本的學習,構造出學習字典使其能更加準確地對目標信號進行稀疏表示[12]。本文采用基于學習的方法構造過完備字典。式(1)可稀疏表示為:

其中,D 為學習字典,A=[α1,α2,…,αk]為稀疏系數陣,X為訓練樣本集,T為稀疏度。
由式(2)可知,字典學習過程即為已知X求解D和A的過程。該過程通常采用交替優化的方法分兩步求解:第一,給定一個初始的冗余字典,通過優化算法求解稀疏系數,常用的優化算法有匹配追蹤算法、基追蹤算法等。本文采用收斂性較好的正交匹配追蹤算法(Orthogonal Matching Pursuit,OMP)[13]。第二,采用字典更新算法對字典原子進行更新。常用的字典更新算法包括最優方向法(Method of Optimal Directions,MOD)[14]、主分量分析[15]、快速奇異值分解算法[16]及在線字典學習算法[17-18]等。考慮到算法的簡潔性與有效性,本文采用MOD算法,該算法是通過求解樣本圖像塊關于字典的表示和本身的誤差最小獲得字典,能夠經過少量迭代而達到收斂,具有高效性。算法的具體過程如下所示。


基于學習的超分辨率重建方法是通過學習得到高低分辨率圖像之間的關系,并用其估計得到高分辨率圖像。為此,需分別通過高低分辨率特征塊學習高低分辨率字典,并建立兩種字典的關系。針對自然圖像,Yang[9]提出了聯合字典對的學習方法。給定訓練樣本圖像塊對 P={Xh,Yl},其中,Xh={x1,x2,…,xn}表示HR影像塊構成的訓練樣本,Yl={y1,y2,…,yn}表示由Xh下采樣后得到的LR影像訓練樣本,其中,每個樣本對(xi,yi)均由高低分辨率遙感影像特征塊的列向量表示。為保證學習過程中高低分辨率字典具有相同的稀疏表示,定義其學習模型為:

其中,Dh和Dl分別表示高、低分辨率字典,它們具有相同的稀疏矩陣A,λ為正則化參數,用于平衡數據的保真性和解的稀疏性。將式(3)、(4)兩式合并,且保持兩者具有相同的稀疏系數,則有:

其中,N和M為HR圖像塊和LR圖像特征塊的向量維數。
然而,在上述聯合字典學習過程中,先賦予稀疏系數初始值,然后經優化學習得到最終的字典及稀疏系數,但缺少先驗信息的加入。針對此問題,本文采用MOD耦合字典的學習方法,先學習低分辨率字典得到稀疏系數,再將其作為先驗信息引入至高分辨率字典學習過程中,提高了學習字典的質量。具體字典學習過程如下。
(1)MOD算法學習低分辨率字典Dl,目標函數為:

其中,A為低分辨率特征塊關于Dl的稀疏系數陣。
(2)學習高分辨率字典Dh。將過程(1)獲得的A作為高分辨率特征塊的稀疏系數,從而保證高、低分辨率字典對具有相同的稀疏系數,則高分辨率字典學習的數學函數定義為:

然而,式(7)是一個局部模型,未考慮到高分辨率影像塊之間的重疊。因此,在考慮整個高分辨率影像塊的逼近誤差時,還需考慮相鄰塊之間的匹配問題,對上式進行修改以獲得更好的高分辨率字典[3]。最終得到如下模型:

其中,Fk為提取算子,X?h為估計的高分辨率影像。
基于稀疏表示的重建過程具體可分為三步:第一,對輸入的LR遙感影像進行預處理;第二,由高低分辨率字典對每個特征塊估計出初始的高分辨率影像塊;第三,利用梯度下降算法優化初始高分辨率影像,得到最終的超分辨率重建影像。本文利用式(6)及式(8)的字典學習過程,分別得到高低分辨率字典Dh、Dl,重建詳細步驟如下。

本文分別將高分一號(GF-1)PMS數據與TM5數據作為原始數據,實驗過程中,在保證訓練樣本集地物類型豐富的基礎上,采用IDL編程實現訓練樣本的自動截取,其選取的訓練樣本數量為100幅,通過本文提出的方法進行樣本訓練,得到學習字典。為了定量評價驗證本文算法的有效性,待重建的低分辨率影像由高分辨率影像降采樣所得,其降采樣因子為3。同時以高分辨率影像作為參考影像,采用峰值信噪比PSNR、結構相似性指標SSIM及ERGAS(Erreur Relative Globale Adimensionnell de Synthèse)[19]作為定量評價指標,將本文方法的重建結果與插值方法及Yang提出的ScSR方法進行分析比較,以驗證算法的有效性。其中,ERGAS反映影像的相對變化及絕對變化,與影像質量成反比,其理論最優值為0。
首先,將100幅高分辨率訓練樣本圖像塊作3倍降采樣,得到與高分辨率影像對應的100幅低分辨率影像塊,構成高、低分辨率影像庫,再隨機提取100 000個5×5像素的影像塊對進行字典學習,其余參數設置與ScSR中的一致:字典大小2 048,像素重疊為4,重建過程中最大迭代次數為40。MOD字典學習過程中,迭代次數設置為40次。算法均只對亮度通道Y進行基于MOD耦合字典學習模型的超分辨率重建(以下簡稱MODSR算法),而對色度通道(Cb,Cr)僅作雙三次插值處理。
實驗中分別隨機選取4幅不同位置、不同像素大小的GF-1影像和TM5影像作為測試數據。在字典學習過程中,本文方法較Yang的ScSR方法用時減少63 108 s,具有更快的字典學習速度,證明了本文算法的高效性。圖1、2分別演示了GF-1數據在城市區域和鄉村區域的重建結果圖,圖3給出了TM5數據在山區的重建結果圖。由圖1可看出,雙三次插值圖像中邊緣模糊,視覺顯示質量較差。ScSR重建結果與雙三次插值方法相比,恢復了部分細節信息,具有較明顯的視覺提高,但在建筑物的邊緣,重建圖像仍然較為模糊。相比之下,本文提出的MODSR方法恢復了更多的細節信息,在建筑物邊緣上尤為明顯,整體視覺質量高于雙三次插值方法和ScSR方法。圖2為鄉村區域的重建結果圖,由于鄉村區域地物結構類型較簡單,在視覺方面3種方法均有較好的重建結果,在農田的紋理方面,本文方法與ScSR方法優于雙三次插值方法。圖3為TM5山區影像的重建結果,由于其分辨率較低,3倍重建的效果均低于GF-1影像,但相比于其他兩種方法,本文方法在視覺紋理上效果較好,例如左上方的山脊線。
對本文提出的重建方法進行了定量評價,表1列出了測試影像采用3種算法重建結果的PSNR、SSIM及ERGAS指標值,由表1可知,綜合4幅GF-1影像求平均值,在PSNR值上,本文算法比雙三次插值方法提高1.30,與Yang提出的ScSR方法相比提高0.92;在SSIM指標上,本文算法比雙三次插值方法改善0.021,而與ScSR方法相比改善0.014 7;在ERGAS指標上,本文算法相比于雙三次插值方法和ScSR方法均有明顯改善。綜合多幅圖像的PSNR、SSIM和ERGAS的評價值,以及主觀視覺評價發現,本文提出的方法均優于其他兩種方法,證明了該方法的有效性。

圖1 GF-1-01不同算法重建效果比較

圖2 GF-1-04不同SR算法重建效果比較

圖3 TM5-04不同SR算法重建效果比較

表1 不同算法重建結果
本文對用于自然影像的基于聯合字典學習的超分辨率重建算法進行了改進和擴展,提出了一種基于耦合字典對學習的遙感影像超分辨率重建方法。在字典學習階段,將高、低分辨率字典單獨進行學習,首先采用速度更快的MOD字典算法進行低分辨率字典學習和訓練,保證了訓練樣本在高、低分辨率字典中具有相同的稀疏表示;將LR影像樣本塊學習得到的稀疏系數作為先驗信息引入至高分辨率字典學習中,對高分辨率字典進行優化更新。此外,針對遙感影像信息量大的問題,采用IDL語言編程,實現訓練樣本圖像塊自動選取,提高了數據預處理的效率。為了驗證本文算法和模型的有效性,采用了兩種不同分辨率的遙感影像進行了驗證實驗:一種是空間分辨率為2 m的高分一號影像;一種是空間分辨率為30 m的TM5影像。與傳統的雙三次插值方法及ScSR方法對比實驗表明,本文算法在視覺效果上,其重建結果更加清晰,幾何紋理結構更加明顯;在定量評價中,PSNR、SSIM及ERGAS指標值均有改善,證明了本文算法有更高的空間分辨率提升能力。同時,本文算法在字典學習過程中所需時間遠少于ScSR算法,證明了該算法的高效性。
參考文獻:
[1]李德仁.論21世紀遙感與GIS的發展[J].武漢大學學報:信息科學版,2003,28(2):3-7.
[2]鐘九生.基于稀疏表示的光學遙感影像超分辨率重建算法研究[D].南京:南京師范大學,2013.
[3]沈煥鋒,李平湘,張良培,等.圖像超分辨率重建技術與方法綜述[J].光學技術,2009,35(2):194-199.
[4]Shen H,Peng L,Yue L,et al.Adaptive norm selection for regularized image restoration and super-resolution[J].IEEE Transactions on Cybernetics,2016,46(6):1388-1399.
[5]鮮海瀅,傅志中,萬群,等.基于非冗余信息的超分辨率算法[J].電波科學學報,2012(2):10-15.
[6]Freeman W T,Jones T R,Pasztor E C.Example-based super-resolution[J].Computer Graphics and Applications,2002,22(2):56-65.
[7]Kim K I,Kwon Y.Single-image super-resolution using sparse regression and natural image prior[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(6):1127-1133.
[8]Yang J,Wright J,Huang T,et al.Imagesuper-resolution as sparse representation of raw image patches[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC,USA:IEEE Computer Society,2008:1-8.
[9]Yang J,Wright J,Huang T S,et al.Image super-resolution via sparse representation[J].IEEE Transactions on Image Processing,2010,19(11):2861-2873.
[10]Lee H,Battle A,Raina R,et al.Efficient sparse coding algorithms[C]//Advances in Neural Information Processing Systems,2006:801-808.
[11]潘宗序,禹晶,肖創柏,等.基于自適應多字典學習的單幅圖像超分辨率算法[J].電子學報,2015,43(2):209-216.
[12]李珅.基于稀疏表示的圖像去噪和超分辨率重建研究[D].西安:中科院研究生院(西安光學精密機械研究所),2014.
[13]Tropp J A,Gilbert A C.Signal recovery from random measurements via orthogonal matching pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4655-4666.
[14]Engan K,Aase S O,Hakon Husoy J.Method of optimal directions for frame design[C]//Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing,1999:2443-2446.
[15]Vidal R,Ma Y,Sastry S.Generalized Principal Component Analysis(GPCA)[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(12):1945-1959.
[16]Aharon M,Elad M,Bruckstein A M.The K-SVD:An algorithm for designing of over-complete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing,2006,54(11):4311-4322.
[17]Mairal J,Bach F,Ponce J,et al.Online learning for matrix factorization and sparse coding[J].The Journal of Machine Learning Research,2010,11:19-60.
[18]Mairal J,Bach F,Ponce J.Task-driven dictionary learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4):791-804.
[19]江鋮.光學遙感影像空間分辨率提升的正則化方法研究[D].武漢:武漢大學,2015.