錢 陽,李 雷
(南京郵電大學 視覺認知計算與應用研究中心,江蘇 南京 210023)
基于新型魯棒字典學習的視頻幀稀疏表示
錢 陽,李 雷
(南京郵電大學 視覺認知計算與應用研究中心,江蘇 南京 210023)
字典學習方法是一種非常有效的信號稀疏表示方法,在稀疏信號處理領域應用極其廣泛。然而,實際應用中,訓練樣本和測試樣本可能會受到損壞并且含有噪聲和異常值,這將嚴重影響字典學習方法的性能。為此,不同于傳統的字典學習方法從干凈數據中學習字典,提出一種新型魯棒字典學習算法,旨在處理訓練樣本中的異常值。該算法通過采用交替近端線性化方法求解非凸的最小l0范數,在學習魯棒字典的同時隔離訓練樣本中的異常值。大量仿真對比實驗表明,所提算法具有更好的魯棒性,并能提供很好的性能改進。
字典學習;稀疏表示;異常數據;魯棒性
近年來,信號的稀疏表示模型已成為重要的科研議題并吸引著學者們的廣泛關注[1]。傳統的稀疏表示思路是基于固定正交基的變換,如傅里葉變換、離散余弦變換、小波變換、Curvele變換等。這些正交基雖然構造相對簡單,計算復雜度低,但不能與圖像本身的復雜結構最佳匹配,并不是最優的稀疏變換基。隨著字典學習方法[2-4]的深入研究,人們開始根據信號本身來學習過完備字典,對稀疏編碼研究的一個熱點是信號在冗余字典下的稀疏分解。諸多研究成果表明,通過學習獲得的字典原子數量更多,形態更豐富,具有更稀疏的表示,能更好地與信號或圖像本身的結構匹配,為圖像帶來更大的壓縮空間,在圖像分類[5]、圖像去噪[6]、圖像修復[7]、圖像超分辨率[8]等方面表現出了更優的性能。


(1)

兩種算法最主要的區別在于字典更新的方式不同。MOD算法在字典更新時,對整個字典一次更新,而K-SVD算法則是利用奇異值分解方式逐個更新字典原子,避免矩陣求逆計算的同時也提高了算法的收斂速度。
大多數的字典學習模型都是基于平穩的高斯白噪聲假設而建立的,即每個訓練信號可以表示為yi=Dxi+ni,其中ni為0均值的高斯向量。然而,在實際應用中,訓練樣本中除了含有輕微的高斯噪聲外,還含有少量的異常值,這些異常值的存在將會影響字典學習方法的性能。為此,陳和吳[11]提出了一種魯棒的字典學習方法,通過將重建誤差分解為小而密的噪聲和大而稀疏的異常值,同時考慮加性高斯噪聲和稀疏損壞這兩方面,以獲得魯棒字典;SajjadAmini等[12]則從另一個角度出發,研究了訓練樣本中含有異常值的情況,建立出魯棒的字典學習模型,并利用優化算法學習魯棒字典的同時,隔離了異常值。
文中基于文獻[12]提出的魯棒字典學習模型,采用交替近端線性化方法[13]求解非凸的最小l0范數,從含有異常值的訓練樣本中學習魯棒的冗余字典。將所提算法用于視頻幀圖像去噪中,仿真對比實驗結果表明,文中算法具有更好的去噪性能,且表現出了較好的魯棒性。
考慮到訓練樣本中含有異常值的情況,將訓練樣本集中的每一個信號表示為如下的數學模型:
yi=Dxi+ni+oi
(2)
其中,ni為0均值的高斯向量;oi為異常值向量,當第i個訓練信號為異常值時,oi≠0,否則oi=0。
為了獲得魯棒的字典學習模型,與文獻[12]一樣,假設異常值的數目遠小于訓練樣本總數N,則考慮異常值情況下的魯棒字典學習模型如式(3)所示:

(3)

通過引入正則化參數λ2,式(3)可以轉化為如下的無約束最優化問題。
(4)
式(4)中的模型扮演著雙重角色:從訓練樣本集中學習字典D和隔離異常值。然而模型(4)是一個非凸優化模型,l0范數不可微且是NP難題,在多項式時間內只能求得次優解。一種最常用的做法是采用l1范數來最佳凸逼近l0范數[14]。文獻[11]就是通過將l0范數模型轉化為最小l1范數問題,并利用坐標下降法交替優化字典、稀疏表示系數和異常值,從而訓練出魯棒字典。
受文獻[13]中所提交替近端線性化方法的啟發,提出一種新的優化算法來求解式(4)的魯棒字典學習模型。
文中所提算法是基于近端方法[15]而設計的,該算法求解的是式(5)所示的非凸問題:

(5)
其中,F(x),G(y)都是適當的下半連續函數;Q(x,y)是一個在任何有界集中都具有Lipschitz梯度的光滑函數。
文獻[15]中所提出的近端方法是通過求解如下的鄰近問題來更新(x,y)的估計:
(6)

使用文獻[16]中定義的鄰近算子:
(7)
則對最小化問題(6)的求解等價于如下的近端問題[13]:
(8)
基于此,模型(4)可以表示為如下形式:
(9)

受交替近端線性化方法[13]的啟發,采用交替迭代最小化的方式來更新D,X和O。
為了方便起見,使用上標(k)表示第k次迭代中的數值。
2.1 稀疏編碼階段
稀疏編碼階段,即為對X的求解。在第k+1次迭代時,給定D(k),X(k)和O(k),則有:

(10)

(11)

(12)
則X(k+1)的第(i,j)個元素可以很容易獲得[13]:
(13)
2.2 字典更新階段
這一階段旨在更新字典D。由于D是列歸一化的,因此可以逐列更新字典原子,即有:

(14)
其中,

(15)
其中,qj是第j個元素為1、其余元素為0的K維向量。

(16)
2.3 異常值更新階段
給定D(k+1),X(k+1)和O(k),類似地,異常值的更新即為求解如下的優化問題:
(17)

(18)

(19)
對式(19)進行求解,可得到O(k+1)的第(i,j)個元素為:
(20)
2.4 步長設置
(21)
將所提新型魯棒字典學習算法用于視頻幀圖像的去噪處理中,以驗證其良好性能。采用格式為CIF的標準視頻序列Foreman進行實驗仿真,隨機選取Foreman的第1、8、19、25、33、40幀作為測試樣本集,如圖1所示。實驗中將大小為352×288的視頻幀分成不重疊的8×8的圖像塊,并向每一塊圖像中加入均值為0、方差較低(σ2=102)的獨立同分布的高斯白噪聲,接著從中任選出r塊(r=0,1,2,…且r?1 584,表示異常值的塊數),再向這r塊圖像中加入均值為0、方差更高(σ2=302)的獨立同分布的高斯白噪聲,最后從含有異常值的圖像塊中訓練冗余字典,以實現視頻幀圖像的去噪。設置所訓練的字典原子數為256,ρ=1.1,μmin=0.1,最大迭代次數為30。實驗平臺為ThinkPadX1Carbon3rd,Windows7,Intel(R)Core(TM)i7-5600UCPU,2.6GHz,8GB,所有實驗設計基于MatlabR2011a編程實現。

圖1 測試圖像集
分別采用DCT、K-SVD和所提算法對測試圖像集中的每一視頻幀進行去噪處理,圖2給出了異常值塊數為5時,三種算法從視頻序列的第25幀中學習的冗余字典。

圖2 三種算法訓練出的冗余字典
從圖2中可以看到,DCT訓練出的字典原子形態最不豐富,采用K-SVD算法訓練出的字典已能較好地與圖像本身的結構相匹配,而文中算法所訓練的字典原子形態最豐富,為圖像帶來了更大的壓縮空間。
為了展示所提算法具有更好的去噪性能,圖3給出了不同算法隨異常值塊數增加時去噪性能變化情況對比圖。為了消除隨機性,每一測試幀的PSNR取5次執行結果的平均值,且取6個測試幀的平均PSNR作為實驗最終結果。

圖3 6個測試幀的平均PSNR隨異常值塊數變化圖
由圖3可知,隨著異常值塊數的增加,三種算法的去噪性能都在降低,但所提算法表現出了更好的魯棒性。其中,DCT的去噪性能最低,這是由于DCT采用的是正交變換,訓練出的字典原子不豐富;雖然K-SVD算法訓練出的字典已能較好地與圖像本身的結構相匹配,但由于訓練樣本中含有異常值,而K-SVD算法無法隔離異常值,因此其去噪效果沒有文中算法的效果好。
此外,圖4中給出了異常值塊數為8時,三種算法對Foreman第33幀去噪后的視覺效果圖,進一步驗證了文中算法具有更優的魯棒性以及去噪性能。

圖4 三種算法去噪后的視覺效果圖
文中提出了一種新型的魯棒字典學習優化模型,并采用交替近端線性化方法求解該模型,在學習冗余字典的同時也隔離了訓練樣本中的異常值。仿真對比實驗表明,文中所提算法能提供很好的魯棒性,并在圖像去噪方面表現出了更優的性能。
[1]EladM.Sparseandredundantrepresentations:fromtheorytoapplicationsinsignalandimageprocessing[M].Berlin:Springer,2010.
[2] 練秋生,石保順,陳書貞.字典學習模型、算法及其應用研究進展[J].自動化學報,2015,41(2):240-260.
[3]Kreutz-DelgadoK,MurrayJF,RaoBD,etal.Dictionarylearningalgorithmsforsparserepresentation[J].NeuralComputation,2003,15(2):349-396.
[4]RubinsteinR,BrucksteinAM,EladM.Dictionariesforsparserepresentationmodeling[J].ProceedingsoftheIEEE,2010,98(6):1045-1057.
[5]BahrampourS,NasrabadiNM,RayA,etal.Multimodaltask-drivendictionarylearningforimageclassification[J].IEEETransactionsonImageProcessing,2016,25(1):24-38.
[6]EladM,AharonM.Imagedenoisingviasparseandredundantrepresentationsoverlearneddictionaries[J].IEEETransactionsonSignalProcessing,2006,15(12):3736-3745.
[7]LiuJ,MaX.Animprovedimageinpaintingalgorithmbasedonmulti-scaledictionarylearninginwaveletdomain[C]//IEEEinternationalconferenceonsignalprocessing,communicationandcomputing.[s.l.]:IEEE,2013:1-5.
[8]LiuX,ZhaiD,ZhaoD,etal.Imagesuper-resolutionviahierarchicalandcollaborativesparserepresentation[C]//Datacompressionconference.[s.l.]:IEEE,2013:93-102.
[9]EnganK,AaseSO,HakonHJ.Methodofoptimaldirectionsforframedesign[C]//IEEEinternationalconferenceonacoustics,speech,andsignalprocessing.[s.l.]:IEEE,1999:2443-2446.
[10]AharonM,EladM,BrucksteinA.K-SVD:analgorithmfordesigningovercompletedictionariesforsparserepresentation[J].IEEETransactionsonSignalProcessing,2006,54(11):4311-4322.
[11]ChenZ,WuY.Robustdictionarylearningbyerrorsourcedecomposition[C]//ProceedingsoftheIEEEinternationalconferenceoncomputervision.[s.l.]:IEEE,2013:2216-2223.
[12]AminiS,SadeghiM,JoneidiM,etal.Outlier-awaredictionarylearningforsparserepresentation[C]//IEEEinternationalworkshoponmachinelearningforsignalprocessing.[s.l.]:IEEE,2014:1-6.
[13]BaoC,JiH,QuanY,etal.L0Normbaseddictionarylearningbyproximalmethodswithglobalconvergence[C]//ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.[s.l.]:IEEE,2014:3858-3865.
[14]ChenSS,DonohoDL,SaundersMA.Atomicdecompositionbybasispursuit[J].SIAMReview,2001,43(1):33-61.
[15]BolteJ,SabachS,TeboulleM.Proximalalternatinglinearizedminimizationfornonconvexandnonsmoothproblems[J].MathematicalProgramming,2014,146(1-2):459-494.
[16]RockafellarRT,WetsRJB.Variationalanalysis,volume317ofgrundlehrendermathematischenwissenschaften[M].Berlin:Springer,1998.
Sparse Representation of Video Frame Based on Novel Robust Dictionary Learning
QIAN Yang,LI Lei
(Center for Visual Cognitive Computation and Application,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)
Dictionary learning is a very effective signal sparse representation method which has been widely used in the field of sparse signal processing.However,in practice,both training and testing samples may be corrupted and contain noises and a few outlier data,which may heavily affect the learning performance of it.Hence,in contrast to the conventional dictionary learning methods that learn the dictionary from clean data,a novel robust dictionary learning algorithm is proposed to handle the outliers in training data.In the proposed algorithm,the alternating proximal linearized method is used for solving the non-convexl0normbaseddictionarylearningproblem.Thus,therobustdictionarycanbelearnedandoutlierscanbeisolatedinthetrainingsamplessimultaneously.Thesimulationexperimentalresultsdemonstratethatthemethodhasthepromisingrobustnessandcanprovidesignificantperformanceimprovement.
dictionary learning;sparse representation;outlier data;robustness
2016-03-06
2016-06-23
時間:2017-01-04
國家自然科學基金資助項目(61070234,61071167,61373137,61501251);江蘇省2015年度普通高校研究生科研創新計劃項目(KYZZ15_0235);南京郵電大學引進人才科研啟動基金資助項目(NY214191)
錢 陽(1991-),女,碩士生,研究方向為非線性分析及應用;李 雷,博士,教授,研究方向為智能信號處理和非線性科學及其在通信中的應用。
http://www.cnki.net/kcms/detail/61.1450.TP.20170104.1023.040.html
TP
A
1673-629X(2017)02-0037-05
10.3969/j.issn.1673-629X.2017.02.009