姚正元, 郭立君,張 榮
(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
對(duì)于監(jiān)控視頻中的人臉圖像,往往因?yàn)楣饩€不足,人臉距離監(jiān)控設(shè)備過遠(yuǎn)等原因而變得模糊不清,充滿噪聲。為此,有必要利用先驗(yàn)信息,提升人臉圖像的分辨率。
單幀圖像的超分辨率(super-resolution,SR)重構(gòu)問題中,基于學(xué)習(xí)的SR重構(gòu)方法成為近年來研究的重點(diǎn)。 Baker S和Kanade T[1]首次提出了“人臉幻構(gòu)”概念。Liu C等人[2]提出了兩步法,將一個(gè)全局的參數(shù)高斯模型和一個(gè)局部的非參數(shù)的馬爾科夫隨機(jī)場(Markov random field,MRF)模型整合。此后,研究開始集中于利用包含高低分辨率圖像對(duì)的訓(xùn)練集,從單個(gè)的低分辨率(low-resolution,LR)人臉圖像重構(gòu)出高分辨率(high-resolution,HR)圖像。此類方法,包含基于全局的人臉圖像或者基于塊來重構(gòu)HR圖像。
基于塊的人臉SR方法是通過對(duì)訓(xùn)練集中的塊線性組合,來重構(gòu)測試的低分辨率塊。為了獲得更多的面部結(jié)構(gòu)的先驗(yàn)知識(shí),Ma X[3]提出了一種基于塊位置重構(gòu)人臉圖像的框架,方法基于最小二乘表示(least squares representation,LSR)用所有的訓(xùn)練塊重構(gòu)圖像塊。為了克服LSR的不穩(wěn)定性,Yang J等人[4]首次提出了基于稀疏表示的人臉圖像超分辨率方法,此后,Wang Z Y等人[5~9]提出了一種加權(quán)的稀疏表示人臉超分辨率方法。為了進(jìn)一步探索局部圖像塊的關(guān)系,Shi J[10]提出了將全局重構(gòu)模型,局部稀疏模型和像素相關(guān)模型組合成統(tǒng)一的正則化框架,展現(xiàn)了一種新的超分辨率重構(gòu)方法。
上述SR重構(gòu)方法在人臉超分辨率問題上取得了很大的成功,但對(duì)于視頻監(jiān)控中的人臉圖像,往往充滿噪聲。為了解決這個(gè)問題,Jiang J等人[11~13]提出了一種基于塊的局部約束模型(local constraint model,LCR)。在此基礎(chǔ)上,Jiang J[14]提出了一種基于平滑的超分辨率重構(gòu)方法(smooth SR,SSR),取得了一定的平滑與去噪效果。喬少華等人[15]提出了一種基于統(tǒng)計(jì)量的加權(quán)函數(shù)圖像重建方法,對(duì)含有多種噪聲的退化圖像能夠取得比較理想的結(jié)果。Jiang J等人提出的重構(gòu)模型都是基于高低分辨率字典是高度相關(guān),并且有相似的結(jié)構(gòu)分布這一假設(shè),但直接基于人臉圖像空間構(gòu)建的高低分辨率字典無法滿足高度相關(guān)的條件,影響了重構(gòu)的效果。
本文提出了基于典型相關(guān)分析(canonical correlation analysis,CCA)空間的平滑稀疏超分辨率重構(gòu)算法,利用先驗(yàn)信息中人臉圖像存在相似性這一特點(diǎn),將2組字典映射到CCA空間,增強(qiáng)2組字典之間的相關(guān)性,最大限度地利用圖像之間的關(guān)聯(lián)信息,增強(qiáng)了高低分辨率字典的相關(guān)性,進(jìn)而利用高低分辨率字典的信息,剔除冗余和噪聲成分,增強(qiáng)對(duì)噪聲的魯棒性。同時(shí),為了達(dá)到更好的CCA映射,獲得增強(qiáng)相似性的效果,進(jìn)一步提出了基于排序和更新的字典優(yōu)化方法:在重構(gòu)過程中,與輸入塊更相似的訓(xùn)練塊應(yīng)該被給予更大的重構(gòu)權(quán)重,對(duì)字典按照和輸入圖像塊的相似性從高到低進(jìn)行排序;為了去除噪聲和冗余,對(duì)于排序后的字典,對(duì)字典進(jìn)行一次稀疏更新;對(duì)于優(yōu)化過的字典,再次進(jìn)行CCA映射。實(shí)驗(yàn)結(jié)果表明:所提算法重構(gòu)效果更加清晰,對(duì)噪聲魯棒性更好。


圖1 按位置劃分的人臉圖像
對(duì)于一個(gè)LR觀測的人臉圖像的圖像塊xt,使用訓(xùn)練集中在相同位置的所有的訓(xùn)練塊表示
(1)
式中ε為重構(gòu)誤差。最佳的重構(gòu)系數(shù)能夠通過式(2)的約束最小二乘問題解決
(2)
式中w=[w1,w2,…,wN]T為對(duì)于LR觀測塊xt的N維重構(gòu)權(quán)重向量。


(3)
式中 ‖·‖1為l1范數(shù);λ為正則化參數(shù),用于平衡重構(gòu)誤差和重構(gòu)系數(shù)的稀疏性。該稀疏約束不僅保證欠定方程具有確切的解,并且學(xué)習(xí)出的稀疏系數(shù)w對(duì)于輸入塊能夠有效捕捉塊最突出,最有效的信息。
上述重構(gòu)過程并未考慮在實(shí)際中高低分辨率字典并不是高度相關(guān)的問題,因此,在人臉稀疏重構(gòu)中引入了CCA空間。
當(dāng)數(shù)據(jù)集是多維數(shù)據(jù)集時(shí),CCA采用線性變換,將數(shù)據(jù)集從多維降為一維,再用相關(guān)系數(shù)進(jìn)行分析。對(duì)于CCA方法,選擇的投影標(biāo)準(zhǔn)是降到一維后,2組數(shù)據(jù)的相關(guān)系數(shù)最大。
設(shè)X=[x1,x2,…,xN]和Y=[y1,y2,…,yN]分別為輸入塊xt對(duì)應(yīng)的LR和HR字典。其中,N為字典的向量個(gè)數(shù),即原子個(gè)數(shù)。將2個(gè)字典轉(zhuǎn)換到CCA空間。
CCA的目標(biāo)是分別為低高分辨率字典LR和HR尋找2組基向量α和β,使得經(jīng)過基向量映射過的字典Xc=αX和Yc=βY之間的相關(guān)系數(shù)達(dá)到最大,即
(4)
取得最大值,其中,E[]表示數(shù)學(xué)期望。

由于低高分辨率字典X和Y之間存在相似的內(nèi)在結(jié)構(gòu),通過其變換到CCA空間,將2個(gè)字典之間的線性相關(guān)性最大,進(jìn)而使得2個(gè)字典內(nèi)部拓?fù)浣Y(jié)構(gòu)的一致性增強(qiáng)。圖2為CCA映射過程。

圖2 CCA映射過程
在將高低分辨率字典映射到CCA空間之后,雖然字典中的所有字典對(duì)的相關(guān)性被增強(qiáng),但是CCA基向量的獲取會(huì)被字典中的無效塊所影響。本文對(duì)映射到CCA空間的字典進(jìn)行排序,對(duì)字典進(jìn)行稀疏更新,再次映射到CCA空間,以進(jìn)一步增加相關(guān)性,過濾掉干擾噪聲和冗余信息。
1.3.1 字典排序
對(duì)字典中的原子排序,對(duì)于和輸入圖像塊更相似的字典中的原子,被排到了前面,并且集中在一起,在重建中能夠獲得更大的權(quán)重。對(duì)于噪聲和冗余原子等則被集中排在了后面,會(huì)獲得更小的稀疏權(quán)重。根據(jù)字典中的圖像塊和xt的相似度,對(duì)字典中的圖像塊進(jìn)行重新排序
dist={|αxt-αxi‖1≤i≤N}
(5)
按照相似度從高到低重新標(biāo)序?yàn)閄idx=[x[1],x[2],…,x[i],…,x[N]],其中,Xidx為原子重新排序的LR字典。[x[1],x[2],…,x[i],…,x[N]]為重新排完序的字典中的原子。X[i]為LR字典里面的第i個(gè)原子。
1.3.2 字典稀疏更新
對(duì)于排序后的字典,為了達(dá)到更優(yōu)的CCA映射,進(jìn)一步增強(qiáng)在對(duì)輸入塊的稀疏表示中最重要的圖像塊對(duì)之間的聯(lián)系,得到優(yōu)化的CCA映射的基向量,進(jìn)行一次稀疏更新,訓(xùn)練出一個(gè)更加具有代表性,更加緊湊的字典。通過去掉冗余以及不相關(guān)的字典對(duì),使重構(gòu)系數(shù)免受干擾。從而對(duì)噪聲更加魯棒。
對(duì)于輸入塊xi,可以通過式(6)用LR字典X稀疏表示
(6)
式中w為稀疏系數(shù)。 求出的稀疏系數(shù)w中的非零項(xiàng)表示的字典的原子組成了排序后的字典Xidx的子集Xs=[x1,x2,…,xi,…,xM],M為更新后的字典原子的個(gè)數(shù)。對(duì)于優(yōu)化更新完的Xs,重新計(jì)算基向量α。
對(duì)于人臉圖像,重構(gòu)圖像的平滑性很重要,但稀疏模型往往忽略圖像的平滑性。在CCA映射的基礎(chǔ)上,考慮在稀疏模型的基礎(chǔ)上加入局部平滑約束項(xiàng)。提出的目標(biāo)函數(shù)為
(7)
第二個(gè)約束為平滑約束項(xiàng),λ2控制稀疏差異約束。對(duì)字典中排序后的相鄰塊的稀疏重構(gòu)系數(shù)加以差異約束,能夠達(dá)到稀疏系數(shù)的平滑性。
重構(gòu)過程具體步驟為:
1)根據(jù)位置將所有的LR和HR的人臉訓(xùn)練圖像分塊。
2)然后對(duì)于輸入的每個(gè)LR塊xt,計(jì)算其優(yōu)化的重構(gòu)權(quán)重。
3)用得到的稀疏系數(shù)得到對(duì)應(yīng)的HR圖像塊
(8)
式中 [y[1],y[2],…,y[M]]為排序后的HR訓(xùn)練圖像塊。輸入的LR人臉圖像中全部的圖像塊按照從左到右,從上到下的順序讀取。
4)對(duì)于相鄰塊的兼容性,對(duì)重疊區(qū)域的像素值取平均,重構(gòu)框架如圖3所示。

圖3 重構(gòu)框架
人臉數(shù)據(jù)集FEI如圖4,包含200人,100名男士,100名女士。每人有2張圖像,正常表情和微笑的表情。裁剪圖像成大小為120×100的標(biāo)準(zhǔn)人臉圖像。隨機(jī)選取180人(360張圖像)作為訓(xùn)練集,剩下的20人作為測試。在實(shí)驗(yàn)中,HR圖像首先被下采樣到LR的30×25大小的圖像,并加上不同等級(jí)的高斯白噪聲(記作σ,σ=10,30,…)。LR塊大小為4×4,HR塊的大小為16×16。相鄰塊的重疊,在LR塊中為3像素,在HR塊中為12像素。

圖4 FEI中的一些訓(xùn)練圖像
在不同的噪聲環(huán)境下選取不同的λ1和λ2值的峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似度(structural similarity,SSIM)表現(xiàn)。在實(shí)驗(yàn)中,σ=10時(shí),選取λ1=1×10-4和λ=1×10-2;σ=30時(shí),λ1=1×10-2,λ2=0.1,以獲取最佳的表現(xiàn)。隨著噪聲的增加,λ2應(yīng)該被設(shè)置為更大的值,表示稀疏差異約束在重構(gòu)過程中對(duì)于平滑和去噪的重要性。
為了度量不同的重構(gòu)方法的平滑性,比如SR,SSR,定義了一個(gè)對(duì)于平滑的評(píng)價(jià)指標(biāo)平滑指數(shù)SI。w=[w1,w2,…,wM]表示一個(gè)輸入塊的稀疏系數(shù)。SI定義如下
(9)
圖5給出了不同噪聲環(huán)境下通過SR,SSR方法重構(gòu)的HR圖像通過SR(第二列),SSR(第三列)和本文方法(第四列)重構(gòu)的SR圖像以及峰值SNR。第一列和最后一列分別是LR人臉圖像以及原HR的圖像。表1給出了在不同噪聲環(huán)境下不同方法的平均SI值。由圖5可以看出:提出的方法在視覺效果以及重構(gòu)質(zhì)量評(píng)價(jià)均好于SR以及SSR方法;從表1的結(jié)果來看,本文方法比SR以及SSR方法更加平滑。

圖5 不同噪聲下SR,SSR重構(gòu)HR圖像

噪聲SRSSR本文方法σ=100.00620.92060.9321σ=300.11840.96980.9744
為了證實(shí)提出算法的有效性,對(duì)比了SSR方法和本文方法的PSNR和SSIM值。表2給出了測試的40張圖像在不同噪聲環(huán)境下( σ=10,30)的平均PSNR和SSIM。

表2 在不同噪聲強(qiáng)度下不同方法分PSNR和SSIM值
提出了一個(gè)新的人臉超分辨率重構(gòu)方法。利用人臉圖像之間在結(jié)構(gòu)和內(nèi)容上都存在相似性這一特點(diǎn),將人臉訓(xùn)練集映射到CCA空間,以增強(qiáng)對(duì)于輸入塊的兩組字典之間的相關(guān)性,再通過對(duì)字典排序以及字典稀疏更新,訓(xùn)練一個(gè)更加緊湊的字典,將字典重新映射到CCA空間,以獲取最佳的映射效果。最終,采用平滑稀疏的方法,在稀疏模型的基礎(chǔ)上加上平滑約束,完成重構(gòu)。實(shí)驗(yàn)結(jié)果表明:相比于現(xiàn)有的最優(yōu)的人臉超分辨率模型特別是在噪聲情況下能夠取得理想的提升。
參考文獻(xiàn):
[1] Baker S,Kanade T.Limits on super-resolution and how to break them[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2002,24(9):1167-1183.
[2] Liu C,Shum H Y,Zhang C S.A two-step approach to hallucinating faces: Global parametric model and local nonparametric model[C]∥2001 Proceedings of the 2001,IEEE Computer Society Conference on Computer Vision and Pattern Recognition,CVPR 2001.IEEE,2001:I-192-I-198.
[3] Ma X,Zhang J,Qi C.Hallucinating face by position-patch[J].Pattern Recognition,2010,43(6):2224-2236.
[4] Yang J,Wright J,Huang T S,et al.Image super-resolution via sparse representation.[J].IEEE Transactions on Image Processing,A Publication of the IEEE Signal Processing Society,2010,19(11):2861-2873.
[5] Jung C,Jiao L,Liu B,et al.Position-patch based face hallucination using convex optimization[J].IEEE Signal Processing Letters,2011,18(6):367-370.
[6] Ma X,Philips W,Song H,et al.Sparse representation and position prior based face hallucination upon classified over-complete dictionaries[J].Signal Processing,2012,92(9):2066-2074.
[7] Wang Z,Hu R,Wang S,et al.Face hallucination via weighted adaptive sparse regularization[J].IEEE Transactions on Circuits & Systems for Video Technology,2014,24(5):802-813.
[8] Wang Z Y,Han Z,Hu R M,et al.Letters: Noise robust face hallucination employing Gaussian-Laplacian mixture model[J].Neurocomputing,2014,133(8):153-160.
[9] Qu S,Hu R,Chen S,et al.Face hallucination via Cauchy regula-rized sparse representation[C]∥IEEE International Conference on Acoustics,Speech and Signal Processing,IEEE,2015:1216-1220.
[10] Shi J,Liu X,Qi C.Global consistency,local sparsity and pixel correlation: An unified framework for face hallucination[J].Pattern Recognition,2014,47(11):3520-3534.
[11] Jiang J,Hu R,Wang Z,et al.Noise robust face hallucination via locality-constrained representation[J].IEEE Transactions on Multimedia,2014,16(5):1268-1281.
[12] Jiang J,Hu R,Wang Z,et al.Face super-resolution via multilayer locality-constrained iterative neighbor embedding and interme-diate dictionary learning[J].IEEE Transactions on Image Processing:A Publication of the IEEE Signal Processing Society,2014,23(10):4220.
[13] Jiang J,Chen C,Huang K,et al.Noise robust position-patch based face super-resolution via Tikhonov regularized neighbor representation[J].Information Sciences:An International Journal,2016,367(C):354-372.
[14] Jiang J,Ma J,Chen C,et al.Noise robust face image super-resolution through smooth sparse representation[J].IEEE Transactions on Cybernetics,2016,(99):1-12.
[15] 喬少華,李潤鑫,劉 輝,等.基于統(tǒng)計(jì)量的加權(quán)函數(shù)圖像重建方法[J].傳感器與微系統(tǒng),2017,36(9):53-56.