劉 清,李世超,王文杉,師文喜,成科揚(yáng)
結(jié)合時(shí)序網(wǎng)絡(luò)和金字塔融合的穩(wěn)像修復(fù)方法
劉 清1,2,3,李世超1,2,3,王文杉4,師文喜5,成科揚(yáng)1,2,3
(1. 江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013; 2. 江蘇大學(xué)網(wǎng)絡(luò)空間安全研究院,江蘇 鎮(zhèn)江 212013; 3. 江蘇省大數(shù)據(jù)泛在感知與智能農(nóng)業(yè)應(yīng)用工程研究中心,江蘇 鎮(zhèn)江 212013; 4. 中國(guó)電子科學(xué)研究院社會(huì)安全風(fēng)險(xiǎn)感知與防控大數(shù)據(jù)應(yīng)用國(guó)家工程實(shí)驗(yàn)室,北京 100041; 5. 新疆聯(lián)海創(chuàng)智信息科技有限公司,新疆 烏魯木齊 830001)
針對(duì)視頻穩(wěn)像領(lǐng)域內(nèi)視頻圖像缺損填充效果不佳,嚴(yán)重影響視覺(jué)效果,且導(dǎo)致穩(wěn)像處理后的視頻不穩(wěn)的黑邊填充問(wèn)題,提出了一種基于時(shí)序網(wǎng)絡(luò)預(yù)測(cè)和金字塔融合的圖像修復(fù)方法。首先結(jié)合預(yù)裁剪機(jī)制自適應(yīng)判斷當(dāng)前幀是否需修復(fù);然后將截止至當(dāng)前時(shí)刻的所有幀送入卷積神經(jīng)網(wǎng)絡(luò)(CNN)和門控循環(huán)單元(GRU)的模型進(jìn)行待填充部分的預(yù)測(cè);隨后采用改進(jìn)的加權(quán)最佳縫合線進(jìn)行拼接并在高斯拉普拉斯金字塔中進(jìn)行圖像融合重構(gòu);最終在重構(gòu)完成后裁剪尺寸。實(shí)驗(yàn)結(jié)果表明,該方法平均峰值信噪比(PSNR)相較于對(duì)比算法提高了2~5 dB,平均結(jié)構(gòu)相似度(SSIM)較對(duì)比算法提升了約2%~7%。該方法修復(fù)后的視頻缺損填充自然,視覺(jué)效果較為穩(wěn)定,即使在黑邊面積較大時(shí)也有良好的修復(fù)效果,可用于多種攝像平臺(tái)及不同場(chǎng)景下。
視頻穩(wěn)像;視頻圖像修復(fù);時(shí)序網(wǎng)絡(luò);金字塔融合;最佳縫合線
隨著視頻采集設(shè)備在生活中的廣泛使用,電子穩(wěn)像技術(shù)成為研究熱點(diǎn)。黑邊填充是穩(wěn)像處理技術(shù)中的重要一環(huán),現(xiàn)有技術(shù)分為3類:有效區(qū)域縮放、視頻圖像填補(bǔ)修復(fù)和視頻圖像重建。MATSUSHITA等[1]使用填補(bǔ)缺失框架部分的方法以改善視頻焦點(diǎn)。RYU和CHUNG[2]使用2D仿射模型并采樣雙線性插值法對(duì)穩(wěn)像后的圖像進(jìn)行填充修復(fù)。YOO等[3]的穩(wěn)像方案綜合運(yùn)用了馬賽克法和運(yùn)動(dòng)修補(bǔ)法將圖像修補(bǔ)區(qū)域周邊的像素信息結(jié)合相鄰幀中的像素來(lái)估計(jì)空白區(qū)域的像素信息。上述方法均存在填充圖像不具時(shí)序連續(xù)性、填入圖像質(zhì)量不高、拼接邊界明顯等共有問(wèn)題。
圖像修復(fù)對(duì)于最終的視頻穩(wěn)像效果影響較大,是運(yùn)動(dòng)補(bǔ)償?shù)闹匾糠帧=陙?lái)許多研究都取得了不錯(cuò)的效果,如PATWARDHAN等[4]將Criminisi圖像修復(fù)改進(jìn)用于視頻修復(fù)。該方法利用光流對(duì)視頻前后景分割,定義了新優(yōu)先級(jí)函數(shù),保證了時(shí)間信息的有效性。NEWSON等[5]對(duì)視頻進(jìn)行時(shí)空金字塔分層,通過(guò)重建各層視頻金字塔完成視頻修復(fù)。該方法解決了時(shí)域連續(xù)性的問(wèn)題,但在視頻結(jié)構(gòu)復(fù)雜時(shí)會(huì)出現(xiàn)誤匹配等狀況。LUO等[6]利用視頻中的時(shí)間信息及對(duì)應(yīng)深度圖構(gòu)建高斯混合模型,并加入運(yùn)動(dòng)補(bǔ)償實(shí)現(xiàn)移動(dòng)攝像場(chǎng)景下的視頻修復(fù)。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,)視頻圖像重建是重要的視頻修復(fù)方法之一。俞海寶等[7]引入數(shù)值求解方法替代直接用卷積核的反轉(zhuǎn)近似反卷積核的方法,使可視化模型提取的特征效果更加明顯。BURT和ADELSON[8]提出金字塔圖像融合模型,有效保留原圖細(xì)節(jié)并保持清晰度不降低。MAO等[9]對(duì)拉普拉斯金字塔融合算法進(jìn)行多項(xiàng)加權(quán)融合以豐富圖像邊緣細(xì)節(jié)。谷雨等[10]使用最佳縫合線圖像融合的方式解決拼接線劃定的問(wèn)題。QU等[11]通過(guò)將視頻中的多幅圖像無(wú)縫拼接成全景圖像,解決拼接中存在誤差的問(wèn)題。上述方法對(duì)本文的研究具有較好的啟發(fā)意義。
針對(duì)現(xiàn)有方法中填充圖像不連續(xù)、拼接線虛影明顯、邊緣丟失等問(wèn)題,本文提出了一種結(jié)合時(shí)序網(wǎng)絡(luò)和金字塔融合的穩(wěn)像修復(fù)方法,以提升穩(wěn)像修復(fù)處理中的黑邊修復(fù)效果。主要內(nèi)容包括:
(1) 搭建時(shí)序網(wǎng)絡(luò)模型對(duì)當(dāng)前幀的完整圖像進(jìn)行預(yù)測(cè),解決了填充部分與原有圖像間的時(shí)序不一致,以及缺損填充部分質(zhì)量較差的問(wèn)題;
(2) 提出一種視頻幀融合填充方案,使填充與原內(nèi)容拼接處更加自然,避免出現(xiàn)突兀、虛影等問(wèn)題;
(3) 提出了修復(fù)裁剪流程優(yōu)化策略,解決邊緣信息裁剪過(guò)多問(wèn)題,提升了整體視頻修復(fù)效率。
本文提出的結(jié)合時(shí)序網(wǎng)絡(luò)和金字塔融合的穩(wěn)像修復(fù)方法模型結(jié)構(gòu)流程如圖1所示。

圖1 系統(tǒng)流程圖
要獲得較好的視頻穩(wěn)像修復(fù)效果, 首先需要得到質(zhì)量較高的待填入圖像。本文提出CNN聯(lián)合門控單元網(wǎng)絡(luò)(gated recurrent)的待填入圖像預(yù)測(cè)模型來(lái)提高填充部分圖像質(zhì)量。CNN通過(guò)自學(xué)習(xí)參數(shù)可快速處理圖像。GRU能夠克服循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)長(zhǎng)期依賴等問(wèn)題。相比長(zhǎng)短期記憶(long short term memory,LSTM)模型,GRU減少了訓(xùn)練參數(shù),提高了計(jì)算效率,能獲得比LSTM更佳的效果。時(shí)序網(wǎng)絡(luò)預(yù)測(cè)模型如圖2所示。

圖2 當(dāng)前幀預(yù)測(cè)模型結(jié)構(gòu)
在模型中,經(jīng)大量實(shí)驗(yàn)后將卷積池化部分設(shè)置為3層,即


GRU將前一部分得到的參數(shù)矩陣帶入時(shí)序神經(jīng)網(wǎng)絡(luò)中計(jì)算并輸出一個(gè)預(yù)測(cè)的參數(shù)矩陣,GRU中各個(gè)門以及單元狀態(tài)的計(jì)算為





反卷積部分對(duì)時(shí)序模型得到的特征進(jìn)行上采樣組合,其過(guò)程為



而網(wǎng)絡(luò)權(quán)重的更新過(guò)程采用了隨機(jī)梯度下降法,即


本文使用高斯拉普拉斯金字塔融合方法對(duì)圖像進(jìn)行總體重構(gòu),改進(jìn)的最佳縫合線對(duì)拼接部分縫合。金字塔融合將分解出的高低頻部分使用不同策略達(dá)到相對(duì)較好的融合效果,而最佳縫合線算法通過(guò)動(dòng)態(tài)尋找拼接縫,有效解決運(yùn)動(dòng)目標(biāo)場(chǎng)景中鬼影現(xiàn)象。
算法包括金字塔分解與構(gòu)建、縫合線融合以及圖像的復(fù)原重構(gòu)3個(gè)環(huán)節(jié)。高斯金字塔分解和構(gòu)建環(huán)節(jié)中,可表達(dá)為


其中,G為高斯金字塔中第層圖像;(,)為高斯卷積核函數(shù);LP為拉普拉斯金字塔中的第層圖像;LP為圖像頂層;*為采樣后的圖像。
以最佳縫合線對(duì)圖像進(jìn)行縫合,即

其中,E(,)為圖像的顏色差異強(qiáng)度值;E(,)為圖像結(jié)構(gòu)差異強(qiáng)度值。將圖像梯度計(jì)算帶入E(,)中,S和S表示3×3的Sobel算子模板,E(,)則可改寫為

引入Canny算子對(duì)最佳縫合線劃定公式進(jìn)行優(yōu)化,使其劃定更加合理。加權(quán)后的最佳縫合線劃定規(guī)則為

其中,E為當(dāng)前時(shí)刻圖像的最佳縫合線;w權(quán)值的大小由2×2的高斯卷積模板計(jì)算出梯度值帶入

其中,G和G分別為Canny算子檢測(cè)出的和方向的梯度信息。常系數(shù)避免除0的情況。
最后,對(duì)圖像重構(gòu),即

重構(gòu)完成得到修復(fù)處理后的單幀。
針對(duì)算法整體耗時(shí)偏長(zhǎng)等問(wèn)題,提出幀修復(fù)優(yōu)化策略。首先在預(yù)處理前設(shè)置一個(gè)用于記錄有效區(qū)域的蒙板幀。優(yōu)化策略為:
(1) 初始蒙板幀的所有像素點(diǎn)均有效,設(shè)0為其初始狀態(tài)面積。在第一幀圖像重構(gòu)結(jié)束得到最終效果幀后,將蒙板幀有效面積1更新為第一幀圖像的有效區(qū)域,其外的點(diǎn)置為無(wú)效點(diǎn)且不可翻轉(zhuǎn);
(2) 若第幀穩(wěn)像位置調(diào)整后的有效區(qū)域能完整覆蓋E-1,則跳過(guò)步驟(3),否則執(zhí)行(3);
(3) 在第幀進(jìn)行金字塔圖像融合的重建過(guò)程中,在圖像重構(gòu)步驟完成前,先用模版幀對(duì)即將輸出的幀進(jìn)行一定的內(nèi)容處理。將新增的未定義像素點(diǎn)置為無(wú)效點(diǎn)并生成第幀的最終圖像并更新E的區(qū)域;
(4) 循環(huán)執(zhí)行步驟(2)~(3),直至最后一幀確定E;
(5) 在最終更新的蒙版幀有效區(qū)域E中確定一個(gè)最大面積的矩形E,并以此作為最終裁剪邊界的尺寸對(duì)第1幀至第幀進(jìn)行裁剪。
該優(yōu)化策略提高了修復(fù)效率,同時(shí)解決了過(guò)度裁剪導(dǎo)致邊緣信息部分損失的問(wèn)題。
實(shí)驗(yàn)環(huán)境為3.60 GHz CPU,110 G內(nèi)存,tesla P100 16 G×2 GPU,Linux操作系統(tǒng),實(shí)驗(yàn)使用公共視頻穩(wěn)像數(shù)據(jù)集[12-13],共40段視頻,包括靜態(tài)、車載以及手持等不同場(chǎng)景下的非穩(wěn)定視頻。選擇峰值信噪比(peak signal to noise ratio,PSNR)、結(jié)構(gòu)相似度(structural similarity index,SSIM)和修復(fù)耗時(shí)3個(gè)指標(biāo)進(jìn)行綜合評(píng)價(jià)。
實(shí)驗(yàn)選取了4種視頻穩(wěn)像圖像修復(fù)對(duì)比方法,分別是快速行進(jìn)修復(fù)算法(fast matching method,F(xiàn)MM)[14]、改進(jìn)后的Criminisi算法[4]、馬賽克法與相鄰幀填充相結(jié)合方法[3](下文混合填充法)、視頻時(shí)空金字塔分層法[6]。
圖3為抖動(dòng)劇烈、結(jié)構(gòu)復(fù)雜的視頻圖像修復(fù)的效果展示,圖3 (a)是經(jīng)過(guò)初步穩(wěn)像后得到的殘缺圖像,圖3(b)~(f)為5種算法的修復(fù)區(qū)域(虛線框),可以發(fā)現(xiàn)破損區(qū)域較小的右下角部分,5種算法均能取得不同程度修復(fù)效果,但圖像頂部的大片破損區(qū)域其修復(fù)效果則差距較大。FMM算法快速地填充了缺損但圖像明顯模糊且能明顯看出原有圖像邊界;Criminisi算法的修復(fù)效果放大圖可見(jiàn)紋理錯(cuò)位狀況,且在右上角部分出現(xiàn)結(jié)構(gòu)錯(cuò)誤;混合填充法使用了相鄰幀填充部分效果較好,但亮度稍有偏差,填充邊界稍明顯,馬賽克法填充部分較為模糊;視頻時(shí)空金字塔分層法與本文算法修復(fù)視覺(jué)效果較好,但本文算法在圖像的四周邊緣部分比視頻時(shí)空金字塔分層法包含更多信息,圖像更為完整。

圖3 抖動(dòng)劇烈、缺損部分位于結(jié)構(gòu)復(fù)雜處修復(fù)效果對(duì)比((a)第131幀經(jīng)初步穩(wěn)像調(diào)整后的殘缺圖像;(b) FMM算法修復(fù)效果;(c)改進(jìn)后的Criminisi算法修復(fù)效果;(d)混合填充法修復(fù)效果;(e)視頻時(shí)空金字塔分層法修復(fù)效果;(f)本文算法修復(fù)效果)
圖4為晃動(dòng)幅度較大、缺損部分位于紋理細(xì)節(jié)處修復(fù)效果展示(虛線框),圖4(a)中包含左側(cè)邊和頂部2個(gè)殘缺部分;圖4(b) FMM算法對(duì)于天空部分修復(fù)較好,樹(shù)枝部分凌亂模糊;圖4(c) Criminisi算法和圖4(d)混合填充法修復(fù)左側(cè)邊和頂部均出現(xiàn)了紋理錯(cuò)位;圖4(f)本文算法在樹(shù)枝紋理上相較于圖4(e)視頻時(shí)空金字塔分層法的修復(fù)效果更顯清晰。
由表1可知,v1視頻段結(jié)構(gòu)復(fù)雜,視頻畫(huà)面的缺損部分位于多種物體分界處,本文算法平均PSNR值和SSIM指數(shù)分別優(yōu)于其他算法約1~6 dB和2%~5%。v2視頻段結(jié)構(gòu)相對(duì)穩(wěn)定,且缺損部分多位于道路、天空等視頻結(jié)構(gòu)簡(jiǎn)單處,本文算法平均PSNR值優(yōu)于其余算法約1~4 dB,SSIM提升1%~2%。
從表2可以看出,本文算法平均PSNR優(yōu)于對(duì)比算法約2~5 dB,平均SSIM提升約2%~7%。算法缺損填充部分紋理與原始部分接近,無(wú)虛影重影等問(wèn)題,視頻修復(fù)效果提升明顯,可應(yīng)用于手機(jī)相機(jī)、執(zhí)法記錄儀、無(wú)人機(jī)等設(shè)備所攝視頻。

圖4 晃動(dòng)幅度較大、缺損部分位于紋理細(xì)節(jié)處修復(fù)效果對(duì)比((a)第221幀經(jīng)初步穩(wěn)像調(diào)整后的殘缺圖像;(b) FMM算法修復(fù)效果;(c)改進(jìn)后的Criminisi算法修復(fù)效果;(d)混合填充法修復(fù)效果;(e)視頻時(shí)空金字塔分層法修復(fù)效果;(f)本文算法修復(fù)效果)

表1 5種算法在2段視頻的平均PSNR、平均SSIM以及總耗時(shí)對(duì)比

表2 5種算法所有視頻中的平均PSNR、平均SSIM對(duì)比
本文提出了基于時(shí)序神經(jīng)網(wǎng)絡(luò)和金字塔融合的視頻穩(wěn)像修復(fù)方法。針對(duì)常用方法中填充時(shí)序不一致的問(wèn)題,設(shè)計(jì)待填入圖像預(yù)測(cè)模型提高填充部分圖像質(zhì)量。針對(duì)填入與原始圖像邊界明顯的問(wèn)題,采用金字塔融合與加權(quán)最佳縫合線的方案消除拼接界線以及物體被分割或虛影的問(wèn)題。并以優(yōu)化裁剪修復(fù)策略,減少算法耗時(shí),同時(shí)盡可能保留視頻邊緣信息的完整。實(shí)驗(yàn)表明,本文算法的PSNR和SSIM等性能指標(biāo)明顯提升,能夠獲得較好的穩(wěn)像視覺(jué)效果。
[1] MATSUSHITA Y, OFEK E, GE W, et al. Full-frame video stabilization with motion inpainting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(7): 1150-1163.
[2] RYU Y G, CHUNG M J. Robust online digital image stabilization based on point-feature trajectory without accumulative global motion estimation[J]. IEEE Signal Processing Letters, 2012, 19(4): 223-226.
[3] YOO S, KATSAGGELOS A K, JO G, et al. Video completion using block matching for video stabilization[C]//The 18th IEEE International Symposium on Consumer Electronics (ISCE 2014). New York: IEEE Press, 2014: 1-2.
[4] PATWARDHAN K A, SAPIRO G, BERTALMIO M. Video inpainting under constrained camera motion[J]. IEEE Transactions on Image Processing, 2007, 16(2): 545-553.
[5] NEWSON A, ALMANSA A, FRADET M, et al. Video inpainting of complex scenes[J]. Siam Journal on Imaging Sciences, 2014, 7(4): 1993-2019.
[6] LUO G B, ZHU Y S, LI Z T, et al. A hole filling approach based on background reconstruction for view synthesis in 3D video[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 1781-1789.
[7] 俞海寶, 沈琦, 馮國(guó)燦. 在反卷積網(wǎng)絡(luò)中引入數(shù)值解可視化卷積神經(jīng)網(wǎng)絡(luò)[J]. 計(jì)算機(jī)科學(xué), 2017, 44(S1): 146-150. YU H B, SHEN Q, FENG G C. Introduce numerical solution to visualize convolutional neuron networks based on numerical solution[J]. Computer Science, 2017, 44(S1): 146-150 (in Chinese).
[8] BURT P J, ADELSON E H. A multiresolution spline with application to image mosaics[J]. ACM Transactions on Graphics (TOG), 1983, 2(4): 217-236.
[9] MAO R, FU X S, NIU P J, et al. Multi-directional laplacian pyramid image fusion algorithm[C]//The 3rd International Conference on Mechanical, Control and Computer Engineering (ICMCCE). New York: IEEE Press, 2018: 568-572.
[10] 谷雨, 周陽(yáng), 任剛, 等. 結(jié)合最佳縫合線和多分辨率融合的圖像拼接[J]. 中國(guó)圖象圖形學(xué)報(bào), 2017, 22(6): 842-851. GU Y, ZHOU Y, REN G, et al. Image stitching by combining optimal seam and multi-resolution fusion[J]. Journal of Image and Graphics, 20171 22(6): 842-851 (in Chinese).
[11] QU Z, WANG T F, AN S Q, et al. Image seamless stitching and straightening based on the image block[J]. IET Image Processing, 2018, 12(8): 1361-1369.
[12] HU W C, CHEN C H, SU Y J, et al. Feature-based real-time video stabilization for vehicle video recorder system[J]. Multimedia Tools and Applications, 2018, 77(5): 5107-5127.
[13] 劉廣龍. 基于特征光流的電子穩(wěn)像技術(shù)研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2015. LIU G L. Research on electronic image stablization based on feature optical flow[D]. Harbin: Harbin Institute of Technology, 2015 (in Chinese).
[14] WANG M, YANG G Y, LIN J K, et al. Deep online video stabilization with multi-grid warping transformation learning[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2283-2292.
Image stabilization repair method combining time series network and pyramid fusion
LIU Qing1,2,3, LI Shi-chao1,2,3, WANG Wen-shan4, SHI Wen-xi5, CHENG Ke-yang1,2,3
(1. School of Computer Science and Communication Engineering, Jiangsu University, Zhenjiang Jiangsu 212013, China; 2. Cyber Space Security Academy of Jiangsu University, Zhenjiang Jiangsu 212013, China; 3. Jiangsu Province Big Data Ubiquitous Perception and Intelligent Agricultural Application Engineering Research Center, Zhenjiang Jiangsu 212013, China; 4. National Engineering Laboratory for Public Security Risk Perception and Control by Big Data, China Academy of Electronic Sciences, Beijing 100041, China; 5. Xinjiang Lianhaichuangzhi Information Technology Co., Ltd., Urumqi Xinjiang 830001, China)
To address the problems of the poor filling effect of the video image defect in video image stabilization, which seriously affects the visual effect and causes the black edge filling of the video after image stabilization processing, an image repair method was proposed based on time series network prediction and pyramid fusion. First, the pre-cutting mechanism was employed to adaptively determine whether the current frame needed to be repaired. Then all frames up to the current moment were sent to the model combining convolutional neural networks (CNN) and gated recurrent(GRU) to predict the part to be filled. Next, the improved weighted optimal stitching was used for stitching and image fusion reconstruction in the Gaussian Laplace pyramid. Finally, the size was cut after the completion of reconstruction. The experimental results show that the average peak signal to noise ratio (PSNR) of the method was 2–5 dB higher than that of the compared algorithm, and that the average structural similarity (SSIM) was improved by about 2%–7%. In addition, the video defect repaired by this method exhibits a natural filling effect and a relatively stable visual effect. Even in the cases of large black areas, the repair performance remains stable, which can be applied to a variety of camera platforms and different scenarios.
video stabilization; video inpainting; time series network; pyramid fusion; optimal seam
TP 391.4
10.11996/JG.j.2095-302X.2021010065
A
2095-302X(2021)01-0065-06
2020-08-07;
7August,2020;
2020-08-14
14 August,2020
國(guó)家自然科學(xué)基金項(xiàng)目(61972183,61672268);社會(huì)安全風(fēng)險(xiǎn)感知與防控大數(shù)據(jù)應(yīng)用國(guó)家工程實(shí)驗(yàn)室主任基金項(xiàng)目(201807)
:National Natural Science Foundation of China (61972183, 61672268); National Engineering Laboratory Director Foundation of Big Data Application for Social Security Risk Perception and Prevention (201807)
劉 清(1995–),男,江西贛州人,碩士研究生。主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)與模式識(shí)別。E-mail:1191298066@qq.com
LIU Qing (1995-), male, master student. His main research interests cover computer vision and pattern recognition. E-mail:1191298066@qq.com
成科揚(yáng)(1982–),男,江蘇南通人,教授,博士。主要研究方向?yàn)槿斯ぶ悄堋⒂?jì)算機(jī)視覺(jué)等。E-mail:kycheng@ujs.edu.cn
CHENG Ke-yang (1982–), male, professor, Ph.D. His main research interests cover artificialintelligence, computer vision, etc. E-mail:kycheng@ujs.edu.cn