姚孟奇 張維忠 王靖
摘要: 針對深度視頻出現的許多空洞,提出一種基于張量的深度視頻空洞修復算法。首先運用加權移動平均機制對原始深度視頻進行處理,得到預處理視頻,然后根據背景張量的低秩性和運動目標的稀疏性,利用低秩張量恢復的方法重建張量的低秩部分和稀疏部分,實現背景與運動目標的分離。同時,針對分離出來的運動目標部分,利用相似塊匹配構造一個四階張量,根據視頻張量的低秩性和噪聲像素的稀疏性,再次利用張量恢復重建四階張量的低秩部分和稀疏部分,去除噪聲并修復視頻空洞,采用張量表征深度視頻,利用分塊處理,解決基于幀處理的傳統方法丟失數據信息問題,保持視頻數據的空間結構,在相同實驗環境下,采用3個視頻進行測試。實驗結果表明,本方法可以很好地去除噪聲,修補孔洞,并且基本可以還原視頻的紋理結構,保持邊緣,達到視頻增強的效果,顯著提高了深度視頻的質量,魯棒性強。該研究對實時獲取外界信息具有重要意義。
關鍵詞: 深度視頻; 張量; 張量恢復; Kinect
中圖分類號: TP391.41; TP391.75文獻標識碼: A
收稿日期: 20170519; 修回日期: 20170823
基金項目: 國家自然科學基金資助項目(61I70106,61305045);山東省科技發展計劃資助項目(2014GGX101048)
作者簡介: 姚孟奇(1992),女,碩士研究生,主要從事計算機視覺研究。
通訊作者: 張維忠(1963),男,山東昌邑人,教授,博士,主要從事計算機視覺、模式識別、圖像處理方面的研究。Email: zhangwz_01@aliyun.com隨著深度傳感技術的發展,深度數據越來越多的應用于計算機視覺、圖形圖像、虛擬現實等研究和應用領域中,市場對深度視覺技術的需求也趨于井噴狀態。視頻作為人類活動中常用的信息載體,包含了物體的大量信息,成為人類實時獲取外界信息的重要途徑。但由于設備本身的缺陷、采集源、光線等原因,常常會產生空洞和噪聲。目前,主流深度相機主要采用結構光和飛行時間法(time of flight,TOF)技術。2010年下半年,微軟推出第1代基于結構光的深度傳感器設備——Kinect;2014年10月,又推出了基于TOF的第2代Kinect。由于其價格低廉,具備同時捕捉彩色數據和深度數據的功能而得到廣泛關注。但是Kinect獲取的深度視頻質量較差,Kinect V2的深度傳感器分辨率僅為512×424,在光滑物體表面和遮擋區域由于深度信息缺失會產生空洞[1],且同一區域不同時間的深度值會產生變化。對于單幅深度圖像的處理常用矩陣方法,而對空洞修復的研究也很多。S. Matyunin等人[2]利用幀間運動補償和中值濾波對空洞進行修復,由于沒有考慮邊界問題,當空洞區域較大時會出現深度修復錯誤問題;K.R.Vi jayanagar等人[3]在前者的基礎上,采用各向異性擴散上采樣和圖像濾波結合的方法,修正邊界對齊問題,但效果并不明顯;隨后又出現了濾波器方法[4],利用彩色圖像作為引導信息修復方法[5],深度網絡卷積去噪修復方法[6]和一系列保持邊緣的方法[7]。對于二維視頻,傳統的去噪和修復大都基于幀序列,利用時域、空域信息,結合各種濾波方式進行去噪和修復。唐權華等人[8]提出的時空聯合視頻去噪方法,同時利用信號的時域和空域相關性進行視頻去噪,解決了傳統濾波器在去噪能力與模糊程度之間存在的矛盾。將雙域濾波和三維塊匹配算法結合[911],利用時空頻域相關性進行去噪。為了改進對視頻紋理和細節的恢復,陸續有學者將運動補償、光流法引入視頻去噪[1213],充分利用了相鄰幀之間的自相似性和冗余性。由于連續多幀圖像會有很多冗余信息,給處理帶來很大麻煩,且單幀處理再組合的方式,忽略了其視頻內在的結構信息,增強后的視頻容易出現閃爍不連續的情況。基于此,本文利用張量[14]表征深度視頻數據,將通道、時間、空間維度一次性完整表達,保證了視頻內部結構的完整性。該研究對實時獲取外界信息具有重要意義。
1基于張量的深度視頻增強算法
1.1加權移動平均機制
Kinect采集視頻時,即使在同一個場景的同一個像素位置,其對應的深度值也在不斷變化,這是由隨機噪聲引起的閃動效應。為了避免這種效應,采取如下加權移動平均機制[15]:
1)用一個隊列表示離散的數據集,存儲當前深度視頻的前N幀。
2)根據時間軸給這N幀賦權值,距離時間越近的幀權值越小。
3)新的深度幀為隊列中的深度幀加權平均得到。
在這個過程中,可以調整權值參數和N的大小,以達到最佳效果。
1.2低秩張量恢復模型
低秩張量恢復[16]也稱高階魯棒主成分分析(higherorder robust principle component analysis, highorder RPCA),能夠自動識別矩陣中被損壞的元素,并恢復原始數據。具體描述為:將原始數據張量D分解為低秩張量L和稀疏張量S之和,即
D=L+S(1)
則張量恢復可用如下優化問題來表示,即
minL,S Trank(L)+λ∑Ni=1‖Si‖1s.t. D=L+S(2)
其中,D,L,S∈RI1×I2×…×IN;Trank(L)表示張量L的Tucker秩。
將上述張量恢復問題轉化為凸優化問題,即
minLi,Si∑Ni=1‖Li‖*+λ∑Ni=1‖Si‖1s.t. D=L+S(3)
其中,Li,Si分別表示張量的第i階模式(因為構建的張量是四階,故i取1~4)的展開矩陣;λ為固定常量。針對式(2)中的優化問題,典型的求解方法[17]包括加速近端梯度(accelerated proximal gradient,APG)算法和增廣拉格朗日乘子法(augmented lagrange multiplier,ALM)。鑒于ALM算法的精度高且收斂速度快,本文采用ALM算法來解決此優化問題,將其推廣到張量。根據式(2),構造增廣拉格朗日函數為
L(Li,Si,Yi,μi)=∑Ni=1‖Li‖*+λ∑Ni=1‖Si‖1+∑Ni=112μi‖Li+Si-Di‖22-
其中,Yi是拉格朗日乘子;μi>0是懲罰因子。通過交替迭代,反復估算Li和Si,直到收斂,最終得到原始數據的低秩部分和稀疏部分。
1.3相似塊匹配
視頻的幀與幀之間有極大的相似性,所以原始視頻構成的張量有很強的低秩性[18]。對當前幀中的運動物體,如果場景沒有切換,則與之相似的部分應該在其前后兩幀中。對每幀圖像設置一個大小為的α×α圖像塊bi,j為參考塊,以此參考塊為中心設置一個窗口B(i,j)=lf(α×α),其中,l為正整數,f為原始視頻幀數。參考塊的相似度匹配準則用均方誤差函數(mean square error,MSE)[13]表示,即
MSE=1N2∑N-1i=0∑N-1j=0(Cij-Rij)2(5)
其中,N=α×α表示圖像塊bi,j的大小;Cij和Rij分別為當前待檢測幀和參考幀的像素值。MSE值越小,表示兩個塊匹配越準確。在B(i,j)中尋找與參考塊相似的圖像塊bx,y,將其坐標放在以下集合中
Ωi,j=x,y|T=MSEx,y≤t, x,y∈Β(i,j)(6)
式中,t為閾值。實驗可根據實驗環境多次測試確定,當MSE值小于等于閾值時,可以斷定測試塊和參考塊是相似塊,并加入Ωi,j集合。取前n個最相似的塊定義為一個張量,即
PΩi,j=(DΩi,j(1),bΩi,j(2),…,bΩi,j(n))(7)
式中,bΩi,j(k)表示第k個相似塊。
對用Kinect V2獲取的色彩視頻進行分塊,根據Registration原理[19],對深度圖和彩色圖進行配準,并根據相似塊中彩色視頻的幀數和塊位置,挑出相對應幀的深度圖中的相對塊的位置,組成張量DΩi,j,把張量DΩi,j帶入式(1),得對于塊的張量恢復模型為
minLΩi,j,SΩi,jTrank(LΩi,j)+λ‖SΩi,j‖s.t DΩi,j=LΩi,j+SΩi,j(8)
與式(1)的解法相同,得到干凈無噪的LΩi,j塊和SΩi,j噪聲。將處理過的塊重組,即可得到去噪并修復的增強視頻。
2實驗及分析
2.1實驗設置
本實驗使用3個視頻進行測試,測試視頻的彩色圖像幀如圖1所示。由圖1a可以看出,背景和運動目標(手和書)比較簡單;由圖1b可以看出,背景和運動目標(純色T恤人)相對復雜,但運動目標距離攝像頭遠,紋理比較少;由圖1c可以看出,背景比較散亂復雜,且運動目標(穿紅T恤拿東西的人)紋理比較多。
2.2參數設置
為了使算法達到最佳效果,本文算法的參數設置均為經驗設置。確定輸入的視頻幀為120幀,相似塊個數為30,塊的大小為6×6,最大迭代次數為180,容忍閾值ε1=10-5,ε2=5×10-8。為了凸現本文實驗方法的優越性,用峰值信噪比(peak signaltonoise ratio,PSNR)[20]作為衡量去噪后視頻圖像幀的質量指標。將本文實驗方法與VBM3D和RPCA方法的實驗結果進行對比,3種方法處理后的PSNR值如表1所示。
2.3實驗結果
由表1可以看出,在相同實驗環境下,本文研究的方法測試視頻的效果均優于其他方法。利用本文算法去除背景的運動目標增強后的結果如圖2所示。
圖2利用本文算法去除背景的運動目標增強后結果其中,圖2a為原始視頻a中深度視頻幀截圖;圖2b為原始視頻b中深度視頻幀截圖;圖2c為原始視頻c中深度視頻幀截圖;圖2d為視頻a去除背景后用本文方法增強的結果;圖2e為視頻b去除背景后用本文方法增強的結果;圖2f為視頻c去除背景后用本文方法增強的結果。由圖2可以看出,利用本文算法對去除背景后的運動目標進行增強的效果很明顯,噪聲基本去除,邊緣保持較好。
用本文方法對深度視頻增強結果如圖3所示。圖3a為原始視頻a中深度視頻幀截圖;圖3b為原始視頻b中深度視頻幀截圖;圖3c為原始視頻幀c中深度視頻幀截圖;圖3d為用本文方法對視頻a增強結果視頻幀截圖;圖3e為用本文方法對視頻b增強結果視頻幀截圖,圖3f為用本文方法對視頻c增強結果視頻幀截圖。由圖3可以看出,本方法可以很好地去除噪聲,修補孔洞,可以還原視頻的紋理結構,保持邊緣,達到視頻增強的效果。
3結束語
結合張量恢復模型和視頻分塊思想,本文提出了一種基于張量的深度視頻增強方法。將視頻分成前景部分和背景部分,背景部分不作處理,只對前景部分進行增強和去噪,減少了后期處理的工作量,提高了效率。把前景視頻圖像幀分成若干個小塊,利用相似塊匹配構造張量表征視頻數據,把視頻增強問題轉化成一個求張量恢復的問題。實驗結果表明,本文方法在對深度視頻的處理上,明顯優于傳統方法,在保持原始視頻紋理信息的基礎上,更能有效地去除干擾噪聲。但是本文算法中的參數是多次實驗得到的經驗值,不能自適應設置,下一步會對動態背景的深度視頻增強進行研究,并進一步研究算法中參數的自適應選擇。
參考文獻:
[1]呂朝輝, 沈縈華, 李精華. 基于Kinect的深度圖像修復方法[J]. 吉林大學學報: 工學版, 2016, 46(5): 16971703.
[2]Matyunin S, Vatolin D, Berdnikov Y, et al. Temporal Filtering for Depth Maps Generated by Kinect Depth Camera[C]∥3D TV Coferenece: The True VisionCapture, Transmission and Display of 3D Video. Antalya, Turkey: IEEE, 2011, 47(10): 14.
[3]Vijayanagar K R, Loghman M, Kim J. Refinement of Depth Maps Generated by LowCost Depth Sensors[C]∥ Soc Design Conference. Jeju Island, South Korea: IEEE, 2013: 355358.
[4]Lin X, Yuan F, Cheng E. Kinect Depth Image Enhancement with Adaptive Joint MultiLateral Discrete Filters[J]. Journal of Difference Equations and Applications, 2016, 44(3): 117.
[5]Liu J Y, Gong X J, Liu J L. Guided Inpainting and Filtering for Kinect Depth Maps[C]∥IEEE International Conference on Pattern Recognition. Tsukuba, Japan: IEEE, 2012: 20552058.
[6]Zhang X, Wu R Y. Fast Depth Image Denoising and Enhancement Using a Deep Convolutional Network[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016: 24992503.
[7]Xie J, Feris R S, Sun M T. EdgeGuided Single Depth Image Super Resolution[J]. IEEE Transactions on Image Processing, 2016, 25(1): 428438.
[8]唐權華, 雷金娥, 周艷, 等. 一種時空聯合的視頻去噪方法[J]. 計算機工程與應用, 2010, 46(6): 163165.
[9]肖進勝, 李文昊, 姜紅, 等. 基于雙域濾波的三維塊匹配視頻去噪算法[J]. 通信學報, 2015, 36(9): 9197.
[10]肖進勝, 姜紅, 彭紅, 等. 一種改進的三維塊匹配視頻去噪算法[J]. 四川大學學報: 工程科學版, 2014, 46(4): 8186.
[11]Chen D Y, Ju C C, Ho C T. Method and apparatus for image denoising with threedimensional blockmatching, US9123103[P]. 2015.
[12]Buades A, Lisani J L, Miladinovc M. PatchBased Video Denoising with Optical Flow Estimation[J]. Transactions Image Proces, 2016, 25(6): 25732586.
[13]Wen B, Ravishankar S, Bresler Y. Video Denoising by Online 3D Sparsifying Transform Learning[C]∥IEEE International Conference on Image Processing. Quebec City, QC, Canada: IEEE, 2015: 118122.
[14]陳代斌, 楊曉梅. 基于低秩張量恢復的視頻塊效應處理[J]. 計算機科學, 2016, 43(9): 280283.
[15]彭義剛, 索津莉, 戴瓊海, 等. 從壓縮傳感到低秩矩陣恢復: 理論與應用[J]. 自動化學報, 2013, 39(7): 981994.
[16]柳欣, 鐘必能, 張茂勝, 等. 基于張量低秩恢復和塊稀疏表示的運動顯著性目標提取[J]. 計算機輔助設計與圖形學學報, 2014, 26(10): 17531763.
[17]Dabov K, Foi A, Egiazarian K. Video Denoising by Sparse 3D TransformDomain Collaborative Filtering[C]∥Signal Processing Conference, European. Poznan, Poland: IEEE, 2008: 145149.
[18]何富多, 胡燕祝. Kinect彩色相機與深度相機的標定與配準[D]. 北京: 北京農業大學, 2015.
[19]Wang Z Y, Hu J H, Wang S Z, et al. Trilateral Donstrained Sparse Representation for Kinect Depth hole Filling[J]. Pattern Recognition Letters, 2015, 65(C): 95102.
[20]楊嘉琛, 侯春萍, 沈麗麗, 等. 基于PSNR立體圖像質量客觀評價方法[J]. 天津大學學報: 自然科學與工程技術版, 2008, 41(12): 14481452.