王傳勝 管來福 童磊 賈銹閎 熊煒
【摘要】? ? 數字視頻穩像技術發展已有30多年的歷史,隨著計算機視覺、人工智能及深度學習的發展,視頻穩像算法也在不斷的發展。從最初的傳統方法到近年來深度學習方法的提出,數字穩像技術也在向前邁進。穩像技術算法分為傳統方法和深度學習的方法。按照不同方法對視頻穩像技術進行簡單介紹,再對穩像評估方法進行說明,最后對視頻穩像技術研究的難點與發展的趨勢進行了展望。
【關鍵詞】? ? 視頻穩像? ? 傳統方法? ? 深度學習? ? 評估方法
引言
視頻穩像技術也稱視頻去抖技術。視頻穩像技術主要通過算法減少視頻的抖動,以生成穩定的視頻,提高視頻的質量。
傳統視頻穩像算法通常包含2D方法、2.5D方法和3D方法。3D方法通常用于三維重建。2.5D方法適用于專業拍攝設備。2D方法由于處理速度快以及有較好的魯棒性,常被用于處理視頻穩像問題。視頻穩像算法一般分成3個部分:運動估計、運動平滑和運動補償。
隨著計算機視覺、人工智能及深度學習的發展,視頻穩像技術也在不斷的發展。深度學習方法通過不同的網絡對視頻數據集進行訓練、測試以及相應參數的設置處理抖動視頻,以便達到穩像的效果。
一、傳統方法
傳統視頻算法主要分為3部分:運動估計、運動平滑和運動補償。
1.1運動估計
運動估計是在特定相機運動模型下確定相機運動向量的過程,這些運動向量是描述連續視頻幀之間的運動轉換的量[1]。常見的運動估計算法有塊匹配法、灰度投影法、光流法和特征點匹配法。
塊匹配法具有較好的魯棒性,計算量小,原理簡單等特點,因此常用于實時穩像。塊匹配是將視頻幀分成塊,再對每一幀搜索當前幀的特定塊的位置,幀間匹配塊的運動構成單個運動矢量。由所有塊運動矢量估計出視頻序列的全局運動矢量。
灰度投影法一般是利用圖像的灰度分布信息進行全局運動信息的估計。由于灰度分布不能較好的反映視頻運動矢量的變化,所以該方法效果較差。
光流法主要是依據時域空間圖像亮度梯度來進行光流場的估計。
特征點匹配法是一種精度高計算量大的運動估計方法。常用的特征點檢測法有邊緣檢測、角點檢測、斑點檢測等。
1.2運動平滑與補償
抖動視頻的相機運動存在抖動的“噪聲”,運動平滑即消除噪聲,使得運動路徑變得平滑。運動平滑通常采用濾波器對運動路徑進行平滑。常用的有卡爾曼濾波、高斯濾波、均值濾波等。
卡爾曼濾波是一種利用線性系統狀態方程,利用遞推估計,估計性能最優。遞推計算形式能夠適合實時處理,因此卡爾曼濾波被稱為最優濾波器。
高斯濾波是一種線性平滑濾波,適用于消除高斯噪聲。抖動視頻的噪聲可以建模為符合高斯分布的噪聲。高斯濾波抑制噪聲的過程即為運動平滑的過程。
均值濾波是典型的線性濾波算法,主要采用領域平均法。用均值替代原圖像中各個像素值。
通過運動平滑得到平滑路徑,接下來對視頻每一幀進行補償,再得到每一幀的補償矩陣對每一幀進行幾何變換,由此得到穩定的視頻幀序列。
二、深度學習的方法
隨著計算機視覺、移動設備及深度學習的發展。深度學習在圖像和自然語言等領域深受追捧。利用深度學習算法解決穩像問題從近年開始。2018年Xu等人[2]提供了一種新穎的在線深度學習框架,使用對抗網絡來處理抖動視頻,開創了深度學習算法在視頻穩像的先河;2019年Wang等人[3]提出一種StabNet神經網絡模型處理抖動視頻,但最終穩像效果并不理想;2019年Yu等人[4]直接將幀的外觀變化建模為連續幀的密集光流場,同時提出了一種新的優化方法,將非凸問題轉移到卷積神經網絡參數域,在每個特定的輸入視頻中從頭開始訓練卷積神經網絡(CNN),并且有意地過度擬合CNN參數以在輸入視頻上產生最佳結果。通過解決CNN權重空間中的問題而不是直接解決圖像像素問題;其中此類方法對計算機顯卡及內存要求較高。
三、穩像評估方法
視頻穩像算法通常包含主觀和客觀兩類評估指標。
3.1主觀評估方法
主觀評估方法是通過人眼對最終生成的穩定視頻進行評價。由于受到人為因素的干擾,評估存在較大的不確定性,對穩像后的視頻評價可能存有差異。
3.2客觀評估方法
1.峰值信噪比(PSNR)
峰值信噪比是基于均方差的圖像質量描述方法。通常采用幀間的峰值信噪比評估視頻穩像的效果,PSNR值越高說明穩像效果越好。
2.均方差(MSE)
MSE可以表現視頻幀間內容變化的快慢以及位移量改變。
3.幀間轉換精度
幀間轉換精度(ITF)是PSNR的均值表現形式。
4,結構相似性
結構相似性(SSIM)常用于視頻幀像素間的相互關系,注重視頻幀內在規律的相似性。也是一種常用的穩像評估方法。其中,SSIM值越接近1說明穩像效果越好。
5.全曲率評價法
2019年Zhang等人[5]提出一種直接度量視頻運動路徑平滑的無參考穩定評價算法,稱為基于全曲率的穩定評價法。由相鄰幀間的特征點計算單應變換,再將該變換映射到李群空間,最后借助離散測地逼近方法計算路徑全曲率,由此判斷運動路徑的平滑程度。曲率值越小,說明路徑越平滑,穩像效果越好。
四、穩像技術的難點與展望
4.1穩像中的難點
1.黑邊問題,由于抖動視頻的“噪聲”,在對視頻進行每一幀幾何變換時,會出現黑邊的現象。目前解決黑邊問題的常見方法是對視頻的黑邊進行裁剪,但是經過裁剪后的視頻會有一部分內容的損失。對于一些運動劇烈,黑邊較大的視頻需要裁剪很大的部分,這樣會導致保留的有用圖像信息較少。所以,穩像中的黑邊問題是一個亟待解決的問題。
2.大前景運動。對于某些拍攝的視頻包含大前景運動,在運動估計階段會估計出不合理的相機運動,這將對后期的操作造成較大的影響,使得視頻出現扭曲甚至更嚴重的抖動。所以,包含大前景運動抖動視頻也成為待解決的難題。
4.2展望
隨著科技的進步與發展及移動智能設備的普及,市面上的大部分移動設備品牌內部都嵌入穩定傳感器。但是在拍攝過程中,會受到外部條件的干擾,使得視頻存有抖動。因此還是需要后期的處理來穩定視頻。而對于現代人而言,更偏向實時,比如實時微信視頻聊天,這就使得需要一個實時的運動平滑濾波器。
在生活應用中,車載設備也嵌入穩定傳感器,當行駛在顛簸的路面,行車記錄儀記錄的視頻也可能存有部分抖動,或者經過減速帶也將引起大的抖動。
不論是學術研究還是應用于現實生活,穩像技術還需繼續發展。
參? 考? 文? 獻
[1]魏閃閃, 謝巍, 賀志強. 數字視頻穩像技術綜述 [J]. 計算機研究與發展, 2017, 54(09): 2044-2058.
[2] Xu S, Hu J, Wang M, Mu T, Hu S. Deep video stabilization using adversarial networks [J]. Computer Graphics Forum, 2018, 37(7): 267-276.
[3] Wang M, Yang G, Lin J, Zhang S, Shamir A, Lu S, Hu S. Deep online video stabilization with multi-grid warping transformation learning [J]. IEEE Transactions on Image Processing, 2019, 28(5): 2283-2292.
[4] Yu J, Ramamoorthi R. Robust video stabilization by optimization in CNN weight space [C]//. Proc of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Long Beach: IEEEPress, 2019: 3800-3808.
[5] Zhang L, Zheng Q, Huang H. Intrinsic motion stability assessment for video stabilization [J]. IEEE Transactions on Visualization and Computer Graphics, 2019, 25(4): 1681-1692.