魏閃閃 謝 巍 賀志強
1(北京航空航天大學計算機學院 北京 100191)2(聯想研究院SoC中心 北京 100085)3 (聯想集團生態系統與云服務業務群組 北京 100085)
數字視頻穩像技術綜述
魏閃閃1,2謝 巍2賀志強3
1(北京航空航天大學計算機學院 北京 100191)2(聯想研究院SoC中心 北京 100085)3(聯想集團生態系統與云服務業務群組 北京 100085)
(wswss11986@qq.com)
數字視頻穩像(digital video stabilization, DVS)技術發展已歷經30多年,隨著設備計算能力的不斷提高、算法研究的不斷更新以及市場需求的不斷驅動,數字視頻穩像技術也隨之不斷發展,經歷了從最初以計算簡單為主的方案發展到以穩像效果顯著為主的方案,再發展到計算簡單并且效果顯著的方案.通過對文獻資料的整理分析,并根據技術發展的時間順序,數字穩像技術被分類為傳統方案和新興方案.按照采用運動模型的不同,傳統方案分為傳統2D方案和傳統3D方案;新興方案分為新興2D方案和借助傳感器方案.對每類方案,首先對其采用的關鍵技術進行分析總結,然后列舉這些關鍵技術在數字視頻穩像中的應用實例.對數字穩像技術的發展進行了總結,最后對數字視頻穩像技術的研究難點和發展趨勢進行了展望.
數字視頻;穩像;綜述;傳統方案;新興方案
專業攝像師通常使用攝影車或者攝像機穩定器來保證拍攝視頻的穩定性[1],而普通用戶使用手持設備或者車載攝像頭拍攝視頻時,由于沒有專業拍攝技能和專業穩像設備,拍攝的視頻往往穩定性較差.當前,智能手機、平板電腦是主流的智能終端產品;穿戴式設備作為新生代智能設備正逐漸成為熱點.它們一般都具備攝像功能,普通用戶拍攝的視頻常面臨抖動問題.視頻穩像技術的目的就是消除或減少視頻的抖動,生成穩定的視頻.
視頻穩像技術總體可以分為三大類:機械穩像、光學穩像和數字穩像[2].
1) 機械穩像.常用于早期攝像機的穩像技術,采用穩定整個攝像機的方法,基于傳感器(如陀螺儀、加速度儀等)的震動反饋.整個穩像系統較笨重且功耗高,因而不適于手持設備.
2) 光學穩像.光學穩像系統對光路進行重定向或者移動成像板來達到穩像目的.目前光學穩像系統大多依靠陀螺儀傳感器來測量設備的移動或旋轉量,通常是使用2個陀螺儀傳感器來分別測量設備水平和垂直方向的角速率,二者的輸出信號通過模數轉換器(ADC)被轉換為數字信息.
3) 數字視頻穩像(digital video stabilization, DVS).除了機械穩像和光學穩像技術,還有2類視頻穩像技術:電子穩像技術和純數字穩像技術.這2類技術極其相似,區別僅僅在于設備抖動檢測和運動估計方法.電子穩像技術使用硬件傳感器(如陀螺儀等)來檢測相機抖動,而純數字穩像技術通過圖像處理方法估計相機抖動.得到相機運動向量后,二者都進行運動補償,并根據補償的運動進行圖像修補.本文將電子穩像和純數字穩像技術統一稱為數字穩像技術,因為二者都采用了數字方法進行圖像修補,從而避免高功耗的電路控制系統,節省電路控制成本并降低了設備功耗.
表1對3種不同的視頻穩像技術進行了對比.

Table 1 Comparison of Video Stabilization Techniques
*:CCD means charge coupled device.
數字穩像解決方案是在圖像生成后再進行視頻抖動去除的數字技術方案.本文將其分為傳統技術方案和新興技術方案2種.傳統技術方案分為傳統2D技術方案和傳統3D技術方案;新興技術方案包括新興2D技術方案和借助傳感器的方案.對于每種解決方案,本文都先介紹技術原理并分析關鍵技術,然后綜述應用實例.
數字穩像傳統技術多采用3步法:運動估計、運動補償和圖像修補,如圖1所示.根據運動模型的不同又可以分為傳統2D方案和傳統3D方案.前者采用2D運動模型,如平移[3]、2D歐氏變換[4]、仿射變換[5]等模型;后者采用3D運動模型,如投影變換模型.

Fig. 1 Traditional DVS techniques圖1 傳統穩像技術方案圖
1.1 傳統2D穩像
傳統2D穩像技術(如圖2所示)采用“黃金3步法”:運動估計、運動補償和圖像修補.其解決方案眾多,本文將它們劃分為基于像素點的方案和基于特征點的方案兩大類.

Fig. 2 Traditional 2D DVS techniques圖2 傳統2D穩像技術
1.1.1 運動估計
相機運動估計(camera motion estimation)是在特定相機運動模型下確定相機運動向量的過程,這些運動向量是描述2D圖像(通常是連續的視頻幀)間運動轉換的量.相機運動向量可以使用平移模型來建模,也可以使用其他能夠近似表示實際相機運動的模型來建模.相機運動向量是指與整張圖像運動相關的全局運動向量,而它的估計常常通過局部運動向量來完成.局部運動向量指圖像某一部分的運動向量,例如矩形塊、任意形狀塊甚至是每個像素.傳統2D穩像中的相機運動估計經常是首先進行局部運動向量的估計,然后通過這些局部運動向量來估計全局運動向量.局部運動估計方法可以分為兩大類:基于像素點的方法(直接方法)和基于特征點的方法(間接方法).
1) 基于像素點的方法
此方法包括塊匹配法、相位相關法、光流法等.
① 塊匹配法
塊匹配法是在數字視頻序列中定位匹配塊的一種運動估計方法,包括將視頻幀分塊、在附近幀(有時可能僅前一幀)中尋找當前幀中特定塊位置.幀間匹配塊的運動構成一個運動向量,所有匹配塊的運動向量構成整個視頻幀的運動向量.
塊匹配法原理簡單、實現方便,在傳統2D視頻穩像中擁有廣泛的應用.Chen[6]使用基于塊的參數運動模型進行視頻穩像,其參數運動模型通過塊匹配運動估計得到.在Chen[6]工作基礎上,Bhaskar等人[7]使用塊匹配法,提出一種基于移動平均濾波和Kalman濾波的運動補償機制.
上述塊匹配法方案實現簡便,但在以下2種場景中效果并不好:一是場景中有快速運動物體或運動物體離鏡頭很近;二是場景較平坦變化少.這也是之后傳統2D視頻穩像應用塊匹配法時重點解決的問題,即如何提高塊匹配法的準確度.常用的策略包括以下3種:區分前景和背景、過濾局部運動矢量、優化全局運動估計算法.這3種策略也經常聯合使用.
i) 區分前景和背景
例如Vella等人[8]使用經驗法:假定圖像中心某閾值內的區域為前景而其余靠近圖像邊緣部分為背景.同年作者還提出另外一種基于塊匹配的算法[9],文章使用同樣方法區分前景和背景,并使用加權平方直方圖方法分別估計出前景和背景的運動矢量,然后根據組成前景和背景的塊數來決定穩定前景還是背景.
ii) 過濾局部運動矢量
塊匹配法獲取的塊運動矢量即為局部運動矢量,由于計算誤差、匹配誤差、運動物體等原因,直接使用它們進行全局運動估計往往誤差較大.常用的局部運動矢量的過濾策略有:去除低信噪比(signal noise ratio, SNR)塊(過于復雜的塊)、去除平坦塊(無明顯特征的塊)、去除絕對差和(sum of absolute difference, SAD)值過低塊、去除重復類型塊等.
例如,Yang等人[10]為去除局部運動向量(local motion vector, LMV)的偏值,在穩像算法中去除了缺少特征點、低SNR以及重復類型的塊.算法全局運動向量(global motion vector, GMV)通過取所有LMV均值的簡單操作來估計.Battiato等人[11]使用塊匹配法獲取局部運動矢量,然后使用簡單快速的過濾規則去除偏值,獲取可靠的局部運動矢量.這些規則包括初級過濾規則和記憶過濾規則,前者是通用的過濾規則,文章貢獻點在于后者:對于當前幀中新塊的局部運動矢量,拒絕其中一定比例來降低大塊運動物體的影響.
iii) 優化全局運動估計算法
常用策略包括權值法、統計法、聚類法等.
Chen等人[12]對局部運動矢量使用聚類過程確定全局運動向量:構建局部運動向量的直方圖,然后通過加權平均方法計算全局運動向量.Puglisi等人[13]使用基于選舉的方法來從局部運動向量計算全局運動向量,方案還將窮盡搜索與卷積投影誤差函數結合來獲取局部運動向量.Tang等人[14]使用一種基于加權直方圖的統計方法來計算全局抖動運動向量,最后通過累加得到整體全局運動鏈.
② 相位相關算法
相位相關算法是一種非線性、基于傅氏功率譜的頻域相關算法,其理論基礎是傅里葉變換.它只取互功率譜中的相位信息,減少了對圖像內容的依賴性,位移檢測范圍較大,有很高的匹配精度;同時,相位相關技術對圖像灰度依賴較小,因而具有一定抗干擾能力.相位相關法用于運動估計的解決方案有很多[15-25],用于視頻穩像的應用也很多.
Erturk[26]使用基于子圖像相位相關的全局運動估計方法進行視頻穩像,算法首先將圖像分為4個子圖像,然后對每個子圖像使用相位相關法進行局部運動估計,最后基于4個子圖像的局部運動來完成全局運動的估計.同年,作者使用相位相關和對數極坐標幅度譜表示法來獲取運動參數(平移、旋轉和縮放),然后使用Kalman濾波器進行運動平滑來進行視頻穩像[27].Sanjeev等人[28]提出一種基于Fourier-Mellin域相位相關的穩像算法,算法分粗粒度和精細粒度2個階段.Jia等人[29]的穩像算法首先對Fourier-Mellin變換圖像通過相位相關法獲得旋轉和縮放參數并對目標圖像進行旋轉和縮放,然后使用相位相關法來計算空間平移參數完成運動估計.Zhang等人[30]基于中心子圖像的相位相關法提出一種適用于車載攝像頭的視頻穩像方法.
③ 光流法
光流法的概念最早由美國心理學家Gibson在20世紀40年代提出,當時是為了實現描述動物運動的視覺仿真[31].在圖像處理領域,光流描述的是圖像中亮度的視運動,它計算不同時刻的2張圖像上每個像素的運動情況.Barron等人[32]對微分法、匹配法、基于能量法和基于相位法光等多種知名流算法從光流測量的準確度、可靠性和密度等方面進行了其性能的研究對比.
Lucas與Kanade[33]為光流法在視頻穩像中的應用提供了基礎.作者將圖像進行塊劃分,并假設若塊足夠小,則塊中各像素的運動向量是一致的,此時可以使用塊中心的運動矢量代表塊中各像素的運動矢量.基于上述假設,Chang等人[34]首先基于Lucas-Kanade法計算連續幀間的光流值,接著將光流域結果應用到簡化的仿射運動模型中進行相機運動估計并完成視頻穩像.Chang等人[35]首先使用光流法計算圖像局部運動向量,求出每一個像素的運動速率,然后應用最小二乘法估計平移和旋轉運動參數,最后運用上述運動參數去除抖動.Cai等人[36]使用Lucas-Kanade金字塔法[37]進行光流估計,并使用排序局部運動直方圖來估計相機運動,這利用了每個運動直方圖的峰值位置對估計誤差不敏感且不受運動物體影響的特點.之后作者又研究提出使用增量光流法(delta optical flow)的視頻穩像方案[38],以增強存在大面積運動物體的場景視頻穩像的穩健性.文章使用光流排序隊列和增量光流法來選擇特征點以避免影響運動物體,進而避免全局運動估計受估計誤差和運動物體影響.
2) 基于特征點的方法
特征點檢測法將高維的圖像數據進行簡化表達,常見的特征點檢測方法有角點檢測法、斑點檢測法、邊檢測法等.在視頻穩像應用中,角點檢測和斑點檢測是最常用的技術.
角點也叫極值點,是指在某方面屬性特別突出的點.視頻穩像方案中常用的角點檢測算法有Harris算法[39]、FAST(features from accelerated segment test)算法[40]以及KLT(Kanade-Lucas-Tomasi)算法[33,41]等.斑點檢測法檢測圖像中比它周圍像素灰度值大或小的區域.視頻穩像中實現斑點檢測的主要方法是尺度不變特征轉換方法(scale-invariant feature transform, SIFT)[42]和加速穩健特征算法(speeded up robust features, SURF)[43].SIFT算法對旋轉、尺度縮放、亮度變化保持不變性,對視角變化、仿射變換、噪聲也保持一定程度的穩定性;SURF算法作為SIFT算法的加速版,基本實現了實時處理,它能提高速度的理論基礎是使用積分圖像haar求導.
Amisha等人[44]對FAST,BRIEF,SIFT,SURF等特征點檢測方法進行了分析對比.
Censi等人[45]通過KLT特征點跟蹤方法計算相機運動補償來進行視頻穩像,并使用圖像形變結果來幫助預估特征點的位置,以增強特征點跟蹤的可靠性.Hu等人[46]采用2D仿射模型,使用SIFT特征點和最小二乘法來進行運動估計并完成視頻穩像.Yang等人[47]將粒子濾波器在目標跟蹤中的傳統應用擴展到相機運動的投影仿射模型中.算法首先使用SIFT特征點跟蹤法進行全局運動估計,然后對SIFT特征點進行粒子濾波來整合圖像強度信息,最終得到更加平滑的相機運動估計.Shen等人[48]使用基于SIFT特征點的主成分分析法(principal component analysis, PCA)來降低特征點空間的維度,獲取到PCA-SIFT特征點用來估計幀間抖動運動.之后使用粒子濾波框架來進行相機運動濾波完成穩像功能.Pinto等人[49]使用SURF作為幀間跟蹤的穩定特征點來進行2D仿射運動參數的全局運動估計,使用離散Kalman濾波器來平滑運動向量,最終得到穩定視頻.Zhou等人[50]對每幀圖像提取并跟蹤SURF特征點,使用RANSAC算法來估計仿射運動參數,并利用自適應運動向量積分法進行相機抖動運動平滑,最終完成視頻穩像.Zhang等人[51]使用類似的方法,應用SURF特征點進行局部運動向量估計,并用穩定后的幀來修補抖動幀,完成全幀視頻穩像.Zheng等人[52]使用SURF作為特征描述子,利用RANSAC算法提純特征點,并使用最小二乘法估計2D仿射模型運動參數,最后使用帶有自適應阻尼系數的運動矢量積分法來平滑全局運動,最終完成視頻穩像.
基于像素點和基于特征點的方法各有優缺點,關于它們的討論最終以2篇結論性的論文而收官:Irani和Anandan所著基于像素點方法的綜述[53]以及Torr和Zisserman所著基于特征點方法的綜述[54].
1.1.2 運動補償
在穩像技術中,相機運動補償是用來產生新的相機運動的算法,它抑制抖動生成更加穩定的相機運動.對于2D視頻穩像來說,運動補償機制接收相機2D運動數據,經算法計算產生新的平滑2D運動數據.運動補償總體上分為2類方案:運動路徑平滑和運動路徑擬合.
1) 運動路徑平滑
穩定視頻所對應的相機運動數據應該也是平滑的,相反抖動視頻的相機運動數據存在小幅抖動的“噪聲”.從數字信號處理角度來說,運動平滑就是消除這些運動噪聲.視頻穩像方案中常用的平滑濾波器有移動平均(moving average)濾波器、Gaussian濾波器、Kalman濾波器[55]、粒子濾波器以及其他多項式濾波器[56].
① 移動平均濾波器
移動平均濾波器是一種低通濾波器,它將連續的采樣數據看成一個長度固定的隊列,每完成一次新的處理,隊列向前移動,即去掉隊列首數據,隊尾插入新數據.這種濾波方法簡單易行,在視頻穩像方案中經常采用.Chen[6]使用了簡單的移動平均濾波器進行運動平滑.無限沖擊響應(infinite impulse response, IIR)濾波器屬于移動平均濾波器,它也被稱為運動向量整合法(motion vector integration, MVI).Ko等人[3]在其視頻穩像方案中,基于位平面匹配法使用一階IIR濾波器進行運動平滑.Yang等人[10]使用簡單的一階自適應IIR移動平均濾波器進行運動平滑,為實現自適應性,濾波器通過動態機制來確定平滑因子大小:通過連續3幀圖像的全局運動矢量來判斷當前抖動情況,并賦予其不同大小.Erturk[57]對MVI法進行了分析總結.
② Gaussian濾波器
Gaussian濾波器是根據Gaussian函數的形狀來選擇權值的線性平滑濾波器,對抑制服從正態分布的噪聲非常有效.而相機運動數據中的抖動可以建模為符合Gaussian分布的噪聲,因此非常適合使用Gaussian濾波器來進行濾波,抑制噪聲的過程即為平滑運動的過程.理想的Gaussian濾波器在計算機中實現復雜,因此有時采用效果近似同時計算簡單的濾波方法,如Binomial濾波[58]等.Yasuyuki等人[59]使用Gaussian內核完成運動補償,之后Hu等人[46]、Xu等人[60]在各自穩像方案中使用了類似方法進行運動補償.
③ Kalman濾波器
Kalman濾波器是一種最優化自回歸數據處理算法,能夠在線性Gaussian模型的條件下對目標的狀態做出最優估計,得到較好的跟蹤效果.非線性濾波問題常用的處理方法是利用線性化技巧將其轉化為一個近似的線性濾波問題.因此可以利用非線性函數的局部性特性將非線性模型局部化,再利用Kalman濾波算法完成濾波跟蹤.擴展Kalman濾波(extended Kalman filter,EKF)就是基于此思想,將系統的非線性函數做一階Taylor展開得到線性化的系統方程從而完成對目標的濾波估計等處理.
Kalman濾波器用于視頻穩像的應用有很多.Erturk[26-27]使用Kalman濾波器進行運動平滑,并實現實時穩像.Erturk[61]將全局運動表示為常量加速運動和常量角速度運動,然后使用標準Kalman濾波框架去除短時間圖像抖動,保留平滑運動,實現穩像.Litvin等人[62]使用概率估計框架檢測抖動,將幀間相機抖動視為相機本意運動的噪聲觀察,并使用Kalman濾波框架來估計獲取用戶本意的運動參數完成視頻穩像.Gullu等人[63]的穩像方案使用2個并列的Kalman濾波器、1個穩定Kalman濾波器和1個參考Kalman濾波器.前者用于平滑相機運動,后者引入模糊自適應機制來調節控制運動補償偏移量.Wang等人[64]考慮運動平滑程度問題:過度補償會導致圖像空白邊緣太大,影響圖像質量.為解決此問題,作者將此約束作為額外的狀態更新方程包含到Kalman濾波過程中,將運動軌跡穩定問題轉化為該約束下最優化問題.
④ 粒子濾波器
粒子濾波是20世紀90年代發展起來的一種新濾波算法,其核心思想是通過從后驗概率中抽取的隨機狀態粒子來表達其分布,它克服了EKF的缺點,在非線性、非高斯系統中表現出優越性.Gordon等人[65]為粒子濾波在視頻穩像中的應用奠定了基礎.Yang等人[66]首先將粒子濾波法用于視頻穩像,之后又對其進行了改進[67].
2) 運動路徑擬合
與運動路徑平滑不同,運動路徑擬合模仿專業電影攝影路徑,例如直線、拋物線等.這種方案能比運動路徑平滑獲取更加穩定的運動補償結果,因為它不僅能去除高頻抖動,還能去除路徑中的無效低頻抖動.Chen等人[68]根據專業拍攝使用三腳架時相機運動路徑接近折線(polyline)的特點,采用擬合折線法來進行運動補償.其運動補償方案首先使用Kalman濾波器去除高頻抖動,然后在此基礎上進行折線路徑擬合,從而去除無效低頻抖動.Zhang等人[69]使用低級和高級雙通道優化方法約束相機路徑進行運動補償.方案首先進行低級路徑優化,自動檢測畫面干擾并消除,再使用L1優化框架來生成初級補償相機路徑;之后將相機路徑分解為縮放、旋轉、平移分量,通過分析這些分量將路徑分段,并為每段路徑擬合更簡單的專業拍攝中使用的運動模型來達到運動補償目的.
當然,運動路徑擬合法在獲取更平滑運動補償結果的同時,也會增加需要修補的缺失區域,即增加了圖像修補過程的難度.
1.1.3 圖像修補
在相機運動估計和相機運動補償完成后,得到一個新的、平滑的相機運動鏈.圖像修補操作根據新運動鏈在所采用的運動模型對原始圖像進行形變處理,得到包含丟失部分(空白邊緣)的穩定后圖像.此時處理方法有2種:剪切處理和填補空白邊緣.前者處理簡單,但改變了圖像尺寸;后者保存圖像尺寸,最常用的方法是馬賽克法(mosaicing),馬賽克法根據圖像所要修補區域周邊的像素信息來完成圖像修補.Litvin等人[62]使用馬賽克法來填補空白邊緣,作者聲明他們最先使用馬賽克法對穩定后的視頻幀進行圖像修補操作.Yasuyuki等人[59]的運動修補法是2D方案中的經典圖像修補方案,它將運動估計的思想融入到圖像修補中:根據當前幀或相鄰幀中像素的運動數據來估計空白區域的像素信息.Tang等人[14]和Yoo等人[70]的穩像方案中,都綜合馬賽克法和運動修補法進行圖像修補.Chen等人[68]提出的方案對于動態場景缺失域修補使用運動修補法,對于靜態場景缺失域修補使用像素修補法:根據仿射變換模型,直接從其他幀中尋找對應像素點復制而來.
1.2 傳統3D穩像
相機在3D空間中運動,而圖像的像素在2D平面運動.對于人眼而言,對于視頻運動的感知直接來源于像素的運動.然而,事實證明,對2D圖像像素進行簡單直接的平滑操作并不能獲得很好的穩像效果,因為僅對2D圖像像素進行的操作忽略了相機本身的3D空間運動信息.
2D圖像空間和相機3D空間之間是存在運動關聯的,3D穩像方案同時考慮二者,采用相機3D運動模型,而非簡單的2D運動模型來表示相機運動.運動估計方式的不同也決定了運動補償方式的不同,以及相應的圖像修補方式的不同.因為不同運動模型下2D圖像像素運動和3D真實相機運動的映射關系不同.
視頻3D穩像是通過2D圖像信息來重構相機的3D運動信息(有的方案還會恢復像素點的3D位置信息);然后對恢復的相機運動進行平滑處理去除抖動,生成平滑后新的相機運動信息;最后根據這些新的運動信息(和像素點3D位置信息)來完成圖像的修補.
3D穩像方案也采用“黃金3步法”:相機3D運動估計、相機3D運動補償和2D圖像修補.與傳統2D穩像方案不同的是,3D穩像基于相機3D運動模型來解決穩像問題,通常采用針孔相機模型下的投影變換運動模型[71],傳統3D穩像流程如圖3所示.

Fig. 3 Traditional 3D DVS techniques圖3 傳統3D穩像技術
1.2.1 運動估計
3D穩像中相機3D運動估計即為在針孔相機投影變換模型下,從圖像信息中恢復相機姿態的問題.3D運動參數包括平移和旋轉參數,運動到結構算法(structure from motion, SFM)正是用來解決此問題的:從2D的圖像序列中恢復出相應的3D信息,其中包括成像相機的運動參數以及場景的結構信息.SFM問題可以通過雙視角、三視角或者多視角方案來解決[71],而3D穩像中使用的是雙視角方法,即給定2個視角相機的圖像,恢復2個成像時間相機的位置信息.SFM算法的前提是特征點匹配的問題得以解決,這正是2D穩像方案中基于特征點的運動估計的相關技術.SFM算法將3D運動估計轉化為在若干視角下,使用若干特征點對來構建方程組求解相機外參的問題.求解方法包括8點算法[72]、7點算法[71]、6點算法[73-74]、5點算法等[75-76],Brückner等人[77]對這幾種算法進行了系統的實驗比較.SFM算法計算相對復雜,早期的穩像方案并沒有采用這種方法.
Wang等人[78]使用SIFT特征點和RKHS圖形匹配技術[79]進行SIFT特征點匹配,在旋轉角度極小的假設前提下(作者認為幀間平移與旋轉量相對較小),對旋轉矩陣進行簡化,這樣精簡了相機3D運動的估計過程.Zhang等人[80]提出一種基于相機3D運動模型的穩像方案,將視頻穩像建模為平滑和相似約束條件下的二次成本函數,并通過對穩像過程中平滑性和相似性一對矛盾的平衡來獲取視頻的穩定性.Liu等人[81]提出的3D穩像方案被視為近些年來最經典的3D穩像方案,它首先使用SFM算法恢復相機3D原始運動以及3D場景點云,然后進行自動或交互的運動平滑來獲取穩定的相機運動,最后使用3D場景點云和參考幀圖像完成運動平滑后的圖像形變修復.Lee等人[82]在Liu等人[81]的工作基礎上,提出了基于興趣域(region of interest,ROI)形變的穩像方法.方案首先篩選特征點,篩選后的特征點所在區域是抖動最嚴重區域ROI并予以重點處理,僅使用ROI區域的特征點作為參數來進行Liu等人[81]的算法.如果ROI區域特征點在篩選后剩余量少于設定的閾值,則算法變為Liu等人[81]的方法.Ryu等人[83]借助零均值歸一化互相關匹配法(zero mean normalized cross-correlation,ZNCC)和KLT算法來進行相機3D運動估計,提出一種類人眼的視頻穩像方案.文章還引入了受啟發于人眼前庭動眼反射的方法(vestibulo ocular reflex,VOR)用于加快運動估計的速度.
1.2.2 運動補償
對于3D視頻穩像來說,平滑濾波器接收相機3D運動數據,經算法計算產生平滑后的3D運動數據.與2D運動不同,3D運動數據不僅包括相機位置信息,還包括相機方向信息矩陣R.因此,3D運動補償要比2D運動補償復雜.在針孔相機投影變換模型下,相機3D運動數據中的位置信息向量T和方向信息矩陣R為2個獨立運動,因此二者的運動補償可以分開進行.位置信息向量T的運動補償技術原理與2D運動補償類似,區別在于3D位置向量多一個分量.3D運動補償的難點在于方向信息的運動補償.
盡管3D位置信息平滑有很多方法,但這些方法不能簡單應用到3D方向信息的平滑中,因為3D方向信息是非線性的.方向信息的表示有若干種形式,包括歐拉角、軸角、旋轉矩陣、四元數等.
這些表示方法中,四元數因其諸多優點成為目前最流行的形式.四元數平滑的難點在于四元數空間的非線性屬性,這導致無法直接使用通用線性時不變(linear time-invariant, LTI)濾波器進行平滑.為解決此問題,研究者提出一些方法.Azuma等人[84]提出將四元數4個分量分開處理,然后再重規格化(re-normalize)濾波響應來保證單位性.重規格化的缺點是會帶來副作用,例如奇點、畸變等.另外一種方法是使用全局線性化方法,例如使用指數與對數映射法[85-87]來避免重規格化.這種方法的缺點是當輸入信號接近奇點時會產生不確定結果.Shoemake球面線性插值 (spherical linear interpolation, SLERP)方法[88]的提出為四元數平滑濾波提供了新方案,之后基于此的非線性濾波方法也逐漸提出[89-90].Lee等人[91]提出一種濾波方式,將旋轉數據轉為向量空間上的表達,然后在向量空間進行濾波,最后將濾波后的向量空間數據再反轉為旋轉空間數據.這種方法是一種局部線性化方法,它對旋轉數據的表示方式沒有限制,是一種通用的旋轉數據濾波方式.Morimoto等人[92]使用單位四元數來表示幀間旋轉量,并使用EKF來完成運動估計和運動補償.Liu等人[81]將3D運動向量分為平移和旋轉分量來分別平滑,旋轉分量使用了Lee[91]的方法.
1.2.3 圖像修補
3D相機運動補償完成后,得到了平滑的運動軌跡,穩像最后一步即是根據新的軌跡渲染生成新的穩定的圖像.3D穩像中常用的圖像修補的類型總體包括兩大類:一是圖像空白邊緣的處理;二是基于圖像域的處理.前者與傳統2D穩像方案中的技術一樣.基于圖像域的處理方案,目前流行的有2種:一是基于3D模型的渲染(3D model-based rendering);二是基于圖像的渲染(image-based rendering, IBR).Kang[93]對基于3D模型的渲染方法與基于圖像的渲染方法進行了比對.
1) 基于3D模型的渲染
基于3D模型的渲染是根據已重構(或近似重構)的場景3D模型來計算新視角下的場景圖像.3D場景模型可以使用CAD建模工具獲取,也可以從實際數據中通過場景重構算法計算得到.Liu等人[81]為防止修復的圖像產生畸變,提出保存內容的形變技術(content-preserving warps),將稀疏場景點的位移視為軟約束條件.此方法穩像效果優異,被視為3D穩像的經典;缺點是計算復雜,運算消耗大.Zhang等人[80]3D穩像方案中的圖像修補階段也采用了基于3D場景點的渲染技術.
2) 基于圖像的渲染
與基于3D模型的渲染方法不同,基于圖像的渲染通過同一場景不同視角的圖像來插值成一副新視角的圖像,是一種新視角插值技術.圖像渲染技術研究已有多年,Kang[93]將圖像渲染技術按像素索引屬性分為四大類:基于非物理圖像映射法、馬賽克法、深度采樣插值法以及幾何有效像素重投影法.這些方法的一個缺點是鬼影效果(ghosting effect),這是因為IBR方法假設前提是場景是靜態的,當在不同視角下場景中有明顯運動的物體或光照變化時,合成的圖像會有“重影”.因此本技術直接使用于3D穩像方案時,在動態場景下穩像效果會帶來明顯副作用.要克服此問題,一種直觀的方案是在動態場景下檢測運動物體并提出,然后只對剩余的靜態背景進行圖像渲染,最后將運動物體重新合成到場景中去.然而這些步驟中的每一步都是巨大的挑戰,實現困難.為解決IBR的這個問題,研究者在IBR基礎上提出了很多改進方案.Shade等人[94]提出一種使用分層深度圖像的渲染方法,允許單個像素可以進行多層深度編碼,每層內深度固定.Kang等人[95]在1999年提出一種“多層IBR算法”,將視頻分為多層,每層均進行獨立的重投影,并最終合并為一幀圖像.Buehler等人[96]在2001年提出非結構流明圖渲染方法,它主要作為一種IBR渲染框架來擴展當時的IBR算法;之后又提出一種非度量IBR算法[97],在上述算法基礎上進行了改善,將所有的測量在圖像域進行,而非度量域.文章提出的基于圖像渲染技術的視頻穩像方案被視為最早的3D穩像方案.Buehler等人指出基于圖像的渲染技術用于視頻穩像的3個必備技術條件:1)幀間匹配特征點;2)幀間插值;3)場景中虛擬相機軌跡操作.
1.3 本節小結
傳統穩像方案采用運動估計、運動補償、圖像修補“黃金3步曲”.根據運動模型選取的不同,本節將傳統穩像方案劃分為傳統2D穩像和傳統3D穩像并按照3個關鍵步驟分別進行了綜述.相機運動模型選擇的不同,導致3個關鍵步驟都不盡相同.傳統2D穩像方案原理簡單、計算量小,但穩像效果一般;傳統3D穩像方案效果好,但計算復雜.二者的應用場景也會根據效果和速度這一對矛盾進行適當選取.
隨著智能終端時代的來臨,傳統穩像技術已逐漸無法滿足智能設備的應用需求,新興技術正逐漸涌現.一方面,研究者在尋求新興的2D穩像技術,不再局限于傳統穩像“3步曲”;另一方面,借助智能設備中的微機電傳感器,研究者在尋求新興的基于傳感器的穩像技術,使運動估計過程更加有效.
2.1 新興2D穩像
與傳統2D穩像方案不同,新興2D穩像既不遵循“黃金3步曲”,也不像傳統3D穩像那樣重建完整3D相機運動,而是使用新興的2D方法來盡力獲取與3D方法相似的防抖效果.這些方案不盡相同,但共同點是將相機3D運動重建過程的約束條件放松,繞過復雜的3D重建操作.新興2D穩像按其采用的策略可以劃分為特征點軌跡法和幾何約束條件法.
1) 特征點軌跡法
此方法將相機3D運動重建問題的約束放寬,轉化為處理相應2D圖像空間特征點軌跡的問題.
Wang等人[98]用貝塞爾曲線表示特征點軌跡,提出一種時空優化法,將穩像問題轉化為平滑特征曲線并避免視覺畸變的時空優化問題.作者認為貝塞爾曲線表示法能夠有效平滑特征軌跡,同時能夠減少優化問題中的變量數目,從而提高穩像效率.Lee等人[99]提出,可靠的跟蹤特征點通常落在背景區域;大部分相機運動已經足夠穩定,而無需進行運動平滑導致過多的空白邊緣.因此作者使用穩健特征軌跡進行視頻穩像,在保證視頻穩定的前提下盡量控制空白邊緣,力求二者的平衡.文章使用的特征提取算法融合SIFT算法和粒子視頻法,利用SIFT算法空域運動的連續性減少誤匹配以及粒子視頻法軌跡時域運動的相似性保證大范圍特征跟蹤.Liu等人[1]根據3D剛體場景圖像的運動軌跡矩陣可以近似表示在低維度子空間內[100]的理論,提出子空間穩像法.方案先使用標準2D特征點跟蹤方法建立稀疏場景點的2D軌跡矩陣;然后對其做移動分解變換(moving factorization)來尋找對輸入運動的一個時變子空間近似,以將運動估計局部表示為2部分的乘積:一是稱為“特征軌跡”的基向量,二是將特征點描述為這些特征軌跡線性組合的系數矩陣;之后對特征軌跡進行運動平滑,將平滑后的特征軌跡與原始系數矩陣重新相乘來得到平滑后的輸出軌跡;最后使用渲染方案完成視頻穩像.Ryu等人[101]使用KLT跟蹤器來跟蹤特征點軌跡,然后使用Kalman濾波器來生成平滑特征點軌跡,最后在2D仿射模型下采用雙線性插值法進行圖像拼接完成穩像.Ringaby等人[102]使用KLT跟蹤器對Harris角點進行跟蹤,將相機旋轉參數化為帶有節點的連續曲線,并使用非線性最小二乘法來求解曲線參數,然后平滑此曲線來完成相關旋轉序列的平滑.Liu等人[103]將“as-similar-as-possible”的思想[81]引入到相機運動估計中來提高運動估計的魯棒性,提出一種多重的、時空可變的相機路徑模型,讓不同位置可以有獨自的相機路徑.此方法無須進行長時間特征軌跡跟蹤或稀疏3D重建,而使用多相機路徑建模相機運動,并使用基于網格的空間可變運動表示法以及自適應的時空路徑優化法.Zhang等人[69]使用KLT跟蹤器來跟蹤特征點軌跡,并根據特征點顯著度(saliency)來判斷其是否位于運動物體,去掉高顯著度的特征點后使用仿射模型來估計相機運動路徑,并提出一種“雙通道”優化方法進行運動補償完成視頻穩像.基于Liu等人[103]的多路徑方案,Bai等人[104]提出一種用戶輔助的視頻穩像方案,將跟蹤到的特征軌跡進行聚類并顯示,用戶可以根據需要選擇或去除不合適的特征軌跡類,用戶還可以直接自定義視頻幀中某個區域如何進行形變,這可以幫助減少視頻穩像后的畸變,最后根據用戶對于特征軌跡的篩選和指定區域的形變來生成穩定視頻.Wang等人[105]使用多平面結構實現視頻穩像.文章首先進行平面檢測:根據多視角幾何的平面單應變換產生的重投影誤差來將特征軌跡進行分類,相同類型的特征軌跡位于同一平面;然后對每個平面進行單獨特征軌跡平滑操作;最后使用保存內容的圖像形變[82]來融合圖中所有平滑過的平面,生成最終穩定視頻.
2) 幾何約束條件法
幾何約束條件法不直接進行相機3D運動重建,而是尋找一些重要的幾何約束條件,將復雜3D運動重建過程近似為遵循這些約束條件的求解問題.
Goldstein等人[106]提出一種穩像方案,將計算復雜的3D運動恢復簡化為簡單的像素點與極線的幾何約束條件.這種方法可以獲得接近3D方法的穩像結果,同時增強了穩健性并減小了運算開銷.方案首先使用KLT法來跟蹤特征點,然后計算包含了相機運動信息的基礎矩陣,再使用Gaussian濾波器完成估計平滑,最后使用對極點轉移法[107]來確定平滑后特征點的位置.Hsu等人[108]基于單應一致性約束提出一種穩像算法.作者認為穩定視頻應滿足2個條件:一是平滑的運動軌跡,二是連貫的幀間過渡.傳統方法大多只解決第1個問題,它們需要合適的、特定場景的參數設置,無法通用于不同場景.針對此問題,作者使用KLT跟蹤器跟蹤Harris角點來進行特征點匹配,并基于單應一致性的幾何約束來直接提取最佳平滑軌跡并使得幀間過渡均勻分布.
2.2 借助傳感器穩像
隨著微機電(micro-electro-mechanical system,MEMS)傳感器近些年在智能設備中的逐漸普及并且精度越來越高,基于MEMS傳感器的視頻穩像的新興方案逐漸出現.傳感器用來獲取相機運動極大簡化了運動估計的計算量,且可以應用在特征點不明顯甚至無法檢測到特征點情況下,提高視頻穩像的穩健性.
Ryu等人[109]使用慣性傳感器獲取3D旋轉信息來預測特征點初始位置,使其盡量接近跟蹤搜索范圍,以加速特征點跟蹤.方案將傳感器與KLT跟蹤器結合,采用相機3D旋轉模型,并且引入受啟發于人眼前庭動眼反射的方法來完成視頻穩像.Karpenko等人[110]聲稱,他們率先使用陀螺儀來解決手機應用的數字視頻防抖.作者使用陀螺儀獲取相機3D旋轉信息,并使用相機3D旋轉模型建模解決視頻穩像問題.作者指出,使用3D旋轉運動模型的原因有3點:1)加速度傳感器需要二次積分運算來獲取位移信息,然而二次積分帶來的誤差太大,嚴重影響平移參量估計的準度;2)即便獲取精確的平移參量,沒有深度信息它們也無法用于穩像;3)旋轉是造成視頻抖動的主要原因,平移帶來的抖動相對于選擇而言可以忽略.Hanning等人[111]使用加速度傳感器和陀螺儀傳感器,采用3D旋轉畸變模型來進行運動估計,并使用擴展Kalman濾波器EKF進行運動平滑,實現視頻穩像.Jia等人[112-113]基于流體優化法提出一種使用陀螺儀的穩像方案,針對已標定相機使用3D旋轉運動模型,利用流形黎曼幾何法來平滑視頻幀的相機旋轉矩陣,將運動平滑規劃為基于測地距的非線性流形約束回歸問題.為解決構建的流形約束平滑問題,方案使用黎曼幾何計算目標函數的梯度和海森矩陣,并且將歐氏空間中的二度量映射算法擴展到非線性流形結構中,以提高解決流形優化問題的效率.作為Karpenko等人[110]工作的續篇,Bell等人[114]針對定焦已標定相機,采用投影相機模型,借助陀螺儀傳感器完成相機3D旋轉抖動的穩像.文章提供一種非線性濾波方法,去掉所有小幅運動(不管其頻率),對于大幅運動,采用平滑相機角速度的方法來輸出平滑運動.另外一種方案,Sun[115]使用深度攝像頭解決視頻穩像問題,由于深度攝像頭輸出的深度信息有噪聲、深度圖像不完整且分辨率低,作者將深度圖像與原圖像結合來進行相機3D運動估計,即在2D特征點基礎上使用深度信息完成相機3D運動估計并最終完成視頻穩像.
這些使用傳感器來輔助完成相機運動估計的方法的優點是減小了視頻穩像算法的運算量,能夠適用于計算能力相對較弱的智能設備.
2.3 本節小結
不同于傳統技術的“黃金3步曲”,新興穩像技術試圖平衡效果和速度這一對矛盾,力求用接近傳統2D方案的計算復雜度來達到近似傳統3D方案的穩像效果.本節將新興方案分為2類:新興2D穩像技術和借助傳感器穩像技術.新興2D穩像將相機3D運動重建過程的約束條件放松,繞過復雜的3D重建操作,從特征軌跡和幾何約束條件2個方面尋找新的穩像方案;借助傳感器穩像方案將運動估計過程由傳統圖像處理方法轉化為更加簡單高效的硬件方法,極大提高運動估計速度,簡化穩像過程.
3.1 總 結
本文對數字視頻穩像技術進行了調研和綜述.數字穩像技術發展的近40年間,從最初簡單2D穩像技術發展到3D穩像,再發展到新興2D穩像技術以及借助傳感器穩像技術.

Fig. 4 Development of DVS techniques圖4 數字視頻穩像技術發展
最初簡單2D穩像技術流行,一方面是因為當時視頻設備的計算能力較弱,另一方面是因為當時視頻質量較差,2D穩像可以達到應用需求.隨著穩像技術的深入研究、視頻設備計算體能的提高以及特征匹配問題的精確解決等一系列因素的驅動,3D穩像技術逐漸發展成熟并得以應用.近幾年,隨著智能終端設備占據主流市場,智能傳感器的使用越來越普及,以及人們對于應用時效性的要求越來越高,研究者開始研究尋找更高效同時穩像效果接近3D穩像技術的方案,并取得了不錯的成果,新興2D穩像技術和借助傳感器的穩像技術涌現出來,并突破了傳統穩像技術的固定框架.這些技術的共同特點是用更簡單的計算量達到接近3D穩像的效果.本文對數字視頻穩像技術發展的總結如圖4所示:
3.2 展 望
通過對數字視頻穩像技術發展的總結分析,本文展望數字視頻技術發展趨勢和挑戰熱點為:
1) 視覺處理與傳感器深入融合
即傳統圖像處理法與傳感器的深入融合.在機器視覺和機器人應用中,視覺處理和傳感器融合的方法應用較成熟.但在視頻穩像應用中,鑒于設備計算能力和成本問題,二者融合的方案還并不多見.如何有效利用智能終端設備中的傳感器資源,使之與圖像處理算法更加高效地融合,會成為將來視頻穩像技術的一個研究點.
2) 新型傳感器的出現
陀螺儀等角速度傳感器在視頻穩像中的應用很多,而且效果不錯.然而正如一些研究者在其研究成果的不足之處所提到的,借助傳感器的方案都將運動模型選擇為旋轉模型,而忽略了平移對視頻抖動的影響.理由是視頻抖動主要由選擇運動造成,因為一般情況下場景離相機較遠.在智能終端設備普及的當前時代,室內或其他近距離視頻應用場景越來越多,此時平移運動造成的抖動并不能簡單忽略.另一方面,從學術研究角度看,完整的3D穩像研究也是必要的.當前加速度傳感器無法直接用于精度要求較高的視頻穩像應用,如果有精度更高的新型傳感器出現,能夠滿足視頻穩像的精度要求,則平移估計問題就迎刃而解.
3) 實時運動補償的研究
不管是傳統技術還是新興技術,都涉及到運動補償的問題,它的處理速度制約著視頻穩像的處理速度.目前運動補償常用的是Gaussian濾波器以及Kalman濾波器.Gaussian濾波器平滑效果很好,但適用于線下處理,即需要知道更多的運動狀態(包括過去的和將來的);Kalman濾波器能夠預測將來狀態,但沒有Gassian平滑效果好.如今智能終端設備對于應用的實時要求越來越高,例如實時視頻聊天,急需更高效的實時運動平滑濾波器.
[1]Liu Feng, Gleicher M, Wang Jue, et al. Subspace video stabilization[J]. ACM Trans on Graphics, 2011, 30(1): 623-636
[2]Rawat P, Singhai J. Review of motion estimation and video stabilization techniques for hand held mobile video[J]. International Journal of Signal & Image Processing, 2011, 2(2): 159-168
[3]Ko S J, Lee S H, Lee K H. Digital image stabilizing algorithms based on bit-plane matching[J]. IEEE Trans on Consumer Electronics, 1998, 44(3): 617-622
[4]Morimoto C, Chellappa R. Automatic digital image stabilization[COL]Proc of IEEE Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 1996 [2016-02-19]. https:www.researchgate.netpublication247372692_Automatic_Digital_Image_Stabilization
[5]Irani M, Rousso B, Peleg S. Recovery of ego-motion using image stabilization[C]Proc of Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 1994: 454-460
[6]Chen Ting. Video stabilization algorithm using a block-based parametric motion model, EE392J[R]. Palo Alto, CA: Stanford University, 2000
[7]Bhaskar H, Bez H E. A novel block motion estimation model for video stabilization applications[C]Proc of Int Conf on Informatics in Control, Automation and Robotics. Piscataway, NJ: IEEE, 2007: 303-306
[8]Vella F, Castorina A, Mancuso M, et al. Digital image stabilization by adaptive block motion vectors filtering[J]. IEEE Trans on Consumer Electronics, 2002, 48(3): 796-801
[9]Vella F, Castorina A, Mancuso M, et al. A robust digital image stabilization algorithm using block motion vectors[C]Proc of Int Conf on Consumer Electronics. Piscataway, NJ: IEEE, 2002: 234-235
[10]Yang S H, Jheng F M. An adaptive image stabilization technique[C]Proc of IEEE Int Conf on Systems, Man and Cybernetics. Piscataway, NJ: IEEE, 2006: 1968-1973
[11]Battiato S, Puglisi G, Bruna A R. A robust video stabilization system by adaptive motion vectors filtering[C]Proc of ICME. Piscataway, NJ: IEEE, 2008: 373-376
[12]Chen Homer H, Liang Chiakai, Peng Yuchun, et al. Integration of digital stabilizer with video codec for digital video cameras[J]. IEEE Trans on Circuits & Systems for Video Technology, 2007, 17(7): 801-813
[13]Puglisi G, Battiato S. A Robust image alignment algorithm for video stabilization purposes[J]. IEEE Trans on Circuits & Systems for Video Technology, 2011, 21(10): 1390-1400
[14]Tang Chongwu, Yang Xiaokang, Chen Li, et al. A fast video stabilization algorithm based on block matching and edge completion[C]Proc of the 13th IEEE Int Workshop on Multimedia Signal Processing. Piscataway, NJ: IEEE, 2011: 1-5
[15]Foroosh H, Zerubia J, Berthod M. Extension of phase correlation to subpixel registration[J]. IEEE Trans on Image Processing, 2002, 11(3): 188-200
[16]Li Min, Biswas M, Kumar S. DCT-based phase correlation motion estimation[C]Proc of Int Conf on Image Processing. Piscataway, NJ: IEEE, 2004: 445-448
[17]Kumar S, Biswas M, Nguyen T. Efficient phase correlation motion estimation using approximate normalization[C]Proc of the 38th Asilomar Conf on Signals Systems and Computers. Piscataway, NJ: IEEE, 2004: 1727-1730
[18]Bi Lingyan, Chan Kowkping, Yu Yinglin. Modified CLT-domain motion estimation based on phase correlation[J]. Journal of Electronics, 2004, 21(2): 110-115
[19]Argyriou V, Vlachos T. A study of sub-pixel motion estimation using phase correlation[C]Proc of the British Machine Vision Conf. Durham, UK: BMVA, 2006: 387-396
[20]Ahmed J, Jafri M N. Improved phase correlation matching[G]Image and Signal Processing. Berlin: Springer, 2008: 128-135
[21]Yan Hongshi, Liu Jianguo. Robust phase correllation based motion estimation and its applications[C]Proc of the British Machine Vision Conf. Durham, UK: BMVA, 2008: 1045-1054
[22]Vera E, Torres S. Subpixel accuracy analysis of phase correlation registration methods applied to aliased imagery[C]Proc of the 16th European Signal Processing Conf. Piscataway, NJ: IEEE, 2008: 1-5
[23]Liu Yangke, De Jifu, Li Bo, et al. Real-time global motion vectors estimation based on phase correlation and gray projection algorithm[C]Proc of the 2nd Int Congress on Image and Signal Processing. Piscataway, NJ: IEEE, 2009: 1-5
[24]Chen Yueting, Wu Jiagu, Li Qi, et al. A windowed phase correlation algorithm for subpixel motion estimation[G]SPIE 7850: Proc of Int Society for Optical Engineering. Bellingham, WA: SPIE, 2010: 2280-2283
[25]Lai Lijun, Xu Zhiyong. Global motion estimation based on Fourier Mellin and phase correlation[C]Proc of the 2nd Int Conf on Civil, Materials and Environmental Sciences. Paris: Atlantis, 2015: 636-639
[26]Erturk S. Digital image stabilization with sub-image phase correlation based global motion estimation[J]. IEEE Trans on Consumer Electronics, 2003, 49(4): 1320-1325
[27]Erturk S. Translation, rotation and scale stabilization of image sequences[J]. Electronics Letters, 2003, 39(17): 1245-1246
[28]Sanjeev K, Haleh A, Mainak B, et al. Real-time affine global motion estimation using phase correlation and its application for digital image stabilization[J]. IEEE Trans on Image Processing, 2011, 20(12): 3406-3418
[29]Jia Ruiming, Zhang Hong, Wang Lei, et al. Digital image stabilization based on phase correlation[C]Proc of IEEE Int Conf on Artificial Intelligence and Computational Intelligence. Piscataway, NJ: IEEE, 2009: 485-489
[30]Zhang Yuefei, Xie Mei, Tang Dongming. A central sub-image based global motion estimation method for in-car video stabilization[C]Proc of the 3rd IEEE Int Conf on Knowledge Discovery and Data Mining. Piscataway, NJ: IEEE, 2010: 204-207
[31]Arnheim R. The perception of the visual world[J]. Journal of Aesthetics & Art Criticism, 1952, 11(2): 231-235
[32]Barron J, Fleet D, Beauchemin S S. Performance of optical flow techniques[J]. International Journal of Computer Vision, 1994, 12(1): 236-242
[33]Lucas B, Kanade T. An iterative image registration technique with an application to stereo vision[C]Proc of Int Joint Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 1981: 674-679
[34]Chang Hungchang, Lai Shanghong, Lu Kuangrong. A robust and efficient video stabilization algorithm[C]Proc of IEEE Int Conf on Multimedia and Expo. Piscataway, NJ: IEEE, 2004: 29-32
[35]Chang J Y, Hu Wenfeng, Cheng Muhuo, et al. Digital image translational and rotational motion stabilization using optical flow technique[J]. IEEE Trans on Consumer Electronics, 2002, 48(1): 108-115
[36]Cai Jinhai, Walker R A. Robust motion estimation for camcorders mounted in mobile platforms[C]Proc of Digital Image Computing: Techniques and Applications. Piscataway, NJ: IEEE, 2008: 491-497
[37]Bouguet J Y. Pyramidal implementation of the Lucas Kanade feature tracker description of the algorithm[R]. Santa Clara, CA: Intel Corporation Microprocessor Research Labs, 2000
[38]Cai Jinhai, Walker R. A Robust video stabilization algorithm using feature point selection and delta optical flow[J]. IET Computer Vision, 2010, 3(4): 176-188
[39]Harris C, Stephens M. A combined corner and edge detector[C]Proc of the 4th Alvey Vision Conf. Durham, UK: BMVA, 1988: 147-151
[40]Edward R, Reid P, Tom D. Faster and better: A machine learning approach to corner detection[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2010, 32(32): 105-119
[41]Shi Jiaobo, Tomasi C. Good features to track[C]Proc of IEEE Computer Society Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 1994: 593-600
[42]Lowe D. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110
[43]Bay H, Tuytelaars T, Gool L V. SURF: Speeded up robust features[J]. Computer Vision & Image Understanding, 2006, 110(3): 404-417
[44]Amisha P. A survey on video stabilization techniques[J]. International Journal of Engineering Sciences & Research Technology, 2015, 4(2): 338-342
[45]Censi A, Fusiello A, Roberto V. Image stabilization by features tracking[C]Proc of IEEE Int Conf on Image Analysis and Processing. Piscataway, NJ: IEEE, 1999: 665
[46]Hu Rong, Shi Rongjie, Shen Ifan, et al. Video stabilization using scale-invariant features[C]Proc of the 17th IEEE Int Conf on Information Visualization. Piscataway, NJ: IEEE, 2007: 871-877
[47]Yang Junlan, Schonfeld D, Mohamed M. Robust video stabilization based on particle filter tracking of projected camera motion[J]. IEEE Trans on Circuits & Systems for Video Technology, 2009, 19(7): 945-954
[48]Shen Yao, Guturu P, Damarla T, et al. Video stabilization using principal component analysis and scale invariant feature transform in particle filter framework[J]. IEEE Trans on Consumer Electronics, 2009, 55(3): 1714-1721
[49]Pinto B, Anurenjan P R. SURF based robust video stabilization using Kalman filter[C]Proc of Int Conf on Technological Trends. Piscataway, NJ: IEEE, 2011 [2016-02-17]. https:www.researchgate.netpublication260384456_SURF_based_Robust_Video_Stabilization_Using_Klman_Filter
[50]Zhou Minqi, Asari V K. A fast video stabilization system based on speeded-up robust features[G]Advances in Visual Computing. Berlin: Springer, 2011: 428-435
[51]Zhang Kun, Xu Tingfa, Wang Ping, et al. Real-time full-frame digital image stabilization system by SURF[J]. Optics & Precision Engineering, 2011, 19(8): 1964-1972 (in Chinese)(張坤, 許廷發, 王平, 等. 高精度實時全幀頻SURF電子穩像方法[J]. 光學精密工程, 2011, 19(8): 1964-1972)
[52]Zheng Xie, Cui Shaohui, Wang Gang, et al. Video stabilization system based on speeded-up robust features[C]Proc of Int Industrial Informatics and Computer Engineering Conf. Paris: Atlantis, 2015: 1995-1998
[53]Irani M, Anandan P. About direct methods[G]LNCS 1883: Vision Algorithms: Theory and Practice. Berlin: Springer, 1999: 267-277
[54]Torr P H S, Zisserman A. Feature based methods for structure and motion estimation[G]LNCS 1883: Vision Algorithms: Theory and Practice. Berlin: Springer, 1999: 278-294
[55]Kalman R E. A new approach to linear filtering and prediction problems[J]. Journal of Basic Engineering, 1960, 82(1): 35-45
[56]Valiviita S, Ovaska S J, Vainio O. Polynomial predictive filtering in control instrumentation: A review[J]. IEEE Trans on Industrial Electronics, 1999, 46(5): 876-888
[57]Erturk S. Image sequence stabilization: Motion vector integration (MVI) versus frame position smoothing(FPS)[C]Proc of the 2nd Int Symp on Image and Signal Processing and Analysis. Piscataway, NJ: IEEE, 2001: 266-271
[58]Jahne B B. Digital Image Processing: Concepts, Algorithms and Scientific Applications[M]. Berlin: Springer, 1992
[59]Yasuyuki M, Eyal O, Ge Weina, et al. Full-frame video stabilization with motion inpainting.[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2006, 28(7): 1150-1163
[60]Xu Jie, Chang Huawen, Yang Shuo, et al. Fast feature-based video stabilization without accumulative global motion estimation[J]. IEEE Trans on Consumer Electronics, 2012, 58(3): 993-999
[61]Erturk S. Real-time digital image stabilization using Kalman filters[J]. Real-Time Imaging, 2002, 8(4): 317-328
[62]Litvin A, Konrad J, Karl W C. Probabilistic video stabilization using Kalman filtering and mosaicking[G]SPIE 5022: The Int Society for Optical Engineering. Bellingham, WA: SPIE, 2003: 663-674
[63]Gullu M K, Yaman E, Erturk S. Image sequence stabilisation using fuzzy adaptive Kalman filtering[J]. Electronics Letters, 2003, 39(5): 429-431
[64]Wang Dechong, Liang Aimin. Constraint translational and rotational motion filtering for video stabilization[C]Proc of the 13th European Signal Processing Conf. Piscataway, NJ: IEEE, 2005, 2005: 64-70
[65]Gordon N, Arulampalam M, Maskell S, et al. A tutorial on particle filters for online nonlinearnon-Gaussian Bayesian tracking[J]. IEEE Trans on Signal Process, 2002, 50(2): 174-188
[66]Yang Junlan, Schonfeld D, Chen Chong, et al. Online video stabilization based on particle filters[C]Proc of Int Conf on Image Processing. Piscataway, NJ: IEEE, 2006: 1545-1548
[67]Yang Junlan, Schonfeld D, Mohamed M. Robust video stabilization based on particle filter tracking of projected camera motion[J]. IEEE Trans on Circuits & Systems for Video Technology, 2009, 19(7): 945-954
[68]Chen Bingyu, Lee Kenyi, Huang Weiting, et al. Capturing intention-based full-frame video stabilization[J]. Computer Graphics Forum, 2008, 27(7): 1805-1814
[69]Zhang Fanglue, Wang Jue, Zhao Han, et al. Simultaneous camera path optimization and distraction removal for improving amateur video[J]. IEEE Trans on Image Processing, 2015, 24(12): 5982-5994
[70]Yoo S, Katsaggelos A K, Jo G, et al. Video completion using block matching for video stabilization[C]Proc of the 18th IEEE Int Symp on Consumer Electronics. Piscataway, NJ: IEEE, 2014: 1-2
[71]Hartley R, Zisserman A. Multiple View Geometry in Computer Vision[M]. 2nd ed. Cambridge, UK: Cambridge University Press, 2003
[72]Hartley R. In defense of the eight-point algorithm[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1997, 19(6): 580-593
[73]Stewenius H, Nister D, Kahl F, et al. A minimal solution for relative pose with unknown focal length[C]Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2005: 789-794
[74]Kukelova Z, Bujnak M, Pajdla T. Polynomial eigenvalue solutions to minimal problems in computer vision[J]. IEEE Trans on Software Engineering, 2012, 34(7): 1381-1393
[75]Nister D. An efficient solution to the five-point relative pose problem[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2004, 26(6): 756-770
[76]Li Hongdong, Hartley R. Five-point motion estimation made easy[C]Proc of the 18th Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 2006: 630-633
[77]Brückner M, Bajramovic F, Denzler J. Experimental evaluation of relative pose estimation algorithms[C]Proc of the 3rd Int Conf on Computer Vision Theory and Applications. Piscataway, NJ: IEEE, 2008: 431-438
[78]Wang Jungming, Chou Hanping, Chen Seiwang, et al. Video stabilization for a hand-held camera based on 3D motion model[C]Proc of the 16th IEEE Int Conf on Image Processing. Piscataway, NJ: IEEE, 2009: 3477-3480
[79]van Wyk M A, Durrani T S, van Wyj B J. A RKHS interpolator-based graph matching algorithm[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2002, 24(7): 988-995
[80]Zhang Guofeng, Hua Wei, Qin Xueying, et al. Video stabilization based on a 3D perspective camera model[J]. Visual Computer, 2009, 25(11): 997-1008
[81]Liu Feng, Gleicher M, Jin Hailin, et al. Content-preserving warps for 3D video stabilization[J]. ACM Trans on Graphics, 2009, 28(3): 341-352
[82]Lee T H, Lee Y G, Song B C. Fast 3D video stabilization using ROI-based warping[J]. Journal of Visual Communication & Image Representation, 2014, 25(5): 943-950
[83]Ryu Y G, Roh H C, Chung M J. 3D video stabilization for humanoid eyes using vision and inertial sensors inspired by human VOR[C]Proc of IEEE Int Conf on Robotics and Biomimetics. Piscataway, NJ: IEEE, 2010: 1780-1785
[84]Azuma R, Bishop G. Improving static and dynamic registration in an optical seethrough HMD[C]Proc of the 21st Annual Conf on Computer Graphics and Interactive Techniques. New York: ACM, 1994: 197-204
[85]Grassia F S. Practical parameterization of rotations using the exponential map[J]. The Journal of Graphics Tools, 1998, 3(3): 29-48
[86]Hanotaux G, Peroche B. Interactive control of interpolations for animation and modeling[COL]Proc of Graphics Interface. 1993: 201-208 [2016-02-19]. https:www.researchgate.netpublication243782403_Interactive_Control_of_Interpolations_for_Animation_and_Modeling
[87]Johnstone J K, Williams J P. Rational control of orientation for animation[COL]Proc of Graphics Interface. 1995: 179-186[2016-02-19]. https:www.researchgate.netpublication243781796_Rational_control_of_orientation_for_animation
[88]Shoemake K. Animating rotation with quaternion curves[J]. ACM SIGGRAPH Computer Graphics, 1985, 19(3): 245-254
[89]Hsieh C C, Fang Y C, Wang M E, et al. Noise smoothing for VR equipment in quaternions[J]. IIE Transactions, 1998, 30(7): 581-587
[90]Lee J, Shin S Y. Motion fairing[C]Proc of Computer Animation. Piscataway, NJ: IEEE, 1996: 136-143
[91]Lee J, Shin S Y. General construction of time-domain filters for orientation data[J]. IEEE Trans on Visualization and Computer Graphics, 2002, 8(2): 119-128
[92]Morimoto C, Chellappa R. Fast 3D stabilization and mosaic construction[C]Proc of IEEE Computer Society Conf on Computer Vision & Pattern Recognition. Piscataway, NJ: IEEE, 1997: 660-665
[93]Kang Singbing. Survey of image-based rendering techniques[G]SPIE 4067: The Int Society for Optical Engineering. Bellingham, WA: SPIE, 1997: 2-16
[94]Shade J, Gortler S, He Liwei, et al. Layered depth images[C]Proc of the 25th Annual Conf on Computer Graphics and Interactive Techniques. New York: ACM, 1998: 231-242
[95]Kang S B, Dinh H Q. Multi-layered image-based rendering[J]. Graphics Interface, 1999, 1(7): 2-13
[96]Buehler C, Bosse M, Mcmillan L, et al. Unstructured lumigraph rendering[C]Proc of Association for Computing Machinery. New York: ACM, 2001: 425-432
[97]Buehler C, Bosse M, Mcmillan L. Non-metric image-based rendering for video stabilization[C]Proc of the 2001 IEEE Computer Society Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2001: 609-614
[98]Wang Yushuen, Liu Feng, Hsu Pushen, et al. Spatially and temporally optimized video stabilization[J]. IEEE Trans on Visualization & Computer Graphics, 2013, 19(8): 1354-1361
[99]Lee Kenyi, Chuang Yungyu, Chen Bingyu, et al. Video stabilization using robust feature trajectories[C]Proc of IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2009: 1397-1404
[100]Tomasi C, Kanade T. Shape and motion from image streams under orthography: A factorization method[J]. International Journal of Computer Vision, 1992, 9(2): 137-154
[101]Ryu Y G, Chung M J. Robust online digital image stabilization based on point-feature trajectory without accumulative global motion estimation[J]. IEEE Signal Processing Letters, 2012, 19(4): 223-226
[102]Ringaby E, Forssén P E. Efficient video rectification and stabilization for cell-phones[J]. International Journal of Computer Vision, 2012, 96(3): 335-352
[103]Liu Shuaicheng, Yuan Lu, Tan Ping, et al. Bundled camera paths for video stabilization[J]. ACM Trans on Graphics, 2013, 32(4): 96-96
[104]Bai J, Agarwala A, Agrawala M, et al. User-assisted video stabilization[C]Proc of the 25th Eurographics Symp on Rendering. New York: ACM, 2014: 61-70
[105]Wang Zhongqiang, Zhang Lei, Huang Hua. Multiplane video stabilization[C]Proc of Computer Graphics Forum. Hoboken, NJ: John Wiley & Sons, 2013: 265-273
[106]Goldstein A, Fattal R. Video stabilization using epipolar geometry[J]. ACM Trans on Graphics, 2012, 31(5): 573-587
[107]Laveau S, Faugeras O. 3-D scene representation as a collection of images[C]Proc of the 12th Int Conf on Pattern Recognition. Piscataway, NJ: IEEE, 1994: 689-691
[108]Hsu Yufeng, Chou Chengchuan, Shih Mingyu. Moving camera video stabilization using homography consistency[C]Proc of the 19th IEEE Int Conf on Image Processing. Piscataway, NJ: IEEE, 2012: 2761-2764
[109]Ryu Y G, Roh H C, Chung M J. Video stabilization for robot eye using IMU-aided feature tracker[C]Proc of IEEE Int Conf on Control Automation and Systems. Piscataway, NJ: IEEE, 2010: 1875-1878
[110]Karpenko A, Jacobs D, Baek J, et al. Digital video stabilization and rolling shutter correction using gyroscopes[R]. Palo Alto, CA: Stanford University, 2011
[111]Hanning G, Forslow N, Forssen P E, et al. Stabilizing cell phone video using inertial measurement sensors[C]Proc of IEEE Int Conf on Computer Vision Workshops. Piscataway, NJ: IEEE, 2011: 1-8
[112]Jia Chao, Evans B L. 3D rotational video stabilization using manifold optimization[C]Proc of Int Conf on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2013: 2493-2497
[113]Jia Chao, Evans B L. Constrained 3D rotation smoothing via global manifold regression for video stabilization[J]. IEEE Trans on Signal Processing, 2014, 62(13): 3293-3304
[114]Bell S, Troccoli A, Pulli K. A non-linear filter for gyroscope-based video stabilization[C]Proc of European Conf on Computer Vision. Berlin: Springer, 2014: 294-308
[115]Sun Jian. Video stabilization with a depth camera[C]Proc of IEEE Computer Society Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 89-95


Xie Wei, born in 1974. PhD. Professorate Senior Engineer. His main research interests include IC design and image processing.

He Zhiqiang, born in 1963. Professor, PhD supervisor. Member of CCF. His main research interests include computer architecture and computer application technology.
Digital Video Stabilization Techniques: A Survey
Wei Shanshan1,2, Xie Wei2, and He Zhiqiang3
1(SchoolofComputerScienceandEngineering,BeihangUniversity,Beijing100191)2(SoCCenter,LenovoCorporateResearch&Development,Beijing100085)3(Ecosystem&CloudServicesBusinessGroup,LenovoGroup,Beijing100085)
Digital video stabilization (DVS) techniques have been developing for over 30 years. The improvement of device computing ability, the research on related algorithms as well as the market needs have always been driving the development of DVS techniques: from simple solutions aimed at computing simplicity in early years to complex solutions aimed at stabilization effect, and further to advanced solutions trying to meet both computing simplicity and stabilization effect in recent years. In this survey, we first analyze the existing DVS techniques chronologically and then classify them into two basic catalogues: traditional techniques and emerging techniques. Traditional techniques are strictly based on typical motion models and rely on image processing algorithms for motion estimation. Emerging techniques relax the motion models and introduce novel techniques for motion estimation. According to the motion model they adopt, the traditional techniques are further divided into traditional 2D techniques and traditional 3D techniques. Similarly, the emerging techniques are further divided into emerging 2D techniques and sensor-based techniques. In each technique survey, we first analyze the key techniques it relies on and then list its applications in DVS. Finally, we summarize the existing DVS techniques and look into the challenges and developing trend of DVS techniques in the future.
digital video; stabilization; survey; traditional techniques; emerging techniques
his BSc and MSc degrees in computer science in North China Electric Power University in 2008 and 2011. Currently PhD candidate of computer science and technology in Beihang University. His main research interests include image processing and computer vision.
2016-02-19;
2016-12-09
TP391