沈 秋 李小凡 孔繁鏘 代俁西
?
基于仿射模型的無人機視頻實時壓縮算法
沈 秋*李小凡 孔繁鏘 代俁西
(南京航空航天大學(xué)航天學(xué)院 南京 210016)
在現(xiàn)有算法無法滿足無人機視頻實時壓縮傳輸需求的應(yīng)用背景下,該文提出一種新的低復(fù)雜度無人機(Unmanned Aerial Vehicle, UAV)視頻實時壓縮算法,利用無人機視頻的背景平面性、運動一致性等特點,建立仿射模型描述視頻的全局運動,并根據(jù)模型參數(shù)進行視頻壓縮。實驗結(jié)果表明,與現(xiàn)有壓縮算法H.264相比,該算法在保證壓縮性能的前提下,大量減少了壓縮時間,可滿足大多數(shù)情況下無人機視頻傳輸?shù)馁|(zhì)量要求和實時性要求。
視頻壓縮;無人機視頻;全局運動估計;仿射模型
信息化時代的到來要求人們改變對偏遠地區(qū)(例如高原、森林等)信息采集的傳統(tǒng)方式。無人機(Unmanned Aerial Vehicle, UAV)由于經(jīng)濟環(huán)保、安全便捷,現(xiàn)已越來越廣泛地應(yīng)用于土地監(jiān)測、森林防火、抗震救災(zāi)、電力巡線等領(lǐng)域。然而無人機由于機載設(shè)備受限、要求視頻實時傳輸?shù)仍颍笃洳捎玫囊曨l壓縮算法復(fù)雜度低、壓縮性能高。
目前,無人機視頻壓縮主要使用MPEG-2[1]和H.264[2]等標(biāo)準(zhǔn)算法,算法核心是基于塊的運動補償/變換的混合編碼,算法復(fù)雜度較高,無法實現(xiàn)實時壓縮和傳輸。運動估計是現(xiàn)有視頻壓縮算法的核心技術(shù)之一,也是算法復(fù)雜度高的主要因素[3],以H.264為例,運動估計的時間占整個視頻編碼時間的60%~80%[4]。因此,如何有效地進行運動估計是減少壓縮編碼時間的關(guān)鍵。
一方面,無人機在執(zhí)行偵察、勘測任務(wù)時,大部分飛行高度都在500 m以上,遠大于拍攝距離,故可以忽略地表起伏以及獨立的運動目標(biāo),將拍攝的背景視為平面[5];另一方面,航拍視頻中獨立的運動目標(biāo)在畫幅中所占比例較小,并且大部分拍攝任務(wù)在飛行狀態(tài)比較平穩(wěn)時進行,因此,可假設(shè)無人機視頻的相鄰幀之間存在有規(guī)律的、一致的全局運動;其次,無人機的飛行速度一般在100~300 km/h,而視頻拍攝幀率在25~30幀/s,兩幀之間具有70%~90%的重疊度[6]。鑒于以上幾個特征,在大部分情況下,對無人機拍攝視頻采用全局運動估計代替分塊的運動估計,可以在不嚴(yán)重影響視頻質(zhì)量的同時,較大地降低算法復(fù)雜度。
現(xiàn)有的全局運動估計算法可分為基于像素域和基于壓縮域的方法,前者大多采用的是最小二乘的迭代方法以及快速的金字塔算法,又可細分為基于像素[7]、基于特征[5, 8, 9]、基于塊匹配[10, 11]3種算法;后者利用壓縮碼流中的相關(guān)信息進行快速的全局運動估計[12, 13],相較于前者,計算量少,但壓縮碼流中運動矢量由于局部運動影響,會使全局運動估計產(chǎn)生偏差。現(xiàn)有利用全局運動估計進行視頻壓縮的算法,其全局運動矢量只包含水平和垂直兩個分量,適合簡單的平移運動,不能應(yīng)對旋轉(zhuǎn)、縮放等復(fù)雜情況,預(yù)測后的編碼殘差大,碼率高而性能低。
本文結(jié)合無人機運動的特點,提出了一種基于六參數(shù)仿射變換模型的全局運動估計算法,可以精準(zhǔn)地描述視頻圖像的平移、旋轉(zhuǎn)、縮放等運動,并利用模型參數(shù)指導(dǎo)視頻的幀間預(yù)測和運動補償,在保持視頻壓縮性能的同時,極大地降低計算復(fù)雜度。
按照攝像機運動方式的不同,全局運動模型有對應(yīng)于平移的二參數(shù)模型,對應(yīng)于平移和縮放運動的三參數(shù)模型[14],對應(yīng)于平移、縮放和旋轉(zhuǎn)的四參數(shù)模型,六參數(shù)的仿射模型[15,16],八參數(shù)的投影模型以及十二參數(shù)的拋物模型。參數(shù)越多,描述的模型越復(fù)雜,描述的精度也越高,但是模型的計算復(fù)雜度也就越高。

當(dāng)無人機做水平運動時,其運動模型可以用二參數(shù)的平移模型來表達。

圖1 航拍視頻成像圖

然而無人機在飛行過程中免不了要進行各種姿態(tài)調(diào)整,這就會帶來比平移更復(fù)雜的全局運動,如旋轉(zhuǎn)、縮放等,如圖2所示,是一個無人機航拍視頻中某一幀的運動矢量圖的一部分。圖像上半部分與下半部分的運動方向不一致,運動矢量的大小也不相同,一般的平移模型已經(jīng)不能滿足這種情況。


其中



圖2 航拍視頻運動矢量圖


本文利用六參數(shù)仿射模型對無人機視頻的全局運動進行描述,并根據(jù)全局運動參數(shù)對視頻進行壓縮,避開了視頻壓縮編碼中最耗時的運動估計部分,達到大幅降低計算復(fù)雜度的目的。算法主體框架與標(biāo)準(zhǔn)算法H.264相同(如圖3所示),主要改進的核心步驟包括兩個部分,即全局運動模型參數(shù)估計和基于全局運動模型的運動補償,如圖中虛線框內(nèi)所示。
本文采用基于特征點匹配的全局運動模型參數(shù)估計,主要步驟包括:

圖3 基于仿射模型的無人機壓縮算法編碼框架圖
(3)估計出的運動參數(shù)需要加入到壓縮碼流中,可以加在視頻圖像頭參數(shù)列表中,也可以利用補充增強信息單元攜帶該信息。

直接利用換算出的運動矢量對圖像進行運動補償和預(yù)測,并對幀間預(yù)測補償后的殘差壓縮編碼得到壓縮比特流,而該碼流中不再攜帶每個分塊的運動矢量。

實驗中分別對H.264壓縮算法全搜索方式(以下用H.264全搜索代指)、基于二參數(shù)平移模型的全局運動估計壓縮算法(以下用二參數(shù)平移模型代指)和本文提出的算法(以下用六參數(shù)仿射模型代指)進行測試和比較。
4.1.1壓縮時間比較 各算法平均壓縮用時如表1所示,本文算法和基于二參數(shù)平移模型的算法所需視頻壓縮時間均遠遠少于H.264全搜索方式,只有H.264全搜索方式的4%左右,對于無人機視頻實時傳輸應(yīng)用具有重要的實踐意義。并且由于基于二參數(shù)平移模型的算法不能準(zhǔn)確地表達全局運動,導(dǎo)致編碼殘差較大,對應(yīng)的編碼時間略長,因此,其壓縮時間也略大于本文算法。
4.1.2壓縮性能比較 本文對于壓縮視頻的性能采用率失真曲線圖衡量。量化參數(shù)分別取16, 22, 28, 34, 40, 46,這里列舉4個序列的率失真曲線圖如圖4~圖7所示。
表1壓縮時間比較

序列H.264全搜索(s)二參數(shù)平移模型(s)六參數(shù)仿射模型(s) 序列128.3981.3211.188 序列227.0881.0080.954 序列328.0371.2391.199 序列427.6111.2061.087 序列528.4231.1181.068 序列627.5601.1241.014 序列727.9041.2771.112 序列829.2361.5311.386 序列929.7721.4701.312

圖5 序列4性能比較圖

圖6 序列6性能比較圖

圖7 序列9性能比較圖
4.1.3主觀質(zhì)量及細節(jié)損失比較 當(dāng)壓縮比為102:1時,選取序列1的重建視頻中第3幀作為比較。圖8~圖11分別展示了原始幀及重建幀以及它們的局部細節(jié)放大圖和使用零交叉方式(zerocross)提取出來的邊緣局部細節(jié)放大圖。從圖中可以看出,在同樣的碼率下本文算法重建幀與H.264全搜索方式重建幀在細節(jié)方面具有一樣良好的表現(xiàn),與原始視頻幀相比沒有明顯的損失,而二參數(shù)平移模型方式則細節(jié)損失嚴(yán)重,進一步說明了本文算法的有效性。

圖8 原始圖像幀

圖9 H.264全搜索方式編碼重建

圖10 六參數(shù)仿射模型編碼重建

圖11 二參數(shù)平移模型編碼重建
本實驗分別從壓縮時間、客觀重建質(zhì)量和主觀重建質(zhì)量3個方面,對視頻壓縮算法性能進行了全面的比較與分析。結(jié)果顯示本文算法比H.264全搜索方式算法復(fù)雜度降低了95%以上;而基于二參數(shù)平移模型的算法雖然在壓縮時間上和本文算法相當(dāng),但由于其無法適應(yīng)旋轉(zhuǎn)、縮放運動,造成運動矢量誤差較大,所以壓縮性能要遠低于本文的算法,不能滿足無人機視頻實時傳輸?shù)馁|(zhì)量要求。因此,與傳統(tǒng)方法相比,本文提出的基于六參數(shù)仿射模型的算法可以在壓縮時間和壓縮質(zhì)量兩方面取得最優(yōu)的綜合性能。
本文在現(xiàn)有壓縮算法的基礎(chǔ)上,針對無人機的特殊需求提出了一種新的視頻壓縮編碼算法,利用無人機視頻的背景平面性、運動一致性等特點,建立仿射模型描述視頻的全局運動,并根據(jù)模型參數(shù)進行視頻壓縮。算法計算復(fù)雜度低且性能與現(xiàn)有H.264算法相當(dāng),達到了實時性壓縮目的,對于機載設(shè)備受限的無人機而言具有顯著的實際應(yīng)用價值。該算法對于無人機應(yīng)用的大多數(shù)情況具有良好的性能,但也具有一定的局限性,當(dāng)無人機運動變化劇烈或飛行高度較低、運動目標(biāo)較大時,該算法模型不能很好地表達視頻中的復(fù)雜運動,從而造成性能下降。因此,作者下一步的研究重點是進一步地優(yōu)化和完善全局運動模型以及實現(xiàn)運動目標(biāo)的分割與獨立編碼,從而提高本文算法的適用性和有效性。
[1] 毛偉勇. 可用于無線傳輸?shù)母咔錗PEG-2實時編碼器的設(shè)計與實現(xiàn)[D]. [碩士論文], 上海交通大學(xué), 2008.
Mao Wei-yong. Design and implementation of high definition real-time MPEG-2 encoder used for wireless transmission[D]. [Master dissertation], Shanghai Jiao Tong University, 2008.
[2] 陳坤. 微型無人機圖像傳輸系統(tǒng)研究[D]. [碩士論文], 天津大學(xué), 2011.
Chen Kun. Research of image transmission system in micro-UAV[D]. [Master dissertation], Tianjin University, 2011.
[3] 劉英哲, 王進祥. H.264中一種基于搜索范圍自適應(yīng)調(diào)整的運動估計算法[J]. 電子與信息學(xué)報, 2013, 35(6): 1382-1387.
Liu Ying-zhe and Wang Jin-xiang. Motion estimation algorithm based on adaptive search range adjustment for H.264[J].&, 2013, 35(6): 1382-1387.
[4] 姚玉兵. H.264視頻編碼運動估計算法研究[D]. [碩士論文], 華東理工大學(xué), 2011.
Yao Yu-bing. Research of motion estimation based on H.264 video coding[D]. [Master dissertation], East China University of Science and Technology, 2011.
[5] 王云麗, 張鑫, 高超, 等. 航拍視頻拼圖中基于特征匹配的全局運動估計方法[J]. 航空學(xué)報, 2008, 29(5): 1218-1225.
Wang Yun-li, Zhang Xin, Gao Chao,.. Feature matching based global motion estimation in aerial video mosaicing[J]., 2008, 29(5): 1218-1225.
[6] 田金文, 謝清鵬, 譚毅華, 等. 無人機序列圖像壓縮方法研究[J]. 華中科技大學(xué)學(xué)報(自然科學(xué)版), 2005, 33(12): 76-78.
Tian Jin-wen, Xie Qing-peng, Tan Yi-hua,.. Methods for compressing sequence image of unmanned aerial vehicle[J].(), 2005, 33(12): 76-78.
[7] 王思珺, 趙建, 韓希珍. 基于仿射變換的快速全局運動估計算法[J]. 液晶與顯示, 2012, 27(2): 263-266.
Wang Si-jun, Zhao Jian, and Han Xi-zhen. Fast global motion estimation algorithm based on affine transformation[J]., 2012, 27(2): 263-266.
[8] 于明, 孫煒燁, 閻剛, 等. 動態(tài)場景下基于精確背景補償?shù)倪\動目標(biāo)檢測[J]. 計算機應(yīng)用與軟件, 2013, 30(10): 139-141.
Yu Ming, Sun Wei-ye, Yan Gang,..Moving objects detection based on exact background compensation in dynamic scene[J]., 2013, 30(10): 139-141.
[9] 王天召, 徐克虎, 陳金玉, 等. 基于均值聚類和幾何關(guān)系的運動背景估計算法研究[J]. 光電子技術(shù), 2013, 33(4): 244-248.
Wang Tian-zhao, Xu Ke-hu, Chen Jin-yu,.. Research on algorithm of moving background estimation based on means clustering and triangulation[J]., 2013, 33(4): 244-248.
[10] 吳浩, 鄧宏彬, 何少陽. 基于分塊灰度投影的無人飛行器視頻穩(wěn)像方法[J]. 北京理工大學(xué)學(xué)報, 2013, 33(4): 385-389.
Wu Hao, Deng Hong-bin, and He Shao-yang. A UAV video stabilization method based on sub-block gray projection[J]., 2013, 33(4): 385-389.
[11] 席志紅, 初守艷. 全局運動中結(jié)合改進C-1BT變換的平移運動估計[J]. 應(yīng)用科學(xué)學(xué)報, 2013, 31(6): 601-606.
Xi Zhi-hong and Chu Shou-yan. Translational motion estimation combined with improved C-1BT transform in global motion[J]., 2013, 31(6): 601-606.
[12] 王喆, 劉貴忠, 錢學(xué)明. 一種高效的基于H.264/AVC壓縮域信息的全局運動估計方法[J]. 電子學(xué)報, 2011, 39(3A): 19-23.
Wang Zhe, Liu Gui-zhong and Qian Xue-ming. An efficient global motion estimation algorithm on H.264/AVC compression domain[J]., 2011, 39(3A): 19-23.
[13] 王麗. 視頻流中運動對象提取與分割的研究[D]. [碩士論文], 電子科技大學(xué), 2011.
Wang Li. Research on moving object extraction and segmentation among a video stream[D]. [Master dissertation], University of Electronic Science and Technology of China, 2011.
[14] 王嘉, 王海峰, 劉青山, 等. 基于三參數(shù)模型的快速全局運動估計[J]. 計算機學(xué)報, 2006, 29(6): 920-926.
Wang Jia, Wang Hai-feng, Liu Qing-shan,..Fast global motion estimation based on 3-parameter global motion model[J]., 2006, 29(6): 920-926.
[15] 郭麗, 龔聲蓉, 崔志明. 一種快速全局運動估計算法[J]. 中國圖象圖形學(xué)報, 2007, 12(12): 2119-2126.
Guo Li, Gong Sheng-rong, and Cui Zhi-ming. A fast global motion estimation algorithm[J]., 2007, 12(12): 2119-2126.
[16] Bhaskaranand M and Gibson J D. Low-complexity video encoding for UAV reconnaissance and surveillance[C]. Proceedings of the Military Communications Conference, Baltimore, MD, USA, 2011: 1633-1638.
[17] Rublee E, Rabaud V, Konolige K,.. ORB: an efficient alternative to SIFT or SURF[C]. Proceedings of the Computer Vision (ICCV), Barcelona, Spain, 2011: 2564-2571.
[18] 張波, 羅海勇, 劉冀偉, 等. 視覺傳感器網(wǎng)絡(luò)中基于RANSAC的頑健定位算法[J]. 通信學(xué)報, 2013, 34(8): 62-69.
Zhang Bo, Luo Hai-yong, Liu Ji-wei,.. RANSAC based robust localization algorithm for visual sensor network[J]., 2013, 34(8): 62-69.
沈 秋: 女,1982年生,講師,研究方向為視頻壓縮與處理等.
李小凡: 男,1990年生,碩士生,研究方向為數(shù)字圖像處理等.
孔繁鏘: 男,1980年生,講師,研究方向為多光譜遙感圖像傳輸與處理等.
代俁西: 女,1991年生,碩士生,研究方向為三維數(shù)字視頻處理等.
A Real-time Video Compression for UAV Based on Affine Model
Shen Qiu Li Xiao-fan Kong Fan-qiang Dai Yu-xi
(,,210016,)
Since the existing algorithms can not meet the requirements of real-time compression and transmission for UAV(Unmanned Aerial Vehicle) videos, a new real-time compression algorithm with low complexity for UAV videos is proposed. Considering the plane background and unified motion of UAV videos, the proposed method establishes an affine model for global motion estimation and compression. The experimental results demonstrate that the proposed algorithm is able to reduce the total encoding time while maintaining the performance compared with H.264, which the quality requirement and real-time performance for UAV videos transmission can be satisfied in most cases.
Video compression; Unmanned Aerial Vehicle (UAV) videos; Global motion estimation; Affine model
TN919.81
A
1009-5896(2014)12-2855-06
10.3724/SP.J.1146.2014.00080
沈秋 shenqiu@nuaa.edu.cn
2014-01-13收到,2014-05-09改回
國家自然科學(xué)基金(61201365),南京航空航天大學(xué)基本科研業(yè)務(wù)費專項項目(NS2012071),南京航空航天大學(xué)青年科技創(chuàng)新基金(NS2013085),南京航空航天大學(xué)研究生創(chuàng)新基地(實驗室)開放基金(kfjj201457)和中央高校基本科研業(yè)務(wù)費專項資金資助課題