吳 迪,蔡曉東,華 娜,梁奔香,朱利偉(桂林電子科技大學信息與通信學院,桂林 541004)
?
基于對象的監控視頻摘要生成優化方法?
吳 迪,蔡曉東,華 娜,梁奔香,朱利偉
(桂林電子科技大學信息與通信學院,桂林541004)
摘 要:隨著監控技術和網絡技術的飛速發展,高清網絡監控攝像頭廣泛應用于各個行業。這些高清攝像頭全天候工作,產生了海量的監控視頻數據。如何快速完整的瀏覽長時間的監控視頻已經成為監控行業目前亟待解決的問題。視頻摘要就是解決“海量視頻數據處理”的重要手段。然而,傳統的基于關鍵幀的視頻摘要生成方法采用幀采樣無法完整表示每個對象的運動軌跡,從而導致大量有用視頻信息的丟失。針對監控視頻的特點,設計了一種基于對象的視頻摘要生成處理框架,對比傳統摘要生成方法分析了監控視頻摘要生成框架所需的核心技術:目標檢測跟蹤與軌跡提取、運動目標軌跡的組合優化和軌跡融合之像素融合,得到了一個比原始視頻短的多的摘要視頻,實現了快速瀏覽且保留了原始視頻中大多數運動對象的信息。 當幀背景和運動對象融合時可以看做是大圖和小圖的融合,可實際上參與融合計算的是小圖及其粘貼后的同等大小背景部分區域圖片,在這里直接當做是同等大小圖像的融合。假設參加融合的運動對象的圖像和摘要幀背景的圖像分別為MV和BG,圖像大小為M*N,經融合后得到的融合結果圖像為F,那么,對于MV、BG兩個圖像像素值的加權平均融合過程[10]可以表示為: 當幀背景和運動對象團塊差異很大時,對加權平均融合方法和本節提出的基于高斯分布的融合方法的融合效果進行比較,融合效果對比示意圖如圖9所示。
關鍵詞:視頻監控;視頻摘要;運動目標檢測;多目標跟蹤;軌跡組合優化;像素融合
21世紀以來,隨著人們對公共安全的關注和需求不斷上升,視頻監控系統也因此得到廣泛應用,每天有數以萬計的攝像頭在記錄著城市的一舉一動,由此產生了海量的監控視頻。在視頻監控領域,如何將長時間的原始視頻文件濃縮為簡短的視頻從而快速準確的從海量監控視頻數據中提取有用信息已經成為亟待解決的問題。正是視頻監控市場的迫切需求催生并推動了視頻摘要技術。
目前監控領域的視頻摘要生成方法主要有兩種:一是靜態視頻摘要中基于關鍵幀的摘要;二是動態視頻摘要中基于對象的視頻摘要。
基于關鍵幀的視頻摘要方法,是通過分析原始視頻,首先從鏡頭中提取得到反映原始視頻信息的關鍵視頻幀,接著將關鍵幀組成相應的語義內容,實現快速瀏覽。顧名思義,該方法的核心內容就是關鍵幀的提取。現有的關鍵幀選取方法[1-4]主要通過圖像顏色及紋理的差異性來判別是否為關鍵幀。基于關鍵幀的視頻摘要的主要優點是結果簡單,觀看方便。對于這種靜態的視頻摘要方法,上文已經提到它只是對于視頻中鏡頭的靜態圖像提取,結果過于簡單,很難準確表達視頻的內在含義,又由于其基于“幀”的特性分析,無法適應監控視頻領域中需要對視頻幀的“對象”進行特征分析的情況。同時,關鍵幀的提取依賴于圖像的底層特征,而這些底層特征在不同場景中很容易受到周圍環境(如光照)的影響使得圖像不具有明顯的區分度,且關鍵幀檢測的計算量龐大因而無法進行在線處理。
基于對象的視頻摘要方法,是目前監控視頻領域常用的一種動態視頻摘要。首先是提取用戶的注意力目標,然后重建出用戶感興趣目標的視頻摘要。通常涉及到的技術是背景建模后獲取活動區域的方法,運動目標跟蹤方法,多視頻融合等[5-7]。這種方法可以高效動態的改變視頻內容的相關特性,最小化時空冗余度,然而,基于對象的視頻摘要方法存在著復雜場景下生成視頻摘要困難的問題。
將基于事件分析的多目標魯棒跟蹤方法[8]、軌跡最優組合方法及圖像融合技術充分的結合起來,解決了監控視頻摘要壓縮的問題,并降低了時空的冗余信息,為視頻檢索、突發事件、視頻快速查看提供了支撐條件。
如圖1所示是作者提出的監控視頻摘要瀏覽處理流程,主要有兩個處理階段:
(1)視頻采集與對象檢測跟蹤
在這個處理階段,主要的核心算法是目標的檢測與跟蹤,對實時的要求比較高,這里主要的研究工作有:監控場景的視頻流采集,高斯模型建立背景,目標的檢測與跟蹤。

圖1 監控視頻摘要瀏覽處理流程
(2)視頻摘要生成
在這個處理階段,主要的研究工作是軌跡優化和像素融合。
對于第一個處理階段,文獻[8]中已經做了詳細說明,此文算法提出對多攝像機觀察到的目標信息進行交接,從而識別出對應目標,解決了目標之間發生遮擋、分離事件后跟蹤丟失的難題,具有較高的魯棒性。
在第一個處理階段的基礎之上,本方法著重研究的是第二個處理階段:軌跡優化和像素融合。
經過目標的檢測跟蹤,需要對上述提取到的運動軌跡進行重新組合。如何實現運動軌跡在時間上的壓縮和空間上的平移,最大限度的去除冗余信息是軌跡組合的核心問題。文中提出一種改進的模擬退火軌跡組合優化算法,實現最大限度的時間壓縮和空間對象平移。
由于受到拍攝場景、拍攝設備等的影響,直接將背景圖片與生成的運動軌跡進行拼接,會看到明顯的像素間斷。為了實現軌跡與背景圖片的無縫拼接,將高斯背景重建提取的大背景與跟蹤得到的團塊小前景進行了基于高斯分布的像素融合處理。
3.1運動軌跡模型的建立
在三維時空模型中,原始視頻中的任意一幀畫面表示為I(x,y,t)。其中x、y是像素空間坐標,t是幀號。同理,摘要中的任意一幀畫面表示為IA(x,y,t)。從原始視頻中提取到所有運動目標的軌跡,形成運動目標軌跡集合,并表示為P ={p1,p2,p3,…,pn}。

圖2 軌跡組合示意圖
如圖2展示了原始視頻運動軌跡生成視頻摘要后在時間軸上平移的效果。運動軌跡集合P的重新組合也即是組合優化問題,類似集裝箱模型,實現用最少的集裝箱容納更多的貨物。筆者借鑒了上述模型的思想,通過建立能量模型,將組合優化問題轉化成求解能量最小化的問題。接下來的一個小節是對該能量模型的進一步分析。
3.2能量函數
原視頻中I(x,y,F(x,y,t))通過映射得到摘要視頻的每一個像素IA(x,y,t),通過公式(1)的能量最小化函數得到映射函數F。
E(F)= Ea(F)+αEd(F)+βEc(F)(1)
其中Ea(F)表示軌跡能量損失,也即某一運動目標在原始視頻中出現,而在摘要視頻中沒有出現。Eb(F)表示運動目標重疊代價,也即若干運動目標在摘要視頻中出現了重疊的代價。Ec(F)表示運動目標時序一致性的代價,指某一些運動目標在原始視頻中在某些幀一起出現,在視頻摘要中應盡量保持這種關系。
假設運動目標p在原始視頻中出現的時間為:tp=[ta出現的時間段為tp’=[tap’,tbp’]。如此,將原始視頻中的所有運動目標通過映射函數F映射到摘要視頻中,即得到P’={p1’,p2’,p3’,…,pn’}。將運動目標時間平移的組合優化問題轉換成為求解下式的最小化問題。
E(F′)= Ea(F′)+αEd(F′)+βEc(F′)(2)
本節采用模擬退火方法來求解如上式所示的能量函數的最小值。然而,選擇簡單的映射方法很難保證模擬退火算法的初始分布足夠均勻,從而導致該方法的效果不佳。
為了解決上述問題,本節提出了一種改進的模擬退火軌跡組合優化方法。該方法先采用聚類規劃算法,將初始分布調整到足夠均勻,然后采用模擬退火算法求解最優解。
3.3改進的模擬退火軌跡組合最優化
(1)基于聚類的規劃算法
如圖3所示,橫軸表示該目標的起始時間,縱軸表示每一個目標。在摘要視頻中間區域很稠密,而在開始和結束都會存在一個稀疏區域,沒有滿足均勻分布,采用基于聚類的線段樹方法,來平衡摘要視頻中每一幀的運動目標數目,避免目標在某一幀中過于集中,以至于難以將目標不重疊地融合到摘要視頻中。采用該方法,還能將起點在相鄰區域內的運動目標聚到一類,令其在摘要視頻中按時間先后順序出現在視頻中。正如一個車道上發車的情景,前面車輛先離開,后面車輛不會和前面車輛有重疊的時候再發車。這樣就可以避免運動目標在摘要視頻中發生沖突、重疊或者交叉,有效減少了沖突的概率。如圖4所示,橫軸表示該目標的起始時間,縱軸表示每一個目標。與上圖不同的是,在總行數一定的情況下,每行都有多個目標,這樣可以保證每一幀出現的目標數一致,保證了運動目標在每一幀中的均勻分布,充分利用每一幀的空間,有效縮短了摘要視頻的長度。

圖4 視頻空間規劃分布圖
(2)模擬退火算法
模擬退火算法(Simulated Annealing)得益于固體退火原理。固體加熱材料粒子的不同結構對應于不同能級的粒子。在高溫下,能量粒子可以自由移動和重新排列,在低溫時,粒子的能量比較低。如果溫度從高溫開始緩慢的降到低溫(這一過程稱為退火),那么,粒子在每個溫度可以達到熱平衡。該算法最早于1953年Metropolis[9]等人提出。采用模擬退火算法求解組合優化問題,將目標隨機散列在時空中當做初始解。算法從初始狀態和一個隨機初始溫度開始,對當前解的組合進行交換求得新解的能量,如果新解的能量小于舊解,那么就接受新解的組合,否則會以一定概率接受新解。
(3)運動軌跡組合優化過程
上一小節簡單介紹了模擬退火算法的基本原理,將模擬退火算法運用到求解視頻摘要的組合優化問題需要確定兩點:產生相鄰解和選擇初始解。
假設從原始視頻中提取到n個運動目標軌跡P ={p1,p2,p3,…,pn},視頻摘要的重視頻長度為L,選擇t =t降溫方式,初始溫度設置為t。
lg(i +1)0
本節將運動目標軌跡如何排列組合的問題轉變成將運動目標映射到摘要視頻中,使得能量函數取得最小的問題。每次產生新解,可以隨機組合運動目標軌跡,交換其時間位置,然后計算其能量函數的能量是否比舊解小,如果小于舊解則接受新解,否者以一定概率接受新解。初始解的排列采用隨機方式。為每一個目標隨機選擇其起始位置。求解新解也采用隨機任意交換兩運動目標后計算其能量。采用模擬退火的方式求解摘要視頻最優排列組合的問題依賴于初始解的選取。
(4)實驗結果小結
根據[8]得到場景卡口的運動軌跡個數35,原始視頻時長為4分23秒,形成的摘要視頻時長為2分24秒。假設初始溫度為25000,終止溫度為3000度,那么,傳統的模擬退火算法和文中所述改進的模擬退火軌跡組合優化方法隨著迭代次數的增加得到的能量趨勢圖如圖5所示。

圖5 迭代能量趨勢圖
由圖5可知,改進的模擬退火方法收斂速度高于傳統的模擬退火算法。這是由于文中首先進行了聚類規劃分析,使得軌跡的初始分布足夠均勻,然后又進行了基于模擬退火的能量最小求解。初始分布的足夠均勻大大加快了模擬退火的收斂速度。
綜上,在基于聚類分析之后結合模擬退火算法進行優化,相比傳統的模擬退火算法收斂性能更好。
由于攝像頭拍攝畫面是變化的,以及攝像頭自身拍攝條件的限制,再加上受到光照等環境因素的影響,從而導致對象軌跡與摘要幀背景直接粘貼會出現明顯的拼接痕跡這一現象的發生。為了消除這一明顯的拼接痕跡,就必須要實現摘要視頻背景和跟蹤的運動軌跡團塊的無縫融合。
F(m,n)=ω1PMV(m,n)+ω2PBG(m,n)(3)
式中,PMV(m,n)和PBG(m,n)分別為MV和BG的像素值;m和n分別為圖像中像素的行號和列號,且m =1,2,…,M,n = 1,2,…,N;w1、w2為加權系數,且w1+ w2=1;若w1= w2=0.5,則是平均融合。
通過平均融合方法對圖像進行融合處理[10],它的特點是簡單直觀,適合實時處理,但是,在實際的視頻摘要進行摘要幀背景和運動對象粘貼過程中采用該方法時,發現當兩者的灰度差異很大時,還是會有比較明顯的拼接痕跡。嘗試加大摘要幀背景的權重w1,融合效果得到一定的改善。權重對融合效果起到這么關鍵的作用,這引發了作者的下一步思考——采用新的權重分配策略。接下來主要闡述的是基于高斯分布的權重分布策略。
高斯分布即為正態分布,二維正態分布的密度函數為:

其中,σ為正態分布的標準差,(xc,yc)為高斯函數分布的質心。
二維正態分布的密度函數是三維高斯曲面,如圖6所示,曲面中心處的權值是最大的,沿著中心向兩邊擴散的方向,權重越來越小。將該曲面投射到二維空間,隨著同心圓由內向外的過程,高斯權重越來越小,如圖7所示。由于文中檢測到的運動目標是矩形框形式,將同心圓的高斯分布等價轉化為矩形框的高斯權重分布。同理,矩形框由里到外的權重越來越小,如圖8所示。

圖6 三維高斯曲面圖

圖7 二維投影圖

圖8 權重分布矩形圖
該方法的基本思想是由高斯權重分布的矩形框遍歷運動對象的團塊,越靠近中心位置,像素的權重越大,且權重符合高斯分布。
假設運動對象團塊任一像素點(xi,yi)的像素值為PMV,摘要幀背景中對應于該像素點的像素值為PBG,結合高斯權重分布策略進行像素融合的詳細步驟如下:
步驟一,對于m*n的運動對象的矩形區域進行區域劃分。如果m〉n,則得到n/2個矩形框,反之,則劃分為m/2個矩形框。
步驟二,計算運動對象上像素點(xi,yi)的權重值。由式(4)所示的二維正態分布密度函數表達式,可知運動對象上任一像素點為(xi,yi)的高斯權重值為:

步驟三,討論運動對象上的像素點是前景還是背景。如果運動對象上的某一像素點(xi,yi)在運動目標檢測的過程中被當做前景,結合式(3),可直接將融合后的像素值F(m,n)等于PMV;如果運動對象團塊上的某一像素點(xi,yi)在運動目標檢測的過程中當做背景,將式(5)代入(3)可得融合后的像素值:


圖9 融合效果對比示意圖
根據視頻摘要畫面可以容納對象的多少,視頻摘要的生成方式有兩種:一是高濃縮比視頻摘要,二是無損視頻摘要。
在預定濃縮比之后,軌跡丟失導致的信息丟失將不是這種方法要考慮的問題,比較適用于公共場所視頻監控用戶進行一般的視頻摘要瀏覽。但是對于一些機密場所下攝取的監控視頻,是不允許有軌跡丟失的,那么形成的視頻摘要應包含所有運動對象的軌跡信息,然后再考慮得到緊湊的短視頻。文中采用模擬退火組合優化能量,不像高濃縮比視頻摘要生成方式,濃縮比給定以后,生成的摘要視頻長度也就確定了。對于無損視頻摘要生成方式,為了保證所有運動對象軌跡不丟失,是不能夠提前預測出生成的摘要視頻長度的。舉例說明了生成無損視頻摘要的效果演示,如圖10所示的交通卡口1攝取的監控視頻,原始長度為14253,生成的摘要視頻長度為156;如圖11所示的交通卡口2攝取的監控視頻,原始長度為9638,生成的摘要視頻長度為123。

圖10 原始視頻幀與車流摘要視頻幀

圖11 原始視頻幀與行人摘要視頻幀
針對監控視頻的快速瀏覽與大部分活動信息不丟失問題,結合監控視頻本身的特點,提出了一種基于對象軌跡的視頻摘要生成處理框架,并實現了該技術框架中的關鍵技術。在保持運動對象軌跡的位置不變的情況,將對象軌跡在時間上進行移動優化。采用改進的模擬退火優化方法實現生成摘要視頻的時間壓縮和空間平移。采用矩形高斯權重分配策略,實現了摘要視頻幀背景和運動對象軌跡的無縫融合。相比傳統的視頻摘要生成方式中以“關鍵幀”為基本單位的視頻結構,該文提出的以“對象”為基本單位的結構為后續的基于對象的語義內容研究奠定了基礎。
參考文獻:
[1]Nam J,Tewfik A H.Video abstract of video[C].Multimedia Signal Processing,1999 IEEE 3rd Workshop on.IEEE,1999:117-122.
[2]Narasimha R,Savakis A,Rao R M,et al.A neural network approach to key frame extraction[C].//Electronic Imaging 2004.International Society for Optics and Photonics,2003:439-447.
[3]Zhao L,Li S,Yang S,et al.Key-frame extraction and shot retrieval using nearest feature line[J].NFL.Proceedings of ACM Multimedia Workshop 2000,2000:217-220.
[4]Zhang S H,Li X Y,Hu S M,et al.Online video stream abstraction and stylization[J].Multimedia,IEEE Transactions on,2011,13(6):1286-1294.
[5]Pritch Y,Ratovitch S,Hendel A,et al.Clustered synopsis of surveillance video[C].//Advanced Video and Signal Based Surveillance,2009.AVSS'09.Sixth IEEE International Conference on.IEEE,2009:195-200.
[6]Vural U,Akgul Y S.Eye-gaze based real-time surveillance video synopsis[J].Pattern Recognition Letters,2009,30(12):1151-1159.
[7]Li T,Mei T,Kweon I S,et al.Video M:Multi-video Synopsis[C].//Data Mining Workshops,2008.ICDMW'08.IEEE International Conference on.IEEE,2008:854-861.
[8]吳迪,蔡曉東,華娜,等.基于事件分析的多攝像機魯棒跟蹤算法[J].電視技術,2015,39(13):53-57.Wu D,Cai X D,Hua N.Robust video tracking based on event analysis[J].Video Engineering,accepted.2015,39 (13):53-57.
[9]Steinbrunn M,Moerkotte G,Kemper A.Heuristic and Ran2 domized Optimization for the Join Ordering Problem [J].The VLDB Journal,1997,6(3):8-17.
[10]郭雷,李暉暉,鮑永生.圖像融合(第1版)[M].北京:電子工業出版社,2008.Guo L,Li H H,Pao Y S.Image Fusion[M].Beijing:Electronic Industry Press,2008.
Optimization Method for Generating Surveillance Video Synopsis Based on Objects
Wu Di,Cai Xiaodong,Hua Na,Liang Benxiang,Zhu Liwei
(School of Information and Communication Engineering,Guilin University of Electronic Technology,Guilin 541004,China)
Abstract:With the rapid development of surveillance technology and network technology,high-definition network surveillance cameras are widely used in various industries.With 24 hours working per day,these cameras capture millions of video.In the field of surveillance industry,fast and completely browsing the long surveillance video become urgent requirement.Video summary generation technology is an effective means to solve this problem.However,a massive of useful video information has been lost because the traditional video summary generation method,based on the key-frame,cannot fully represent the trajectory of each object.This paper focus on surveillance video data and presents an object-based technology framework of video synopsis generation.Compared with the traditional method of generating summary,it analyzes the core technologies of surveillance video summary generation technology framework,i.e.object detection tracking and trajectory extraction,optimization of combined motion target trajectory and pixel fusion,achieves a quick overview and retains most of the original information of moving objects in video.
Key words:Video Surveillance;Video synopsis;Motion detection;Multi-target tracking;Trajectory combinatorial optimization;Pixel fusion
DOI:10.3969/j.issn.1002-2279.2016.02.012
中圖分類號:TP392.4
文獻標識碼:A
文章編號:1002-2279(2016)01-0041-06
基金項目:?國家科技支撐計劃課題(2014BAK11B02);廣西自然科學基金項目(面上項目)2013GXNSFAA019326);桂林電子科技大學研究生科研創新項目(GDYCSZ201410)
作者簡介:吳迪(1989-),女,河南商丘人,碩士研究生,主研方向:智能視頻處理、云計算。蔡曉東(1971-),男,碩士生導師,主研方向:智能視頻處理、云計算、無線傳感網絡。
收稿日期:2015-05-05