黃雙華 郭 凱 劉 峰
(海軍工程大學電子工程學院 武漢 430033)
計算機和網絡基礎建設的快速發展以及數字視頻技術的廣泛應用,促進了不同多媒體應用需求的急速增長。這些應用成功與否的一個關鍵因素是如何有效和有效率地管理和存儲大量的音頻、視頻信息,同時提供用戶友好的方式來獲得存儲的數據。這促使生成了一個迅速發展的研究領域——視頻摘要[1]。視頻摘要是一個生成短視頻總結的機制,這可以是一系列靜態圖像(幀)或者運動圖像(視頻)總結。就瀏覽和導航而言,一個好視頻摘要允許用戶在一個規定的時間內獲得關于源視頻[2]序列的最大信息,或者在最少的時間內獲得足夠的信息。視頻摘要技術主要被用來瀏覽視頻數據庫,尤其是在基于內容的視頻檢索方法效果有限的條件下,可以實現視頻的自動提取。另一方面,視頻摘要技術不僅可以完成大量視頻集合的瀏覽,也可以幫助用戶以一種與視頻編輯故事板相似的非線性方式進行視頻導航,或者與單個視頻序列進行交互式操作,這允許用戶快速獲得視頻序列中的語義相關位置,這在視頻編輯和創作應用中非常有用,僅僅保留視頻序列的必要信息,改善了存儲、帶寬,增加了信噪比。
在視頻情形下,2D圖像縮圖從時間域擴展到3D下的空間—時間縮圖,視頻縮圖用于估計建模輸入數據的大多數細小空間—時間立方體(spacetime cubes),進一步完成不同的建模和重建任務,最后縮圖碎片成功實現合成圖像和視頻,從圖像一個部分得到的碎片被連接起來,用于合成具有相似結構的新圖像,或者將內覆蓋的結構轉成內部區域[3~4],這個方法也被用來填充視頻數據的丟失或者閉塞區域[5],為了聯合分析和綜合數據,基于碎片的概率模型在文獻[6]中被引入,這些模型被稱作“縮圖”,編制取自輸入圖像的碎片為一個壓縮的模型。圖1為生成一個視頻縮圖的步驟。

圖1 視頻縮圖生成示意圖
本文把視頻序列看作一個像素度量的3D數組Vx,y,t(每幀是R、G、B 顏色通道),其中x∈:{1,…,Xv},y∈:{1,…,Yv},t∈:{1,…,Tv},縮圖E 使用一系列排列在尺寸為Xe×Ye×Te網格上的概率分布來建模視頻,因此縮圖Ex,y,t可以假設為一個概率分布的3D數組,特定的像素值V能在E中任意的概率分布下計算。由于本質上像素度量是連續的,因此有必要參數化每個縮圖分布。本文使用如下參數形式,即三維的高斯分布在每個通道上被一個不同均值和對角協方差矩陣參數化:

其中μx,y,t是均值,φx,y,t是協方差矩陣(如對于 RGB值),對角協方差矩陣通過去除顏色通道來計算。
縮圖通過建模取樣自視頻的3D碎片來建模視頻。碎片可以有任何形狀,但為了記錄方便,假設每個碎片擁有線性、軸對齊的邊界,并把每個碎片視作“立方體”。在碎片S中,每個碎片可以看作有序集的像素坐標,例如,一個起點坐標是(8,9),起始自第7幀的10*10*5的視頻碎片被描述成集合S={8,…,17}×{9,…,18}×{7,…,11},假設S中的坐標是有序的,因此S(k)代表S中的第k坐標,如在上面的例子中S(1)=(8,9,7)。
V表示視頻中所有坐標的觀測像素值,VS表示坐標S中小視頻立方塊的觀測像素值,CS表示在相同立方塊的像素值。為了使預測的視頻立方塊與觀測的視頻立方塊相似,則立方塊Cs≈VS(即假設與T對應的立方塊在尺寸上和與S對應的立方塊一樣,視線一對一的坐標對應關系),那么使用坐標T和預測值CS下的分布計算出的概率密度Et(CS)為

圖2為視頻像素生成示意圖。

圖2 視頻像素的生成過程
定義視頻序列的生成模型,此模型適用于實驗部分描述的所有應用,生成過程的第一步包括為輸入視頻中每個可能的坐標集S生成一個估計立方塊CS。服從統一分布條件下隨機選擇縮圖碎片Ts,然后使用分布 ETs(cs)來生成CS。然后,對于視頻中的每個像素坐標(x,y,t),在自由能最小化的過程中,使估值一致。則視頻像素Vx,y,t,所有重疊的立方塊{S:(x,y,t)∈S}以及方差為δ2x,y,t的高斯噪聲被加進三個通道后的表達式為

其中[]是艾佛森的指示器函數,即[true]=1,[false]=0。為了強調視頻立方塊cs是被視為獨立的,使用記錄Cs,k來表示CS的第k個像素,因此視頻立方塊CS中的一個像素不是由全局坐標S(k)唯一定義的。為了使輸入視頻的每個像素至少出現在一個視頻方塊里,所有變量的聯合分布可以表示為

為了簡化,通常假設p(Ts)是不變的。
視頻縮圖可以在空間和時間上壓縮視頻,縮圖的尺寸可以作為調節器用來調整空間和時間的壓縮量,空間和時間的平衡在生成視頻縮圖和建模視頻上有很大的影響。
圖3的圖像處理結果顯示了時間空間的平衡對于視頻成像的影響。
其中,圖3(a)為樣本視頻,即玩具車繞墊子行駛的幀;圖3(b)為視頻在極大空間壓縮條件下的縮圖成像,此種極端條情形下,個體的運動模式是分離的,為了最大化利用所有可用的像素,縮圖取自環形曲面,即縮圖在邊緣是環形彎曲的;相反地,圖3(c)顯示了一段極大壓縮視頻時間維度的視頻縮圖,由于只有幾幀產生作用,視頻縮圖使用幀自動建模多重運動模式;圖3(d)利用獨立取向每個像素點達到與原始視頻序列具有相同均值和方差的高斯分布,完成其結構化的初始化過程,因此在時間維度一致情況下,空間結構與原始視頻序列對齊,加上少量噪聲,可以得到精確度較高的視頻縮圖。

圖3 視頻縮圖時間空間的權衡
值得注意的是,上圖中的每個縮圖中的像素數量近似相等,原始視頻中的像素數量遠遠大于縮圖像素數量(超過20倍),時間維度上自2~4,空間上自10*20到15*25,15*10到20*12。
文獻[7]的范例僅僅定義了圖像處理的一種應用,為了實現多方面的圖像信息處理,例如邊緣圖、曲面圖等信息處理,本文利用上述視頻縮圖模型完成圖像信息的識別、運動檢測和跟蹤以及獲得高分辨率圖像的功能。
給定采集數據情況下,視頻圖像處理的實驗效果如圖4所示。

圖4 縮圖模型的圖像處理效果
圖4(a)是原始圖像,對應的大小是600*600像素(縮小到原始圖像1/4大小顯示);圖4(b)是對應原始圖像的縮圖,其尺寸是50*50像素;圖4(c)是用對應縮圖恢復出來的圖像,其尺寸是600*600像素,也縮小到1/4大小顯示。其中,迭代次數為3。
從上面實驗可以看出,縮圖在空間尺度上比原始圖像小得多,而根據縮圖恢復出來的圖像質量可以滿足視覺上的要求,這可以應用在圖像、視頻存儲和傳輸上。
圖5~圖6為在原始圖像中加入高斯噪聲后,利用縮圖理論模擬真實圖片場景的實驗效果。

圖5 原始圖像和加入相同強度隨機噪聲的噪聲圖像

圖6 原始圖像對應的縮圖和運用縮圖算法恢復出的圖像
實驗中的原始圖像大小是320*240像素,加入到原始圖像中的隨機噪聲強度與原始圖像的強度相同,實驗中使用的碎片的大小為8*8像素,得到的縮圖大小為50*50像素,迭代次數為4,處理時間大約為4min。
從上面的實驗效果可以看出,恢復出來的圖像中包含了原始圖像中的外觀和形狀信息,這在縮圖圖像可以體現出來(如圖6中的左圖),說明此方法可以應用在形狀和外觀特征比較重要的去噪任務中。
本文視頻樣本為平行移動攝像機拍攝的一段瀑布,視頻的尺度是480*360*735,運用4層次的金字塔模型,得到mosaic[4]圖像如圖7~圖10所示。

圖7 最終得到的mosaic圖像

圖8 原始視頻對應的X-T流形切片

圖9 對應于上圖圓圈的原始視頻幀

圖10 原始視頻中截取的5幀圖像
根據上面的實驗效果,我們又挑選了一段餐桌上的視頻進行了實驗,將攝像機放在圓桌的中央,然后平行移動攝像機,得到桌子周圍每個人的圖像,然后通過空間—時間流形方法得到最后的圖像。
原始視頻的大小為320*144*547,得到的摘要圖像如圖11~圖14所示。

圖11 餐桌視頻生成的mosaic視頻摘要

圖12 對應于餐桌視頻的X-T切片頂視圖

圖13 對應于X-T切片時刻的原始圖像(對應于上圖的圓圈)

圖14 原始視頻中抽取出的5幀圖像
本文分析了縮圖理論以及結構化縮圖理論,利用縮圖理論在2D圖像處理的應用,將其應用到3D視頻圖像信息領域的處理,根據采集的實驗數據和理論算法,得到了良好的實驗效果。結果表明,利用此算法處理后的圖像可視化效果較好,保真度較高,并且抗干擾噪聲的能力較強,在視頻圖像處理中可以找到長時間段內的相似圖像,達到較高的時間壓縮率,在圖像信息的高分辨率提取、圖像存儲、目標運動檢測以及完成圖像去噪等領域有較好的應用前景。
[1]劉桂清.視頻摘要技術的研究與實現[D].長沙:國防科技大學博士論文,2004.
[2]Truong B.T.,Venkatesh S.Video abstraction:A systematic review and classification[J].ACM Trans.Multimedia Comput.Commun.,2007,3(1):1-37.
[3]Andreas Girgensohn,John Boreczky,Lynn Wilcox.Keyframe-based user interfaces for digital video[C]//IEEE Computer,2001,34:61-67.
[4]LEE.S,HAYE,M.An application for interactive video abstraction[C]//Proceedings of the ICASSP Conference,2004.
[5]WU,J.K.,KANKANHALLI,M.S.,LIM,J.-H.,et al.Perspective on Content-Based Multimedia Systems[C]//Kluwer Academic,Hingham,MA,2000.
[6]N Jojic,B.J.Frey,A Kannan.Epitomic analysis of appearance and shape[C]//Proc.IEEE Intern.Conf.on Computer Vision,2003:34-41.
[7]K.Toyama,A Blake.Probabilistic tracking in a metric space[C]//Proc.International Conference on Computer Vision,2001.
[8]陳劍贅,吳玲達.視頻摘要[J].中國圖象圖形學報,2003,8(7).