李雨聰,陳家新
(河南科技大學電子信息工程學院,河南 洛陽 471023)
責任編輯:任健男
當前,對于裝載有重要物品的特殊車輛(如油罐車、押款車或軍用車等),使用視頻監控已成為保障裝載物和車輛本身安全的重要手段。隨著監控網絡規模不斷擴大,視頻數據呈現海量增長趨勢,視頻調用查看所耗人力、時間也成倍增長。如何從海量視頻信息中獲取感興趣的視頻片段,已成為影響網絡視頻監控性能的一個主要瓶頸。為此,視頻檢索技術的出現能夠很好地解決這一問題。
所謂視頻檢索技術就是從大量的視頻數據中找到所需的視頻片段。傳統的基于關鍵字的視頻檢索方式已無法滿足人們對信息檢索的高效性和準確性需求。因此,必須根據視頻的時間及空間結構,更為合理地組織數據,才能有效地檢索視頻信息。針對以上問題,專家們提出了一種基于內容的視頻檢索技術[1](Content-Based Video Retrieval,CBVR),并迅速成為國內外學者研究的熱點。在基于內容的視頻檢索中[2],一般先將圖像序列分割為鏡頭,從鏡頭中提取關鍵幀;再提取出鏡頭的動態特征與關鍵幀的靜態特征并存入數據庫;最后,根據這些特征索引對視頻實現檢索。
針對車載的監控視頻,本文以基于內容的視頻檢索技術為基礎,設計了一種包含自動檢索和主動檢索兩種方式的視頻快速檢索方法,以滿足不同用戶的檢索需求。
本文所處理的視頻數據是由固定于車廂外的攝像頭所采集。無論車輛處于何種狀態,攝像機和車輛之間始終處于一種相對靜止狀態,其他任何靠近該車輛的人或物均成為運動目標。只不過當車輛運行時,由于車輛顛簸(振動)或加速,視頻監測圖像會有抖動現象。另外,用戶對視頻的調用中,關注的重點是監控錄像中有活動物體的畫面,即“活動”視頻片段,對監控錄像中大量無活動物體的“靜止”畫面并不感興趣。
所以,針對車載監控視頻存在抖動的特點和用戶對視頻檢索的準確、高效要求,在檢索之前,首先要對視頻消除抖動,然后才能對穩像后的視頻進行檢索。視頻檢索中,自動檢索方式是為了避開一些無大作用的視頻畫面,使用戶不至于由于長時間瀏覽的疲勞而對一些細節運動視頻漏失。實現時以檢測出來的運動目標作為“活動”視頻的“標記”,提取出只含有運動物體的視頻段供一般的用戶瀏覽。而主動檢索方式是為了充分提高用戶對車載監控視頻瀏覽的效率和準確度,更有針對性地直接提取出用戶所需要的視頻片段(如為警察等特殊用戶有針對性地快速檢索出含有某嫌疑車或嫌疑人的視頻片段)。該方式的實現首先要從視頻中提取出關鍵幀,并對關鍵幀進行特征描述,用戶可以通過人機交互給定的示例圖片與提取出的關鍵幀進行相似度匹配。當取到相似度距離最小值時,為匹配成功。用戶就可以從該關鍵幀處開始瀏覽視頻。整個設計具體的實現過程如圖1所示。

圖1 監控視頻快速檢索方法實現過程
消除視頻抖動一般采用的方法中,特征匹配的方法[3]和光流的方法[4]運算量都太大,而塊匹配的方法受限于對含有平移和微小旋轉的圖像序列具有較高的檢測精度,但可采用兩步搜索法、兩維對數下降法等快速搜索算法來大幅度減少運算量[5]。考慮到車載攝像頭緊固于車身上,在安裝調試后參數固定不變,不存在大幅度旋轉或調焦等運動。所以,本文采用改進的基于塊匹配的算法消除視頻抖動,從速度和效果上都能滿足用戶需求。
假設每幀圖像水平、垂直方向像素數分別為M和N,如圖2建立參考幀坐標系OXY,每個小方格為1個像素。在參考幀中選取一個特征明顯又不會被遮擋的標示性物體作為匹配模板區域(如倒車鏡),將其局部運動矢量直接作為全局運動矢量。圖2陰影所示,劃定出匹配模板區域,原點位于圖2中“* ”處,坐標為(X0,Y0)。

圖2 參考幀與匹配模板區域坐標系
根據實際情況,若水平、垂直抖動最大幅度分別為S和V像素。那么,劃定模版匹配區域時就要先通過軟件將模板匹配區域左上角原點限制在圖2中黑色粗線框所示的矩形區域內。此矩形左上角坐標為(S,V),寬為(M -L-2S)像素,高為(N-H-2V)像素。
如圖3所示,待匹配區域(圖3陰影部分)尺寸與模版區域相同,左上角“*”所在像素在當前幀坐標系中的坐標為(X,Y)。圖3中粗線框矩形為搜索范圍,此矩形左上角坐標為(X0-S,Y0-V),寬為(2 S+1)像素,高為(V+1)像素。

圖3 當前幀與待匹配區域坐標系
開始處理前設置偏移量(dx,dy)和運動趨勢(kx,ky)的初始值分別為(0,0)和(+1,+1)。規定運動趨勢kx和ky取+1時分別表示向右、向下運動,取-1時分別表示向左、向上運動。開始處理時,假設已求得上一幀中匹配模板區域的(dx,dy)和(kx,ky),搜索最佳匹配就按照以下步驟進行:
1)根據上一幀偏移量預測搜索起點。令第1個待匹配區域左上角在當前幀坐標系里的坐標(X,Y)滿足X=X0+dx,Y=Y0+dy。然后使用絕對差值和求其與待匹配區域的相似度測量函數值D。
2)水平方向上的搜索。Y值不變。根據kx預測下一個待匹配區域的X,即令X=X+kx,重新計算測度函數值D。若D值不變大,說明搜索方向正確,則按kx規定的方向繼續搜索,直到D值即將變大。若D值變大,說明搜索方向錯誤,則退回原位置,令kx= -kx,并根據新kx的方向搜索,直到D值即將變大。在搜索過程中若超出如圖3中矩形粗線框所示的搜索范圍則停止,認為搜索失敗。
3)垂直方向上的搜索與步驟2)類似,只需將X,Y和kx分別換成Y,X和ky。
4)重復步驟2)和步驟3)直到X和Y不再改變。若重復次數超過給定值,認為搜索失敗。
高速公路公司由收費站、服務區、排障大隊等若干基層單位組成,負責人(站區長)身處一線,直接感知社會公眾的滿意度和職工群眾的滿意度,做好職工思想政治工作,服務經營管理,站區長是關鍵。
其中,步驟4)中的重復次數需根據軟件的運行時間和處理效果來綜合確定。若以上步驟搜索成功則繼續以下處理:(1)由最后的X和Y求得當前幀的偏移量dx=X-X0和dy=Y-Y0,對當前幀進行平移消除抖動;(2)用最后的X和Y作為新的X0和Y0;(3)根據當前幀偏移量與上一幀偏移量的差別重新確定當前幀的運動趨勢kx和ky;(4)利用最佳匹配處的待匹配區域定期更新匹配模板區域。若最佳匹配搜索失敗則不再往下進行任何處理。
采用上述方法步驟,視頻消除抖動的結果如圖4所示。該段是車輛啟動時有路人從車旁經過的視頻,共306幀。圖4a為參考幀,下方粗線矩形框為匹配模板區域,大小為110×35像素。圖4b為消除抖動后有路人經過的某一幀圖像,圖中邊緣黑色部分是圖像平移的結果,水平方向移動了19像素,垂直方向移動了5像素。圖4c為消除抖動前幀間差分結果,此時,靜止的自行車也被作為移動物體檢測出來。圖4d為消除抖動后幀間差分結果,此時,靜止的自行車已經看不到了,只有行人被檢測出來。

圖4 快速消除抖動的結果
本文用圖像序列逼真度的評價標準對視頻消除抖動的結果進行評定,評價參數是相鄰圖像間的峰值信噪比(Peak Signal to Noise Ratio,PSNR),單位為 dB。PSNR 值越大,兩幀圖像就越趨于相同。其中,消除圖3中視頻抖動耗時61 ms。抖動消除前參考幀與當前幀的PSNR值為33.740,抖動消除后 PSNR 值為38.068。消除抖動后,參考幀與當前幀的PSNR值明顯大于消除抖動前。由此可知,該消除抖動方法的效果還是比較好的。
車載監控都發生在室外的變化環境中,視頻受光照變化和自然場景(如樹枝擺動、地面積水波紋等)中一些微小變化的影響,使得差分圖像中存在很多“虛假”的運動目標。考慮到差分殘留圖像中必然存在運動目標的運動重疊區域,所以采用多幀差分相乘的方法使得差分圖像中運動邊緣的相關峰更加尖銳,再利用閾值,就能有效排除“虛假”運動物體的影響,正確測出運動物體的邊緣輪廓。而且,一般情況下,相鄰幀的背景只考慮平移變化量,只需簡單計算出平移量就能實現配準。所以,綜合實時性需要,本文采用相鄰四幀配準圖像差分相乘的方法檢測運動物體,如式(1)所示

式中:f1(x,y),f2(x,y),f3(x,y),f4(x,y)分別為配準后的序列圖像像素;M(x,y)為差分相乘圖像的像素值。該檢測方法具體的實現步驟如下:
1)將第1幀圖像與第3幀圖像配準,第2幀圖像與第4幀圖像配準。
2)將配準后的圖像第1幀與第3幀做差分,第2幀與第4幀做差分,然后將2幅幀差圖像相乘。
如圖5所示,對車輛旁邊檢測出步行路人的結果。其中,圖5e和圖5f中檢測出行人的同時還檢測出該人物在車窗、車身上的模糊倒影,還有樹枝微小的擺動等一些虛假運動目標,圖5g顯示出差分相乘后這些虛假運動目標被很好地去除。

圖5 采用基于配準圖像差分相乘的方法檢測出運動目標
一般地,在一個長鏡頭中查找到能凸顯出該段視頻主要內容的圖像幀作為關鍵幀。利用關鍵幀技術對視頻數據庫進行有效的快速查詢、檢索和瀏覽,可以大大減輕工作量。實際監控時,通常關注局部運動更多。因為局部運動表達的都是相對重要的物體或人物的運動,且能從中提取中很多更準確的視頻內容。所以,針對車載監控視頻鏡頭的移動性、內容的多樣性,為避免冗余的同時能有效地選取到有代表性的關鍵幀,本文借鑒文獻[6]中提出的基于粒子群的關鍵幀提取法,用全局運動特征與局部運動特征作為視頻的整體特征,并關注局部運動更多。
該方法首先提取出每幀的全局運動和局部運動特征,然后通過粒子群算法自適應地提取出關鍵幀。提取效果如圖6所示。其中,圖6a是某一時刻只有一個行人從車旁路過的段視頻,共48幀,提取出1個關鍵幀,結果反映出該段視頻的主要變化內容;圖6b、圖6c、圖6d是另外某一時刻若干行人在車旁路過的視頻段,共97幀,提取出3個關鍵幀,結果反映出該段視頻中各個行人路過的大概過程。

圖6 采用基于粒子群的方法提取出的視頻關鍵幀
利用圖像的低級物理特征(如顏色、紋理、運動等)的檢索方法,不僅可以檢索出一些視覺上相似的圖像,甚至還包含一些語義相關的圖像[7]。本文對關鍵幀圖像采用如下描述:
1)顏色。顏色為可見光的圖像提供了有價值的自然屬性。對于兩個場景不同的視頻關鍵幀,通常從圖像主色以及顏色空間分布特性可以有效地區分開來。主導顏色向量Vic定義為HSV(Hue,Saturation,Value)空間Hue分量上的8個主導顏色值,第n個顏色直方圖值Hn定義如為

式中:hx,y是像素點(x,y)的Hue 分量值;O(i)是分割得到的視頻對象i。主導顏色向量Vic由M個主導顏色值[H0,H1,…,HM-1]組成。δ(hx,y)函數定義為

2)形狀。相對于顏色或紋理等底層特征而言,形狀信息是圖像的中層特征。它可以刻畫圖像中物體和區域的重要特點。描述對象的形狀包括輪廓和大小。視頻場景中的視頻尺寸與目標實際尺寸成一定比例關系。在本文中,矩形形狀被設置為目標對象的尺寸大小,輪廓形狀暫不考慮。
3)邊緣直方圖。它描述了邊緣的空間分布信息,而邊緣的空間分布是重要的紋理信息。尤其當圖像中的紋理分布不一致時,該描述可用于圖像間的匹配。首先將圖像劃分為16個互不重疊的矩形區域,對每個圖像區域分別按角度0°,45°,90°,135°等4 個方向和一個無方向性邊緣五類信息進行直方圖統計。此描述子具有尺度不變性,支持紋理旋轉和旋轉不變匹配,適用于非一致紋理圖像。
本文以 Microsoft Windows XP Professional,VC++6.0為實驗開發平臺。實驗中,采用主動檢索方式。為了驗證方法的有效性,選取了不同停車場景、不同時間段視頻,視頻序列從幾十幀到幾萬幀不等。實驗結果如表1所示,其中“活動”視頻段占原文件的平均百分比是61.5%。即使用主動檢索后平均減少了38.5%的視頻幀瀏覽數量。

表1 實驗數據結果
圖7和圖8為快速視頻檢索方法實現的演示圖。圖7上邊一行圖像為原視頻幀,下邊一行是用戶所能瀏覽到的只包含運動目標的“活動”視頻幀。圖8是通過左邊用戶輸入的示例圖片所提供的信息檢索到的與其相似度最大的視頻關鍵幀,點擊“播放”按鈕,即可從該幀處播放視頻。


本文設計的車載監控視頻快速檢索方法通過兩種視頻檢索方式滿足用戶不同需求。一方面,利用運動目標檢測的方法分割原視頻,把只含“活動”視頻片段信息與視頻原文件關聯,然后將這些視頻片段按時間順序組織起來,構成一個邏輯視頻文件,并實現對該邏輯視頻文件進行常規的播放控制功能,同時還可以在“活動”視頻片段和原視頻文件間平滑切換播放控制,從而減少了需要觀看的視頻幀數量,讓用戶集中精力在含有運動物體的重要畫面上,實現了自動檢索。另一方面,用戶若想更加主動、直接地的找到感興趣的視頻片段,可利用提取出的關鍵幀及其特征,通過與示例圖片的特征對比,定位到相似度最高的關鍵幀處,以此關鍵幀為起始點瀏覽視頻片段。通過實驗證明該方法充分減少了視頻瀏覽的時間,提高了視頻瀏覽的效率,實現對特殊車輛和運輸物品實時安全監控。
[1]魏維,游靜,劉鳳玉,等.語義視頻檢索綜述[J].計算機科學,2006,33(2):1-7.
[2]XIONG Ziyou,TIAN Qi,RUI Yong,et al.Semantic retrieval of video-review of research on video retrieval in meeting,movies and broadcast news,and sports[J].IEEE Signal Processing Magazine,2006,23(2):18-27.
[3]HARITAOGLU I,HARWOOD D,DAVIS L S.W4:Real-time surveillance of people and their activities[J].IEEE Transactions on Pattern A-nalysis and Machine Intelligence,2000,22(8):809-830.
[4]楊勇,王橋,吳樂南.基于標號場的光流法二維運動估計[J].電子與信息學報,2001,23(12):1321-1325.
[5]徐理東,林行剛.視頻抖動矯正中全局運動參數的估計[J].清華大學學報:自然科學版,2007,47(1):92-95.
[6]張建明,蔣興杰,李廣翠,等.基于粒子群的關鍵幀提取算法[J].計算機應用,2011,31(2):358-361.
[7]孫君頂,趙珊.圖像低層特征提取與檢索技術[M].北京:電子工業出版社,2009.