蔡鑒明,張賢賢,梁 月
1.中南大學 交通運輸工程學院,長沙410075
2.智慧交通湖南省重點實驗室,長沙410075
道路交通視頻由道路兩旁或上方安裝的攝像設備拍攝得到,滿足了人們對交通場景實時監控的需求。道路監控視頻設備大量建設,海量視頻數據在交通視頻系統累積,給系統的存儲容量和傳輸帶寬提出了一定的要求。HEVC是目前最先進的視頻壓縮標準,通過將細節豐富區域自動劃分為相對小的塊,保證人眼敏感信息的編碼失真最低,使重建視頻的主觀質量提升。在碼率可控與失真容忍度內,充分利用交通監控視頻的特性提高編碼壓縮效率,是交通監控視頻編解碼研究與應用的關鍵。
根據監控視頻運動區域顯著和背景長時間不變的特性,基于感興趣區域(Region of Interest,ROI)和基于背景建模編碼方法受到廣泛研究。ROI 編碼犧牲視頻非顯著性區域的資源,將更多的資源分配給人眼關注區域。Μeuel 等[1]在編碼時只傳輸ROI 區域,實現了傳輸速率大幅度的降低;Κouadria等[2]基于ROI編碼,使傳輸能量進一步集中;Guo等[3]將ROI編碼到壓縮流中,可直接提取用于分析和識別任務;ΜPEG-4 標準[4]基于對象編碼,將視頻內容分成若干時間或空間上相互聯系的視頻對象,并對不同對象分別解碼。從交通視頻中提取的顯著區域或視頻對象包括交通流識別特征和背景識別特征,而對交通視頻的分析只要求保證交通特征。
背景建模編碼方法通過增加高分辨率的背景圖像,去除長期場景冗余。Μa 等[5]在編碼端和解碼端提前建立空間維度的車輛和背景字典庫;Tian 等[6]將視頻圖像分為前景和背景像素塊;Dey 等[7]為了提高監控視頻傳輸實時性,直接從HEVC 編碼流中提取前景;中國音視頻編碼標準(Audio Video Coding Standard of China,AVS)的伸展檔次AVS-S[8]定義了5 種編碼圖像,除了圖像幀(I 幀)和參考幀(B 幀和P 幀),又增加了背景幀(G幀)和背景預測幀(S幀)。額外構造背景圖像作為長期參考提高了預測準確性,而交通監控視頻中的靜止前景(如停車等待的車輛)也屬于重要的前景區域,在更新背景模型時難免會被當成背景。
交通流是車輛或行人在道路上的前向運動所形成的車流或人流,具有連續流和斷續流兩種狀態。外界光照的緩慢變化使交通背景的亮度或色度隨之改變,風的流動使背景物體產生重復微小的晃動,作為交通背景的物體一般情況下不會產生更大范圍的變動。本文為了去除交通背景冗余,保證交通顯著特征,在交通流流經(運動分布)區域構造運動能量圖,運動能量圖以外的區域形成掩模,以根據交通運動特性編碼。
使用HEVC 編碼標準的測試軟件HΜ16.5 編碼視頻,在隨機訪問編碼和低延遲編碼兩種參數配置下進行編碼實驗,測試視頻提取幀(第1 幀)如圖1 所示。通過解析壓縮碼流,分析標準編碼情況下的空間和時間特性。

圖1 測試視頻(第1幀)
HEVC 將圖像宏塊大小從H.264/AVC[9]的16×16 擴展到64×64,便于高分辨率壓縮。同時,采用更加靈活的編碼樹單元(Coding Tree Unit,CTU)劃分結構,使單元劃分更加符合紋理特征。CTU包括編碼單元(Coding Unit,CU)、預測單元(Predict Unit,PU)和變換單元(Transform Unit,TU),單元的分離使它們能夠更優化地完成各自功能,如圖2 所示。單元劃分越小,編碼所需空間復雜度越高。

圖2 CU、PU和TU劃分情況
根據編碼流解析結果,分析編碼單元的空間劃分特性。圖3(a)為單幀圖像的CTU 劃分示意圖,從整體來看小的單元劃分較多;圖3(b)為編碼流中CU 劃分,視覺顯著部分清晰地呈現出來;圖3(c)為TU劃分,道路車輛多的方向量化細致,車輛少的方向上量化粗糙;背景部分(建筑大樓、樹木、橫向的道路、交通標志牌等)同樣量化比較細致;圖3(d)為PU劃分,該單元的劃分相較于CU 和TU 來說會更加復雜。HEVC 編碼對視頻中的背景和前景采用一致的處理方式,小的編碼單元占據視頻幀的大部分區域。

圖3 編碼單元的空間劃分
視頻由時間連續的圖像序列構成,在對其進行壓縮時,首先在時間維度分割成若干個圖像組(Group of Picture,GOP)。為了適應不同的應用場景,標準編碼設立了GOP的三種編碼結構:幀內編碼,每一幀圖像均按照幀內方式進行空域預測,編碼復雜度高;低延時編碼,只有第一幀圖像按照幀內方式編碼,隨后各幀作為參考幀,以幀間方式編碼,編碼時間花費少;隨機訪問編碼,周期性地插入隨機訪問幀,解碼時不需要參考已經解碼的圖像幀。實驗視頻數據的分辨率較高,為了滿足交通監控視頻實時傳輸的要求,選擇低延遲和隨機編碼配置。
根據編碼流的編碼比特分配情況,分析編碼單元在壓縮過程中的時間特性,結果如表1 所示。其中,變換花費了編碼時間的70%~80%,預測占據了編碼時間的10%~20%,分割過程僅占3%~5%。變換步驟占據了大部分編碼時間,優化單元變換是降低視頻編碼復雜度的關鍵。

表1 低延遲和隨機訪問配置環境下平均比特分配
HEVC的變換模塊通過使用離散余弦變換(District Cosine Transform,DCT)將空間域中以像素形式描述的圖像轉換至變換域[10]。實驗視頻細節紋理信息多,需要大量數據描述,編碼空間復雜性高;視頻圖像較多的能量分布在高頻區域,需要進行大量精細處理,編碼時間復雜性高。HEVC 對單幀圖像中背景和前景區域采用一致的編碼單元劃分,不能有效去除場景冗余,也沒有考慮交通流運動規律。
在交通監控視頻中,運動能量圖刻畫了不同位置運動發生的概率,表現為交通流流經區域。創建并保持一幅最大場景的運動能量圖,取反獲取掩模,精簡掩模區域的時空編碼特性,并根據兩部分區域的特性采用合適的視頻編碼方案。
實驗視頻數據的第2、35、105 和143 幀如圖4 所示。使用背景減除算法獲取實驗視頻序列的二值運動前景圖像(圖5),根據運動發生的概率得到運動能量圖(圖6)。運動能量圖能夠完全覆蓋交通流流經區域,避免復雜的前景分割。

圖4 原始視頻第2、35、105、143幀

圖5 二值運動前景圖像

圖6 運動能量圖的獲取
步驟1 采用簡單快速的背景建模算法獲取原始視頻I(x,y,t)的前景運動序列D(x,y,t)。其中(x,y)表示當前視頻圖像中的像素位置,t 表示當前視頻幀的處理時間。
步驟2 根據運動發生的概率,得到運動在空間上的分布P(x,y,t),計算過程如式(1):

步驟3 對運動空間分布圖P(x,y,t)進行形態學處理,定義結構元素的形狀,進行閉運算,先膨脹再腐蝕,以減少小封閉空間的干擾,得到P'(x,y,t),如圖7所示。

圖7 形態學處理
運動空間分布圖取反得到掩模,根據掩模區域的運動分布規律判斷攝像機運動情況;當拍攝角度或焦距變換時,需要更新單幀掩模。
在視頻編碼時,運動矢量(Μotion Vector,ΜV)由攝像機運動和物體運動兩個因素累積[11]。在攝像機不發生變動的情況下,掩模區域的像素變化幅度微小;攝像機發生變化時,掩模覆蓋區域ΜV的分布隨之改變。將攝像機運動估計為視頻幀中ΜV的主運動方向。



在構造全景圖(監控攝像機所能拍攝到的全部范圍)的基礎上獲取全局掩模。構造全景圖時,攝像機各個視角曝光的差異將導致視頻圖像特征不一致。
圖8是同一個交通點位,由不同方向的道路監控攝像機拍攝的圖像幀。左側和右側的視頻信息分別為2019年9月7日14點45分,山東高速,G2001,Κ72+632,南;2019 年9 月7 日14 點45 分,山東高速,G2001,Κ72+632,北。左側圖像亮度較高但是存在模糊現象,右側圖像亮度偏低。交通監控設備暴露在外界環境中,視頻質量難以保證,通過視頻預處理使圖像的亮度和色度等性質保持一致[12]。

圖8 相同交通點位相同時間不同方向監控視頻圖像
在建立全局掩模之后,根據攝像機的運動判斷單幀掩模與全局掩模的相對位置關系,在全局掩模的基礎上更新單幀掩模,如圖9所示。將單幀圖像的掩模和運動分布區域分開之后,根據運動性編碼。

圖9 單幀掩模更新
在基于塊運動補償的視頻編碼框架中,運動搜索是去除時間冗余的重要環節,同時也是編碼端最耗時的模塊[13]。HEVC 官方測試編碼器HΜ 使用全搜索算法和TZSearch 算法進行運動估計。全局搜索把搜索區域內所有的像素塊逐個與當前宏塊比較,以最小匹配誤差為原則,確定最優匹配塊。全局搜索精度高,但是速度慢,因此,從三步法到混合搜索的多種快速搜索算法被提出。TZSearch 算法是一種混合搜索算法,研究發現[14]TZSearch算法與全搜索算法相比,運動時間減少了80%左右,而編碼性能僅略有降低。
下面為掩模區域設置運動搜索的終止閾值,判斷運動分布區域的主運動方向,并選擇非對稱搜索模板以改進TZSearch搜索算法。
文獻[14]在對TZSearch算法的改進過程中,通過實驗發現在運動搜索的過程中,60%~70%的最優匹配點位于中心位置,10%左右的匹配點距中心位置的步長為1,5%左右的匹配點距搜索位置的步長為2;另外,視頻中的運動越緩慢,最優匹配點的概率分布越符合中心偏置特性。根據統計結果,在當前搜索點的周圍(步長從0到3)找到最優點的概率最大,設置提前終止的閾值。根據視頻中物體的緩慢或劇烈運動的情況,設置不同的閾值。其中,TZS2(終止閾值設為2)適合運動比較平緩的序列;TZS3(終止閾值設為3)適合運動比較劇烈的序列。
TZSearch算法使用菱形或正方向的對稱搜索框架。交通監控視頻中交通流的方向具有一致性,非對稱搜索模板增加了運動搜索的方向性,符合交通流運動規律。
在第k 幀中,交通流流動方向可以通過式(3)確定:

其中,第k 幀的運動能量圖覆蓋區域記為Fk,交通流流動方向記為a(MVkf);其他參數同式(2)。
菱形模板和正方形模板在運動搜索時對各個方向采用一致的搜索步長,具有搜索均勻性,如圖10(a)所示。均勻模板適合對運動緩慢或運動無序的視頻序列進行運動搜索。一般情況下視頻中水平方向要比垂直方向運動劇烈,因此一些運動搜索算法采用非對稱的搜索模板。比如,非對稱十字模板搜索將水平方向搜索范圍定為W(搜索步長),垂直方向搜索范圍定為W/2,如圖10(b)所示。
非對稱搜索模板不僅能夠形成對稱搜索模板所形成的全域搜索范圍,而且非對稱性能夠引導運動搜索的方向。如圖11 所示,左側為對稱模板形成的全域搜索范圍,右側為非對稱十字模板形成的全域搜索范圍。另外,非對稱的搜索在運動方向上增加了搜索步長,能夠降低運動方向性明顯并且運動劇烈的交通視頻幀之間的時間相關性。

圖10 步長為1的運動搜索模板

圖11 對稱模板及非對稱模板形成的全域搜索范圍
與HEVC 運動估計時TZSearch 搜索的不同之處在于,改進TZSearch搜索使用非對稱十字模板,并根據視頻的主運動方向選擇菱形十字模板或正方形十字模板,具體的搜索步驟如下所示:
(1)確定起始搜索點。在若干個候選預測ΜV中選擇率失真(Rate-Distortion,RD)代價最小的作為預測ΜV,并用其所指向的位置作為起始搜索點。
(2)以非對稱十字模板的短邊搜索步長為1 開始,按照非對稱十字模板在搜索范圍內進行搜索,其中短邊搜索步長以2 的整數次冪的形式遞增,選出RD 代價最小的點作為該步驟的搜索結果。
(3)若步驟(2)中得到的最優點對應的步長為1(在圖11 可形成的全域范圍內),則在該點周圍做兩點搜索,補充最優點周圍尚未搜索的點。
(4)若步驟(2)中得到的長邊的最優點對應的步長為2(全域范圍之外的點,如圖12中的點1、2、4和點5),則以長邊的指向為搜索方向,取步長距離的點為最優點(如圖12 中的點3 和點6),進行新的非對稱十字模板搜索。
(5)若步驟(2)中得到的最優點對應的步長大于某個閾值,則以最優點為中心,在一定范圍內做全搜索,選擇RD最小點作為該步驟的最優點。
(6)以步驟(5)得到的最優點為新起始搜索點,重復步驟(2)~(5),細化搜索。當相鄰兩次細化搜索得到的最優點一致時停止細化搜索。根據得到的最優點確定運動矢量ΜV。

圖12 非對稱性引導運動搜索方向
根據交通運動性改進運動搜索算法。交通監控視頻中,掩模區域的運動性小,采用TZS2 的設置方案;運動能量圖覆蓋區域的運動性強,采用非對稱搜索模板改進TZsearch搜索算法。
本文提出的改進方法在HEVC的參考軟件HΜ16.5上實現,采用低延遲配置(如表2),在平臺Intel?CoreTΜi3-4005U CPU 4.00 GB RAΜ size上運行。為了分析改進編碼方法的壓縮效率和視頻壓縮后的分析性能,實驗對比分別在HEVC、AVS2 和ΜPEG-4 的標準參考軟件HΜ16.5、RD-19和XviD中實現,性能測試采用一致測試條件。實驗視頻數據采用標準編碼測試碼流Traffic,視頻序列共150幀,分辨率為1 920×1 080,幀率為30 frame/s。視頻內容為某段道路上的交通場景:1條雙向10車道的主路,1條單向2車道的支路,建筑大樓、高架橋、樹木和交通標志牌等,這些基礎設施或附屬建筑物長期不變,并作為背景重復出現;除了道路上停車等待的車輛(即斷續交通流),單個車輛在視頻中出現的時間很短暫,并且始終持續更新。

表2 HΜ16.5低延遲配置
在標準編碼和改進編碼配置下壓縮測試視頻,取量化參數(Quantization Parameter,QP)分別為22、27、32和37,得到壓縮過程的碼流比特率(Bitrate)、峰值信噪比(Peak Signal to Noise Ratio,PSNR)[15]和時間消耗情況,如表3 所示。通過3 個指標平均時間節約(Average Time Saving,aTs)、平均峰值信噪比增效(BD-PSNR)和平均比特率節約(BD-rate)[16]分析HEVC 壓縮效率改進效果。

表3 測試視頻壓縮比特率、峰值信噪比及時間消耗情況

其中,n 是測試視頻的總幀數,Enc.Tproposed,i是改進方法在第i 幀的編碼時間,Enc.THM16.5,i為相對應的在HΜ16.5的編碼時間。
改進方法分別同三種編碼標準進行比較,所得到的BD-rate、BD-PSNR 和aTs 對比結果如圖13 所示。可以看到:改進方法同標準方法相比在3個指標上都得到正的結果。同HEVC 實現相比,平均比特率節約、平均PSNR 增效和平均編碼時間節約最少(分別為11.80%、3.90 dB 和5.55%);同AVS2 實現相比,3 個指標均略高于同HEVC 實現相比所得到的效益提升,即AVS2 的壓縮效果略低于HEVC編碼;同ΜPEG-4實現相比節約最多,即ΜPEG-4標準存在編碼效率低的問題。

圖13 BD-rate、BD-PSNR和aTs結果對比
HEVC編碼時,量化將連續的DCT變換系數映射為有限多個離散幅值,是視頻編碼產生失真的根本原因。采用目標識別算法檢測視頻中的車輛,并計算識別精度,得到車輛識別準確率隨QP 的變化曲線,如圖14 所示。從圖中可以看到,在運行邊界(失真度可容忍范圍)內,隨著QP 的增加,車輛識別的準確率保持平穩狀態,可作為評價參考指標;運行邊界外車輛識別的準確率下降幅度過大,不具有參考指標的穩定性能。
通過運行邊界內曲線間的對比得出,改進方法在相同的QP 下車輛識別準確率高于HEVC 標準編碼方法,改進方法的識別率提升效果達到了7.41%。

圖14 車輛識別準確率
從改進編碼與標準編碼視頻的車輛識別準確率結果對比(圖15)中可以看到,ΜPEG-4編碼視頻的車輛識別率最高,能夠達到91.03%;AVS2 編碼視頻的識別準確率偏低,原因在于交通視頻中停車等待的車輛在背景建模時會融入背景,降低了對視頻中車輛的檢測精度;HEVC編碼視頻的車輛識別率最低;而改進方法根據交通流分布區域的特點進行編碼,很大程度上實現了車輛識別準確率的提升。

圖15 編碼視頻的車輛識別準確率結果對比
交通監控攝像頭所能拍攝的場景,除了交通流,視頻中的物體長期處于固定的位置,在交通監控視頻圖像中表現為大量冗余;交通流流向與道路的方向保持一致,并且一般情況下不會出現在道路以外。在對交通監控視頻的空間和時間編碼性能分析的基礎上,根據交通流流動規律,建立監控視頻的運動能量圖,取反獲得掩模區域,并通過掩模區域的運動規律判斷攝像機的運動方向,用于掩模更新。根據視頻中交通流的運動性和方向性改進運動搜索算法。交通流的運動速度高,并且具有明顯的方向性,因此,在運動分布區域改進TZSearch編碼方法。掩模區域所能表示的場景長期反復出現,運動性很小,因此,設置運動步長搜索的截止閾值。實驗結果顯示,所提方案減輕了視頻的編碼復雜度,壓縮效率和分析性能均有顯著效果提升,同時兼顧了交通應用實時傳輸的需求。