,,
(1.江蘇省交通工程建設局, 南京 210004; 2.長安大學 電控學院,西安 710000)
我國是一個交通事故多發的國家,據統計,2010~2015年,因車禍事故死亡的人數都在20萬以上[1]。車禍識別可以快速地為車禍現場管理提供準確的依據,提高車禍現場快速處理的能力,減少因車禍處理不及時而造成的人員傷亡,有效避免二次事故發生。近年來,車禍識別方法已成為交通安全領域研究的熱門問題,受到了很多專家的重視。
目前,車禍識別主要有基于射頻、物聯網,以及基于視覺圖像等識別方法[2-4]。相比之下,基于視覺圖像的車禍識別方法因具有直觀、省時高效、設備要求低、獲取信息準確等優勢[4]而得到了廣泛的研究。在基于時間的視頻識別方法研究中,時間受限的聚類法[5]將鏡頭相似的鏡頭聚類到一個固定的時間窗口中,而位于窗口外的鏡頭相似性不予考慮,因此聚類結果不夠完全;為了克服時間受限鏡頭聚類算法的不足,YongRui等提出了時間自適應算法[6,7],即鏡頭的相似度隨著它們之間的時間距離的改變而變化,距離越大,相似度越小。在基于空間的視頻識別方法研究中,鏡頭聚類的方法將鏡頭的關鍵幀合并為一個圖像,然后對合并后的圖像分塊,求出鏡頭關鍵幀圖像之間距離最小(相似度最大)的塊;鏡頭分類[8]與鏡頭聚類不同,它是對鏡頭與鏡頭之間特征的相似性進行比較,將特征不同的鏡頭分成不同的類。以上研究均僅在時間維或空間維的單一維度上進行,對車禍現場細小碎片的可識別特征難以準確分割,導致識別虛警率較高。
基于時空關聯度的視頻識別方法可以有效的避免維度利用過低的問題[9-10],Mehmet C等將時空關聯度應用到無線傳感器網絡中[11],Sadiq Ali等將時空關聯度應用到多天線頻譜感知中[12],Matoba O等將時空關聯度應用到快速安全通信中[13]。而對于基于時空關聯度進行視頻車禍識別,目前鮮有研究。
本文將利用時空關聯的方法實現車禍識別。首先為了將視頻轉化為更易表達的靜態序列,利用鏡頭分割算法[14]將視頻在時間維上分為視頻幀圖片,然后為了更準確地識別車禍,對獲得的時間維上的幀序列提取多種空間特征,將這些特征串聯融合,從中篩選出需要的最優特征。實驗結果表明,利用本文算法進行車禍識別,能夠有效提高車禍識別精度,為車禍現場管理提供了準確依據。
視頻中的目標物體存在旋轉、縮放、平移、視角變化、局部遮擋等情況,這會使得視頻識別出現誤識別的現象[15]。為了解決這些問題,利用3DSIFT算法提取局部特征點。SIFT描述子可以在關鍵點的臨近區域內進行梯度直方圖統計,從而可以構建出方向唯一的特征向量,具有較好的方向穩定性。通過對車禍視頻進行3DSIFT特征提取,可得出車禍視頻的特征直方圖,特征直方圖可以描述車禍發生前后的特征變化。
在局部特征點提取算法中,首先在高斯差分(DoG)尺度空間內,檢測圖像的關鍵點。為了確保關鍵點的準確性,SIFT描述子需要對DoG空間相鄰圖像進行采用和比較。通過比較臨近區間內的點,可得出該區間內的極大值點或極小值點,并且將不符合條件的或符合程度低的點刪除,得出的極值點即所需關鍵點。如圖1所示。

圖1 基于DoG空間內的極值點檢測
得出圖像的關鍵點后,為了保證SIFT特征的方向穩定性,需要對SIFT描述子在關鍵點臨近區域內進行尺度方向直方圖統計,然后求取特征點的主方向。這個過程將圖像均分為多個小塊,將不同小塊內的方向向量提取出來,然后在將這些小塊以及它們的方向向量合并到一起,從而構建出唯一的,具有代表性的特征向量。如圖2所示。

圖2 SIFT特征描述子構建
通過尺度方向直方圖統計得出特征點的主方向后,需要根據求取出來的這個主方向構建梯度直方圖,即生成關鍵點描述子。計算關鍵點p的k鄰域點pi(i=1,2…,k),為了保證旋轉不變性,將關鍵點p的k鄰域點旋轉至關鍵點主方位,鄰域點坐標變換公式如式(1)所示。
(1)

為了檢測車禍視頻中撞車細節的局部特征,采用STIP(space-time interest poinet)時空角點檢測算法,需要先將圖像興趣點的檢測從2D空間興趣點轉化為3D空-時興趣點。采用Harris-Corner興趣點檢測,在圖像的的X軸和Y軸的基礎上添加時間T軸,并消除視頻圖像結構中存在的加速度,從而將二維特征轉化為三維特征。
在進行Harris-Corner興趣點檢測前,需要先創建一個空-時興趣點特征描述器,求得興趣點的特征描述向量。對于每一個樣本點(x,y,t,σ,τ),特征描述器描述的是關于中心點(x,y,t)周圍區域的3D空間,空間大小△x(σ)和△y(σ)是σ的函數,時間長度△t(τ)是τ的函數。在這里描述器的大小將由式(2)(3)所示。
△x(σ)=△y(σ)=2·ceil(3σ)+1
(2)
△t(τ)=2·ceil(3τ)+1
(3)
根據這些描述器求得興趣點的特征描述向量。得到空-時興趣點特征描述器后再進行Harris-Corner興趣點檢測,如式(4)所示。
(4)
建立一個空-時圖像序列模型,如式(5)所示。
(5)
得出3維Harris-Corner檢測的三階矩陣,如式(6)所示。
(6)
為了檢測興趣點,需要搜索區域中具有現在特征值λ1,λ2,λ3的μ,并擴展式(5)中空間STIP興趣點,檢測成為空-時STIP興趣點檢測,如式(7)所示。
H=det(μ)-ktrace3(μ)=λ1,λ2,λ3-k(λ1,λ2,λ3)3
(7)
得出H的極大值點,然后檢測、選擇及排除得到需要的時空角點。
為了將圖像空間中的三維興趣點特征轉化為描述符向量,采用局部特征點描述HOG3D算法。HOG3D三維梯度方向直方圖描述器將視頻空間看做一個正N面體,然后對該正N面體進行均勻分割,將它切成均勻的小塊,然后在這些小塊里面進行統計梯度直方圖。一般先在視頻空間或圖像空間里進行區域檢測,然后對其感興趣的區域里進行興趣點采集,從而得到其三維興趣點,具體流程如圖3所示。

圖3 HOG3D三維梯度方向直方圖描述器
在計算HOG3D特征時,首先從圖像中定位出一個大的目標區域Block進行圖像分塊,將圖像按照它的大小尺寸等進行均勻的分割。然后,均分Block至較小的塊Cell,直至均分Cell形成最小的塊Pixel,也就是像素點。
對圖像進行打塊后需要在Block內進行歸一化直方圖。對每個小塊進行直方圖提取,再將這些直方圖經過串聯的方式組合為一個完整的特征向量。算法通過局部打塊的方式逐一獲取整個系統的圖像特征,不僅獲取了整體特征,同時獲得了局部細節特征;由于進行了直方圖歸一化的操作,可有效避免因為外界光線變化所帶來的系統干擾。
本文算法以車禍視頻幀分割算法的時間特征為基礎,結合局部特征點提取、檢測和描述算法,實現對車禍視頻的準確識別。算法流程如圖4所示。

圖4 基于時空關聯度的車禍識別流程圖
步驟1:視頻幀提取。為了將視頻在時間維上依次轉化為對應的時間幀序列,采用鏡頭分割算法將視頻轉化為系統幀圖片。
步驟2:空間特征提取。為了解決車禍視頻中因目標物體存在的旋轉、縮放、平移、視角變化和局部遮擋等造成的特征方向不穩定的問題,提出局部特征點提取算法;為了在從車禍視頻中具有加速度的車輛上獲取其撞車細節的局部特征,提出時空角點檢測算法;為了將圖像空間中獲取的三維時空興趣點轉化為描述符向量,提出局部特征點描述算法。
步驟3:特征融合。串聯融合車禍視頻中提取的多種特征,如圖5所示。

圖5 串聯特征融合方案
步驟4:降維處理。為了解決視頻特征數量過多的問題,對融合后的視頻特征進行降維聚類。
步驟5:車禍識別分類。將車禍視頻識別的結果分為發生車禍與未發生車禍兩類,得出識別結果。
鏡頭分割即檢測鏡頭的邊界,然后將視頻從檢測到的邊界處分割開,形成獨立鏡頭的過程。經過分割轉化后的結果如圖6所示。

圖6 經分割轉化后的視頻幀
將動態的車禍視頻轉化為鏡頭幀序列對其進行轉存。結果如圖7所示。

圖7 轉存后的視頻幀文件
通過對車禍視頻進行3DSIFT特征提取后,可以得出車禍視頻的特征直方圖,如圖8所示。

圖8 車禍視頻的特征圖
從圖中可以看出,在橫坐標2 000之前特征圖基本都是黃色,表明此時視頻處于平緩的狀態,此段視頻中的對象并沒有發生劇烈的顏色、形狀及位置突變;而在2 000~2 500區域時,特征顏色明顯的發生了突變,表明在這個時刻視頻內現場場景發生了劇烈變動,從而得出在2 000時為車禍異常的時刻。
通過STIP算法得出車禍視頻的統計時空特性,如圖9所示。從圖中可以看到,將車禍發生前與發生后的幀圖片進行了分隔歸離。

圖9 統計視頻時空特性
該車禍視頻的時空特征點檢測圖如圖10所示。圖中可以看到,除了傳統的x軸和y軸外,增加了時間軸,這些時空特征點鄰域的像素值在時間和空間都有顯著的變化。在該算法中,鄰域塊的尺度大小能夠自適應時間維和空間維。

圖10 時空特征點檢測圖
通過STIP算法求得車禍視頻的檢測興趣點,結果如圖11所示。

圖11 車禍視頻中第3、59、121、131、150幀興趣點提取結果
圖中圓環即STIP算法在視頻內檢測到的點。因為各點在x、y軸的坐標距離都不同,所以生成的圓環的彼此的直徑也不相同。從圖中可以看到,興趣點能夠找到車的車頭、車輪、車尾這些重要部位,準確得出車禍中車輛的局部細節。但也有少數興趣點的檢測位置并不在車身上,這是因為視頻內的車輛在進行平移直線運動或者勻速運動時,周圍的環境沒有顯著變化,算法會暫時將周圍環境歸到車輛本身。但在車禍發生后,周圍環境發生了空間突變,興趣點會因此而重新定位,并正確標記到車輛上。因此STIP算法檢測到的興趣點具有很好的準確性。
實驗中所用到的車禍視頻的幀圖像大小為480×640,把圖像里面的每16×16個元素組成的對象編入為1個Cell塊,從而生成了30×40個Cell塊,一共有(30-1)×(40-1)=1 131個Block,每個Block是16×4=64維,計算得到樣本圖像HOG特征向量維數是1 131×64=72 384。最終提取的車禍圖片的1 131×64維HOG特征的網絡圖如圖12所示。

圖12 提取圖像HOG特征
從圖中可以看出,HOG3D算法提取出了車禍發生的這一瞬間的幀圖片,而右邊HOG特征的網絡圖中前半部分為深色區域,而后半部分為淺色區域,這表示前后兩部分視頻內的時空場景發生了劇烈的改變,即在顏色發生改變的位置是視頻內容突變前車禍發生碰撞的瞬間。
經過特征融合會得到5種特征,對這5種特征進行K-MEANS聚類和KNN識別,然后從中選出最優的融合方案。如圖13所示。

圖13 特征融合后的示意圖
圖13即3DSIFT和STIP融合以及3DSIFT、STIP及HOG3D三者融合后的識別結果。從3DSIFT與STIP的融合結果可以看出,圖像的前半部分和后半部分具有顯著的差異,即車禍發生前與發生后的特征具有明顯的變化。而在3DSIFT、STIP、HOG3D3種特征融合后可以很清晰的看到車禍前與車禍后的分界點,這表明將3種特征融合在一起時可以提高車禍識別的準確率。
本文針對不同特征得出的車禍識別率,做了10組車禍視頻的實驗,其中每組實驗先僅使用3DSIFT、STIP和HOG3D中的一種特征進行識別,再使用二維和三維兩種特征進行識別,最后使用3種特征的融合特征進行識別。實驗所得結果如表1。

表1 各類特征在K-MEANS聚類與KNN識別之后的結果比較
從表中可以得出,在只使用一種特征時,識別率都低于50%;進行特征融合后識別率有了明顯的提高;而在將3種特征全部融合起來后其KNN識別率達到最高,為62%,這對比傳統算法所得到的33%,具有很大的提高。因此可得出結論,將3DSIFT、STIP和HOG3D三種特征融合后其融合特征能夠很大程度上提高車禍識別精度。
本文以提高車禍視頻識別率為目的,針對傳統視覺圖像技術車禍識別方法的缺點,提出基于時空關聯度的車禍視頻識別算法,利用視頻分割算法將視頻分割為時間幀序列,再對視頻圖像的空間局部特征進行檢測、提取和描述后,然后進行融合處理,可以有效利用視頻的時空特征。對比實驗表明,本文車禍視頻算法有效地提高了算法識別精度,對于交通事故實時識別與緊急救援具有重要作用。