李建新 張 濤
1(東莞職業(yè)技術(shù)學(xué)院計(jì)算機(jī)工程系 廣東 東莞 523808)2(江南大學(xué)物聯(lián)網(wǎng)學(xué)院 江蘇 無錫 214000)
近年來,越來越多的研究者們開始關(guān)注如何準(zhǔn)確識(shí)別視頻中的目標(biāo)和事件[1-3]。暴力行為嚴(yán)重危害到了國家和人民的安全,故各大公共區(qū)域都安裝了視頻監(jiān)控設(shè)備。計(jì)算機(jī)視覺技術(shù)的發(fā)展使人們意識(shí)到,可以通過計(jì)算機(jī)視覺來獲取環(huán)境的一切信息[4],包括對(duì)視頻監(jiān)控中的暴力行為進(jìn)行檢測(cè)并及時(shí)發(fā)出警報(bào)。這樣不僅可以節(jié)省大量的人力物力財(cái)力,而且可以解決傳統(tǒng)視頻監(jiān)控的滯后問題。
早期,Nam等[5]認(rèn)為人們?cè)诨馂?zāi)現(xiàn)場(chǎng)雜亂的尖叫聲和跑步聲等具有明顯的特征,可以根據(jù)這些特征來進(jìn)行暴力檢測(cè),據(jù)此提出了一種基于聲音特征的暴力檢測(cè)算法。近年來,基于時(shí)空興趣點(diǎn)的方法[6-7]被提出用來進(jìn)行暴力行為檢測(cè)。該算法從視頻序列幀中提取出興趣點(diǎn),然后使用詞袋模型(BoW)的框架進(jìn)行暴力行為檢測(cè)。
迄今為止,人們開展了很多基于視頻的異常檢測(cè)工作[8-11]。最近幾年,一些研究人員開始嘗試用基于深度神經(jīng)網(wǎng)絡(luò)的算法對(duì)暴力行為進(jìn)行檢測(cè)[26-28],但是深度神經(jīng)網(wǎng)絡(luò)在構(gòu)建暴力特征時(shí)比較困難,因?yàn)榇蟛糠值纳疃葘W(xué)習(xí)算法模型都是針對(duì)圖像構(gòu)建的,忽略了視頻的時(shí)序特性,無法很好地描述運(yùn)動(dòng)信息,暴力行為檢測(cè)效率不高,而且操作步驟繁瑣、特征提取的時(shí)間消耗高、不能高效執(zhí)行。本文對(duì)暴力行為的檢測(cè)主要集中在興趣點(diǎn)的檢測(cè)和特征表達(dá)上。Chen等[12]提出了一種用于人臉檢測(cè)的韋伯局部描述子(Weber Local Descriptor , WLD),Wang等[13]證明了它具有光照不變性的特征。WLD陳述了這樣一個(gè)物理現(xiàn)象:若外界信號(hào)的變化是原始信號(hào)的一定比率,這個(gè)刺激的信號(hào)就是值得注意的;如果小于這個(gè)比率,就將該刺激信號(hào)作為當(dāng)前背景。WLD是用于檢測(cè)圖像中的興趣點(diǎn),而本文所研究的暴力檢測(cè)要比人臉識(shí)別復(fù)雜得多,需要能夠提供足夠的運(yùn)動(dòng)信息的特征,因此,本文提出一種新的描述子——運(yùn)動(dòng)韋伯描述子(MoWLD)用于檢測(cè)視頻中的興趣點(diǎn)。
現(xiàn)如今,基于稀疏分類的思想被研究者們應(yīng)用于行為識(shí)別領(lǐng)域[14-16]。許多的研究者開始使用基于稀疏表達(dá)的分類機(jī)制用于人臉識(shí)別,但是如何學(xué)習(xí)稀疏的數(shù)據(jù)并且具有高判別性的詞典仍然是一大難題。
本文提出MoWLD 和稀疏分類相結(jié)合的方式對(duì)視頻中的暴力行為進(jìn)行檢測(cè),系統(tǒng)框架如圖1所示。首先,從輸入視頻中用高斯濾波去除一些噪聲。然后,再提取出MoWLD 特征。接著,提出改進(jìn)的稀疏模型用于特定類字典的學(xué)習(xí)。在這個(gè)模型里面,表達(dá)約束項(xiàng)和系數(shù)調(diào)整項(xiàng)被用于字典的學(xué)習(xí),使得學(xué)習(xí)的詞典具備更強(qiáng)的判別能力。表達(dá)約束項(xiàng)可以確保帶著同一類標(biāo)簽的訓(xùn)練樣本特定類詞典具備更好的重建能力。系數(shù)調(diào)整項(xiàng)反映了不同類標(biāo)簽的訓(xùn)練樣本的特定類的子詞典有較弱的重建能力,可以確保不同類的字典表達(dá)盡可能獨(dú)立。因此兩個(gè)增加的項(xiàng)可以使得模型具備更強(qiáng)的判別能力。最后,相應(yīng)的分類機(jī)制被提出用來對(duì)視頻中的暴力行為特征進(jìn)行分類。

圖1 提出的算法框架
為了對(duì)暴力行為進(jìn)行更好的識(shí)別,本文設(shè)計(jì)了一種有效的特征表達(dá)的方法,使它盡可能地包含更多的興趣點(diǎn)信息。
1.1.1韋伯局部描述子(WLD)
Chen等[12]提出的韋伯局部描述子(WLD)主要包括差分幅值和差分方向兩個(gè)變量。
差分幅值:
(1)
式中:反正切函數(shù)用于防止輸出結(jié)果過大,可以抑制噪聲的邊緣效應(yīng);xc代表中間的像素,xi(i=0,1,…,p-1)代表鄰域的像素;p是鄰域的像素的個(gè)數(shù);α用來調(diào)整當(dāng)前像素與周圍像素值的大小差別。
差分方向:
(2)
式中:x1-x5和x3-x7分別代表xc像素在垂直和水平方向上的兩個(gè)鄰域像素值的差。
文獻(xiàn)[20]中,ξm和ξo分別被線性地量化為T個(gè)主要的差分幅值和方向。本文中,T為12。
WLD用當(dāng)前像素和它的鄰域的像素灰度差來衡量當(dāng)前像素的變化程度,這種方式與人們獲取世界信息的方式相符。Wang等[13]證明了差分幅值和差分方向具有光照不變性的特性。二維的WLD特征直方圖的每一行對(duì)應(yīng)主要的差分幅值ξm(xc),每一列對(duì)應(yīng)主要的差分方向ξo(xc)[12,17]。
1.1.2改進(jìn)的WLD
旋轉(zhuǎn)不變性是兩個(gè)關(guān)鍵點(diǎn)相似性度量的標(biāo)準(zhǔn),因此對(duì)于圖像的紋理特征是非常重要的。但是原始的WLD特征并不是旋轉(zhuǎn)不變性的,因此本文提出改進(jìn)的WLD直方圖,通過聚合鄰域的WLD直方圖和使WLD直方圖與它們的主方向?qū)R的方式重構(gòu)WLD直方圖。具體步驟如下:
1) 首先對(duì)輸入圖像用高斯濾波去除一些噪聲,根據(jù)式(1)和式(2),計(jì)算處理后的圖像中的每一個(gè)區(qū)域內(nèi)的像素的差分幅值和差分方向。
2) 運(yùn)用文獻(xiàn)[17]中的非線性的量化方法,將差分方向量化為12個(gè)主方向,每一個(gè)方向覆蓋30度,形成一個(gè)具有12個(gè)方向的差分方向直方圖。
3) 將從局部鄰域內(nèi)計(jì)算得到的韋伯梯度的直方圖累加到局部紋理特征中。
4) 鄰域窗口內(nèi)的韋伯梯度方向,根據(jù)當(dāng)前點(diǎn)的韋伯幅值和它中心點(diǎn)的距離加權(quán)后,增加到當(dāng)前直方圖中。得到一個(gè)主方向后,其他鄰域內(nèi)的所有韋伯幅值都將被旋轉(zhuǎn)到這個(gè)主方向上,從而達(dá)到旋轉(zhuǎn)不變性的特性。
改進(jìn)后的WLD直方圖的構(gòu)建如圖2所示。輸入圖像中的某一鄰域內(nèi)的像素分為4×4塊,每塊包含3×3個(gè)像素。這樣得到的WLD直方圖有4×4×12=192維的向量。

圖2 改進(jìn)的WLD直方圖的構(gòu)建過程
改進(jìn)后的WLD只是對(duì)靜態(tài)圖像的處理,在暴力檢測(cè)時(shí),如果使用改進(jìn)后的WLD特征進(jìn)行特征描述,會(huì)產(chǎn)生很多與行為沒有關(guān)系的興趣點(diǎn)區(qū)域,對(duì)暴力檢測(cè)結(jié)果產(chǎn)生很大的影響。因此本文提出了運(yùn)動(dòng)韋伯描述子(MoWLD),它由兩部分構(gòu)成:累加的WLD直方圖,用來描述圖像的表觀空間;累加的光流直方圖,用來刻畫時(shí)間上的運(yùn)動(dòng)特征。此外,在同一位置的不同大小的子圖像能夠產(chǎn)生不同的特征向量,只有多尺度的圖像采樣方法可以解決這個(gè)問題,因此本文可以采用基于P個(gè)像素的正方形對(duì)稱的鄰域的集合計(jì)算得到的多尺度的WLD特征分析算法[12]。
1.1.3運(yùn)動(dòng)韋伯描述子(MoWLD)
本文提出的運(yùn)動(dòng)韋伯描述子(MoWLD)采用基于光流的方法對(duì)運(yùn)動(dòng)行為進(jìn)行描述?;诠饬鞯乃惴ǜ鶕?jù)連續(xù)視頻幀內(nèi)的某一個(gè)圖像區(qū)域在時(shí)間上的差異來確定運(yùn)動(dòng)區(qū)域。與基于視頻立方體和時(shí)空卷的方法[8,18]不同,基于光流的方法能夠明確地獲取運(yùn)動(dòng)的幅值和方向,直接對(duì)行為特征進(jìn)行描述。為了將運(yùn)動(dòng)特征增加到我們改進(jìn)的WLD特征中去,采用同樣的方法,將光流區(qū)域分割為4×4個(gè)網(wǎng)格,每個(gè)網(wǎng)格包含3×3個(gè)像素,使用同構(gòu)建改進(jìn)的WLD相同的方法,如此便得到了運(yùn)動(dòng)韋伯描述子(MoWLD)。
MoWLD將WLD和光流融合到一起來描述視頻中不同幀之間的運(yùn)動(dòng)信息。同WLD特征一樣,光流檢測(cè)不同幀之間的運(yùn)動(dòng)幅值和方向特征,因此我們也要構(gòu)建光流的直方圖。構(gòu)建光流直方圖的過程與構(gòu)建改進(jìn)的WLD直方圖過程類似。首先得到一個(gè)有4×4×12=192維的向量的光流直方圖。為了增加時(shí)間上的上下文信息而達(dá)到更高的魯棒性,再增加前三幀圖像到當(dāng)前描述子上,最終得到一個(gè)有4×4×192=3 072維數(shù)的特征向量的光流直方圖。
這里我們直接將光流直方圖融入到WLD直方圖中形成MoWLD描述子,并不對(duì)光流方向進(jìn)行調(diào)整。圖3給出了MoWLD描述子的構(gòu)建過程。提取連續(xù)四幀圖像用于計(jì)算WLD和光流的直方圖,具有足夠運(yùn)動(dòng)量的候選興趣點(diǎn)被認(rèn)為是MoWLD的興趣點(diǎn),累加起來就是整個(gè)MoWLD特征。

圖3 MoWLD描述子的構(gòu)建過程
1.1.4多尺度的MoWLD
本文采用多尺度的WLD特征分析的方法[12],多尺度的光流的計(jì)算就是根據(jù)WLD的尺度分別進(jìn)行統(tǒng)計(jì)的。多尺度是定義在P個(gè)像素的正方形對(duì)稱區(qū)域內(nèi),以(2R+1)為正方形的邊的長度的尺度上。其中P代表鄰域內(nèi)的像素的個(gè)數(shù),而R則確定了算子的空間分辨率。圖4給出了3個(gè)尺度上的WLD算子。

圖4 多尺度WLD下的正方形對(duì)稱區(qū)域圖示
由于本文提出的MoWLD是基于WLD和光流,所以它的抗遮擋和變形的能力都比較強(qiáng)。而且,當(dāng)一個(gè)興趣點(diǎn)被檢測(cè)到的時(shí)候,得到WLD的一個(gè)主方向,在這個(gè)鄰域內(nèi)的所有的梯度方向根據(jù)這個(gè)主方向做相應(yīng)的旋轉(zhuǎn),從而使得MoWLD具有旋轉(zhuǎn)不變性的特性。
為了減少冗余信息,提高檢測(cè)的速度,我們采用基于核密度估計(jì)(KDE)[19]的特征降維方式,將MoWLD特征向量的維數(shù)降至550維。下面用降維后的MoWLD特征作為輸入特征。
1.2.1SRC模型
給定K個(gè)物體的類,令D=[A1,A2,…,AK]代表由訓(xùn)練樣本組成的字典,其中Ai是i類的訓(xùn)練樣本的子集。令y代表測(cè)試的樣本。傳統(tǒng)的SRC分類算法如下:
1) 標(biāo)準(zhǔn)化每一個(gè)訓(xùn)練樣本Ai,i=1,2,…,K。


1.2.2提出的模型

(3)
s.t. ‖dn‖2≤1,?n

1.2.3特定類的字典學(xué)習(xí)
不同行為類型的MoWLD特征不同,因此本文采取特定類的字典學(xué)習(xí)方法。本文的稀疏分類模型融入了表達(dá)約束項(xiàng)和系數(shù)調(diào)整項(xiàng),因而具有很好的分類效果。雖然式(3)是非凸的,但是當(dāng)其他兩個(gè)變量固定的時(shí)候,對(duì)求解式(3)中的D、W或Z變量就是凸的。因此我們可以將問題分割成三個(gè)子問題:當(dāng)D和W固定時(shí)更新Z,當(dāng)D和Z固定時(shí)更新W,當(dāng)W和Z固定時(shí)更新D。如此便可以得到式(3)的解。
1) 當(dāng)D和W固定時(shí)更新Z:此時(shí),求解式(3)的問題就變?yōu)榍蠼鈀=[Z1,Z2,…,ZK]的問題。當(dāng)計(jì)算得到Zi后,所有的Zj(j≠i)是固定的。式(3)可以降解為:
(4)
針對(duì)每一個(gè)Zi,方程可以進(jìn)一步約束為:
(5)
計(jì)算得到Zi為:
Zi={DTD+(λ1+λ2)I+
γ1WTW}-1(DTai+λ2mi+γ1WTbi)
(6)
2) 當(dāng)D和Z固定時(shí)更新W:原問題可以約束為:
(7)
式(7)可以變形為:
(8)
(9)
用最小二乘法求解得到如下結(jié)果:
(10)
3) 當(dāng)W和Z固定時(shí)更新D:同更新Z的方法一樣,當(dāng)計(jì)算得到Di后,所有的Dj(j≠i)是固定的。式(3)可以降解為:
(11)
s.t.‖dn‖2=1,?n
可以利用文獻(xiàn)[21]中的拉格朗日對(duì)偶方法來求解式(1)。
至此,式(3)求解完畢。
1.2.4分類機(jī)制
學(xué)習(xí)過字典D后,我們需要對(duì)測(cè)試樣本y進(jìn)行處理,并進(jìn)行分類。下面是我們提出的分類模型:
(12)


(13)
通過用一個(gè)簡單的線性預(yù)測(cè)分類器去估計(jì)向量l的類,類別索引對(duì)應(yīng)向量l中的最大的元素。
圖5顯示了本文提出的稀疏分類模型相比于原始的SRC模型的優(yōu)勢(shì)。在所用時(shí)間方面,SRC算法比較穩(wěn)定。本文算法由于要計(jì)算同類之間的相似性矩陣,所用時(shí)間會(huì)隨著樣本數(shù)增加而增加,但是其成功地將所提出模型的算法的計(jì)算復(fù)雜度降低了。

圖5 不同字典大小下的表現(xiàn)性比較
為了驗(yàn)證本文提出的算法的有效性和優(yōu)越性,我們?cè)贐EHAVE數(shù)據(jù)集[22]和Crowd Violence數(shù)據(jù)集[23]這兩個(gè)數(shù)據(jù)集上對(duì)算法進(jìn)行了測(cè)試,并且同當(dāng)前比較流行的算法進(jìn)行了比較。在上面提出的稀疏分類模型里,在字典學(xué)習(xí)階段,我們?cè)O(shè)置λ1=0.005、λ2=3、γ1=1、γ2=0.1,在分類機(jī)制階段,設(shè)置γ=0.01。在每一個(gè)數(shù)據(jù)集上使用5個(gè)交叉驗(yàn)證,以平均預(yù)測(cè)率(ACC)±標(biāo)準(zhǔn)差(SD)和ROC曲線的面積(AUC)兩種方式顯示結(jié)果。
BEHAVE數(shù)據(jù)集涵蓋各種場(chǎng)景下的超過200 000幀圖像,包括走路,奔跑,追逐和打架等行為。我們將這些數(shù)據(jù)分為帶有各種行為的片段,每個(gè)片段至少包含上百幀的圖像。這里我們將每個(gè)片段標(biāo)記為暴力或者非暴力,然后從中隨機(jī)選取80個(gè)片段用來進(jìn)行暴力行為檢測(cè),這80個(gè)片段分為20個(gè)暴力片段和60個(gè)非暴力片段。我們將本文的算法同當(dāng)前比較流行的算法進(jìn)行了比較,這些算法有HOG、HOF、HNF(HOG和HOF的結(jié)合)、ViF[23]、基于RVD的算法[24]、基于外貌和運(yùn)動(dòng)的深度神經(jīng)網(wǎng)絡(luò)(AMDN)[25]、MoSIFT算法[12]以及原始的SRC思想[20]。各種算法在BEHAVE數(shù)據(jù)集上的比較結(jié)果如表1所示。

表1 在BEHAVE數(shù)據(jù)集上的檢測(cè)結(jié)果

續(xù)表1
實(shí)驗(yàn)中字典被固定在1 800,由表中數(shù)據(jù)可以看出,本文提出的基于稀疏分類和運(yùn)動(dòng)韋伯特征相結(jié)合的算法戰(zhàn)勝了其他所有的比較流行的算法。而且本文提出的MoWLD描述子相比于HOG、HOF和HNF具有更強(qiáng)的判別性。從表中數(shù)據(jù)也可以看出,基于RVD[24]方法的結(jié)果僅次于本文提出的算法,這是因?yàn)樗谇捌诓捎霉饬鞯母咚鼓P腿コ舜罅康脑肼?,為后期的高?zhǔn)確率識(shí)別提供了保障。AMDN方法的表現(xiàn)性非常穩(wěn)定,這是因?yàn)樗捎蒙疃壬窠?jīng)網(wǎng)絡(luò)自動(dòng)地表達(dá)學(xué)習(xí)特征,但是這種方法因?yàn)槭褂昧斯饬髯鳛檩斎雸D像的特征,所以表現(xiàn)性并不是最好的。此外,BEHAVE數(shù)據(jù)集上包含了很多類似于打架的暴力行為,所以傳統(tǒng)的SRC算法在這個(gè)數(shù)據(jù)集上的表現(xiàn)也不理想。
Crowd Violence數(shù)據(jù)集中的所有數(shù)據(jù)都來源于優(yōu)酷,是專門為檢測(cè)群體暴力行為而搜集的,所以它包含了很多的擁擠場(chǎng)景。Crowd Violence數(shù)據(jù)集的246個(gè)視頻片段中,一半是暴力片段,一半是正常片段。我們將整個(gè)數(shù)據(jù)集分為5個(gè)集合來進(jìn)行交叉驗(yàn)證。同樣將本文提出的算法與當(dāng)前比較流行的算法進(jìn)行比較,各種算法在Crowd Violence數(shù)據(jù)集上的比較結(jié)果如表2所示。

表2 在Crowd Violence數(shù)據(jù)集上的檢測(cè)結(jié)果

續(xù)表2
實(shí)驗(yàn)中,仍然將字典大小固定在1 800。從表中的數(shù)據(jù)可以看出,RVD的表現(xiàn)性相比于之前下降了,這是因?yàn)镃rowd Violence數(shù)據(jù)集中包含了很多的擁擠場(chǎng)景。AMDN在Crowd Violence數(shù)據(jù)集上的表現(xiàn)性非常穩(wěn)定,但是由于光流噪聲的引入,它的表現(xiàn)性并不是最好的。
原始的SRC模型比較簡單,無法對(duì)場(chǎng)景中復(fù)雜的信息進(jìn)行判別,所以這里SRC的表現(xiàn)性又下降了。最重要的是,從表中信息可以看出,本文提出的算法仍然是所有算法中表現(xiàn)性最好的。這是因?yàn)檫@種算法中的MoWLD描述子相比于HOG、HOF和HNF具有更強(qiáng)的判別性。而且,本文提出的稀疏分類模型中的表達(dá)約束項(xiàng)和系數(shù)調(diào)整項(xiàng)也使得本文的算法具有更強(qiáng)的判別性。同時(shí)也說明了本文提出的基于稀疏分類和運(yùn)動(dòng)韋伯特征相結(jié)合的算法即使在擁擠的場(chǎng)景下也具有很好的識(shí)別性。
針對(duì)視頻監(jiān)控場(chǎng)景中的暴力行為,本文提出了一種基于稀疏分類和運(yùn)動(dòng)韋伯特征相結(jié)合的暴力檢測(cè)算法。本文提出的運(yùn)動(dòng)韋伯描述子(MoWLD)充分結(jié)合了SIFT特征計(jì)算梯度直方圖方面的優(yōu)勢(shì)和LBP在計(jì)算有效性的特點(diǎn),它既是對(duì)圖像紋理特征的描述,也是對(duì)時(shí)間上的運(yùn)動(dòng)特征的刻畫。改進(jìn)的稀疏分類模型引入了表達(dá)約束項(xiàng)和稀疏調(diào)整項(xiàng),表達(dá)約束項(xiàng)可以確保帶著同一類標(biāo)簽的訓(xùn)練樣本特定類詞典具備更好的重建能力。系數(shù)調(diào)整項(xiàng)反映了不同類標(biāo)簽的訓(xùn)練樣本的特定類的子詞典有較弱的重建能力,可以確保不同類的字典表達(dá)盡可能的獨(dú)立,因而使得算法具有更強(qiáng)的判別性。大量的實(shí)驗(yàn)結(jié)果證明本文提出的用于暴力檢測(cè)的算法具有很強(qiáng)的判別性,提出的融合有監(jiān)督的特定字典學(xué)習(xí)的稀疏模型在分類上也是非常有效的。同時(shí)本文提出的基于稀疏分類和運(yùn)動(dòng)韋伯特征相結(jié)合的算法即使在擁擠的場(chǎng)景下也具有很好的識(shí)別性。