姜紅濤,陳曉華,石 玥,馬翠霞
一種基于螺旋摘要的監(jiān)控視頻可視分析系統(tǒng)
姜紅濤1,陳曉華1,石 玥2,3,馬翠霞2,3
(1. 中國(guó)石化銷售股份有限公司華南分公司,廣東 廣州 510000;2.中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100190;3. 中國(guó)科學(xué)院軟件研究所人機(jī)交互北京市重點(diǎn)實(shí)驗(yàn)室,北京 100190)
監(jiān)控視頻是安防系統(tǒng)的重要組成部分。在如今的各行各業(yè)中,只要涉及到安全,均離不開監(jiān)控視頻。但對(duì)監(jiān)控視頻內(nèi)容的分析主要依靠大量人工來完成,人力和時(shí)間成本巨大。隨著監(jiān)控視頻數(shù)據(jù)越來越多,如何提高針對(duì)視頻內(nèi)容的分析效率、降低用戶認(rèn)知負(fù)荷是拓展視頻利用率的重要方面。為此,針對(duì)監(jiān)控視頻存在的冗余信息較多、人工獲取視頻關(guān)鍵內(nèi)容效率低的問題,采用螺旋視頻摘要及相應(yīng)交互技術(shù),開發(fā)了一種面向監(jiān)控視頻內(nèi)容的可視分析系統(tǒng),結(jié)合運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果數(shù)據(jù),基于螺旋摘要的展示優(yōu)勢(shì)實(shí)現(xiàn)多角度可視化視頻目標(biāo)統(tǒng)計(jì)信息,并輔以針對(duì)螺旋摘要的導(dǎo)航、定位操作以及草圖交互等方式,實(shí)現(xiàn)對(duì)監(jiān)控視頻內(nèi)容的快速有效獲取。
監(jiān)控視頻;螺旋摘要;草圖交互;目標(biāo)檢測(cè);運(yùn)動(dòng)目標(biāo)檢測(cè)
隨著互聯(lián)網(wǎng)的發(fā)展,純粹文本內(nèi)容早已不是數(shù)據(jù)交互的主要形式,用于交互的諸多數(shù)據(jù)都是圖像或視頻格式。如何從視頻數(shù)據(jù)中高效定位用戶感興趣區(qū)域,并對(duì)其內(nèi)容進(jìn)行快速分析,成為熱點(diǎn)問題。視頻是由一系列相互關(guān)聯(lián)的圖片按照一定的時(shí)序順序合成的流媒體。視頻提供的信息量非常巨大,用戶通常也難以在短時(shí)間內(nèi)獲取到視頻的主要內(nèi)容。當(dāng)前主流的視頻應(yīng)用往往通過水平時(shí)間軸提供給用與視頻進(jìn)行交互的功能,用戶可以通過點(diǎn)擊時(shí)間軸或快進(jìn)的方式觀看視頻,然而此種交互極易導(dǎo)致用戶跳過重要的鏡頭與場(chǎng)景。因此,通過視頻摘要來概括視頻主要內(nèi)容是一個(gè)能幫助用戶快速獲取視頻內(nèi)容的有效方式。
監(jiān)控視頻數(shù)據(jù)通常有以下特點(diǎn)[1]:①數(shù)據(jù)量大;②數(shù)據(jù)格式多樣、處理速度慢、成本高;③視頻可利用信息密度低。同時(shí),與電影、動(dòng)漫等視頻不同,由于要迎合觀眾需求,給觀眾更好的視聽效果,視頻畫面中的主要目標(biāo)通常是位于鏡頭中央,且清晰度、對(duì)比度等質(zhì)量也比較高。而監(jiān)控視頻由于攝像機(jī)放置位置、拍攝角度、光線等原因,視頻質(zhì)量比電影等視頻明顯要差,且鏡頭中的目標(biāo)往往不位于鏡頭中央,有時(shí)也不很明顯。除此之外,監(jiān)控視頻冗余信息較多,往往幾個(gè)小時(shí)的監(jiān)控視頻,有效內(nèi)容僅有幾分鐘。傳統(tǒng)監(jiān)控視頻獲取有效內(nèi)容往往需要耗費(fèi)大量的人力、物力,超強(qiáng)的認(rèn)知負(fù)荷導(dǎo)致工作人員很容易漏掉關(guān)鍵信息,因此對(duì)監(jiān)控視頻內(nèi)容的可視分析非常必要。
本文提出面向監(jiān)控視頻的交互式螺旋摘要技術(shù),可解決當(dāng)前監(jiān)控視頻冗余信息較多、有效獲取關(guān)鍵信息較為困難的問題。相比普通的以直線或網(wǎng)格狀對(duì)視頻摘要進(jìn)行排列的方式[2],螺旋摘要一方面能夠在有限的空間內(nèi)呈現(xiàn)更多的視頻信息;另一方面,螺旋摘要以螺旋線為時(shí)間軸來排列關(guān)鍵幀,不存在傳統(tǒng)網(wǎng)格狀排列方式分行間隔的問題,保持了用戶視覺上的連續(xù)性,使內(nèi)容呈現(xiàn)更符合用戶認(rèn)知習(xí)慣[3]。因此本文采用螺旋摘要技術(shù)[3]來展現(xiàn)監(jiān)控視頻信息,給出了一種基于監(jiān)控視頻內(nèi)容的可視分析方法。針對(duì)監(jiān)控視頻,改進(jìn)文獻(xiàn)[4]提出的基于圖像直方圖提取關(guān)鍵幀的算法,基于yolov3[5]的目標(biāo)檢測(cè)結(jié)果給出感興趣區(qū)域提取算法,結(jié)合運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果數(shù)據(jù)(使用torchseg (https://github.com/ISCAS007/torchseg)中motionNet工具包對(duì)監(jiān)控視頻做運(yùn)動(dòng)目標(biāo)檢測(cè)),基于螺旋摘要的展示優(yōu)勢(shì)實(shí)現(xiàn)多角度可視化視頻目標(biāo)統(tǒng)計(jì)信息,并輔以視頻摘要導(dǎo)航定位視頻、螺旋視頻摘要多尺度瀏覽、草圖注釋等交互功能,實(shí)現(xiàn)對(duì)監(jiān)控視頻內(nèi)容的快速有效獲取。
近年來,國(guó)內(nèi)外有很多針對(duì)監(jiān)控視頻摘要方法的研究,主要基于提取視頻主要部分而過濾掉冗余成分的思路,達(dá)到壓縮視頻內(nèi)容的目的。如何提取關(guān)鍵幀是視頻摘要的一個(gè)重要前提,現(xiàn)有的大多視頻摘要技術(shù)關(guān)注的是視頻內(nèi)容的提取與分析。文獻(xiàn)[6]在以往視頻摘要提取方法的基礎(chǔ)上,提出結(jié)合視頻的自然語言描述來增強(qiáng)視頻摘要提取效果。文獻(xiàn)[7]則利用擴(kuò)展內(nèi)存來保存整個(gè)視頻的視覺信息,從視頻全局視角去預(yù)測(cè)視頻中每個(gè)鏡頭的重要分?jǐn)?shù),并在SumMe及TVSum 2個(gè)視頻庫上取得很好的效果。
由于靜態(tài)摘要需要將關(guān)鍵幀以不同的形式展現(xiàn)出來,所以多位學(xué)者將目光投向了視頻摘要的可視化形式。文獻(xiàn)[3]以螺旋形式的視頻摘要展現(xiàn)視頻內(nèi)容,提供給用戶對(duì)視頻內(nèi)容的多尺度瀏覽功能,如圖1所示。文獻(xiàn)[8]將視頻建模為一個(gè)包含時(shí)間、空間的立方體,可對(duì)運(yùn)動(dòng)場(chǎng)景進(jìn)行可視化或?qū)o態(tài)場(chǎng)景進(jìn)行全景可視化,如圖2(a)所示。文獻(xiàn)[9]通過結(jié)合視頻彈幕信息,將關(guān)鍵幀聚合得到視頻會(huì)話,會(huì)話聚類得到場(chǎng)景樹,然后將其組合為場(chǎng)景森林,以場(chǎng)景森林的形式來表達(dá)視頻內(nèi)容,如圖2(b)所示。本文采用螺旋形式的視頻摘要展現(xiàn)監(jiān)控視頻內(nèi)容,螺旋形式的視頻摘要能夠在有限空間內(nèi)呈現(xiàn)更多的監(jiān)控視頻信息,更符合用戶的認(rèn)知習(xí)慣,能夠帶給用戶更好地視覺體驗(yàn)。
當(dāng)前針對(duì)智能監(jiān)控技術(shù)已有了大量研究,主要通過目標(biāo)檢測(cè)跟蹤、數(shù)據(jù)挖掘、事件分析、視頻內(nèi)容可視化等方法輔助用戶理解監(jiān)控視頻內(nèi)容。王夢(mèng)來等[10]基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)實(shí)現(xiàn)對(duì)復(fù)雜監(jiān)控視頻中事件的檢測(cè)與分析,提出了一套基于CNN級(jí)聯(lián)網(wǎng)絡(luò)和軌跡分析的監(jiān)控視頻事件檢測(cè)分析的綜合方案。代科學(xué)等[11]基于傳統(tǒng)數(shù)據(jù)挖掘算法,關(guān)聯(lián)規(guī)則算法(Apriori),提出了一種監(jiān)控視頻中運(yùn)動(dòng)目標(biāo)的頻繁軌跡模式挖掘算法,實(shí)現(xiàn)對(duì)監(jiān)控視頻中運(yùn)動(dòng)目標(biāo)的頻繁軌跡隱含模式進(jìn)行數(shù)據(jù)挖掘。郭洋等[12]提出一種基于運(yùn)動(dòng)目標(biāo)三維軌跡的關(guān)聯(lián)視頻可視分析方法來輔助人工分析視頻,通過前景分離、光流等方法處理視頻信息,結(jié)合草圖交互實(shí)現(xiàn)檢測(cè)視頻中異常行為的功能,可達(dá)到輔助用戶決策的目的。
蔡瑞初等[13]提出一種基于多尺度時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)的監(jiān)控視頻人群異常事件檢測(cè)和定位方法。胡芝蘭等[14]提出基于運(yùn)動(dòng)方向的異常行為檢測(cè)算法,該算法能夠?qū)稳思岸嗳说膹?fù)雜行為進(jìn)行有效檢測(cè),具有較好的魯棒性,且能夠?qū)崟r(shí)檢測(cè)異常行為。王相海等[15]基于貝葉斯的車輛視頻背景建模及運(yùn)動(dòng)目標(biāo)檢測(cè)算法,提出一種基于Meanshift粒子濾波(mean shift particle filter,MSPF)的多目標(biāo)跟蹤算法。文獻(xiàn)[4]提出通過圖像直方圖提取視頻關(guān)鍵幀,也是當(dāng)前較常見的一種關(guān)鍵幀提取算法,然而該算法需要預(yù)先設(shè)定閾值,閾值的大小嚴(yán)重影響算法的精度與速度。朱映映和周洞汝[16]提出了一種基于聚類的關(guān)鍵幀提取算法。張嬋等[17]提出一種基于C模式聚類的關(guān)鍵幀提取算法。然而,基于聚類的關(guān)鍵幀提取算法盡管不受閾值的影響,但是其運(yùn)行速度往往比較慢。本文提出的自適應(yīng)閾值關(guān)鍵幀提取算法能夠?qū)崟r(shí)提取視頻關(guān)鍵幀。
近幾年來,也有大量針對(duì)監(jiān)控視頻系統(tǒng)研發(fā)的工作被提出來。文獻(xiàn)[18]開發(fā)了visual surveillance and monitoring (VSAM)系統(tǒng),該系統(tǒng)使用多個(gè)協(xié)同工作的傳感器對(duì)混雜環(huán)境中行人與交通工具進(jìn)行檢測(cè)與分析。文獻(xiàn)[19]開發(fā)出ADVISOR (annotated digital video for intelligent surveillance and optimised retrieval),通過追蹤行人并分析其行為來檢測(cè)可能發(fā)生意外的情況,以確保公共交通安全,如圖3(a)所示。文獻(xiàn)[20]開發(fā)了Knight系統(tǒng),一種用于檢測(cè)、分類、追蹤復(fù)雜場(chǎng)景中移動(dòng)物體的商業(yè)智能監(jiān)控系統(tǒng)。文獻(xiàn)[21]則開發(fā)出Vs-star,主要致力于研究監(jiān)控視頻中人車運(yùn)動(dòng)的自動(dòng)行為分析,包含對(duì)目標(biāo)的運(yùn)動(dòng)檢測(cè)、分類、識(shí)別和跟蹤,以及行為分析,可實(shí)現(xiàn)對(duì)監(jiān)控視頻中異常行為的檢測(cè)。
文獻(xiàn)[22]提出了針對(duì)機(jī)場(chǎng)環(huán)境的智能監(jiān)控系統(tǒng)-IBM smart surveillance system (S3)。S3不僅提供對(duì)視覺場(chǎng)景的監(jiān)控,還提供對(duì)監(jiān)控視頻數(shù)據(jù)的管理、基于事件的檢索、實(shí)時(shí)警報(bào)以及數(shù)據(jù)統(tǒng)計(jì)等功能,如圖3(b)所示。宋紅和石峰[23]提出基于人臉檢測(cè)與跟蹤的智能監(jiān)控系統(tǒng),使用對(duì)稱差分以及人臉膚色識(shí)別、人臉驗(yàn)證算法定位人臉,且提出新的基于膚色信息和維護(hù)運(yùn)動(dòng)人臉緩沖池的方法跟蹤目標(biāo)人臉。該系統(tǒng)能夠?qū)崟r(shí)可靠地檢測(cè)、跟蹤運(yùn)動(dòng)人臉。文獻(xiàn)[24]提出一種新型的監(jiān)控視頻可視分析系統(tǒng)sVISIT,通過分析監(jiān)控視頻中運(yùn)動(dòng)目標(biāo)的多視角運(yùn)動(dòng)信息來實(shí)現(xiàn)對(duì)視頻內(nèi)容可視化。文中通過組合包含運(yùn)動(dòng)目標(biāo)的多幀圖像合成一個(gè)運(yùn)動(dòng)快照?qǐng)D像,同時(shí)使用時(shí)空立方體來增強(qiáng)運(yùn)動(dòng)快照的可視效果,以可視化目標(biāo)運(yùn)動(dòng)軌跡的時(shí)空特征,如圖4所示。

圖3 ADVISOR智能監(jiān)控系統(tǒng)[19]與IBM:S3智能監(jiān)控系統(tǒng)[22]
本文針對(duì)監(jiān)控視頻有效信息密度低,不利于理解的問題,結(jié)合監(jiān)控視頻中運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果,設(shè)計(jì)了一種基于螺旋視頻摘要的監(jiān)控視頻可視分析系統(tǒng)。監(jiān)控視頻的螺旋摘要以螺旋線為時(shí)間軸排列關(guān)鍵幀,能夠在有限的空間內(nèi)呈現(xiàn)更多監(jiān)控視頻信息,從而避免了傳統(tǒng)的網(wǎng)格形式摘要產(chǎn)生的視覺間斷性,向用戶提供更好的視覺體驗(yàn)并且更有利于用戶對(duì)監(jiān)控視頻內(nèi)容的分析。同時(shí),該系統(tǒng)從多個(gè)角度展示視頻中目標(biāo)的統(tǒng)計(jì)信息,結(jié)合多尺度瀏覽、草圖注釋等交互功能,來實(shí)現(xiàn)對(duì)監(jiān)控視頻內(nèi)容的分析與理解。
本文在顏色直方圖關(guān)鍵幀提取算法[4]及目標(biāo)檢測(cè)算法Yolov3[5]的基礎(chǔ)上,給出針對(duì)于監(jiān)控視頻的關(guān)鍵幀提取算法以及感興趣區(qū)域提取算法,并基于螺旋摘要技術(shù)[2],設(shè)計(jì)了面向監(jiān)控視頻的可視分析系統(tǒng),實(shí)現(xiàn)對(duì)監(jiān)控視頻內(nèi)容的可視分析。

圖4 sVISIT[24]
鑒于監(jiān)控視頻分析系統(tǒng)實(shí)時(shí)性的要求,本文通過改進(jìn)文獻(xiàn)[4]提出的基于顏色直方圖提取關(guān)鍵幀的算法,給出基于監(jiān)控視頻的自適應(yīng)閾值實(shí)時(shí)關(guān)鍵幀提取算法。該算法通過比較2幅圖像的顏色直方圖差異定義圖像的相似度,每次只保留與已有關(guān)鍵幀集合中最后一幀相似度小于某個(gè)閾值的幀作為新的關(guān)鍵幀,插入關(guān)鍵幀集合。

因不同的監(jiān)控視頻目標(biāo)出現(xiàn)頻率不同,設(shè)置參數(shù),即每隔取一幀并與前一個(gè)關(guān)鍵幀計(jì)算相似度,在監(jiān)控視頻中目標(biāo)較少的情況下,增大的值,以加快處理速度,在目標(biāo)較多的情況下,減小的數(shù)值,使結(jié)果更精確。
與以往依賴于固定閾值的關(guān)鍵幀提取算法相比,本文提出的自適應(yīng)閾值關(guān)鍵幀提取算法能夠在不漏掉監(jiān)控視頻主要信息的同時(shí),使所提取的關(guān)鍵幀集合中冗余信息盡可能少。傳統(tǒng)基于聚類的關(guān)鍵幀提取算法需要對(duì)每張圖片反復(fù)比對(duì),其時(shí)間復(fù)雜度為(2);能夠以()的時(shí)間復(fù)雜度快速提取視頻關(guān)鍵幀(其中,為視頻中包含的總幀數(shù)),而自適應(yīng)閾值則保證了所提取關(guān)鍵幀集合能夠概括視頻內(nèi)容而幾乎不存在冗余。經(jīng)測(cè)試,本文算法在CPU上可以達(dá)到25 FPS (frame per second),即每秒傳輸幀數(shù))的實(shí)時(shí)關(guān)鍵幀提取速度。其中,幀間相似度定義為幀圖片對(duì)應(yīng)的顏色直方圖之間的差異度,關(guān)鍵性耗時(shí)主要存在于計(jì)算幀圖像的圖像直方圖,以及通過對(duì)比圖像直方圖來確定幀間差異度的過程。該算法具體流程如下:
算法1.關(guān)鍵幀提取算法。
輸入:監(jiān)控視頻。
輸出:從監(jiān)控視頻中提取的關(guān)鍵幀集合。
1. 初始化為0.5,定義關(guān)鍵幀集。
2. 從監(jiān)控視頻中按時(shí)間順序抽取一幀記做,如果是第一幀,則保存為關(guān)鍵幀,并將該幀記為,其在原視頻幀中的序數(shù)記為。否則按照每隔取一幀的原則,從視頻中抽取一幀,其在原視頻幀中序數(shù)記為。
3. 計(jì)算當(dāng)前幀以及最新關(guān)鍵幀各自的顏色直方圖分別記為以及,并對(duì)直方圖做歸一化,計(jì)算與的差異度記做。
4. 自適應(yīng)閾值更新原則如下:


為了使螺旋摘要能夠表達(dá)更充分的信息,需要對(duì)螺旋線上相鄰關(guān)鍵幀之間進(jìn)行去邊界和融合處理。在該過程中,如果沒有對(duì)關(guān)鍵幀進(jìn)行ROI提取,則有可能丟失重要的前景信息。所以,本文通過關(guān)鍵幀進(jìn)行ROI提取,以突出視頻關(guān)鍵幀中重要的前景信息。
對(duì)于監(jiān)控視頻,往往鏡頭中目標(biāo)數(shù)量較多,個(gè)體較小,分布較廣,且通常不會(huì)恰好位于鏡頭中央?yún)^(qū)域,傳統(tǒng)的ROI提取算法[25]在監(jiān)控視頻上表現(xiàn)比較差。另外,目前已有的圖像分割算法比如經(jīng)典的圖割(GraphCuts)算法以及目前效果最好的深度學(xué)習(xí)分割算法deeplabv3+[26],在監(jiān)控視頻的復(fù)雜場(chǎng)景上表現(xiàn)也一般,往往會(huì)漏掉大量重要前景信息。
本文針對(duì)監(jiān)控視頻,基于yolov3[5]檢測(cè)結(jié)果來提取關(guān)鍵幀的ROI,即先由目標(biāo)檢測(cè)定位當(dāng)前關(guān)鍵幀中目標(biāo)位置(主要包含5個(gè)類別:“person”,“car”,“bus”,“truck”,“rider”),然后計(jì)算當(dāng)前幀中所有目標(biāo)的最小包圍框,如果最小包圍框面積大于200 px,將原圖中對(duì)應(yīng)最小包圍框的區(qū)域調(diào)整大小后輸出為ROI,否則認(rèn)定該關(guān)鍵幀不存在目標(biāo),舍棄該關(guān)鍵幀(關(guān)鍵幀二次篩選),即可得到滿足需求的ROI。Yolov3[4]可以實(shí)現(xiàn)對(duì)監(jiān)控視頻中出現(xiàn)的幾乎所有目標(biāo)的精確定位,因而本文算法提取到的ROI精度比分割以及傳統(tǒng)ROI提取算法要高很多,其效果圖如圖5所示,左邊為關(guān)鍵幀,右邊為從關(guān)鍵幀中提取的ROI。本文算法流程示意圖如圖6所示。

圖5 ROI提取效果圖
監(jiān)控視頻中有效信息密度較低,理解起來比較困難。文中對(duì)監(jiān)控視頻內(nèi)容進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè),以是否包含運(yùn)動(dòng)目標(biāo)將螺旋時(shí)間軸劃分為多個(gè)區(qū)域,以提升用戶對(duì)監(jiān)控視頻內(nèi)容的分析和檢索效率。同時(shí),本文通過對(duì)監(jiān)控視頻內(nèi)容進(jìn)行目標(biāo)檢測(cè)來生成對(duì)視頻中各類別目標(biāo)的統(tǒng)計(jì)信息,并從不同角度對(duì)統(tǒng)計(jì)信息進(jìn)行可視化,降低用戶的認(rèn)知負(fù)荷。本文通過motionNet對(duì)由監(jiān)控視頻中提取的關(guān)鍵幀進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè),以是否存在運(yùn)動(dòng)目標(biāo)將關(guān)鍵幀集合區(qū)分開,再以螺旋摘要的形式展現(xiàn)給用戶,提高用戶理解與分析監(jiān)控視頻內(nèi)容的效率。通過yolov3[5]對(duì)關(guān)鍵幀進(jìn)行目標(biāo)檢測(cè)以得到當(dāng)前視頻中各類別目標(biāo)的統(tǒng)計(jì)信息。本文對(duì)“person”,“rider”,“car”,“bus”和“truck” 5個(gè)類別的目標(biāo)數(shù)量進(jìn)行了統(tǒng)計(jì),生成統(tǒng)計(jì)信息并以多個(gè)角度對(duì)其進(jìn)行可視化。

圖6 ROI提取算法流程圖
監(jiān)控視頻存在有效內(nèi)容較少,有效信息密度低的特點(diǎn),導(dǎo)致用戶對(duì)監(jiān)控視頻進(jìn)行瀏覽分析時(shí),存在3個(gè)主要問題,即鎖定目標(biāo)困難、視頻快速瀏覽困難、視頻場(chǎng)景關(guān)聯(lián)構(gòu)建困難。本文針對(duì)以上問題,開發(fā)了一種面向監(jiān)控視頻內(nèi)容的可視分析系統(tǒng)(系統(tǒng)主界面如圖7所示),分別對(duì)以上3個(gè)問題提出相應(yīng)的解決方案。
使用傳統(tǒng)方法瀏覽視頻時(shí),往往大量精力被耗費(fèi)在監(jiān)控視頻冗余信息上,在耗費(fèi)大量人力與時(shí)間的同時(shí),還容易漏掉重要的信息。本文以螺旋視頻摘要為中心,通過餅狀圖(圖7(c))、螺旋摘要目標(biāo)類型分布圖(圖7(d)),結(jié)合運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果,快速定位用戶感興趣目標(biāo)在螺旋時(shí)間軸上的大致分布區(qū)域,在保證精度的情況下,提高用戶瀏覽效率。
本文提出的監(jiān)控視頻分析系統(tǒng)通過目標(biāo)分布餅狀圖(圖7(d))從宏觀上了解該監(jiān)控視頻中出現(xiàn)的各個(gè)類別的目標(biāo)及其數(shù)量占比,確認(rèn)監(jiān)控視頻中是否存在感興趣的目標(biāo)類別。若存在感興趣目標(biāo),需要進(jìn)一步確定目標(biāo)在監(jiān)控視頻中的確切位置。監(jiān)控視頻分析系統(tǒng)基于螺旋摘要對(duì)監(jiān)控視頻內(nèi)容進(jìn)行組織,對(duì)螺旋摘要時(shí)間軸上的每一關(guān)鍵幀圖像中的目標(biāo)信息進(jìn)行統(tǒng)計(jì),并設(shè)計(jì)螺旋摘要目標(biāo)類型分布圖進(jìn)一步對(duì)監(jiān)控視頻中的目標(biāo)進(jìn)行可視化,方便用戶了解監(jiān)控視頻中各類別目標(biāo)在螺旋視頻摘要時(shí)間軸上的分布情況。在螺旋摘要目標(biāo)類型分布圖中使用紅、白、綠、黃和藍(lán)5種顏色的圓點(diǎn)來代表監(jiān)控視頻中常出現(xiàn)的5類目標(biāo)“person”,“rider”,“car”,“bus”和“truck”。圓點(diǎn)的半徑越大,代表當(dāng)前時(shí)間段存在的該類目標(biāo)越多,如圖7(c)所示。因此可由螺旋摘要目標(biāo)類型分布圖快速定位用戶感興趣目標(biāo)類別在螺旋時(shí)間軸上的分布區(qū)域,達(dá)到縮小查找區(qū)域的效果。
在實(shí)際中,用戶感興趣的目標(biāo)往往是運(yùn)動(dòng)目標(biāo),太多的靜態(tài)目標(biāo)在浪費(fèi)工作人員精力的同時(shí),也會(huì)形成一定的干擾,因此本文基于螺旋視頻摘要,通過運(yùn)動(dòng)目標(biāo)檢測(cè)進(jìn)一步縮小查找區(qū)域。 圖7(b)所示,螺旋線上排布的是經(jīng)去邊界融合后再通過運(yùn)動(dòng)目標(biāo)檢測(cè)得到的ROI,其中灰色區(qū)域表示時(shí)間軸上當(dāng)前區(qū)域不存在運(yùn)動(dòng)目標(biāo),彩色區(qū)域表示時(shí)間軸上存在運(yùn)動(dòng)目標(biāo)的區(qū)域。螺旋線上的紅點(diǎn)代表當(dāng)前監(jiān)控視頻播放進(jìn)度。用戶可通過排除靜態(tài)目標(biāo)所在區(qū)域,進(jìn)一步縮小查找區(qū)域。
本文設(shè)計(jì)的監(jiān)控視頻分析系統(tǒng)基于螺旋視頻摘要技術(shù)對(duì)監(jiān)控視頻內(nèi)容的有效組織,借助餅狀圖和螺旋摘要目標(biāo)類型分布圖兩種方式對(duì)螺旋監(jiān)控視頻摘要中的目標(biāo)統(tǒng)計(jì)信息進(jìn)行可視化,并結(jié)合基于螺旋視頻摘要的運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果,能夠有效地縮小查找區(qū)域,確保用戶可以通過簡(jiǎn)單的交互方式在螺旋視頻摘要上對(duì)目標(biāo)進(jìn)行快速定位。

圖7 系統(tǒng)主界面((a) 監(jiān)控視頻;(b) 結(jié)合運(yùn)動(dòng)目標(biāo)檢測(cè)后的螺旋摘要;(c) 螺旋視頻摘要目標(biāo)類型分布圖;(d) 各類別目標(biāo)數(shù)量對(duì)比圖;(e) 界面切換按鈕;(f) 目標(biāo)數(shù)量-時(shí)間變化趨勢(shì)圖)
在螺旋時(shí)間軸上鎖定用戶感興趣目標(biāo)所在大致區(qū)域后,還存在如何迅速瀏覽感興趣目標(biāo)所在區(qū)域,使用戶能夠高效精確地獲取視頻內(nèi)容的問題。本文圍繞螺旋視頻摘要,通過螺旋摘要導(dǎo)航定位監(jiān)控視頻,基于螺旋摘要的多尺度瀏覽,草圖注釋功能幫助用戶快速精確獲取監(jiān)控視頻內(nèi)容。
用戶在通過視頻摘要了解監(jiān)控視頻時(shí),可由螺旋摘要上感興趣片段導(dǎo)航到監(jiān)控視頻中對(duì)應(yīng)片段了解詳情。同時(shí),為了使用戶能夠更方便地了解視頻內(nèi)容,系統(tǒng)提供感興趣片段預(yù)覽功能以及感興趣片段附近2 s視頻的預(yù)覽功能,圖8(a)為預(yù)覽當(dāng)前ROI對(duì)應(yīng)的關(guān)鍵幀,圖8(b)為預(yù)覽該關(guān)鍵前后1 s的視頻內(nèi)容。用戶在對(duì)ROI進(jìn)行瀏覽時(shí),可以通過系統(tǒng)提供的多尺度瀏覽功能在不同粒度下查看視頻摘要,從全局總覽到局部細(xì)查,多個(gè)層次充分理解視頻內(nèi)容。除此之外,用戶可以通過目標(biāo)數(shù)量-時(shí)間變化趨勢(shì)圖(如圖7(f)所示)來快速得到當(dāng)前攝像頭所在地段各類別目標(biāo)數(shù)量隨時(shí)間波動(dòng)情況,比如高峰期與低谷期出現(xiàn)的時(shí)間段等,掌握該地段各類目標(biāo)數(shù)量在時(shí)間軸上的波動(dòng)規(guī)律,在反常情況出現(xiàn)時(shí),便可以重點(diǎn)關(guān)注。

圖8 視頻摘要預(yù)覽效果圖
實(shí)際應(yīng)用中,監(jiān)控視頻場(chǎng)景間有時(shí)可能存在時(shí)間或空間上的聯(lián)系,比如同一地點(diǎn)不同時(shí)間拍攝的幾段監(jiān)控視頻,或者拍攝時(shí)間、地點(diǎn)相同,拍攝視角不同的幾段監(jiān)控視頻,甚至同一監(jiān)控視頻內(nèi)部的某些場(chǎng)景可能存在某些關(guān)聯(lián)。如何快速構(gòu)建這些相關(guān)聯(lián)的視頻場(chǎng)景之間的聯(lián)系是一個(gè)難題(關(guān)聯(lián)場(chǎng)景的確定見3.1與3.2)。
本文通過螺旋摘要超鏈接實(shí)現(xiàn)監(jiān)控視頻場(chǎng)景間關(guān)聯(lián)的構(gòu)建,用戶可以通過草圖交互來實(shí)現(xiàn)關(guān)聯(lián)場(chǎng)景的超鏈接構(gòu)建,并通過這些關(guān)聯(lián)在不同監(jiān)控視頻間或監(jiān)控視頻內(nèi)部實(shí)現(xiàn)多個(gè)場(chǎng)景間的快速跳轉(zhuǎn),實(shí)現(xiàn)對(duì)監(jiān)控視頻情節(jié)的關(guān)聯(lián)性分析。如圖9所示,界面中3個(gè)螺旋摘要分別代表3個(gè)鏡頭下的監(jiān)控視頻,圖中通過草圖交互連接不同鏡頭下同一輛車(圖中紅框所示)出現(xiàn)的位置,即可實(shí)現(xiàn)對(duì)該車在不同鏡頭下出現(xiàn)的場(chǎng)景的關(guān)聯(lián)性分析。本文還通過對(duì)螺旋摘要進(jìn)行選取與合并操作實(shí)現(xiàn)對(duì)監(jiān)控視頻關(guān)聯(lián)場(chǎng)景的剪輯與合并,從而實(shí)現(xiàn)對(duì)監(jiān)控視頻關(guān)聯(lián)場(chǎng)景之間聯(lián)系的構(gòu)建。如圖10所示,界面中左上與右上2個(gè)螺旋摘要分別對(duì)應(yīng)2段場(chǎng)景存在聯(lián)系的監(jiān)控視頻,用戶可在螺旋摘要上使用草圖交互選擇相關(guān)聯(lián)的場(chǎng)景片段,并生成相應(yīng)預(yù)覽,再經(jīng)過螺旋視頻摘要的合并操作來實(shí)現(xiàn)對(duì)兩段監(jiān)控視頻中關(guān)聯(lián)場(chǎng)景的關(guān)聯(lián)性進(jìn)行分析。

圖10 基于螺旋摘要的場(chǎng)景剪輯與合并示意圖
本文針對(duì)監(jiān)控視頻的冗余信息較多、人工獲取關(guān)鍵信息效率低下的問題,提出了一種面向監(jiān)控視頻的交互式螺旋摘要技術(shù),針對(duì)監(jiān)控視頻,提出了一種實(shí)時(shí)的關(guān)鍵幀提取算法和一種ROI提取算法。并結(jié)合運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果,基于螺旋摘要在空間利用率和時(shí)間連續(xù)性上的優(yōu)勢(shì),從多個(gè)角度來可視化監(jiān)控視頻的各類統(tǒng)計(jì)信息,輔以關(guān)鍵幀定位視頻、草圖注釋、螺旋摘要目標(biāo)類別分布圖等功能,實(shí)現(xiàn)對(duì)監(jiān)控視頻關(guān)鍵信息的高效獲取。
[1] 馬瑞澤. 監(jiān)控視頻摘要技術(shù)探究[J]. 科技經(jīng)濟(jì)導(dǎo)刊, 2018, 26(25): 30.
[2] LU Z, GRAUMAN K. Story-driven summarization for egocentric video[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 350.
[3] LIU Y J, MA C X, ZHAO G Z, et al. An interactive SpiralTape video summarization[J]. IEEE Transactions on Multimedia, 2016, 18(7): 1269-1282.
[4] KUMTHEKAR M V, MAHADEV P. Key frame extraction using color histogram method[EB/OL]. [2019-12-09]. https://www.semanticscholar.org/paper/ Key-frame-extraction-using-color-histogram-method- Kumthekar-Patil/ce3277d13d1e49c180ec0b9b1511d8dd7b75a0d6#citing-papers.
[5] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2019-12-09]. http://xueshu.baidu. com/usercenter/paper/show?paperid=e02671f7b0527c6ecee43ce8bd7918b6&site=xueshu_se&hitarticle=1.
[6] PLUMMER B A, BROWN M, LAZEBNIK S. Enhancing video summarization via vision-language embedding[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017.
[7] FENG L T, LI Z Y, KUANG Z H, et al. Extractive video summarizer with memory augmented neural networks[C]//2018 ACM Multimedia Conference on Multimedia Conference-MM’18. New York: ACM Press, 2018: 22-26.
[8] NGUYEN C, NIU Y Z, LIU F. Video summagator: an interface for video summarization and navigation[C]// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York: ACM Press, 2012: 647-650.
[9] SUN Z D, SUN M F, CAO N, et al. VideoForest: interactive visual summarization of video streams based on Danmu data[C]//SIGGRAPH ASIA 2016 Symposium on Visualization on-SA’16. New York: ACM Press, 2016: 1-8.
[10] 王夢(mèng)來, 李想, 陳奇, 等. 基于CNN的監(jiān)控視頻事件檢測(cè)[J]. 自動(dòng)化學(xué)報(bào), 2016, 42(6): 892-903.
[11] 代科學(xué), 張軍, 李國(guó)輝, 等. 監(jiān)控視頻運(yùn)動(dòng)目標(biāo)的頻繁軌跡模式挖掘[J]. 國(guó)防科技大學(xué)學(xué)報(bào), 2006, 28(6): 108-113.
[12] 郭洋, 馬翠霞, 滕東興, 等. 運(yùn)動(dòng)目標(biāo)三維軌跡可視化與關(guān)聯(lián)分析方法[J]. 軟件學(xué)報(bào), 2016, 27(5): 1151-1162.
[13] 蔡瑞初, 謝偉浩, 郝志峰, 等. 基于多尺度時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)的人群異常檢測(cè)[J]. 軟件學(xué)報(bào), 2015, 26(11): 2884-2896.
[14] 胡芝蘭, 江帆, 王貴錦, 等. 基于運(yùn)動(dòng)方向的異常行為檢測(cè)[J]. 自動(dòng)化學(xué)報(bào), 2008, 34(11): 1348-1357.
[15] 王相海, 方玲玲, 叢志環(huán). 基于MSPF的實(shí)時(shí)監(jiān)控多目標(biāo)跟蹤算法研究[J]. 自動(dòng)化學(xué)報(bào), 2012, 38(1): 139-144.
[16] 朱映映, 周洞汝. 一種基于視頻聚類的關(guān)鍵幀提取方法[J]. 計(jì)算機(jī)工程, 2004, 30(4): 12-13, 121.
[17] 張嬋, 高新波, 姬紅兵. 視頻關(guān)鍵幀提取的可能性C-模式聚類算法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2005, 17(9): 2040-2045.
[18] COLLINS R T, LIPTON A, KANADE T, et al. A system for video surveillance and monitoring[J]. Vsam Final Report Carnegie Mellon University Technical Report, 2000, 59(5): 329-337.
[19] SIEBEL N, MAYBANK S. The advisor visual surveillance system[EB/OL]. [2020-03-30]. http://xueshu.baidu.com/usercenter/paper/show?paperid=d0513d1aa4ea34e0df104d0fc10f262c&site=xueshu_se.
[20] SHAH M, JAVED O, SHAFIQUE K. Automated visual surveillance in realistic scenarios[J]. IEEE Multimedia, 2007, 14(1): 30-39.
[21] HUANG K Q, TAN T N. Vs-star: a visual interpretation system for visual surveillance[J]. Pattern Recognition Letters, 2010, 31(14): 2265-2285.
[22] SHU C F, HAMPAPUR A, LU M, et al. IBM smart surveillance system (S3): a open and extensible framework for event based surveillance[EB/OL]. [2019-12-09]. https://ieeexplore.ieee.org/document/1577288.
[23] 宋紅, 石峰. 基于人臉檢測(cè)與跟蹤的智能監(jiān)控系統(tǒng)[J]. 北京理工大學(xué)學(xué)報(bào), 2004, 24(11): 966-970.
[24] MEGHDADI A H, IRANI P. Interactive exploration of surveillance video through action shot summarization and trajectory visualization[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2119-2128.
[25] CHENG M M, ZHANG G X, MITRA N J, et al. Global contrast based salient region detection[C]//Computer Vision and Pattern Recognition(CVPR). New York: IEEE Press, 2011: 409-416.
[26] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision-ECCV 2018. Heidelberg: Springer, 2018: 833-851.
Surveillance video analysis system based on SpiralTape summarization
JIANG Hong-tao1, CHENXiao-hua1, SHI Yue2,3, MA Cui-xia2,3
(1. South China Branch of Sinopec Sales Co., Ltd., Guangzhou Guangdong 510000, China;2. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100190, China;3. Beijing Key Laboratory of Human-Computer Interaction, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)
Surveillance video is an important part of security systems. In today’s all walks of life, surveillance video is inseparable when it comes to security. However, the video content is still analyzed largely manually, which costs much manpower and time. With the increasing amount of surveillance video data, it is important to figure out how to improve the analysis efficiency of surveillance video content and reduce user’s cognitive load in order to make higher use of the videos. Aiming at the problems of redundant information in surveillance video and inefficient manual acquisition of key video content, a visual analysis system for surveillance video content was developed by applying SpiralTape summarization and corresponding interactive technologies. Combined with the detection data of moving objects, the object statistical information of visual videos was obtained from multiple angles based on the display advantages of the SpiralTape summarization. Finally, fast and efficient access to surveillance video content was achieved with auxiliary methods such as navigation, positioning and sketch interaction for the SpiralTape summarization.
surveillance video; SpiralTape summarization; sketch interaction; object detection; moving object detection
TP 391
10.11996/JG.j.2095-302X.2020020187
A
2095-302X(2020)02-0187-09
2019-12-09;
2020-02-04
國(guó)家自然科學(xué)基金項(xiàng)目(61872346)
姜紅濤(1988–),男,河南周口人,工程師,博士。主要研究方向?yàn)檫b感圖像處理、管道管理等。E-mail:htjiang603@163.com
馬翠霞(1975–),女,山東高唐人,研究員,博士。主要研究方向?yàn)槿藱C(jī)交互、媒體大數(shù)據(jù)可視分析。E-mail:cuixia@iscas.ac.cn