999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的監(jiān)控視頻目標(biāo)檢索

2016-01-27 03:44:53王金橋滕可振
無線電工程 2015年12期
關(guān)鍵詞:深度學(xué)習(xí)

付 偉 ,王金橋,滕可振

(1.中國電子科技集團公司第五十四研究所,河北 石家莊 050081;

2.中國科學(xué)院自動化研究所 模式識別國家重點實驗室,北京 100190)

?

基于深度學(xué)習(xí)的監(jiān)控視頻目標(biāo)檢索

付偉1,王金橋2,滕可振2

(1.中國電子科技集團公司第五十四研究所,河北 石家莊 050081;

2.中國科學(xué)院自動化研究所 模式識別國家重點實驗室,北京 100190)

摘要基于內(nèi)容的目標(biāo)檢索一直是視頻監(jiān)控領(lǐng)域最重要的研究內(nèi)容之一。面向視頻監(jiān)控應(yīng)用場景,提出了基于深度自動編碼機的目標(biāo)檢索方法。通過在訓(xùn)練過程加入掩膜圖像輔助信息和人工噪聲,提高了深度神經(jīng)網(wǎng)絡(luò)特征表示的魯棒性。實驗結(jié)果證明了該方法在監(jiān)控視頻目標(biāo)檢索任務(wù)中的有效性和優(yōu)越性。

關(guān)鍵詞目標(biāo)檢索;深度學(xué)習(xí);視頻監(jiān)控

DeepLearningforObjectRetrievalinSurveillanceVideos

FUWei1,WANGJin-qiao2,TENGKe-zhen2

(1.The 54th Research Institute of CETC,Shijiazhuang Hebei 050081,China;

2.National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)

AbstractThecontent-basedobjectretrievalisoneofthemostimportantresearchtopicsinvideosurveillance.Thispaperpresentsanovelobjectretrievalapproachbasedondeepautoencoder.Thisapproachtakesadvantageofthemaskinformationtoassistobjectrepresentation,andintroducesmanualnoiseintothelearningapproach,whichenhancestherobustnessoffeaturerepresentationinthedeepneuralnetwork.Theexperimentalresultsprovetheeffectivenessandsuperiorityofthisapproach.

Keywordsobjectretrieval;deeplearning;videosurveillance

0引言

現(xiàn)代社會,平安城市的建設(shè)如火如荼,并逐步向智慧城市邁進[1]。作為城市智能感知的重要一環(huán),視頻監(jiān)控系統(tǒng)已經(jīng)被廣泛地應(yīng)用于機場、廣場、商店、銀行和公路等公共場合。無處不在的監(jiān)控終端每天都在產(chǎn)生海量的圖像數(shù)據(jù),來不及看、錯看漏看已經(jīng)成為制約智能監(jiān)控發(fā)展的瓶頸。基于內(nèi)容的目標(biāo)檢索技術(shù)[2-4]可以一定程度上解決這一問題,一直是計算機視覺領(lǐng)域的研究熱點。

然而,如何設(shè)計一種面向監(jiān)控視頻的高效的檢索系統(tǒng)仍然面臨著巨大的挑戰(zhàn)。監(jiān)控視頻目標(biāo)檢索系統(tǒng)涉及背景建模、運動目標(biāo)分割與提取和目標(biāo)表示等子問題,每個子問題的性能都會制約檢索系統(tǒng)的整體性能:監(jiān)控場景下環(huán)境復(fù)雜多變,對目標(biāo)的特征表達和描述必然引入背景噪聲等因素的干擾;監(jiān)控視頻本身的低分辨率、目標(biāo)在運動中的相互遮擋等問題對目標(biāo)檢索提出挑戰(zhàn)。

針對目標(biāo)表示和遮擋問題,提出了一種掩膜輔助的多模態(tài)目標(biāo)編碼方法。掩膜圖像的引入有助于目標(biāo)在圖像中的準(zhǔn)確定位,以減小背景的噪聲影響。另外,在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中采取原始圖像樣本重構(gòu)的策略,來應(yīng)對遮擋情況對目標(biāo)檢索的影響。

1基于深度學(xué)習(xí)的目標(biāo)檢索方法

在面向視頻監(jiān)控的應(yīng)用場景中,行人與車輛是最為關(guān)注的運動目標(biāo)。Calderara等人[5]針對多攝像頭無重疊的監(jiān)控場景采用多高斯模型對行人的顏色分布概率進行估計,設(shè)計了一個針對行人的目標(biāo)檢索系統(tǒng)。Perrott等人[6]在MPEG-7和標(biāo)準(zhǔn)描述定義語言的基礎(chǔ)上實現(xiàn)了面向CCTV錄像的基于內(nèi)容的實時檢索系統(tǒng)。Annesley等人[7]也進一步驗證了MPEG-7的顏色描述子在監(jiān)控視頻檢索中的效果。Feris等人[8]提出了一種基于屬性的車輛檢索方法。

在他們的方法中,屬性被定義為車輛顏色、速度及類型等語義特征。類似的,Thornton等人[9]對行人提取其性別、發(fā)型、衣服顏色、提包位置和顏色等屬性,提出了一種基于生成式模型的檢索方法。一方面,屬性一般由人工指定,其定義的好壞直接影響檢索的效果;其次,屬性可看作是一種中層特征描述,僅僅依靠幾個人工定義的屬性對目標(biāo)表示的描述能力是有限的。

近年來,深度學(xué)習(xí)受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注和研究。深度學(xué)習(xí)模擬人類大腦的結(jié)構(gòu),對數(shù)據(jù)有很強的學(xué)習(xí)能力,已在語音識別、圖像分類和自然語言處理等方面取得了巨大的成功[10]。在計算機視覺領(lǐng)域,越來越多的工作表明,深度學(xué)習(xí)的方法通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)可以從海量圖像數(shù)據(jù)中學(xué)習(xí)得到更好的特征表達[11]。受此啟發(fā),本文提出了一種基于深度學(xué)習(xí)的監(jiān)控視頻目標(biāo)檢索方法,將背景建模后得到的前景目標(biāo)圖像和掩膜圖像經(jīng)深度神經(jīng)網(wǎng)絡(luò)非線性映射到低維二值編碼空間,并使相似的圖像具有相似的編碼。

該系統(tǒng)框架由離線訓(xùn)練和在線檢索2部分構(gòu)成。在離線訓(xùn)練階段,一個用于存儲所有目標(biāo)編碼的數(shù)據(jù)庫被建立。首先,利用背景建模算法從監(jiān)控視頻中提取運動目標(biāo),如行人和車輛。對每個目標(biāo)提取了2張圖像,即原始目標(biāo)圖像和二值掩膜圖像。然后一個多模態(tài)的深度神經(jīng)網(wǎng)絡(luò)被訓(xùn)練來將目標(biāo)和掩膜編碼為二值向量。在線檢索階段,用戶從監(jiān)控視頻圖像中交互式地手動框選待檢索的目標(biāo),繼而用之前訓(xùn)練得到的自動編碼機把該目標(biāo)及其掩膜圖像編碼為二值向量,最后采用漢明距離度量與數(shù)據(jù)庫中圖像的二值向量間的距離,得到檢索結(jié)果。

2基于深度自動編碼機的目標(biāo)表示方法

2.1深度自動編碼機

自從2006年Hinton等人[12]提出受限玻爾茲曼機(RBM)的有效訓(xùn)練算法后,深度學(xué)習(xí)因其優(yōu)越的特征學(xué)習(xí)性能,迅速成為機器學(xué)習(xí)領(lǐng)域的一個新方向。深度學(xué)習(xí)模擬人類大腦感知機制,通過將多個受限玻爾茲曼機逐層疊加,構(gòu)建深度神經(jīng)網(wǎng)絡(luò),對輸入數(shù)據(jù)逐級提取從底層到高層的特征,從而建立從底層信號到高層語義的非線性映射。在視頻監(jiān)控的應(yīng)用背景下,為快速準(zhǔn)確地檢索運動目標(biāo),采用深度自動編碼機將運動目標(biāo)映射到低維的二值編碼空間來尋找其特征表示。

作為深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu),受限玻爾茲曼機將輸入向量非線性地由可視特征空間轉(zhuǎn)換到隱含特征空間。受限玻爾茲曼機結(jié)構(gòu)如圖1所示。

圖1 受限玻爾茲曼機結(jié)構(gòu)

由可視節(jié)點v和隱含節(jié)點h兩部分構(gòu)成,在任意2個不同類型的節(jié)點之間有連接(連接矩陣為W),其他節(jié)點之間沒有連接。每一個節(jié)點上的數(shù)據(jù)都被認為符合某種分布,例如高斯分布和二值分布。可視節(jié)點被輸入數(shù)據(jù)或者上一層受限玻爾茲曼機的輸出數(shù)據(jù)初始化。它們之間的關(guān)系為:

深度自動編碼機作為深度神經(jīng)網(wǎng)絡(luò)的一種,同樣由多個受限玻爾茲曼機級聯(lián)構(gòu)成,其結(jié)構(gòu)如圖1所示。輸入信號經(jīng)自動編碼機處理后,編碼對原始信號的重建誤差最小。

深度自動編碼機的訓(xùn)練過程分為2個階段:非監(jiān)督的預(yù)訓(xùn)練和受監(jiān)督的參數(shù)調(diào)整。在非監(jiān)督的預(yù)訓(xùn)練階段,深度自動編碼機的編碼部分被生成式的逐層訓(xùn)練,當(dāng)前層的輸出作為下一層的輸入,各層分別優(yōu)化從而得到解碼部分的參數(shù)。進而根據(jù)編碼和解碼部分的對稱性得到整個深度網(wǎng)絡(luò)的初始化參數(shù)。最后,為了充分利用數(shù)據(jù)中的類別信息,還需要使用監(jiān)督的方法,采用誤差反向傳播算法對參數(shù)進行調(diào)整。具體的訓(xùn)練過程可參看文獻[13]。深度自動編碼機示意圖如圖2所示。

圖2 深度自動編碼機示意

2.2目標(biāo)表示的多模態(tài)方法

視頻監(jiān)控場景下,一方面由于光照變化和色差等因素的影響,背景建模算法存在一定的局限性;另一方面,不同運動目標(biāo)也會發(fā)生相互遮擋的情況。因此監(jiān)控視頻中目標(biāo)的分割與提取過程不可避免地引入了噪聲。

(1)

然而,去噪的自動編碼機對監(jiān)控視頻目標(biāo)檢索問題來說并不合適。主要原因有:① 去噪的自動編碼機被用來提高針對全局噪聲的魯棒性,而非背景區(qū)域的噪聲;② 如果在訓(xùn)練去噪的自動編碼機時,僅針對背景添加噪聲,會破壞前景和背景在相同客觀條件下表現(xiàn)的一致性,從而影響自動編碼機的效果。

假設(shè)輸入圖像中的前景部分和背景部分分別由f和b來表示,前景和背景的外觀分別由隱含變量α和β表示,環(huán)境因素如光照變化、色差和隨機噪聲等由隱含變量θ表示。于是,有如下關(guān)系成立:

(2)

深度自動編碼機在編碼時更注重前景部分的外觀α,同時考慮背景部分的光照、噪聲等環(huán)境因素θ。基于此一種多模態(tài)的學(xué)習(xí)策略被采納。具體的說,在輸入部分,將訓(xùn)練數(shù)據(jù)拷貝使其加倍,其中的一半包括目標(biāo)物體圖像和原始的掩膜圖像,另一半包括目標(biāo)物體圖像和全黑的掩膜圖像;在輸出部分,使用目標(biāo)前景圖像和原始的掩膜圖像進行監(jiān)督。這種訓(xùn)練方法迫使神經(jīng)網(wǎng)絡(luò)能夠在掩膜圖像不完整或不存在的情況下,依然能夠有效地辨別出輸入圖像中的前景目標(biāo)并對其進行編碼。掩膜圖像作為目標(biāo)觀測的上下文信息,記為m,則該目標(biāo)前景的編碼表示α可由以下求解過程得到:

(3)

在深度神經(jīng)網(wǎng)絡(luò)框架下,對上式的優(yōu)化等價于求解如下最小化問題:

(4)

為了展示多模態(tài)的學(xué)習(xí)框架,不同的模態(tài)設(shè)置如圖3所示。圖3(a)為直接從原始圖像上學(xué)習(xí)目標(biāo)編碼;圖3 (b)為通過將背景區(qū)域置零,僅從目標(biāo)區(qū)域?qū)W習(xí)目標(biāo)編碼;圖3(c)為使用原始的去噪自動編碼機學(xué)習(xí)目標(biāo)編碼;圖3 (d)為將目標(biāo)圖像和掩膜圖像結(jié)合起來,學(xué)習(xí)目標(biāo)編碼;圖3(e)為通過拷貝訓(xùn)練集將其數(shù)量翻倍,其中一半訓(xùn)練數(shù)據(jù)T保持不變,另外一半T′的掩碼圖像全部置零。在預(yù)訓(xùn)練階段,T和T′同時使用,在誤差反傳階段,用T同時對T和T′進行監(jiān)督。經(jīng)過訓(xùn)練,即便用戶沒有輸入掩膜圖像,多模態(tài)的自動編碼機仍然能夠通過目標(biāo)圖像將其重構(gòu)出來。這種訓(xùn)練方法使得深度自動編碼機不僅能夠編碼目標(biāo)本身,而且能夠?qū)⑵鋸谋尘霸肼曋蟹蛛x出來。

圖3 掩膜輔助的多模態(tài)目標(biāo)表示

2.3遮擋情況的處理

多模態(tài)目標(biāo)表示方法可以考慮遮擋情況的處理,如圖3(f)所示。目標(biāo)圖像被規(guī)整的劃分為圖像塊,對于每一張圖像,隨機選擇一個圖像塊轉(zhuǎn)換為黑色。然后,這些已添加噪聲的圖像和未添加噪聲的圖像組成了整個訓(xùn)練集。所有的圖像都以未添加噪聲的圖像作為監(jiān)督信息。通過這種訓(xùn)練方法,即便目標(biāo)圖像中的物體受到遮擋,也能夠通過深度自動編碼機網(wǎng)絡(luò)重構(gòu)出未遮擋的圖像。

3實驗分析與評價

為驗證所提方法的性能,實驗在中國科學(xué)院自動化研究所發(fā)布的視頻數(shù)據(jù)集上進行。該數(shù)據(jù)集的視頻均采集自學(xué)校、小區(qū)等實際監(jiān)控場景的攝像頭終端,經(jīng)背景建模后共提取12 676個車輛和57 134個行人目標(biāo)。

實驗中所有目標(biāo)前景圖像與掩膜圖像均被調(diào)整到32×32像素大小。為了在訓(xùn)練中得到更多的訓(xùn)練數(shù)據(jù),所有的圖像都被左右翻轉(zhuǎn)以便將訓(xùn)練數(shù)據(jù)集加倍。深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示,第1層受限玻爾茲曼機擁有4 096個可視節(jié)點和8 192個隱含節(jié)點。所有剩余的受限玻爾茲曼機各有4N個可視節(jié)點和N 個隱含節(jié)點,直到達到最終的維度。共有243個目標(biāo)被挑選用來評價不同方法的表現(xiàn),評價標(biāo)準(zhǔn)為平均準(zhǔn)確度(mAP)。各種方法的平均準(zhǔn)確率如表1所示。

表1 不同方法的平均準(zhǔn)確率(%)

與傳統(tǒng)的基于哈希方法如局部敏感哈希(LSH)[15]、譜哈希(SH)[16]相比,基于自動編碼機的方法引入了較多的語義信息,因此可以更好地刻畫和檢索目標(biāo)。

實驗還比較了圖3中不同模態(tài)策略下檢索的結(jié)果。從實驗結(jié)果可以看到,當(dāng)掩膜圖像信息被引入時,即便是單模態(tài)訓(xùn)練,與未添加掩膜圖像相比,檢索的準(zhǔn)確度提升了12.09%。對于多模態(tài)的實驗設(shè)置,噪聲條件下的平均準(zhǔn)確度提升了4.55%,在16×16遮擋塊的條件下,相對于“一半掩膜圖像置零”平均準(zhǔn)確度提升了6.28%。這也表明了該方法對遮擋問題處理的有效性。

4結(jié)束語

基于深度學(xué)習(xí)的目標(biāo)檢索算法將原始圖像和對應(yīng)的掩膜圖像聯(lián)合映射為二值編碼,刻畫了目標(biāo)的局部關(guān)系。該方法已在實際工程應(yīng)用中表現(xiàn)出其在處理監(jiān)控視頻中目標(biāo)遮擋和低分辨率問題方面的優(yōu)越性,為深度學(xué)習(xí)理論在視頻監(jiān)控領(lǐng)域的進一步應(yīng)用提供了一定的借鑒意義。

參考文獻

[1]喬宏章,付長軍.“智慧城市”發(fā)展現(xiàn)狀與思考[J].無線電通信技術(shù),2014,40(6):1-5.

[2]ARANDJELOVIC R,ZISSERMAN A.Three Things Everyone Should Know to Improve Object Retrieval[C]∥Computer Vision and Pattern Recognition,IEEE Conference on,2012:2 911-2 918.

[3]DATTA R,LI J,WANG J Z.Content-based Image Retrieval: Approaches and Trends of the New Age[C]∥ACM SIGMM International Workshop on Multimedia Information Retrieval,2005:253-262.

[4]SIVIC J,ZISSERMAN A.Video Google: A Text Retrieval Approach to Object Matching in Videos[C]∥Computer Vision,IEEE International Conference on,2003:1 470-1 477.

[5]CALDERARA S,CUCCHIARA R,PRATI A.Multimedia Surveillance: Content-based Retrieval with Multi Camera People Tracking[C]∥ACM international Workshop on Video Surveillance and Sensor Networks,2006:95-100.

[6]PERROTT A,LINDSAY A T,PARKES A P.Real-time Multimedia Tagging and Content-based Retrieval for CCTV Surveillance Systems[C]∥The Convergence of Information Technologies and Communications,International Society for Optics and Photonics,2002:40-49.

[7]ANNESLEY J,ORWELL J,RENNO J P.Evaluation of MPEG7 Color Descriptors for Visual Surveillance Retrieval[C]∥Visual Surveillance and PerformanceEvaluation of Tracking and Surveillance,2005:105-112.

[8]FERIS R,SIDDIQUIE B,ZHAI Y,et al.Attribute-based Vehicle Search in Crowded Surveillance Videos[C]∥ACM International Conference on Multimedia Retrieval,2011:18.

[9]THORNTON J,BARAN-GALE J,BUTLER D,et al.Person Attribute Search for Large-area Video Surveillance[C] ∥Technologies for Homeland Security,IEEE International Conference on,2011:55-61.

[10]余凱,賈磊,陳雨強,等.深度學(xué)習(xí)的昨天、今天和明天[J].計算機研究與發(fā)展,2013,50(9):1 799-1 804.

[11]鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進展[J].中國圖象圖形學(xué)報,2014,19(2):175-184.

[12]HINTON G E,SALAKHUTDINOV R R,Reducing the Dimensionality of Data with Neural Networks [J].Science,2006,313(5786):504-507.

[13]KRIZHEVSKY A,HINTON G E.Using very Deep Autoencoders for Contentbased Image Retrieval [C] ∥ ESANN,2011.

[14]VINCENT P,LAROCHELLE H,BENGIO Y,et al.Extracting and Composing Robust Features with Denoising Autoencoders[C] ∥International Conference on Machine Learning,2008:1 096-1 103.

[15]CHARIKAR M.Similarity Estimation Techniques from Rounding Algorithm [C] ∥ ACM symposium on Theory of Computing,2002:380-388.

[16]WEISS Y,TORRLABA A,FERGUS R,Spectral Hashing[C]∥Advances in Neural Information Processing System,2009:1 753-1 760.

付偉男,(1986—),博士,工程師。主要研究方向:模式識別、圖像處理。

王金橋男,(1978—),博士,副研究員。主要研究方向:模式識別、視頻與圖像處理、多媒體計算。

作者簡介

基金項目:國家自然科學(xué)基金面上項目(61273034)資助。

收稿日期:2015-09-09

中圖分類號TP391

文獻標(biāo)識碼A

文章編號1003-3106(2015)12-0016-05

doi:10.3969/j.issn.1003-3106.2015.12.05

引用格式:付偉,王金橋,滕可振.基于深度學(xué)習(xí)的監(jiān)控視頻目標(biāo)檢索[J].無線電工程,2015,45(12):16-20.

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠程開放實驗平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 欧美午夜在线播放| 亚洲国产日韩视频观看| 亚洲精品无码久久久久苍井空| 伊人色在线视频| 伊人久久婷婷五月综合97色| 欧美成人综合在线| 欧美www在线观看| 国产日产欧美精品| 国产激情无码一区二区APP| 欧美天堂久久| 国产美女人喷水在线观看| 日本在线国产| 99精品国产高清一区二区| 欧美α片免费观看| 欧美亚洲国产一区| 无码又爽又刺激的高潮视频| 免费观看无遮挡www的小视频| 日韩小视频在线观看| 亚洲精品手机在线| 亚洲AⅤ波多系列中文字幕| 亚洲成人在线免费| 国产精品第一区在线观看| 亚洲国产午夜精华无码福利| 国产在线麻豆波多野结衣| 亚洲综合18p| 欧美高清三区| 白丝美女办公室高潮喷水视频| 亚洲香蕉久久| 手机精品视频在线观看免费| 国产人前露出系列视频| 亚洲人成网站在线播放2019| 制服丝袜无码每日更新| 欧美午夜理伦三级在线观看| 99久久精品国产自免费| 国产一区二区三区在线无码| 欧美一道本| 国产地址二永久伊甸园| 日本不卡视频在线| 色婷婷久久| 一级毛片免费高清视频| JIZZ亚洲国产| 青青草国产在线视频| 亚洲精品在线影院| 亚洲另类第一页| 亚洲欧洲日本在线| 亚洲无线国产观看| 97影院午夜在线观看视频| 伊人精品视频免费在线| 精品一区二区三区无码视频无码| 日韩毛片免费视频| 国产午夜一级淫片| 亚洲Aⅴ无码专区在线观看q| 日韩精品一区二区三区大桥未久| 伊人久久福利中文字幕| 综合色亚洲| 国产一区二区三区免费观看 | 久久精品丝袜高跟鞋| 中文字幕中文字字幕码一二区| 色一情一乱一伦一区二区三区小说| 中美日韩在线网免费毛片视频| 国产午夜看片| 日韩人妻少妇一区二区| 欧美成人一级| 国产AV无码专区亚洲精品网站| 播五月综合| 国产精品视频导航| 亚洲综合色婷婷中文字幕| 三级欧美在线| 99er这里只有精品| 国产视频欧美| 欧美日本激情| 欧美成人区| 狠狠色丁婷婷综合久久| 538国产视频| 69国产精品视频免费| 国内精品91| 69免费在线视频| 中文字幕一区二区人妻电影| AV无码无在线观看免费| 天堂成人av| 青青草91视频| 欧美福利在线|