康永欣 袁麗英
摘 要:針對從人群密集場景中識別運動模式的問題,提出了距離依賴中餐館連鎖店過程混合模型。該模型是一種引入依賴關系的層次化非參貝葉斯模型,能夠通過引進獨立于數據觀測值的距離依賴信息,準確建模自然分組的數據,從中挖掘共享的數據模式。給出了模型的建立過程,并通過吉布斯采樣的方法對模型進行求解,同時展示了相關的實驗結果。通過對紐約廣場火車站監控場景數據集中47 866條片段軌跡的建模分析,證明了模型可以自動確定場景中運動模式的個數,從不完整的軌跡中以98%的正確度學習并表達運動模式,并且能夠在不同的運動模式之間共享公共的子模式。
關鍵詞:運動模式識別;人群密集場景;非參貝葉斯模型;吉布斯采樣。
DOI:10.15938/j.jhust.2019.03.012
中圖分類號: TP391.4
文獻標志碼: A
文章編號: 1007-2683(2019)03-0074-08
Abstract:To address the motion patterns learning task in crowded scenes, we propose a novel Distance Dependent Chinese Restaurant Franchise (DDCRF) mixture model, which is a hierarchical nonparametric Bayesian model based on dependencies. DDCRF can learn the latent patterns accurately by introducing the distance information which is dependent of the observations of data points. We detail the generative process and Gibbs sampling process of DDCRF, and then the results of experiments are shown. An extensive evaluation is performed on the dataset including 47,866 tracklets collected from the crowded New York Grand Central station,? indicating that our algorithm has the following advantages: deducing the number of latent motion patterns automatically, learning motion patterns precisely from these tracklets, and sharing constituent parts and subpatterns among different motion patterns.
Keywords:Motion pattern learning; Crowded scenes; Nonparametric Bayesian model; Gibbs sampling
0 引 言
隨著智慧城市的理念深入人心,監控攝像頭遍及城市的每一個角落,對監控視頻內容中的行為分析受到越來越多的關注[1-2]。在眾多的場景中,公共區域人群密集場景的行為分析顯得尤為重要,不僅可以提供實時的異常行為監測信息,而且可以為公共場所的規劃和實時疏導提供有效的反饋和指導。對于像車站、機場、商場等監控視頻的行為分析中,軌跡學習取得了顯著效果[3-5],在這些場景中,通常很難得到目標物的完整軌跡,所以,軌跡片段經常被用作目標物的原始特征進行分析和處理。從監控視頻中提取的軌跡片段,軌跡片段雖然較短,并不能描述一個目標在場景中所有的活動,但它包含了豐富的時空信息,并具有一定的語義表達能力。本文的目標是從這些軌跡片段中學習得到運動模式。這里所說的運動模式是指該場景中行人所經過的某些共同區域,如運動模式可以表述為:從入口a進入場景,經過場景中的某區域,從出口b離開場景。其中區域的大小和位置都與具體的場景以及具體的時間有關,無法人為指定,需要算法自動發掘。這些運動模式對監控視頻的理解會有很大的幫助。
該任務有以下難點.
1)運動模式不固定。由于此類場景中行人較多,主觀性較大,且處于遠景監控狀態,運動模式多樣,依賴于人工觀察很難給出有效的運動模式先驗。
2)軌跡不完整。在行人密集場景下,運動物體之間的距離很近,相互遮擋情況頻繁發生,大部分跟蹤器容易丟失跟蹤目標,跟蹤時間不長,只能得到片段軌跡;
3)運動模式交互現象嚴重。由于場景復雜,眾多的運動模式存在交叉重疊部分,普通的以軌跡點速度位置為度量的聚類學習方法很難有效區分交互的運動模式。
針對以上困難,現有算法只能解決某個單一方面的問題。比如,很多算法在學習人群密集場景中運動模式的時候,都假設目標物的軌跡在整個場景中是完全已知且連續的[6-8],然后取得了一定效果。這個假設只在簡單場景中成立,在人群密集場景中,由于行人較多,又是遠景監控,所以遮擋現象明顯,跟蹤器很難跟蹤到目標的全軌跡。另外一些學者則看到了片段軌跡的應用價值,如參考文[9-11],Zhou B等在[12]中提到了隨機場主題模型(RFT)建模的方法,這種方法將馬爾科夫隨機場作為先驗約束LDA[13]模型,加強了軌跡片段之間的時空依賴關系。盡管Zhou B[12]等在人群密集場景的片段軌跡學習中取得了一定的進展,但是,RFT中的主題個數是要人工給定的,正如上文中所提到的,在多數的行人密集場景中,通過預先觀察是很難給出一個有效的運動模式個數的。
受到以上算法的啟發,本文提出了距離依賴中餐館連鎖店過程混合模型(DDCRF)來解決人群密集場景中運動模式學習的問題。首先,DDCRF是以狄里克雷過程作為先驗,可以自動發掘場景運動模式的個數,不需要人工設定;其次,引入片段軌跡間的時空依賴關系作為中餐館模型的距離依賴,能夠從不完整的片段軌跡中準確的學習運動模式;同時,對模型進行了層次化擴展,使得不同的運動模式能過共享一些子模式,合理地解決了其它算法中由于運動模式交互而導致的運動模式無法區分的現象。
1 理論模型
為了學者能夠更好的理解本文所提出的模型,在本章中先簡要介紹模型的設計來源,然后重點介紹模型的生成過程和求解方法。
1.1 距離依賴中餐館模型(DDCRP)
距離依賴中餐館模型是由Blei D M[14]提出,是中餐館模型(CRP)[15]的擴展,定義如下:
在距離依賴中餐館過程中,每個顧客i進入餐館之后根據某種距離關系D選擇一名顧客j作為鄰座,記作ci=j,并坐在他身旁。把每個顧客看作一個節點,如果兩個顧客比鄰而坐,即相當于他們對應的節點之間有一條有向邊把他們連接起來,多個連通的節點可以形成團簇,這種就坐方式形成了聚類效果。為了描述方便,引入餐桌的概念,把相互聯通的顧客看作是坐在一張餐桌旁的顧客。如圖1所示
將上述四種情況的似然值變化量Δp與對應的先驗概率相乘得到后驗分布,再從后驗分布中采樣得到ji點的新連接c(1)ji_new,若新的采樣值為上述的情況3)或4),只要在第二層餐館中對相應的顧客連接做采樣即可。
至此,完成了DDCRF混合模型的學習算法的推導。
2 實驗及結果
本章將DDCRF混合模型應用到行人密集場景下運動模式的學習中,該算法利用了軌跡片段之間的時空依賴關系,并且在不指定運動模式數目的情況下準確地發現場景中的運動模式,本章將描述實驗步驟并給出實驗結果分析。
2.1 任務描述
本實驗的基本目的是:從監控視頻中提取的軌跡片段如圖 3所示,設計算法中學習得到如圖 4所示的運動模式。這里所說的運動模式是指該場景中行人所經過的某些共同區域,如,其中的一種(圖 4第2幅)運動模式可以表述為:從入口7進入場景,經過圖中所示區域,從出口3離開場景。
行人密集場景軌跡數據集由[12]提供。該數據集包含一段場景為紐約火車站的視頻,長度30分鐘,分辨率760*480 。數據集中包括了使用簡單的軌跡跟蹤算法得到的47866條軌跡及部分出入口標注信息,其中有3%是有完整軌跡(即包含了整個場景下的完整軌跡和出入口信息),其余均為不完整軌跡,有23%是只有入口被標記到,有17%是只有出口信息被標注到,有57%出現在場景中的軌跡是無出入口標注的。
本文在以下實驗中將為整個場景構建視覺字典,然后將每條軌跡編碼成由視覺單詞組成的視覺文檔,用文檔之間的距離來表示各個軌跡之間的時空依賴關系,從文檔主題分析的角度理解軌跡的運動模式學習,場景中常見的運動模式通過本文的算法聚類得到的視覺主題來表示。
2.4 實驗結果
本節中從兩部分展示實驗的結果,一部分是本文的算法從行人密集場景的片段軌跡中學習得到的運動模式的可視化效果定性分析,另一部分是通過以人工標記數據作為參考對聚類結果的準確度和完整度進行定量評價。
2.4.1 實驗結果的定性分析
為了方便與相關文章結果的比較,采用與文[12]、[17]、[18]、[20]相同的可視化策略,在以上這些文章中字典是按照如下方式進行構建:整個場景被劃分為多個網格,每個網格的大小是10*10,每個網格上存在4個單詞,每個單詞對應上下左右四個方向中的一個,根據本文所處理的場景,字典大小為76*48*4,將前面通過子軌跡構造的長度為1000的字典通過投影矩陣投影到該字典上,將學習到的主題也同樣投影到這個字典上。通過這個處理,本文的方法得到的效果可以等價的可視化出來,方便與其他算法進行橫向對比。
圖5展示了本文算法得到的主題的可視化結果(左側)與RFT[12](右側)的對比,圖5(a)為DDCRF自動求解得到的場景中的48個運動模式,其中白色框出的模式是文[12]沒有發現的模式;圖5(b)為RFT[12]算法給出的結果,運動模式個數為人工指定的30個。這里需要強調的是,本文算法是自動確定主題的個數的(48個主題),而對比與文[12]中得到的結果,本文的方法能夠得到的模式中涵蓋了所有文[13]得到的模式,并且能夠自動發現一些RFT[13]中沒有發現的模式,如圖中黃框所示,甚至能夠發現一些人工監控也很難發現的但是場景中確實存在的運動模式。
2.4.2 實驗結果的定量評估
在定量評估部分,為了與同類算法進行比較,本文采用文[12]、[21]中提到的兩個衡量標準:正確度和完整度。正確度是指在所有由兩個不同類別的樣本組成的樣本對中,兩個樣本被算法聚入不同類別的情況占的比重;完整度是指所有由兩個相同類別的樣本組成的樣本對中,兩個樣本被算法聚入相同團簇的情況所占的比重。為了在一定程度上消除手工標記的主觀性,這里標記了三組數據,每組有2000對人工標注的軌跡對,并分別計算算法聚類結果的正確度和完整度,平均之后再與相關算法進行比較,如表1所示。相比于THDP[22],本文的算法能夠得到更高的正確度和完整度;相比于RFT[12],本文的算法不僅能自動確定主題個數還能得到相對較高的完整度。
綜上,實驗結果表明在引入相同形式的時空依賴關系時,本文的算法能自動發現主題數目,同時能夠得到相對較高的正確度和準確度。
3 結 論
為了解決人群密集場景中的運動模式學習問題,本文提出了一種新的基于距離依賴的層次化非參貝葉斯模型,距離依賴中餐館連鎖店過程混合模型。本文給出的求解方法能夠自動地從有依賴關系的成組數據中學習其中共享的隱含模式。實驗結果證明,本文的算法能夠有效解決遠景監控下人群密集場景的運動模式學習問題。本文的模型具有很強的擴展性,可以應用在文本分析、手寫識別及視頻分割等其他類似的序列數據的模式識別中。
參 考 文 獻:
[1] 朱麗英,梁辰,張鴻洲. 基于運動目標的監控視頻檢索方法[J]. 計算機應用與軟件,2011(12):96.
[2] 呂英麗,顧勇,張曉峰. 基于HMM監控視頻的異常事件檢測[J].數據采集與處理,2014(6):1030.
[3] KWON Y, KANG K, JIN J,et al. Hierarchically Linked Infinite Hiddenmarkov Model Based Trajectory Analysis and Semantic Region Retrieval in a Trajectory Dataset. Expert Systems with Applications, 2017(78):386.
[4] SHAO Z, LI Y. Integral Invariants for Space Motion Trajectory Matching and Recognition. Pattern Recognition, 2015,48(8):2418.
[5] MORRIS B T, TRIVEDI M M. A Survey of Visionbased Trajectory Learning and Analysis for Surveillance. IEEE transactions on circuits and systems for video technology, 2008,18(8):1114.
[6] WANG X, MA X, GRIMSON W E L. Unsupervised Activity Perception in Crowded and Complicated Scenes Using Hierarchical Bayesian Models. IEEE Transactions on pattern analysis and machine intelligence, 2009,31(3):539.
[7] HU W, XIAO X, FU Z, et al. A System for Learning Statistical Motion Patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006,28(9):1450.
[8] ERGEZER H, LEBLEBICIOGLU K. Anomaly Detection and Activity Perception Using Covariance Descriptor for Trajectories. In European Conference on Computer Vision, pages 2016:728.
[9] CHONGJING W, XU Z, YI Z, et al. Analyzing Motion Patterns in Crowded Scenes Via Automatic Tracklets Clustering[J]. china communications, 2013, 10(4): 144.
[10]SHAO J, CHANGE Loy C, WANG X. Sceneindependent Group Profiling in Crowd[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 2219.
[11]ZHAO W, ZHANG Z, HUANG K. Joint Crowd Detection and Semantic Scene Modeling Using a Gestalt Lawsbased Similarity[C]//Image Processing (ICIP), 2016 IEEE International Conference on. IEEE, 2016: 1220.
[12]ZHOU B, WANG X, TANG X.Random Field Topic Model for Semantic Region Analysis in Crowded Scenes from Tracklets[C]//Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. IEEE, 2011: 3441.
[13]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet Allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993.
[14]BLEI D M, FRAZIER P I. Distance Dependent Chinese Restaurant Processes[J]. Journal of Machine Learning Research, 2011, 12(Aug): 2461.
[15]FERGUSON T S. A Bayesian Analysis of Some Nonparametric Problems[J]. The annals of statistics, 1973: 209.
[16]TEH Y W, JORDAN M I, BEAL M J, et al. Sharing Clusters Among Related Groups: Hierarchical Dirichlet Processes[C]//Advances in neural information processing systems. 2005: 1385.
[17]EMONET R, VARADARAJAN J, ODOBEZ J M. Extracting and Locating Temporal Motifs in Video Scenes Using a Hierarchical Non Parametric Bayesian Model[C]//Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. IEEE, 2011: 3233.
[18]KUETTEL D, BREITENSTEIN M D, VAN Gool L, et al. What′s Going on Discovering Spatiotemporal Dependencies in Dynamic Scenes[C]//Computer Vision and Pattern
[19]Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010: 1951.
[20]WANG X, MA X,GRIMSON W E L. Unsupervised Activity Perception in Crowded and Complicated Scenes Using Hierarchical Bayesian Models[J]. IEEE Transactions on pattern analysis and machine intelligence, 2009, 31(3): 539.
[21]MOBERTS B, VILANOVA A, VAN Wijk J J. Evaluation of Fiber Clustering Methods for Diffusion Tensor Imaging[C]//Visualization, 2005. VIS 05. IEEE. IEEE, 2005: 65.
[22]WANG X, MA K T, NG G W, et al. Trajectory Analysis and Semantic Region Modeling Using a Nonparametricbayesian Model[C]//Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008: 1.
[23]ATEV S, MASOUD O, PAPANIKOLOPOULOS N. Learning Traffic Patterns at Intersections by Spectral Clustering of Motion Trajectories. In Intelligent Robots and Systems[C]// 2006 IEEE/RSJ International Conference on, IEEE, 2006:4851.
(編輯:關 毅)