999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多級深度網絡架構的群體行為分析模型研究

2022-01-01 00:00:00裴利沈趙雪專張國華
計算機應用研究 2022年3期

摘 要:群體行為的多層次深度分析是行為識別領域亟待解決的重要問題。在深度神經網絡研究的基礎上,提出了群體行為識別的層級性分析模型。基于調控網絡的遷移學習,實現了行為群體中多人體的時序一致性檢測;通過融合時空特征學習,完成了群體行為中時長無約束的個體行為識別;通過場景中個體行為類別、交互場景上下文信息的融合,實現了對群體行為穩定有效的識別。在公用數據集上進行的大量實驗表明,與現有方法相比,該模型在群體行為分析識別方面具有良好的效果。

關鍵詞:群體行為識別;深度神經網絡;遷移學習;長短時記憶神經網絡;時序一致性檢測

中圖分類號:TP391 文獻標志碼:A

文章編號:1001-3695(2022)03-050-0931-07

doi:10.19734/j.issn.1001-3695.2021.06.0284

基金項目:國家自然科學基金資助項目(61806073);河南省重點研發與推廣專項(科技攻關)項目基金資助項目(192102210097,192102210126,212102210160,182102210210)

作者簡介:裴利沈(1988-),女,講師,碩導,博士,主要研究方向為計算機視覺、模式識別、行為識別;趙雪專(1986-),男(通信作者),講師,碩導,博士,主要研究方向為行為識別、目標檢測(xuezhuansci@126.com);張國華(1981-),男,副研究員,碩導,博士,主要研究方向為行為識別、人工智能及其應用.

Research on collective activity analysis model based on multilevel deep neural network architecture

Pei Lishen1,Zhao Xuezhuan2?,Zhang Guohua3

(1.School of Computer amp; Information Engineering,Henan University of Economics amp; Law,Zhengzhou 450046,China;2.School of Intelligent Engineering,Zhengzhou University of Aeronautic,Zhengzhou 450046,China;3.Institute of Magnetic Levitation amp; Electromagnetic Propulsion,China Aerospace Institute of Science amp; Technology,Beijing 100074,China)

Abstract:Multi-level in-depth analysis of collective activity is an important issue to be solved in the field of activity recognition.Based on the research of deep neural network,this paper proposed a progressive hierarchical analysis model for activity recognition.Using the modulating network based on transfer learning,it detected multi-person with temporal consistency detection in the crowd.Through integrating spatio-temporal feature learning,it recognized the individual actions in the crowd with unconstrained action duration.Through integrating the individual action category,interaction context and scene context,it re-cognized the crowd activity steady and effectively.A large amount experiments on the benchmark data sets demonstrate that,compared with the current approaches,the proposed model achieves better performance on collective activity analysis and recognition.

Key words:crowd activity recognition;deep neural network;transfer learning;long-short term memory neural network;temporal consistency detection

0 引言

隨著各領域對群體行為分析應用需求的日益增長,群體行為識別成為了計算機視覺領域的一個熱點研究問題。目前,群體行為分析方法大多通過對特征的提取識別或學習分析,且只給出了群體行為的類別,忽略了群體中行為個體的活動細節。隨著人工智能領域各種應用的發展,群體行為及群體中個體行為的分析識別研究變得更為迫切。

科研工作者對人體行為進行了各種抽象層次的定義[1,2]。本文比較認同Moeslund等人[3]將人的運動劃分為人體基本動作(primitives)、個體行為(actions)與群體行為(activities)三個層次。人體的基本動作是構成行為與活動的原子動作,主要包括諸如轉頭、舉手、抬腳此類簡單的肢體運動。個體行為則是由一系列基本動作按照一定的時序規則組合而成,例如走、跑等行為。群體行為通常是建立在個體行為之上的一些事件,依賴于活動場地、交互的物體及人類個體。本文模型采用自下而上的認知方式,依次通過對人類活動個體的檢測、對個體行為類別的識別分析等對群體行為進行漸進層級性的分析理解。

在群體行為識別方面,眾多科研工作者進行了大量的研究,取得了一系列成果。基于傳統機器學習的方法已有大量群體行為識別方面的成果,但這些方法的識別效果與基于深度學習的方法有些差距。近年來,基于深度學習的群體行為識別方法獲得了越來越多的關注。大部分研究聚焦于對群體行為類別的識別與檢測方面,對群體行為多層級的分析識別工作相對比較少。

目前,層級性對群體行為進行識別的方法,一般都是利用目標檢測數據庫中訓練好的人體檢測器對視頻幀中的活動人體進行檢測,然后對其進行跟蹤,繼而進行后續處理。沒有對多人場景下的多目標人體的檢測與跟蹤進行聯合優化。在特征表征方面,亦是基于檢測到的活動人體進行特征提取,而忽略了場景上下文信息與交互上下文信息。這些問題激發了對層級性群體行為識別模型的思考與研究。

建立在現有工作的基礎上,依靠深度網絡架構強大的學習能力,通過將目標檢測器遷移到群體行為的視頻分析場景中,實現多行為人體的時序一致性檢測;然后,融合時空特征學習實現時長無約束的個體行為識別;最后,結合識別的個體行為類別、捕捉到的場景上下文信息與行為交互上下文信息對群體行為進行有效的識別。本文模型層級性地分析了群體行為,從語義層面上一層一層漸進地進行分析,各層之間語義上相互獨立,在特征提取及分析處理上又緊密聯系,各層最終共同服務于群體行為的識別。本文的主要貢獻有三個方面:a)該模型基于遷移學習通過可調控網絡實現了多人體目標的檢測,利用少量目標域領域的標注信息即可顯著提高群體行為場景中人體的檢測效果,并且降低了在群體行為場景中對標注樣本數量的需求;

b)關于群體中個體行為的識別,考慮到行為主體的自主性及與其他個體的互動性,和其行為變化的突發性及隨意性,本文算法實現了時長無約束的個體行為識別算法;

c)結合個體行為類型與場景上下文、交互上下文的群體行為識別方法,綜合考慮了群體行為發生發展所必需的重要因素,在群體行為識別的語義層面及識別算法上進行了創新。

1 相關工作

1.1 多人體目標檢測

在多目標檢測領域存在大量的成果。目前大部分研究方法都依賴于滑動窗口(sliding window)方法[4,5]、目標提議機制(object proposal mechanism)[6]和卷積神經網絡[7]對目標進行檢測識別。目前大量的目標檢測方法都沒有對目標對象的存在進行聯合推理,而是依靠啟發式的后處理步驟來獲得最終的多目標檢測結果。一個明顯的例外是ReInspect[8]算法,該方法通過Hungarian loss以端對端的方式訓練檢測模型,專門用于處理多目標場景下的目標檢測問題。此外,還有一些基于生成模型(generative model)的方法專門致力于多人聯合檢測問題[9]的研究,然而其需要多視角視圖或深度圖信息,不適用于單目相機采集信息的處理。

由于遷移學習在時效及性能方面的優勢,自1995年以來,遷移學習日益得到學術界的重視,并取得了許多優秀的研究成果[10,11]。根據源域與目標域數據分布、標簽分布、特征空間或任務是否一致,遷移學習可以分為很多種類,研究內容非常龐雜[11]。本文研究設計的將目標檢測問題遷移至行為識別場景中目標人體的檢測隸屬于直推式遷移學習。

在源域與目標域的特征空間基本一致的情況下,實現直推式遷移學習的方法主要分為基于實例、基于特征、基于參數和基于關系的遷移學習[10,11]四大類。直接推廣這些遷移學習方法并不能很好地解決本文提出的問題。首先,本文所涉及的行為識別場景中的人體標注信息比較少,缺乏充足的標注樣本,而且還可能存在非常嚴重的正負樣本不均衡問題;其次,該遷移學習的源域屬于目標檢測領域,而目標域屬于行為識別領域,在某些場景下可能會存在樣本的負遷移問題。為解決負遷移問題,利用調控網絡自適應地通過權重學習來選擇有效網絡的方式,抑制負遷移的網絡特征,以提高在群體行為識別場景中人體目標的檢測效果。

1.2 個體行為識別

關于個體行為的識別,曾涌現了大量基于傳統的手工設計特征(handcrafted features)的方法,如HOG[12]、HOF[13]和MBH[14]。綜合比較這些行為識別方法可以發現,它們首先通過各種建模方法檢測出興趣區域,然后對興趣區域進行特征提取,繼而利用分類模型進行分類或檢測。或者通過跟蹤運動目標將得到的運動矢量、能量作為判斷依據,將得到的特征通過事先訓練好的分類器進行分類,得到最終的分析結果。然而,在實驗過程中,無論是最初的興趣目標提取還是后期的運動分析都存在一系列問題,導致人體檢測有很大的誤報率。此外,行為發生場景的背景通常比較復雜,不易完全提取;異常事件本身種類眾多,不易分類;人之間的遮擋情況也很嚴重,不易區分及跟蹤,這些都為行為的有效識別提出了挑戰。

伴隨著深度神經網絡的發展,利用深度學習的方法提取的特征表達可有效彌補手工特征的缺陷,該特征表現出了更強的魯棒性。近來,基于深度學習的數據驅動方法涌現了大量的行為識別方法[15~19]。深度卷積神經網絡是應用最為廣泛的一種,它通過多層卷積和池化操作,能夠發現高層語義信息的高層視頻表達,在視頻或行為分類中取得了很好的效果[15,16]。獨立子空間分析網絡和限制玻爾茲曼機是該類方法的另外兩種不同的實現方案。Le 等人[17]基于獨立子空間網絡(independent subspace analysis network),以無監督的方式從行為視頻中學習了一系列不變的局部時空特征,最后利用詞袋模型與線性支持向量機對視頻行為進行分類識別;文獻[18]以概率模型為基礎,基于卷積限制玻爾茲曼機,利用深度置信網絡(space-time deep belief network)通過對行為特征的學習實現了對視頻行為的分類識別。

目前,大部分對行為識別的研究都基于三維卷積神經網絡(3D CNN)[15]和多流網絡(multi-stream network)[20,21]展開。此外還有一些方法[22,23]通過結合手工設計特征(handcrafted features)和深度學習的特征來加強行為的識別效果。而大部分方法依靠一種基于時間線索(temporal cue)的方式,或增加一個單獨的時間流(temporal stream)域[20,22],或者直接編碼表征[19]。此外,基于遞歸神經網絡(recurrent neural network)的行為識別方法獲得了普遍的關注[24~26]

這些方法大都致力于單個活動個體的行為識別,難于直接應用于多人交互的行為識別場景中。本文對群體行為進行漸進層級性的分析,所檢測與識別的行為個體是行為群體中的個體,該個體與群體中的其他個體存在交互與依賴,不是一個獨立的個體,且個體行為的識別結果將作用于后續的群體行為識別。所提個體行為識別方案應綜合考慮各方面的因素,且能夠貢獻于層級分析模型后續的群體行為識別。

1.3 群體行為識別

群體行為識別的方法種類眾多,按照群體行為的建模模型來分,現有的群體行為識別方法大致可以分為三大類,即基于語法模型(grammar model)的方法[27,28]、基于圖模型(graphical model)[29,30]和基于深度網絡模型(deep neural network model)的方法[31~33]。目前,大部分群體行為識別的研究都基于圖模型和深度網絡模型。

目前的圖模型方法通常都是學習馬爾可夫隨機場(MRF)模型[34]或條件隨機場(CRF)模型[35]。而基于深度神經網絡模型的方法大多通過全卷積神經網絡(FCN)[32]和長短時記憶神經網絡(LSTM)[31]來構建深度網絡架構。此外,群體行為識別的研究工作[36,37]表明,基于遞歸神經網絡的深度網絡架構較非深度的方法具有很多優勢。

關于群體行為識別的圖模型方法,曾有大量的工作基于手工設計特征來構建圖模型。現在,許多方法結合了圖模型與網絡架構來識別群體行為。不同于那些基于設計特征方法的地方,這些方法結合了神經網絡強大的可區分能力和圖模型的結構塑造能力。文獻[36]提出一種通過推理來完善從CNN獲取個體級別的行為類別估計的方法,該方法設計了一個可訓練的節點表示人和場景的圖模型,并通過節點間的信息傳遞來實現最終場景級別的行為估計。

現在基于深度神經網絡模型的方法取得了很好的效果。文獻[37,38]分別利用LSTM對個體級別的行為和群體行為進行表征識別,并將其結果最大值池化后作為輸入傳遞給第二個LSTM,以捕捉場景級別的信息表征。文獻[39]利用深度強化學習對構建低級特征和高級特征的關系以用于群體行為識別。文獻[40]利用二維的姿態網絡和三維的CNN來提取特征,構建actor-transformers 模型來識別個體行為和群體行為。文獻[41]探討了一個略有不同的方法,作者注意到在某些情況下,群體行為的類別為某個個體的行為所決定,于是提出了一種軟性注意機制來識別該個體行為,該方法的整體模型非常接近于文獻[37]。文獻[42,43]亦使用深度學習架構,通過描述局部信息來識別群體行為。上述方法解決了群體行為識別在某些方面的問題,但是部分方法在推理階段使用的聯合推理方法有可能丟棄有用的上下文信息;部分方法是基于標注的人體位置信息或人體的跟蹤結果進行后續處理的,并沒有實現端到端地解決群體行為的分析識別問題。

2 層級性群體行為分析模型

本文研究面向群體行為識別的層級性分析模型,基于人類的認知規律,該模型按照自下而上的方式層級遞進地對群體行為進行分析識別。首先本文利用基于遷移學習的多目標檢測的方法對群體行為中的人體進行時序一致性檢測;然后融合時空特征學習時長無約束的個體行為識別方法識別個體行為;繼而結合個體行為與交互、場景上下文對群體行為進行識別。下面對這些問題逐一展開論述。

2.1 基于遷移學習的多人體目標的時序一致性檢測

針對行為識別場景中多個活動人體的時序一致性檢測問題,本文設計了如圖1所示的多人體目標時序一致性檢測模型的網絡框架。該方法首先通過ImageNet源數據域(source domain)訓練人體檢測器,接著利用動態調控網絡(modulating neural network)將其遷移到行為識別場景中,對行為視頻幀中的多個活動人體進行密集檢測;然后通過非最大值抑制(non-max suppression)的方式來剔除那些重復的檢測結果,并優化活動人體的檢測邊框Bt;最后通過概率推理的判別模型條件隨機場(CRF)來匹配任意連續兩幀圖像中同一活動人體的檢測結果,以實現整個視頻序列中多人體目標的時序一致性檢測。該圖中黑色箭頭部分指示利用源域數據固化的權重特征,紅色箭頭部分指示在需在人體行為識別場景中訓練學習(見電子版)。

在如圖1所示的person detection階段,該模型將目標檢測領域的人體目標檢測器遷移到行為識別場景中。在源域擁有充分樣本的情況下,假定源域人體目標檢測網絡能適應所有情形,那么對于特定的行為識別場景,只有部分網絡能夠發揮作用,而部分網絡是冗余的,有的甚至會帶來負遷移。在不保留源訓練樣本的情況下,該模型的調控網絡通過特征調整選擇的方式,基于構建的網絡模型,利用少量目標域樣本標簽信息通過權重的學習自適應地選擇有效網絡,抑制造成負遷移的網絡特征,增強識別效果。

圖1將目標檢測領域的人體檢測遷移到行為識別場景中,是通過feature maps weight layer實現的,即通過增加一個對特征圖進行加權的網絡層來實現特征選擇的動態調控,特征加權層的參數p=(p1,p2,…,pm)由下面調控網絡的反饋網絡預測學習。在人體檢測網絡的訓練過程中,首先本文基于AlexNet的深度卷積網絡(DCNN)使用源域樣本訓練網絡權重,固化特征提取網絡,選取中間層輸出的特征圖;然后利用RPN(region proposal network)[6]預測人體目標所在區域,假定獲得了m個大小為v1×v2的特征圖,通過最小化式(1)目標函數來訓練圖1所示的人體檢測網絡。

其中:zi(ω,p)是群體行為識別數據庫中的人體檢測樣本xi的位置預測標簽;yi為樣本的標注標簽;ω為fully connected layer的網絡參數;p=(p1,…,pm)為調控網絡預測得到的加權參數;‖p‖1為其正則化項,用于約束選擇盡量少的特征圖用于人體識別。兩個網絡參數ω和p通過交叉迭代實行訓練,只訓練特征圖加權層和全連接層,可通過標準的誤差傳播算法實現;區域預測神經網絡的訓練詳見Faster R-CNN[6];調控網絡的訓練方法詳見自適應的人體檢測算法[44]。在人體檢測階段,通過區域預測網絡獲得候選區域,然后利用該區域調控網絡特征權重生成新的目標檢測器,對行為識別場景中的人體進行檢測。

其中:IoU(truth,pred)(intersection over union)是人體檢測的預測邊框和人體的基準邊框的交集與并集之間的比值。PCS有效地編碼了人體目標在邊框中出現的概率,以及預測邊框對人體的適應性。

2.2 融合時空特征學習時長無約束的個體行為識別方法

群體活動中的個體行為隸屬于群體行為的一部分,一般情況下,行為個體會與行為群體中其他個體或場景進行交互,外觀表現上更為細微,并與群體行為有很大的關聯,且易受群體行為或其他個體行為改變的影響。此外,個體行為具有很大的主觀任意性,不同行為主體或同一行為主體在不同時刻所執行的同類行為活動持續時間的長短、動作的幅度等有很大差異。綜合考慮眾多因素,本文通過空間卷積神經網絡(spatial con-volutional neural network)與運動卷積神經網絡(motion convolutional neural network)的有機結合對行為進行表征,并采用長短時記憶神經網絡(long short term memory neural network,LSTM)實現時長無約束的個體行為識別。

鑒于群體行為中個體行為體現的很強的突發性,在行為持續時間上表現的主觀任意性,采用基于長短時記憶神經網絡的記憶網絡來訓練不確定長度的輸入到確定維度的有效輸出的模型,并完成在任意時刻即可有效地輸出人體行為的活動狀態的任務。如圖2所示為對群體行為場景中的某個行為個體i進行行為識別時采用的融合時空特征學習時長無約束的個體行為識別方法,圖中黑色箭頭指示上個層次訓練的人體一致性檢測網絡架構,紅色箭頭與黑色箭頭共同指示該層次進行的個體行為識別的流程(見電子版)。

如圖2所示,基于對人體的時序一致性檢測(黑色箭頭標示部分)結果,本文采用AlexNet網絡架構來實現空間卷積神經網絡SCNN,對bt檢測區域中人體的空間域特征fs進行學習提取。對運動特征fm,則首先需要對人體的一致性檢測邊框bt框定的部分進行光流提取,然后使用基于GoogLeNet的MCNN進行特征提取。為降低整個行為識別過程中的計算工作量,模型中使用的空間卷積神經網絡和運動卷積神經網絡復用于下一層級群體行為識別中時空上下文的特征提取。空間域特征fs與運動特征fm基本包含了行為識別所需的重要信息,通過一個拼接層(concatenation layer)將兩種信息整合到一起標記為xt,就形成了后續用于個體行為識別的時空特征。

該網絡模型利用兩種類型的深度卷積神經網絡提取行為的特征序列,提取完畢后將拼接的特征序列輸入至LSTM網絡進行記憶學習。群體行為中個體行為的狀態有時在很長時間內不發生改變,有時又因為與其他活動主體或活動場景的交互發生頻繁的改變。長短時記憶神經網絡由于其網絡結構中遺忘門的設置,可以根據輸入情況對長期或短期的信息進行有效記憶,它的這種特征使其非常適用于面臨的行為持續時間不確定的問題。通過長短時記憶神經網絡,可以在任意時刻對行為狀態進行識別。對個體行為進行識別和訓練LSTM時,各神經元的激活函數如下:

群體行為中行為個體的活動持續時間有很大的不同,此外,個體行為轉換的發生往往是自然連續且流暢的,若要有效地對行為進行識別必須在行為發生轉換的較短時間內識別出當前的行為狀態,因此,需對任意長度的行為序列進行處理并得出有效的狀態輸出。通過測試發現,在輸入序列太短或個體行為狀態發生改變的過程中,由于信息短缺,當不足以確定當前行為狀態時,這種輸入長度無約束的判別模型不能及時給出正確的判斷。為避免該模型作出誤判,在這種情況下,所提出的記憶網絡模型在不能作出確定的判定時,對行為狀態不進行判別。個體行為的識別會對群體的行為造成一定的影響,但是行為群體中個別行為短期內無識別結果對其影響不大。此外,如前文所述,群體行為受多方面因素的影響,該方案不僅不會影響群體行為的最終判定,還在很大程度上減少了誤判帶來的嚴重后果。

2.3 結合個體行為與交互場景上下文的群體行為識別方法

群體行為的狀態受眾多因素的影響,如群體中個體行為的狀態、行為個體之間的交互、人體與物體、環境的交互,以及所處的活動場景等。為了有效地統籌整合各類信息,本文設計了如圖3所示的群體行為識別流程,其中黑色箭頭指示了前兩個層級的人體一致性檢測和個體行為識別流程。群體行為識別作為行為漸進層級性分析模型的最后一個層次,為了提高模型中特征提取網絡模塊的復用率,這里使用個體行為識別模塊中的空間卷積神經網絡與運動卷積神經網絡對群體行為的場景上下文信息與行為交互上下文信息進行編碼,并結合群體中各行為主體的行為狀態的識別結果來分析識別群體行為。

從圖3所示的群體行為識別流程中可以看出,用于群體行為識別的特征主要包含各個體行為的識別結果的投票特征fRt、場景上下文信息fSCt和交互上下文信息fICt三部分內容。其中交互上下文信息包括行為群體中各活動個體之間的交互和活動個體與環境之間的交互等,主要涉及到的是交互運動信息。主要使用個體行為識別模塊中,基于AlexNet的空間卷積神經網絡SCNN對場景上下文信息進行編碼,基于GoogLeNet的運動卷積神經網絡MCNN對交互上下文信息進行編碼。

利用SCNN和MCNN提取的場景上下文信息的編碼fSC和交互上下文的編碼fIC的維度是固定的,而個體行為的數目由于各群體行為實例中行為主體的個數的不同而不確定,直接利用各個體行為的識別結果作為特征的一部分進行群體行為識別變得不可行。為解決此問題,本文采用獨熱編碼(one hot encoding)對個體行為的識別結果進行編碼,并以各個體行為類別的投票信息作為群體行為識別中個體行為的狀態編碼fR。最后,基于這三種特征(fR,fSC,fIC),利用式(8)訓練長短時記憶神經網絡,對群體行為進行識別。

3 實驗與分析

在兩個公用數據庫上評估了所提群體行為識別的層級性分析模型對群體行為的分析與識別效果。

3.1 實驗數據集

排球視頻數據集[37](volleyball dataset)是一個大規模的群體行為識別數據集,包含了多層次的標簽。該數據庫包含了55個排球視頻,其中有4 830個標注好的視頻幀,標注信息包含三種類型的標簽。對每一個足球運動員,該數據庫通過一個矩形框標注了其位置標簽信息,并給其分配了一個個體行為類別標簽,該數據庫共涉及到九種個體行為類別,分別為spiking、blocking、 setting、 jumping、digging、standing、falling、 waiting 和moving。對每個視頻中的整個排球活動場景,亦給其分配了群體活動類別標簽,共涉及到八種群體活動類別,分別為left pass、right pass、left set、right set、left spike、right spike、left winpoint、right winpoint。

brainwash數據集[45]是一個人頭檢測的數據集,拍攝的是在一個咖啡館里出現的人群,然后對這群人進行標注而得到的數據集。該數據庫包含三個部分,即訓練集包含了10 769張圖像,共81 975個人頭;驗證集包括500張圖像,共3 318個人頭;測試集包括500張圖像,共5 007個人頭。為了對基于遷移學習的多人體目標檢測網絡進行有效評估,本文利用該數據集測試了多人體檢測網絡。

3.2 實驗設置

本文從三個層次上對提出的層級性模型進行訓練,分別為多人體檢測層次的神經網絡的訓練,群體中個體行為識別層次的網絡訓練和群體行為識別層次的網絡訓練。在網絡訓練的過程中,本文采用自下而上的訓練方式,首先訓練多人體檢測的神經網絡;然后,個體行為識別與群體行為識別層面的網絡訓練分別依賴于前一級訓練好的網絡架構。整個訓練過程都在Caffe[46]上實現,LSTM神經網絡的學習率設定為0.000 1,且每兩個epoch衰減為原來的1/2,LSTM網絡的訓練與測試的實現參考文獻[47]。

在基于遷移學習的多人體檢測神經網絡架構中,本文利用源域ImageNet[48]中的行人數據來訓練DCNN,固化特征提取網絡,然后利用目標域排球視頻數據集中的人體信息來訓練調控網絡,通過交叉迭代的方式來訓練特征圖加權層和全連接層的網絡參數,以實現對多人體目標的檢測,其實現方法與文獻[49]相同。

在個體行為識別的網絡訓練中,本文利用上級網絡架構檢測到的連續視頻幀中的一致性人體的位置信息,利用空間CNN(AlexNet[50])從源圖像中提取人體的空間表征信息,利用運動CNN(GoogLeNet[51])從視頻幀的光流圖中提取人體的運動表征信息,然后將兩者拼接為人體的時空表征信息輸入到LSTM網絡中。LSTM網絡的輸入信息的維度為4096+1204=5120,LSTM網絡包含1 024個隱藏單元,其輸出單元的數目為個體行為的類別數目,對于排球視頻數據集,本文設置其輸出單元的數目為9。

在群體行為識別的網絡訓練中,本文統計各個體行為的識別信息,復用空間CNN和運動CNN提取整個視頻幀的空間與運動信息,對群體行為的上下文信息進行描述,并對其進行整合,對群體行為進行識別。對于排球視頻數據集,群體行為識別的LSTM網絡的輸入向量的維度為4096+1024+9=5129,網絡包含3 000個隱藏單元,輸出神經元的個數為8。

所提群體行為識別模型雖然分為三級單獨進行訓練,但是由于人體行為識別與群體行為識別中SCNN和MCNN的復用,群體行為的識別過程則有了一定程度的簡化。首先對群體中的人體進行時序一致性檢測;然后利用SCNN和MCNN對視頻序列提取特征;根據圖2處理流程,利用對應于人體的一致性檢測結果的特征,對其進行個體行為識別;根據圖3所示流程,結合個體識別結果及視頻場景中利用SCNN和MCNN提取的特征,對群體行為進行識別。相比于那些只對群體行為進行分類的算法,增加了對群體場景中活動個體的一致性檢測過程。

為了更好地展示所提漸進層級性網絡模型在行為分析識別方面的效果,本文設置了幾個基準實驗。Person-DetCNN實驗網絡設置與漸進層級模型不同的地方在于,沒有將人體檢測模型遷移到群體行為識別場景中,在群體行為場景中進行多人體檢測的時候使用的是在ImageNet數據庫上訓練的人體檢測模型。SM-CNN實驗網絡在對群體行為進行識別的時候沒有使用個體行為識別的結果,只通過提取的場景上下文和交互上下文對群體行為進行了識別。Person-LSTM實驗網絡只通過群體行為中的各個體行為的識別結果對群體性為進行識別。

3.3 實驗結果與分析

本文在公共數據集volleyball dataset上對所提的層級行分析模型進行了驗證。圖4展示了對群體行為的層級性分析識別結果的示例,圖中標示了三個層級的分析結果,即群體中人體的檢測結果、個體行為的識別結果及群體行為的識別結果。圖中綠色的矩形框標定了檢測到的人體區域、矩形框上面的字體為標注識別的個體行為類別,綠色字體為正確的識別結果,紅色字體為錯誤的識別結果(見電子版)。每幀上方的文字為識別的群體行為的類別結果。

為了驗證所提層級性分析模型中涉及到的各級分析對群體行為識別都是有效的,本文在volleyball dataset數據集上,進行了所提方法與設置的基準方法對比實驗。表1展示了在排球視頻數據集中,利用所提方法和基準方法對各群體行為的識別率的比較。該實驗表明,對人體區域的正確檢測對群體中個體行為的識別具有重要影響。在對群體行為進行識別時,群體活動的場景上下文與交互上下文信息,以及群體活動中各個體行為的類別對群體行為的識別都具備鑒別意義。在考慮個體行為類別對群體行為識別的影響時,對活動個體正確有效的檢測對群體行為的正確識別具有很重要的意義。

表2展示了在排球視頻數據集中,利用所提方法和其他經典方法對群體行為和個體行為的平均識別率的比較。目前,大部分對群體行為的識別算法只對整個群體活動場景進行了識別,不對群體行為中的個體行為進行分析。在表1中,通過與基準實驗的對比可以發現,在對群體行為進行識別時,考慮構成群體行為的各個體行為的類別信息,能夠有效提升群體行為的識別率。在表2中,展示了其他分析了個體行為識別的群體行為識別方法對個體行為的識別情況。通過對比可以發現,所提算法對群體中個體行為的識別具有很好的效果。

表3展示了在排球視頻數據集中所提方法和其他最新群體行為識別方法的比較。所提方法不僅取得了比較好的識別效果,相比于其他的基于深度神經網絡的行為識別方法,該方法更符合人類分析認知問題的模式,對群體活動中的信息的分析更加透徹。通過所展示的這些對比實驗可以發現,層級性的分析模式使人們對活動場景中發生的細節信息更明確,且按照人類自下而上的認知模式對行為進行分析,使人們更容易感知群體活動。

為了對基于遷移學習的多人體檢測網絡的檢測效果進行分析,額外增加了多人體檢測的實驗,該實驗在Brainwash 數據集上進行,對多人體檢測的效果進行了對比分析。相比于其他在群體行為識別中的多人檢測模型,所提方法因為自適應網絡的引入,對群體活動場景具有更強的場景適應性,表4直觀地展示了各種方法的平均識別率(AP)。通過對比表4中的數據可以發現,所提方法在人體檢測方面優于其他方法。

4 結束語

針對目前群體行為識別研究所面臨的實際問題,本文提出了面向群體行為識別的層級性分析模型。該模型在現有工作的基礎上,依靠深度網絡架構強大的學習能力,利用遷移學習對行為人體進行時序一致性檢測;然后基于群體中個體行為的識別,與捕捉到的場景上下文信息與行為交互上下文信息對群體行為進行有效的識別。整個行為識別模型是漸進層級性的,對群體行為的分析和理解更加深入。該問題亦是一個多學科交叉融合的研究問題,涉及到機器學習、神經網絡、人工智能、計算機視覺等多個學科。

所提模型基于遷移學習實現了對多人體目標的時序一致性檢測,通過自調控網絡解決了遷移學習過程中的樣本負遷移問題,解決了對缺乏充足行為人體的檢測樣本及標注信息的行為識別場景中的人體檢測問題。對于群體行為中因個體行為的主觀隨意性而導致的個體行為的時長不一致問題,本文基于LSTM利用時空特征實現了對時長無約束的個體行為的有效識別。對于群體行為的識別,本文復用SCNN和MCNN捕捉場景上下文信息與行為交互上下文信息,綜合考慮各類有效信息實現了對群體行為的有效識別。最后,通過大量實驗,驗證了所提神經網絡架構在群體行為識別分析中的效果。

參考文獻:

[1]Wang Xiaolong,Farhadi A,Gupta A.Actions transformations[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2658-2667.

[2]Poppe R.A survey on vision-based human action recognition[J].Image and Vision Computing,2010,28(6):976-990.

[3]Moeslund T B,Hilton A,Kruger V.A survey of advances in vision-based human motion capture and analysis[J].Computer Vision and Image Understanding,2006,104:90-126.

[4]Sermanet P,Eigen D,Zhang Xiang,et al.Overfeat:integrated recognition,localization and detection using convolutional networks[EB/OL].(2014-02-24).https://arxiv.org/abs/1312.6229.

[5]Zhang Shanshan,Benenson R,Schiele B.Filtered channel features for pedestrian detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1751-1760.

[6]Ren Shaoqing,He Kaiming,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.

[7]王偉,潘秋羽,王明明,等.基于卷積特征融合的通用目標檢測方法[J].計算機應用研究,2020,37(11):3492-3495.(Wang Wei,Pan Qiuyu,Wang Mingming,et al.Object detection based on convolutional feature fusion[J].Application Research of Computers,2020,37(11):3492-3495.)

[8]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.

[9]Bagautdinov T,Fleuret F,Fua P.Probability occupancy maps for occluded depth images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:2829-2837.

[10]Pan S J,Yang Qiang.A survey on transfer learning[J].IEEE Trans on Knowledge and Data Engineering,2010,22(10):1345-1359.

[11]Weiss K,Khoshgoftaar T M,Wang Dingding.A survey of transfer learning[J].Journal of Big Data,2016,3(1):1-40.

[12]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2005:886-893.

[13]Laptev I,Marszalek M,Schmid C,et al.Learning realistic human actions from movies[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2008:1-8.

[14]Wang Heng,Kl?Ser A,Schmid C,et al.Dense trajectories and motion boundary descriptors for action recognition[J].International Journal of Computer Vision,2013,103(1):60-79.

[15]Ji Shuiwang,Xu Wei,Yang Ming,et al.3D convolutional neural networks for human action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.

[16]Shao Jing,Loy C C,Kang Kai,et al.Slicing convolutional neural network for crowd video understanding[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:5620-5628.

[17]Le Q V,Zou W Y,Yeung S Y,et al.Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[C]//Proc of CVPR.Piscataway,NJ:IEEE Press,2011:3361-3368.

[18]Bo Chen,Ting J A,Marlin B,et al.Deep learning of invariant spatio-temporal features from video[EB/OL].(2010).http://www.cs.ubc.ca/~nando/papers/nipsworkshop2010.pdf.

[19]Wu Di,Shao Ling.Leveraging hierarchical parametric networks for skeletal joints based action segmentation and recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2014:724-731.

[20]Feichtenhofer C,Pinz A,Zisserman A.Convolutional two-stream network fusion for video action recognition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1933-1941.

[21]Singh B,Marks T K,Jones M,et al.A multi-stream bi-directional recurrent neural network for fine-grained action detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2016:1961-1970.

[22]Singh S,Arora Chetan,Jawahar C V.First person action recognition using deep learned descriptors[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2620-2628.

[23]Wang Limin,Qiao Yu,Tang Xiaoou.Action recognition with trajectory-pooled deep-convolutional descriptors[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:4305-4314.

[24]Koli R R,Bagban T I.Human action recognition using deep neural networks[C]//Proc of the 4th World Conference on Smart Trends in Systems,Security and Sustainability.Piscataway,NJ:IEEE Press,2020:376-380.

[25]Sun Yue,Yuan Tiantian,Chen Junfen,et al.Chinese sign language key action recognition based on extenics immune neural network[C]//Proc of IEEE International Conference on Advances in Electrical Engineering and Computer Applications.Piscataway,NJ:IEEE Press,2020:187-191.

[26]Zhao Han,Jin Xinyu.Human action recognition based on improved fusion attention CNN and RNN[C]//Proc of the 5th International Conference on Computational Intelligence and Applications.Piscataway,NJ:IEEE Press,2020:108-112.

[27]Amer M R,Xie Dan,Zhao Mingtian,et al.Cost-sensitive top-down/bottom-up inference for multiscale activity recognition[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2012:187-200.

[28]Shu Tianmin,Dan Xie,Rothrock B,et al.Joint inference of groups,events and human roles in aerial videos[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:4576-4584.

[29]Choi W,Savarese S.Understanding collective activities of people from videos[J].IEEE Trans on Pattern Analysis and Machine Intel-ligence,2014,36(6):1242-1257.

[30]Shu Tianmin,Todorovic S,Zhu S C.CERN:confidence-energy recurrent network for group activity recognition[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:4255-4263.

[31]Wang Minsi,Ni Bingbing,Yang Xiaokang.Recurrent modeling of interaction context for collective activity recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:7408-7416.

[32]Bagautdinov T,Alahi A,Fleuret F,et al.Social scene understanding:end-to-end multi-person action localization and collective activity re-cognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:3425-3434.

[33]李洪均,丁宇鵬,李超波,等.基于特征融合時序分割網絡的行為識別研究[J].計算機研究與發展,2020,57(1):145-158.(Li Hongjun,Ding Yupeng,Li Chaobo,et al.Action recognition of temporal segment network based on feature fusion[J].Journal of Compu-ter Research and Development,2020,57(1):145-158.)

[34]Wu Zhirong,Lin Dahua,Tang Xiaoou.Deep Markov random field for image modeling[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:295-312.

[35]Jain A,Zamir A R,Savarese S,et al.Structural-RNN:deep learning on spatio-temporal graphs[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:5308-5317.

[36]Deng Zhiwei,Vahdat A,Hu Hexiang,et al.Structure inference machines:recurrent neural networks for analyzing relations in group activity recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:4772-4781.

[37]Ibrahim M S,Muralidharan S,Deng Zhiwei,et al.A hierarchical deep temporal model for group activity recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1971-1980.

[38]Shu Xiangbo,Zhang Liyan,Sun Yunlian,et al.Host-parasite:graph LSTM-in-LSTM for group activity recognition[J].IEEE Trans on Neural Networks and Learning Systems,2021,32(2):663-674.

[39]Hu Guyue,Cui Bo,He Yuan,et al.Progressive relation learning for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:977-986.

[40]Gavrilyuk K,Sanford R,Javan M,et al.Actor-transformers for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:836-845.

[41]Ramanathan V,Huang J,Abu-El-Haija S,et al.Detecting events and key actors in multi-person videos[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:3043-3053.

[42]Borja-Borja L F,Azorin-Lopez J,Saval-Calvo M,et al.Deep learning architecture for group activity recognition using description of local motions[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2020:1-8.

[43]胡學敏,陳欽,楊麗,等.基于深度時空卷積神經網絡的人群異常行為檢測和定位[J].計算機應用研究,2020,37(3):891-895.(Hu Xuemin,Chen Qin,Yang Li,et al.Abnormal crowd behavior detection and localization based on deep spatial-temporal convolutional neural networks[J].Application Research of Computers,2020,37(3):891-895.)

[44]Tang Song,Ye Mao,Xu Pei,et al.Adaptive pedestrian detection by predicting classifier[J].Neural Computing and Applications,2019,31:1189-1200.

[45]Stewart R,Andriluka M,Ng A Y.End-to-end people detection in crowded scenes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2325-2333.

[46]Jia Yangqing.Caffe:an open source convolutional architecture or fast feature embedding[EB/OL].(2013).http://caffe.berkeleyvision.org/.

[47]Donahue J,Hendricks L A,Guadarrama S,et al.Long-term recurrent convolutional networks for visual recognition and description[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:2625-2634.

[48]Russakovsky O,Deng J,Su H,et al.ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115(3):211-252.

[49]Li Xudong,Ye Mao,Liu Yiguang,et al.Accurate object detection using memory-based models in surveillance scenes[J].Pattern Re-cognition,2017,67:73-84.

[50]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.

[51]Szegedy C,Wei Liu,Jia Yangqing,et al.Going deeper with convolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1-9.

[52]Ibrahim M S,Mori G.Hierarchical relational networks for group activity recognition and retrieval[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:742-758.

[53]Li Xin,Chuah M C.SBGAR:semantics based group activity recognition[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2895-2904.

[54]Wu Jianchao,Wang Limin,Wang Li,et al.Learning actor relation graphs for group activity recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9956-9966.

主站蜘蛛池模板: 在线国产欧美| 嫩草国产在线| 国产欧美日本在线观看| 中国国产A一级毛片| 日本成人精品视频| 天堂成人在线| 手机看片1024久久精品你懂的| 国产精品午夜福利麻豆| 日本不卡在线播放| 国产幂在线无码精品| 日本免费福利视频| 久久男人资源站| 久久久国产精品免费视频| 精品久久香蕉国产线看观看gif| 一级爆乳无码av| 99精品久久精品| 激情無極限的亚洲一区免费| AⅤ色综合久久天堂AV色综合| 亚洲性色永久网址| 久久99久久无码毛片一区二区| 亚洲性色永久网址| 四虎精品国产永久在线观看| 国产另类视频| 久久精品午夜视频| 亚洲高清日韩heyzo| 污网站免费在线观看| 亚洲午夜国产片在线观看| 久久天天躁狠狠躁夜夜2020一| 国产综合欧美| 国产91丝袜在线播放动漫| 国产精品无码一区二区桃花视频| 日韩高清成人| 日韩精品专区免费无码aⅴ| 国产真实二区一区在线亚洲| 91精品国产福利| 中文字幕资源站| 国产尤物jk自慰制服喷水| 欧美精品1区2区| 亚洲成人在线免费| 亚洲中文字幕av无码区| www成人国产在线观看网站| 欧美日本中文| 亚洲午夜福利精品无码| 亚洲精品国产首次亮相| 制服丝袜一区二区三区在线| 亚洲国产欧美自拍| 欧美色图久久| 国产特一级毛片| 国产成年女人特黄特色毛片免| 精品久久久久久中文字幕女| 欧洲成人免费视频| 久久情精品国产品免费| 国产欧美精品午夜在线播放| 欧美激情一区二区三区成人| 国产呦精品一区二区三区下载| 欧美成人精品在线| 欧美日韩国产高清一区二区三区| 伊人激情综合网| 精品国产自在现线看久久| 亚洲精品视频免费看| 尤物在线观看乱码| 91久久夜色精品国产网站| 无码高潮喷水专区久久| 亚洲A∨无码精品午夜在线观看| 亚洲中文字幕久久精品无码一区 | 欧美国产精品不卡在线观看 | 欧美啪啪视频免码| 亚洲国产日韩在线成人蜜芽| 一区二区三区在线不卡免费| 99免费在线观看视频| 国产美女91视频| 色香蕉影院| 国产精品无码翘臀在线看纯欲| 国产一级毛片高清完整视频版| 狠狠躁天天躁夜夜躁婷婷| 国产成人一区| 99精品福利视频| 国产微拍一区二区三区四区| 毛片免费视频| 中文无码毛片又爽又刺激| 婷婷综合在线观看丁香| 91色在线观看|