999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于順序驗證提取關鍵幀的行為識別

2020-07-04 02:27:37張舟吳克偉高揚
智能計算機與應用 2020年3期

張舟 吳克偉 高揚

摘要:人類行為識別作為視頻分類中的重要問題,正成為計算機視覺中的熱門話題。由于視頻信息較多,有的視頻冗余信息過量,判別性幀較少,因此如何無監督地提取關鍵幀對于行為識別至關重要。為此,本文提出了一種新的基于順序驗證的關鍵幀提取方法,并將其應用到行為識別中。首先,本文定義了一種順序驗證的模塊,驗證局部區間中幀的順序,學習局部區間中幀的關鍵性描述,接著將其整合得到整段視頻中每一幀的關鍵性描述;其次,根據學習到的視頻幀關鍵性描述提取關鍵幀;最后通過實驗討論分析提取多少關鍵幀對行為識別最有利。實驗結果表明,本文的方法在UCF-101上可以達到95.40%,在HMDB51上可以達到68.80%,均優于當前的一些先進的方法。

關鍵詞: 行為識別; 關鍵幀提取; 順序驗證; 關鍵性描述

【Abstract】 As an important issue in video classification, human action recognition is becoming a hot topic in computer vision. Since there are many video information, some videos have redundant information and few discriminative frames, so how to extract key frames unsupervised is very important for action recognition. To this end, the paper proposes a new key frame extraction method based on order verification and apply it to action recognition. First, this paper defines an order verification module that verifies the order of frames in a local interval, learns the key description of the frames in the local interval, and then integrates them to obtain the key description of each frame in the entire video; Second, key frames are extracted based on the learned key descriptions of the video frames; Finally, the paper discusses experimentally how many key frames are extracted to be most beneficial for action recognition. Experimental results show that the proposed method can reach 95.40% on UCF-101 and 68.80% on HMDB51, which are all better than some current advanced methods.

【Key words】 ?action recognition; key frame extraction; order verification; key description

0 引 言

視頻中的人體行為識別是計算機視覺領域的一項既基礎又具有挑戰性的任務,最近幾年正被廣泛應用于視頻監控、人機交互、醫療看護等領域[1]。這個任務是指從視頻序列中提取相關的視覺信息,并用合適的方式表達出來,然后通過對視覺信息的解釋來分析和識別人類的行為模式。真實的視頻大多以人類活動為背景,在視頻某些時間段里背景比較復雜,很難準確、魯棒地識別人類行為,因此行為識別仍是一個復雜的問題。

現有的深度學習模型,將行為識別任務視為多分類問題。其早期研究關注于利用卷積神經網絡(CNN)來學習視頻中行為的深度表達,包括雙流CNN模型[2],隱雙流CNN 模型[3],以及3D-CNN 模型[4]。卷積神經網絡擅長于捕獲場景的空間信息,然而其對時序信息的捕獲能力不強。現有深度學習模型通常使用循環神經網絡(RNN),尤其是長短期記憶網絡(LSTM)模型來描述行為中時序信息。現有行為識別的難點在于,目標動作僅僅占長視頻中的一小部分,同時運動目標被大量的背景信息干擾,因此,從長視頻中提取行為發生的有效信息,成為行為識別的關鍵問題。

針對現有方法無法有效區分視頻中時序背景混雜信息,導致行為識別準確率和效率不高的情況,研究發掘了一種基于長視頻序列順序驗證的新的關鍵幀提取方法,并將這種方法應用到行為識別中去。 在此方法中,通過抑制視頻中的低質量時序信息,學習到具有辨別性的視頻幀的表示,提高行為表達的判決能力,從而實現可靠的行為識別。綜上所述,本次研究做出以下貢獻:

(1)本文提出了一種新的基于順序驗證提取關鍵幀的行為識別方法。其中,這種關鍵幀機制用于去除低質量背景復雜的冗余幀,然后將這種關鍵幀機制應用到行為識別任務中。

(2)本文設計了一種順序驗證的方法來學習視頻幀的關鍵性描述。首先驗證局部區間中幀之間的順序關系,獲取局部區間中幀的關鍵性描述;然后以某種方式結合各階段局部區間中幀的關鍵性描述,得到整段視頻中每一幀的關鍵性描述。

(3)本文進一步將關鍵幀提取應用到了行為識別上,并在UCF101和HMDB51這2個公認的數據集上進行實驗驗證。實驗結果表明,在UCF101上提取12幀關鍵幀表現最好,識別精度為95.40%,在HMDB51上提取10幀關鍵幀表現最好,識別精度為68.80%,均優于目前大部分先進的方法。

1 相關工作

視頻相比圖像來說信息更加豐富,但是一個視頻序列中冗余信息太多,如何高效準確地提取關鍵幀的信息對于很多任務都是至關重要的。與此同時人類行為識別是計算機視覺領域一個長期存在的課題,也是當今一個研究熱點。在這部分,分別介紹了關鍵幀提取和行為識別兩方面的相關工作。

(1)關鍵幀提取。許多早期的關鍵幀提取方法依賴于使用基于管道的分割,此類方法通常提取光流和SIFT特征。較早的方法[5]通過視頻的光流檢測了連續幀之間的相似性的局部最小變化。之后的方法通過在特征提取中使用關鍵點檢測[6-7]改進了這一點,后者通過SIFT描述符提取局部特征,并匯總了關鍵點以實現視頻中的關鍵幀提取。但是,所有這些方法都具有以下缺點:當相同的內容再次出現在視頻中時,就可能會提取相似的關鍵幀。另一類方法是將視頻幀的特征(如HS顏色直方圖)聚類成組。這些方法通過從每個組中檢測有代表性的幀來確定視頻中的關鍵幀。Zhuang等人[8]提出了一種基于視覺內容和運動分析的關鍵幀非監督聚類方法。Vázquez等人[9]提出了一種基于頻譜聚類的關鍵幀檢測方法,該方法構建了一個圖來捕獲圖像視頻序列中的特征局部性,而不是依靠由2個圖像之間共享的特征所計算出的相似性度量。最后由于CNN在圖像分類中的流行,已將CNN引入視頻的關鍵幀提取中。Mahasseni等人[10]首先將生成對抗網絡(GAN)應用于視頻中的關鍵幀提取。

(2)行為識別方法。同時,CNN在圖像分析任務中深度特征提取的成功,為視頻中行為分類的研究提供了靈感。CNN側重空間模式的提取,可以有效增強行為特征在空間域上的表現能力,比如在ImageNet[11]數據集上預訓練的Vggnet[12]、GoogleNet[13]和ResNet[14],并將其用作特征提取器。此外,Zhu等人[3]提出了一種新型的Hidden Two-stream CNN架構,隱式地捕獲相鄰幀之間的運動信息。Wang等人[15]提出了一種新的架構,稱為外觀-關系網絡(ARTNet),以端到端的方式學習視頻表示,ARTNet是通過堆疊多個SMART塊來構建的。Shou等人[16]提出了一種輕量級的生成器網絡,該網絡減少了運動矢量中的噪聲,捕獲了精細的運動細節,實現了一種更具鑒別性的運動線索(DMC)表示。但是由于CNN對時序信息的捕獲能力不強,而RNN具有學習幀之間時序關系的強大能力,尤其是LSTM網絡由于其靈活的門機制,可以避免在反向傳播過程中梯度消失或梯度爆炸。Li等人[17]提出了一個新穎的框架,通過結合CNN和LSTM來學習視頻中的時序動態特征,從而達到增強行為識別的效果。Ng等人[18]通過實驗證明,相較于傳統的雙流方法[2],加入LSTM整合時序信息可以顯著提高行為識別的準確率。

(3)關鍵幀提取用于行為識別。視頻并非每一幀都有對行為識別有利的信息,因此去除冗余幀,將關鍵幀機制加入行為識別任務有著重大的意義。Wang等人[19]提出了一種從視頻序列中提取人類動作識別關鍵幀的新方法,主要利用研究提出的一種自適應加權親和傳播算法(SWAP),以提取關鍵幀,最后結合SVM進行行為識別。但是這種方法對識別精度貢獻并不大,只是改善了識別速度。Zhou等人[20]提出一種實時的行為識別方法,通過這種從視頻幀的時間窗口中檢測關鍵幀的新算法來提高識別速度,再采用隱馬爾可夫模型(HMM)來分析檢測到的關鍵幀的時間關系,從而保證識別的準確性。同樣,為了彌補高斯混合隱馬爾可夫模型(GMM-HMM)需要定義高斯混合模型(GMM)和隱馬爾可夫模型(HMM)分類的數量,從而引起的識別速度下降,Li等人[21]提出了一種基于關鍵幀的GMM-HMM運動識別方法,使用最小重建誤差方法來確定關鍵幀的數量,從而減少GMM和HMM分類的數量提高識別速率。Zhao等人[22]提出一種新的基于關鍵幀提取和多特征融合技術的行為識別方法,既利用關鍵幀機制解決了數據冗余的問題,又通過多特征融合不同流的信息,提高了識別精度。Zhu等人[23]通過挖掘視頻中關鍵幀所在視頻段來提高識別正確率。Kar等人[24]采用含有時空網絡和MIL框架的雙流CNN來檢測視頻中得分較高的關鍵幀,進而應用于行為識別。

受到文獻[25-26]采用順序驗證來進行行為識別的啟發,且目前沒有基于順序驗證來學習關鍵幀的方法,本文提出一種順序驗證的方法,提取視頻中的關鍵幀,去除冗余信息,進而再將這種新的關鍵幀提取方法用于視頻中的行為識別,實驗結果表明本文的方法取得了較好的識別正確率。

2 模型框架

在本節中,首先對所提出的方法給出簡要論述,然后將本文方法的每個部分進行詳細闡明。這里,以UCF101數據集為例,研究得到的本文模型的視頻整體序列化處理過程如圖1所示。相應地,行為識別的網絡架構可以分為以下4個模塊:提取CNN特征(2.1節);順序驗證(2.2節);學習關鍵幀(2.3節);最終的行為識別(2.4節)。首先,采用CNN是因其在圖像特征提取方面的成功應用;其次,設計了一個局部的順序驗證模型,通過對局部順序驗證結果的分析,計算局部區間中幀的關鍵性描述;再者,將局部區間中幀的關鍵性描述相結合,形成整段視頻中幀的關鍵性描述,并進行關鍵幀提取;討論截取關鍵幀的數目,提取出相應數目的關鍵幀;最后,設計了一種新的基于順序驗證的關鍵幀提取的行為識別框架來識別人類的行為。

本文模型的主要創新價值在于:

(1)提出了一種新的基于順序驗證的關鍵幀提取方法,并將其用于視頻的行為識別中。

(2)為了有效估計視頻幀的關鍵性,設計了一個順序驗證模塊來驗證局部視頻段中幀之間的順序。將局部視頻段的長度設置為2個連續視頻幀,通過對局部順序驗證結果的分析,計算局部區間中幀的關鍵性描述;再者,將每段視頻內局部區間中幀的關鍵性描述相結合,形成整段視頻中每一幀的關鍵性描述,并排序。

(3)為了達到最佳的識別效果,進行了多組對比實驗分析提取關鍵幀的數目,最終確定在UCF101上每段視頻提取12個視頻幀,在HMDB51上每段視頻提取10個視頻幀。

2.1 特征提取

識別視頻中的行為往往不需要通過視頻中的所有幀,只需選擇一些幀組成序列來代表這個視頻。因此將一個有L幀的視頻分成16=L/α個非重疊的單元,每個單元包含α個連續的幀。然后在每個單元中選擇第一幀,組合形成幀序列V={vt},(t=1,2,…,16)。研究中提取這些視頻幀的外觀特征用于行為表達,為此,本文使用在ImageNet數據集上預訓練好的ResNet-152模型,對已經重新調節大小為224×224的RGB圖像序列進行預處理,對于第t幀提取輸入最后一層全連接層之前的結果作為最終特征:zt,在此基礎上,通過時序SVM網絡對特征序列進行建模。

2.2 順序驗證

所提出的順序驗證模塊如圖2所示。由圖2可知,該模塊具有3個主要組成部分:二元組采樣;使用時序SVM進行局部區間順序驗證得到局部區間內視頻幀的關鍵性描述;將局部區間內視頻幀的關鍵性描述整合到整段視頻中,得到每個視頻幀最終的關鍵性描述。對此可做闡釋分述如下 。

3 實驗

本節中,首先對數據集做了整體概述,然后闡述本文的實驗過程及評價標準,最后對實驗結果進行說明及討論。

3.1 數據集

本文方法所用的數據集為UCF101[27]和HMDB51[28]。UCF101數據集包含13 320個視頻,分為101個類別,使用9 990個視頻用于訓練,剩下的3 330個視頻用于測試。UCF101數據集在行為類別方面提供了多樣性,并且在目標外觀和姿態、背景雜亂、光照條件等方面存在巨大的變化。

HMDB51數據集中包含6 849個視頻,共51個行為類別,本文選取4 794個視頻用于訓練,其余的2 055個視頻用于測試。HMDB51數據集在物體外觀和人物姿態等方面變化多樣,具有行為識別研究的挑戰性。

3.2 實驗設計及評價標準

為了準備訓練特征集合,首先,依次提取各視頻的RGB視頻幀,并將分辨率重新調整為224×224。其次,使用ImageNet數據集上預訓練的ResNet模型,提取外觀特征,具體來說,本文取ResNet輸入最后一層全連接層之前的特征作為LSTM模型的輸入特征,該特征的大小為1×2 048,即LSTM模型的隱狀態和記憶狀態的維度為2 048。

本文實驗所采用的PC機配置為Intel Core i7-5960X、CPU 3 GHz×8 cores RAM 8 GB、圖像顯卡為2張NVIDIA GeForce GTX 1080 Ti、Linux16.04操作系統。深度學習框架為Pytorch[29]。訓練時,使用Adam算法,迭代次數為50,批處理大小為128,學習率初始化為10-3。

本文采用識別正確率,作為行為識別的評價標準,即統計一個類別中的所有視頻的預測標記被識別為真實標記的數值,與預測視頻總數的比值,作為該類別的識別正確率;最后使用所有類別正確率的均值,作為本文方法的識別正確率。

3.3 實驗結果及分析

本文與當前比較先進的行為識別方法進行了對比, 根據加入關鍵幀機制與否,可以分為以下2組:

(1)帶有關鍵幀機制的模型,包括:傳統的雙流CNN模型Two-stream mode[2],使用 CNN 進行還原分辨率隱式運動預測的模型Hidden Two-Stream[13],雙流通道的時間池化模型Beyond Short Snippets Models[5],輕量級的生成器網絡DMC-Net[16],通過堆疊多個可以同時對外觀和時間關系進行建模的SMART模塊的ARTNet[15]模型。

(2)帶有關鍵幀機制的模型,包括挖掘識別關鍵幀所在視頻段進行行為識別的模型 Key Volume Mining[23],使用深度網絡獲得的特征經過Adaptive Pooling的方法進行關鍵幀提取的AdaScan[24]行為識別模型。

不同方法的識別性能對比見表1。由表1分析可知,與當前一些優秀方法相比,本文方法所得到的識別正確率更高。相比于不帶關鍵幀機制的方法而言,本文將關鍵幀提取加入到行為識別中去,在識別的過程中,因為減少了冗余幀,大大提升了識別的效率和準確率;相比于帶關鍵幀的模型,本文先是精確定位到具有判別性的幀,相較于Key Volume Mining方法定位到關鍵幀所在視頻段更為精確,再者較AdaScan采用pooling的方式對視頻幀的關鍵性進行判定從而在測試過程中舍去冗余幀,本文既考慮前后幀之間的時序關系采用一種新的方法來判別幀的關鍵性,又通過LSTM的結構將視頻中新的時序關系加以整合,顯著提升了識別正確率。為了更進一步證明本文加入關鍵幀機制對行為識別貢獻顯著,本文在UCF101和HMDB51兩個數據集上進行了消融實驗,結果見表2。

通過表2可以看到:

(1)本文提出的關鍵幀機制在UCF101數據集上,隨著從初始的16幀按照關鍵性描述由低到高逐一去除冗余幀,識別正確率一路上升,直到去除4幀時達到最高的識別正確率95.40%,此后繼續去除則造成識別正確率下降,所以提取12個關鍵幀能達到最佳的識別效果;同理,在HMDB51數據集上,提取10個關鍵幀能達到最佳的識別效果。

(2)在UCF101和HMDB51兩個數據集中,本文提出的加入關鍵幀機制的行為識別模型的行為識別正確率全面優于無關鍵幀機制的行為識別模型,UCF101上提升了4.2%,HMDB51上提升了5.1%。由此說明本文所提出的關鍵幀機制可以有效地提取有辨別性的特征,從而可以增強行為的表達。

2.2節中學習到了視頻中每一幀的關鍵性描述,接著就是要進行關鍵幀提取,本次研究用實例圖來表現關鍵幀提取的結果,如圖3所示。在UCF101和HMDB51數據集中,分別隨機選取代表3種行為的視頻,觀察其幀序列中每一幀的關鍵性描述,進而了解提取關鍵幀的過程。圖3(a)上、中、下三組分別表示的行為是“Baseball Pitch”、“High Jump”和“Balance Beam”,圖3(b)上、中、下三組分別表示的行為是“Throw”、“Kick Ball”和 “Golf ”。每組圖片中,第一行表示原始視頻幀序列;第二行表示視頻幀對應的歸一化之后的關鍵性描述,數字越大,代表這一幀關鍵程度越高;第三行嘗試去除關鍵性最低四幀后重新組合的視頻幀序列,即提取出的關鍵幀序列。

分析圖3可以看出,前后兩幀幾乎沒有變化的動作幀,關鍵程度都比較低,進而本文的模型會抓取對判別該行為貢獻較大的幀、即關鍵程度較高的幀,更加體現本文模型的判別能力。

4 結束語

針對現有基于視頻整體結構建模的行為識別方法,無法有效區分關鍵幀與冗余幀,造成行為表達效率低下,行為識別準確率不高的問題,本文提出了一種基于順序驗證提取關鍵幀的行為識別模型。通過在UCF101和HMDB51兩個公認數據集上進行實驗驗證,可以證明本文的順序驗證模塊能夠識別關鍵幀,提高了行為表達的判決能力。在UCF101和HMDB51兩個公認數據集上進行實驗驗證,與現有多種優秀的行為識別方法進行比較。實驗結果表明,本文方法優于現有大部分行為識別方法。未來可以預期的是,本文的方法可以應用于更加復雜的視頻場景中,如大型監控場景下的視頻理解,異常檢測等,將有助于維護公共安全等領域。

參考文獻

[1] POPPE R. A survey on vision-based human action recognition[J]. Image and Vision Computing, 2010, 28(6): 976.

[2]SIMONYAN K , ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J]. Computational Linguistics, 2014, 1(4):568.

[3]ZHU Yi , LAN Zhenzhong, NEWSAM S , et al. Hidden two-stream convolutional networks for action recognition[J]. arXiv preprint arXiv:1704.00389, 2017.

[4]JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(1): 221.

[5]KULHARE S, SAH S, PILLAI S, et al. Key frame extraction for salient activity recognition[C]//2016 23rd International Conference on Pattern Recognition (ICPR). Cancun,Mexico:IEEE, 2016: 835.

[6]LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91.

[7]GUAN Genliang, WANG Zhiyong, LU Shiyang, et al. Keypoint-based keyframe selection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 23(4): 729.

[8]ZHUANG Y, RUI Y, HUANG T S, et al. Adaptive key frame extraction using unsupervised clustering[C]//Proceedings of International Conference on Image Processing. ICIP98 (Cat. No. 98CB36269). Washington DC,USA:IEEE, 1998, 1: 866.

[9]VZQUEZ-MARTN R, BANDERA A. Spatio-temporal feature-based keyframe detection from video shots using spectral clustering[J]. Pattern Recognition Letters, 2013, 34(7): 770.

[10]MAHASSENI B, LAM M, TODOROVIC S. Unsupervised video summarization with adversarial LSTM networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI:IEEE, 2017: 202.

[23]ZHU W, HU J, SUN G, et al. A key volume mining deep framework for action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA:IEEE,2016: 1991.

[24]KAR A, RAI N, SIKKA K, et al. Adascan: Adaptive scan pooling in deep convolutional neural networks for human action recognition in videos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI, USA:IEEE,2017: 3376.

[25]MISRA I , ZITNICK C L , HEBERT M . Shuffle and learn: Unsupervised learning using temporal order verification[C]//14th European Conference on Computer Vision(ECCV). Amsterdam, The Netherlands:dblp ,2016:524.

[26]LEE H Y , HUANG J B , SINGH M K, et al. Unsupervised representation learning by sorting sequences[C]//IEEE International Conference on ComputerVision (ICCV). Venice, Italy:IEEE,2017:1.

[27]SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv preprint arXiv:1212.0402, 2012.

[28]KUEHNE H, JHUANG H, GARROTE E, et al. HMDB: a large video database for human motion recognition[C]//2011 IEEE International Conference on Computer Vision(ICCV). Barcelona, Spain:IEEE, 2011: 2556.

[29]PASZKE A, GROSS S, MASSA F, et al. PyTorch: An imperative style, high-performance deep learning library[C]//33rd Conference on Neural Information Processing System(NeurIPS 2019). Vancouver, Canada: NIPS, 2019: 8024.

主站蜘蛛池模板: 久久永久视频| 亚洲欧美极品| 无码国产伊人| 久久特级毛片| 久久国产精品娇妻素人| 亚洲视频黄| 99视频在线免费观看| 久久毛片网| 午夜无码一区二区三区| 国产高颜值露脸在线观看| 国产乱子伦视频在线播放| 91在线一9|永久视频在线| 毛片基地视频| 午夜少妇精品视频小电影| 曰韩人妻一区二区三区| 国产十八禁在线观看免费| 精品视频在线一区| 99激情网| 国产美女无遮挡免费视频| 成人精品午夜福利在线播放| 亚洲美女视频一区| 久久香蕉国产线| 国产欧美日韩va另类在线播放| 国产日产欧美精品| 国产乱码精品一区二区三区中文| 999在线免费视频| 国产成人综合久久| 国产精品偷伦在线观看| 亚洲欧美精品一中文字幕| 亚洲日韩精品欧美中文字幕 | 国产麻豆另类AV| 精品偷拍一区二区| 亚洲成人福利网站| 亚洲国产AV无码综合原创| 热久久国产| 久久性视频| 亚洲综合婷婷激情| 亚洲欧美成人综合| 999国内精品视频免费| 最近最新中文字幕在线第一页| 国产精品第三页在线看| www亚洲精品| 午夜精品影院| 国产一区成人| 成人亚洲国产| 国产91丝袜在线播放动漫 | 99在线小视频| 天天摸天天操免费播放小视频| 丁香婷婷激情综合激情| 久久精品人人做人人| 日韩成人午夜| 色屁屁一区二区三区视频国产| 国精品91人妻无码一区二区三区| 精品無碼一區在線觀看 | 久久先锋资源| 成年人福利视频| 欧美成人在线免费| 天堂亚洲网| 国产在线一二三区| 国产乱子伦视频在线播放| 91美女视频在线| 91在线播放国产| 色九九视频| 日韩国产 在线| 国产女人在线视频| 视频国产精品丝袜第一页| 国产9191精品免费观看| 91麻豆精品国产高清在线| 久久久久九九精品影院| 午夜色综合| 国产在线观看人成激情视频| 久一在线视频| 欧美一级大片在线观看| 免费可以看的无遮挡av无码| 在线日本国产成人免费的| 在线无码九区| 国产亚洲欧美在线中文bt天堂 | 国产自在线拍| 色婷婷啪啪| 丰满少妇αⅴ无码区| 亚洲大尺度在线| 色成人综合|