荊于勤


摘 要
視頻的人體行為識別是計算機視覺領域的研究熱點,本文從時間流和空間流出發,設計卷積模型對視頻數據進行處理,最后通過融合的結果進行行為識別分類,達到了較好的效果。
關鍵詞
卷積網絡;時間流;空間流
中圖分類號: G633.6 ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A
DOI:10.19694/j.cnki.issn2095-2457.2020.04.82
0 前言
隨著技術的發展,各種具有拍攝功能的智能設備越來越平價的應用在生活中,例如智能手機、視頻監控等,隨著智慧城市的建設,視頻監控已經部署在了生活的各個公共區域,例如街道、店面、車站等,在醫院、學校、景區等公共場所,也被監控探頭覆蓋,視頻監控對公共安全起到了重要的作用。監控設備每天都有大量新的數據資源產生。海量的視頻數據為信息挖掘提供了基礎,但是也提出了更大的挑戰,如果以人工的方式對海量視頻進行分析和標注,工作量巨大,不僅會消耗大量的精力和財力,而且必定會有延遲,不能保證及時性和效率,不能實現24小時的實時監控。視頻行為識別是計算機視覺的一個重要研究領域,是指從視頻中自動識別出動作和行為,有著非常廣泛的應用價值,例如應用在智能家居、智能醫療方面可以自動識別出人的摔倒等危險行為,及時發出警報保障人身安全。例如在安防監控等方面,識別出斗毆等危害大眾安全的行為,及時避免大的安全事件的發生,因此,基于視頻的人體行為識別的研究,具有重要的意義[1]。
行為識別的傳統方式是圖像特征由人工設計的,例如視頻特征匹配法,將視頻幀的底層特征提取出來與特征模板進行比較,時間順序模型分析法如隱馬爾可夫模型,把動作分解成相應的時間序列模型[2-3]。傳統的方式特征提取泛化性不佳,實現起來復雜。近年來,深度學習在計算機視覺領域取得了豐碩的研究成果,采用深度學習處理圖像和視頻數據是研究的熱點。例如卷積神經網絡(Convolutional Neural Network,CNN)不需要手動進行特征提取,可以從訓練樣本中獲取到底層特征信息,再通過多層卷積獲取高層特征信息,應用到對圖像、視頻等數據的處理中,該方式屬于無監督學習[4-5]。
1 卷積神經網絡
1980年,Rumelhart、Williams、Hinton、LeCun 提出多層感知機網絡模型,也就是神經網絡,在1998年,LeCun提出了LeNet5也就是卷積神經網絡模型,卷積神經網絡已經有了“深度”,包含輸入、卷積、池化、全連接、輸出五個部分,每一層有著不同功能。圖1是一種作用于圖像分類中的卷積神經網絡模型。
以圖像或視頻單幀作為輸入,通過多層的卷積和池化操作,最后到達全連接層,從底層特征提取出高層特征。
每個卷積層通過卷積核對圖像像素矩陣進行滑動掃描,整個過程的實質是一個矩陣的計算,針對不同的特征提取,選擇不同的卷積核,通過卷積降低了網絡模型的復雜度。
池化也稱pooling,一般有兩種池化方法,即均值和最大值。通過這一步驟,一方面特征圖減小了,減少了參數的數量,計算復雜度減低,另一方面可以提取出主要特征,弱化不相干的特征。
在卷積的操作過程中,激活函數和損失函數對模型的訓練和效果有很大的影響。激活函數將卷積的輸出調整到一定的范圍中,而損失函數用于衡量預測結果的優劣,對調整模型意義重大。
2 行為識別模型設計
視頻數據由幀組成,并且包含時序信息,所以視頻人體行為識別和圖像的識別是有區別的,因此行為識別需要提取出時間信息和空間信息。視頻人體行為識別模型結構如圖2所示。
時間流卷積的輸入為視頻的連續多個幀,得到光流信息,從而表示了人的行為運動特征,空間流卷積的輸入為視頻的單幀,從中提取出場景等特征,在進行一系列卷積池化后,各自通過分類函數得到一個結果,最后將兩個結果進行融合,得到最終的行為識別結果。
3 實驗結果及分析
3.1 實驗數據集
將融合的時間流和空間流模型進行視頻人體行為識別,在HMDB51數據集上進行實驗,HMDB51數據集擁有六千多視頻資源,行為類別共計51個,每類視頻分為訓練數據和測試數據,訓練數據用于前期對模型的訓練,測試數據用于測試模型。
3.2 實驗結果
實驗在linux系統中完成,實驗中對數據進行了數據增強等預處理,從每個訓練視頻中取出片段,進行稀釋采樣。模型經過多次訓練以及調整優化,在實驗中得到了79%的準確率。實驗發現,視頻集中的某些行為容易混淆,后續將在其他數據集中進行實驗。
4 結束語
本文采用基于時間流和空間流的卷積方式對視頻進行處理,識別人體行為,得到了較好的效果,不足之處在于前期訓練時間較長,模型的識別準確率還可以進一步提高。
參考文獻
[1]邵延華.基于計算機視覺的人體行為識別研究[D].重慶:重慶大學.2015.
[2]宋立飛.多尺度輸入3D卷積融合雙流模型的行為識別方法[J].計算機輔助設計與圖形學學報,2018.11:2074-2083.
[3] 豐艷.基于時空注意力深度網絡的視角無關性骨架行為識別[J].計算機輔助設計與圖形學學報2018.12:2271-2277.
[4] 朱紅蕾,朱昶勝,徐志剛.人體行為識別數據集研究進展[J].自動化學報.2018.44(06):20-46.
[5]單言虎.張彰,黃凱奇.人的視覺行為識別研究回顧、現狀及展望[J]. 計算機研究與發展,2016,53(1):93-112.