999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進長效遞歸卷積網絡的行為識別算法

2018-07-19 13:02:08王學微
計算機工程與設計 2018年7期

王學微,徐 方,賈 凱

(1.中國科學院 沈陽自動化研究所 機器人國家重點實驗室,遼寧 沈陽 110016;2.中國科學院大學,北京 100049;3.沈陽新松機器人自動化股份有限公司 中央研究院,遼寧 沈陽 110168)

0 引 言

識別視頻序列中人體的行為,不僅要利用每一幀圖像上空間信息,還要充分利用幀與幀之間的時序信息。因此,如何有效表達單幀圖片的空間信息以及如何獲取幀與幀之間的時域信息成為行為識別領域的研究重點。Ji等[1]對卷積神經網絡進行擴展,提出3D-CNN(3D-convolution neural networks)網絡,通過使用3D卷積核獲取幀與幀之間的時域信息與靜態信息;Varol等[2]進一步完善3D卷積核,極大地提高了識別準確率;Simonyan等[3]通過引入光流信息來獲取幀間時域信息,該方法使用兩個卷積神經網絡分別處理靜態幀和光流數據;Wang等[4]在兩個數據流網絡結構基礎上,使用更復雜的卷積神經網絡,從而提高了行為識別的準確率;Jeff Donahue等[5]綜合利用CNN網絡與LSTM網絡,提出長效遞歸卷積網絡(long-term recurrent convolution network,LRCN)模型,然而LRCN算法中使用淺層ZFNet[6]作為CNN網絡,很大程度上限制了整個模型對行為的識別能力。算法對LRCN算法進行改進,使用深度卷積神經網絡VGG16[7]提取空間特征,提出長效遞歸深度卷積神經網絡(long-term recurrent deep convolution network,LRDCN)算法。在公開數據集UCF101上的實驗結果表明,該模型較好提高了人體行為識別準確率。

1 深度學習基本模型介紹

1.1 卷積神經網絡

卷積神經網絡(convolution neural networks,CNN)是一種深度學習模型,通過卷積以及下采樣等操作,可以從圖片中逐層提取更高級更抽象的特征。卷積神經網絡一般處理二維圖像,在數據充足條件下,合理訓練的卷積神經網絡可以有效提取圖像的空間特征,在很多領域其性能明顯好于手工設計的特征。

(1)

1.2 遞歸神經網絡及其改進模型

與CNN不同,遞歸神經網絡(recurrent neural network,RNN)無需在層面之間構建,能夠更好地處理高維度信息的整體邏輯順序。遞歸神經網絡中,通過一個閉環允許網絡將每一步產生的信息傳遞到下一步中,一個RNN網絡可以看作同一網絡的多份副本,每一份都將信息傳遞到下一副本。RNN網絡以及其展開的等效網絡結構如圖1所示。

圖1 遞歸神經網絡及其等效模型

RNN這種鏈式結構非常擅長處理序列形式的數據,在語音識別、機器翻譯、圖像標題等領域得到了廣泛應用。在普通RNN中,重復模塊結構非常簡單,只包含一個非線性函數g,此時網絡輸出RNN前向公式為

(2)

式中:xt代表當t時刻的輸入,ht-1代表(t-1)時刻隱層輸出,ht是t時刻隱含層的輸出,zt為t時刻的網絡的輸出。

當序列太長時,普通RNN網絡存在梯度消失的問題,難以訓練。針對此問題,提出很多改進版本的RNN,其中最具代表性的是LSTM(long short term memory)網絡,LSTM單元結構如圖2所示。

圖2 LSTM單元結構

LSTM單元通過輸入門、輸出門、遺忘門來控制重復模塊的輸入與輸出,其前向遞推公式為

(3)

2 LRDCN算法描述

2.1 模型結構

LRDCN由深度卷積神經網絡以及LSTM網絡組成,網絡結構如圖3所示。其中深度卷積神經網絡為VGG16[7],VGG16有13個卷積層以及3個全鏈接層,其中前兩個全鏈接層都含有4096個結點,第3個全鏈接層結點個數與待分類問題相關,由于VGG16網絡僅用于從224*224大小的輸入圖片中提取1*4096維特征,顧只使用前兩個全鏈接層。與一般CNN網絡相比,雖然VGG16也是由卷積層以及池化層堆疊而成的,當其使用了更小的卷積核,網絡中所有卷積核大小均為3*3,步長為1。池化窗口大小為2*2,步長為2,但并不是所有卷積層后都有池化層,僅部分卷積層后存在池化層。另外,網絡中均使用Relu函數作為非線性映射函數。

圖3 LRDCN網絡結構

對于長度為k的視頻序列 , LRDCN 模型首先通過VGG16分別提取視頻序列中每一幀的空間特征,將得到的k個1*4096維特征 依次輸入到LSTM網絡,然后將LSTM網絡各個時刻的輸出值輸入到全連接層,從而綜合LSTM網絡各個時刻的輸出結果。全連接層節點個數與行為類別個數相等,由于UCF101數據集共101類行為,所以全連接層共101個節點。最后將全連接層的與Softmax函數層相連,得到該視頻序列屬于每一類行為的概率值。

k表示輸入到網絡的視頻序列長度,理論上k可以取任意非零正整數,且希望k能夠涵蓋整個行為執行周期,但隨著k增大,網絡計算復雜度極具增加,使得訓練和使用網絡都變得十分困難,同時為了與LRCN算法對比,實際訓練與測試時k值統一設置為16。

2.2 模型訓練

2.2.1 數據預處理

在行為識別領域,RGB圖像和光流數據得到廣泛應用,在很多算法中,結合光流數據與RGB圖像的結果會進一步提升行為識別的準確率,因此分別使用RGB圖像以及光流數據分別訓練LRDCN網絡。其中RGB圖像以30 fps的幀率從視頻數據中抽取,每張圖片大小為320*240,如圖4(a)所示。光流通過opencv中實現的TVL1算法得到,并采用文獻[5]中的方法構建“光流圖”。首先將水平方向光流值和垂直放向光流值放縮到[-128,+128]區間,然后利用調整后的水平方向光流值、垂直方向光流值、光流模值構建三通道的“光流圖”,如圖4(b)所示。

圖4 輸入數據

2.2.2 參數設置

孔老一探了探身子,只見一片從來沒見過的黃色大霧從鬼子方向飄了過來,他趕緊脫了上衣,浸透水,把嘴和鼻子緊緊捂上。軍官培訓時教官講過鬼子的毒氣彈,但毒氣彈是國際公約明令禁止的化學武器,日本也是簽約國,難道他們真的瘋狂到使用毒彈的地步?

使用UCF101數據集對LRDCN網絡進行訓練、測試。該數據集共13 320段視頻樣本,訓練樣本只有10 000個左右,用如此有限的數據集訓練大規模深度學習神經網絡非常容易發生過擬合問題。實驗采取以下幾種策略訓練網絡,以降低網絡過擬合的風險:

數據增廣:隨機裁剪是常用的數據增廣手段,傳統的隨機裁剪方法是在輸入圖片中隨機截取一塊固定大小的圖片,從而增加樣本數量。與傳統的隨機裁剪策略不同,使用文獻[4]中的方法,不僅隨機選擇裁剪區域,裁剪區域的寬和高也是從{256,224,192,168}這4個數中隨機選則的。最后將裁剪得到的圖片調整至224*224,作為VGG16網絡的輸入。

預訓練:通過預訓練,可以提高收斂速度、降低網絡過擬合風險。首先使用UCF101數據集優調在ImageNet上訓練好的VGG16模型,然后用優調過的VGG16初始化LRDCN網絡的CNN部分。由于光流數據經過調整,可以將光流當作RGB圖像處理,所以在用光流數據訓練網絡時,用光流數據優調通過RGB圖像訓練得到的LRDCN模型。

學習率以及迭代次數:由于網絡已經預訓練過,使用更小的學習率可以減弱過擬合現象。當輸入RGB圖像時,基礎學習率設置為0.001,每迭代8000次,學習率縮小10倍,迭代20 000次時停止訓練。當輸入光流數據時,基礎學習率設置為0.001,每迭代20 000次,學習率縮小10倍,迭代70 000次時停止訓練。

Dropout值設置:Dropout是指在模型訓練時隨機讓網絡某些隱含層節點的權重不工作,不工作的節點可以暫時認為不是網絡的一部分,訓練過程中通過一定的概率隨機抽選不工作的節點,從而增加網絡的泛化能力。當使用RGB圖像訓練網絡時,將VGG16網絡的全鏈接層和LSTM層的dropout值設分別設置為0.9和0.5;當使用光流數據訓練網絡時,將VGG16全連接層和LSTM層的dropout值分別設置為0.7和0.5。

2.3 模型測試

定義同一視頻中連續的16幀作為一個測試單元,以8幀為步長,則長度為T的視頻序列中共含有(T-16)/8+1個測試單元。將每個測試單元分別輸入到LRDCN網絡中,最后取(T-16)/8+1個測試結果的平均值作為該段視頻的最終標簽。

3 實驗結果及分析

3.1 數據集介紹

UCF101[8]數據集包含101類行為,行為涵蓋體育運動、樂器演奏、人與人的日常交互等方面,每類行為至少有100段視頻,一共包含13 320段視頻。UCF101數據集官方將這13 320段視頻采用3種不同的劃分方式,從而獲得3組不同的訓練、測試集合。每組訓練數據集和測試數據集分別含有10 000段和3000段左右視頻,在使用時,訓練數據集與測試數據集必須成對使用,不得交叉使用。最終取在3組測試數據集合上的平均準確率作為最終結果,為與其它文獻對比,準確率以均值方式給出。

3.2 實驗結果

(1)特爾至強處理器E5-2603 v4;

(2)NVIDIA Tesla K80 GPU;

(3)Ubuntu 14.04;

(4)CUDA7.5。

3.2.1 VGG16網絡fc6與fc7層特征對精度的影響

VGG16網絡的fc6層與fc7層均提取得到1*4096維的特征,但實驗發現,無論使用RGB圖像或者使用光流數據,fc6層特征要好于fc7層特征。如表1所示,當使用RGB圖像時,fc6特征比fc7特征高0.7%;當使用光流數據時,與fc7特征相比,使用fc6特征準確率會提高1.6%,因此,后續實驗中均使用fc6層特征。

表1 卷積特征對結果影響

3.2.2 LSTM單元隱含層維度對精度的影響

LSTM單元隱含層維度對識別精度影響較大,實驗分析隱含層維度從128提高到1024對精度的影響,實驗結果見表2。當輸入RGB圖像時,LSTM隱含層維度從128增加到1024,其識別準確率提高4.94%。對于光流數據,當LSTM隱含層維度從128增加到512時,識別率提高4.7%,但當從512增加到1024時,準確率并沒有明顯區別。由于隨著隱含層維度的提高會導致訓練時間的增加,并且存在過擬合風險,因此在輸入RGB圖像時,LSTM單元隱含層維度設為1024,當輸入光流數據時,設置為512。

3.2.3 綜合RGB與光流圖

RGB圖像與光流圖像在信息上存在很好的互補性,結合RGB圖像與光流圖像的預測結果會進一步提高識別精度,見表3。將RGB圖像與光流圖像預測結果進行1∶1融合后,準確率提高到83.43%;進一步將預測結果進行1∶2 融合后,準確率提高到84.68%。結果均好于改進前的LRCN算法。

表2 不同LSTM隱層維度對精度影響

表3 不同LSTM隱層單元數對精度影響

3.3 UCF101數據集中不同算法的平均識別率

為了驗證算法的性能,表4給出與其它算法在UCF101數據集上的識別精度對比結果,從表中可以看出,改進算法在UCF101數據集上取得了84.68%的平均識別率,高于其它算法。

表4 不同算法綜合對比

4 結束語

對長效遞歸卷積神經網絡進行改進,提出LRDCN算法。使用預訓練、數據增廣等手段克服訓練深度神經網絡模型帶來的過擬合問題。并通過實驗分析了VGG16的fc6層與fc7層特征對識別精度的影響,以及LSTM單元隱含層維度對識別精度的影響。當結合RGB與光流信息時,在UCF101數據集上取得了84.68%的準確率,明顯高于LRCN,驗證了本算法的有效性。

算法中僅使用單層的LSTM網絡,對獲取視頻序列的時域特征存在一定局限性,通過疊加LSTM層可以增強網絡對時域信息的表達能力,未來會研究使用多層LSTM網絡對行為識別精度的影響。

主站蜘蛛池模板: 亚洲欧洲自拍拍偷午夜色无码| 亚洲VA中文字幕| 成人免费视频一区| 国内精品91| 久久久噜噜噜| 在线日韩一区二区| 就去色综合| 高清无码手机在线观看| 日韩精品少妇无码受不了| 国产在线自乱拍播放| 人妻一区二区三区无码精品一区| 久久这里只有精品66| 国产视频 第一页| 欧美成人影院亚洲综合图| 国产精品开放后亚洲| 亚洲天堂免费| AV网站中文| 伊人色婷婷| 国产日韩欧美精品区性色| 精品国产成人高清在线| 老熟妇喷水一区二区三区| 99国产精品免费观看视频| 国产成人精品高清不卡在线| 国产小视频免费观看| 国产哺乳奶水91在线播放| 99精品免费欧美成人小视频| 国产69囗曝护士吞精在线视频| 亚洲天堂.com| 波多野结衣一级毛片| 国产美女叼嘿视频免费看| 亚洲欧美精品一中文字幕| 欧美a在线看| 首页亚洲国产丝袜长腿综合| 丝袜无码一区二区三区| 日韩 欧美 小说 综合网 另类| 国产极品美女在线播放| 极品尤物av美乳在线观看| 国产第四页| 久久久久亚洲精品无码网站| 久久黄色一级片| 又爽又黄又无遮挡网站| 国产迷奸在线看| 久久精品只有这里有| 亚洲永久免费网站| 欧洲亚洲欧美国产日本高清| 天天色综网| 成人国产免费| 久久人人爽人人爽人人片aV东京热 | 精品夜恋影院亚洲欧洲| 国产精品美女网站| 婷婷六月天激情| 福利姬国产精品一区在线| 国产精品人莉莉成在线播放| aa级毛片毛片免费观看久| 欧美日韩在线亚洲国产人| 欧美亚洲中文精品三区| 激情综合网址| 1024国产在线| 日本一区二区三区精品国产| 欧美亚洲一二三区| 国产亚洲欧美在线中文bt天堂| 成人免费午间影院在线观看| 最新日韩AV网址在线观看| 国产午夜无码片在线观看网站| 日本精品视频一区二区| 亚洲三级电影在线播放| 亚洲色婷婷一区二区| 日韩欧美国产综合| 色综合热无码热国产| 欧美成人精品一级在线观看| 国产精品嫩草影院av| 亚洲高清无在码在线无弹窗| 亚洲高清中文字幕| 国产第一页亚洲| 2021国产乱人伦在线播放| 亚洲免费人成影院| 无码中字出轨中文人妻中文中| 九九热这里只有国产精品| 亚洲成人一区在线| 538精品在线观看| 国国产a国产片免费麻豆| 精品视频一区二区三区在线播|