999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于3D-SVD的時空行為定位算法①

2022-01-06 06:05:02王紫煙張立華杜洋濤
計算機系統應用 2021年10期
關鍵詞:特征提取

王紫煙,張立華,2,3,4,翟 鵬,5,杜洋濤

1(復旦大學 智能機器人研究院,上海 200433)

2(季華實驗室,佛山 528200)

3(智能機器人教育部工程研究中心,上海 200433)

4(吉林省人工智能與無人系統工程研究中心,長春 130012)

5(上海智能機器人工程技術研究中心,上海 200433)

時空行為定位技術是一種針對目標行為的智能視頻分析技術,即在視頻幀進行行為分類并產生與行人空間位置相關的定位框序列.旨在不需要人為干預的情況下,利用計算機視覺和視頻分析方法對攝像頭下的人類行為或視頻網站上的視頻進行自動分析,在智能體育和智能監控領域有著廣泛的應用.

時空行為定位技術在時間和空間上同時定位人體的行為,這在計算機視覺領域是一項非常重要的任務.為了解決這個任務,早期Weinzaepfel等[1]采用CNN網絡和時空運動直方圖描述符對軌跡進行評分來確定行為的空間位置,并采用多尺度滑動窗口進行時間定位.在雙流網絡和3D-CNN網絡應用于行為識別任務之后,由于其優秀的性能,此后的時空行為定位工作大多基于這兩個框架進行.這些算法通常又包括兩個部分:生成幀級動作和生成幀間關聯.為了生成更準確的幀級動作,Peng等[2]將RPN擴展到光流數據上訓練運動的RPN,以此來提高幀級行為檢測的性能.Yang等[3]提出了級聯方案,采用級聯區域提議網絡生成幀級動作.

幀間關聯一般又稱為行為管道的構建,多采用貪婪算法和動態規劃算法.為了更高效地找到行為管道的多重路徑,Alwanda等[4]開發了一種低成本的動態規劃算法并利用相鄰幀的時間一致性修正了不準確的行為邊界框.此外,因為行為管道可以利用視頻幀的時間連續性特征定位行為的時空位置,所以為了更好的利用這一特性,Hou等[5]在3D-CNN的基礎上提出了一個tol池化層,緩解了行為管道上時空的再變化問題.Kalogeiton等[6]則對每個行為框進行精修來得到更準確的行為管道.Li等[7]利用LSTM結構捕捉時間信息,并使用維特比算法連接每一幀的行為框形成行為管道.在以上工作的基礎上,He等[8]構建了一個新的行為定位框架,并利用TPN生成了通用的行為管道.

以上的工作在行為定位任務上均有著不錯的表現,但是其中很多工作基于雙流網絡或者3D-CNN進行,雙流網絡中的光流網絡分支計算效率低,而3D-CNN參數量大,在一定程度上也存在著精度與計算效率之間的矛盾.為了緩解該矛盾,Qiu等[9]提出了P3D網絡,在這個網絡中用二維空間卷積和一維時間卷積來模擬3D卷積以降低參數量.在P3D的基礎上,Tran等[10]做了大量的實驗探索類似的架構,并將其重新演繹為(2+1)D.

本文為了解決3D-CNN計算量大的問題,從3D卷積核自身出發,將二維層面的SVD思想擴展到3D-CNN中得到3D-SVD,有效的降低了3D卷積網絡的參數量,并基于3D-SVD提出了一個時空行為定位網絡框架.首先,在數據集的處理上,我們加入了mixup算法進行數據增強,豐富了數據集的內容.其次,我們構建雙流網絡架構對行為進行識別并定位,采用空間定位網絡和時空特征提取網絡融合的方式,并使用3D-SVD對三維卷積網絡進行優化.最后,采用序列重排序算法和動態規劃算法對行為管道進行構建,可以有效降低行為的空間漂移對定位結果的影響.根據實驗結果表明,我們的網絡在兩個公開的數據集上指標都有所提升.

1 相關工作

本文的主要研究內容包括時空行為定位,行為管道構建和數據增強3個部分.時空行為定位和行為管道構建可以對視頻中的行為進行定位和分類.而時空行為定位網絡需要大量的視頻數據來進行訓練,因此數據增強也是時空行為定位任務中常見的子任務.

1.1 數據增強

數據增強是一種數據擴增技術,可以在有限的數據集上進行擴充得到更多的數據來幫助訓練.常用的數據增強技術有圖像翻轉、裁剪、縮放等幾何層面上的增強方式,也有增加噪聲、進行填充、顏色變換等顏色層面上的增強方式,這兩種圖像增強方式都是在單個圖像上進行操作的圖像增強技術.除此之外,還有在多個圖像上進行操作從而產生新圖像的圖像增強技術.其中,SMOTE算法[11]利用插值來改變數據集的類不平衡現象,SamplePairing算法[12]將不同的圖像分別進行處理后再疊加來得到新的樣本.近幾年生成對抗網絡[13]逐漸興起,這種網絡可以通過一個生成網絡隨機的生成圖像,再通過一個判別網絡判斷生成的圖像是否“真實”.這樣通過網絡的學習,來隨機生成與數據集分布一致的圖像集合,將有限的數據內容變得更加的豐富.

1.2 時空行為定位

時空行為定位任務可以同時完成行為檢測和行為分類兩個任務.行為檢測實質上是一個目標檢測任務,可以檢測出目標行為在時空的具體位置.一般目標檢測任務是幀級層面上的檢測任務,RCNN[14]作為基于區域的檢測算法,使用選擇搜索算法在圖像上提取出可能包含物體的區域,然后使用分類網絡得到每個區域內物體的類別.在此基礎上,Faster RCNN[15]提出了RPN代替了RCNN中的選擇搜索算法,Fast-RCNN[16]共享了卷積計算提高了特征的利用效率.為了進一步提高目標檢測算法的實時性,YOLO[17]和SSD[18]將檢測任務統一為一個端到端的回歸問題,目前的YOLO版本能夠現階段最優的檢測結果.在幀級目標檢測的基礎上,時空行為定位任務還需要對行為進行時序上的檢測,大多采用構建行為管道的方法,輔以雙流網絡[19]和3D-CNN[20]網絡來進行時空行為定位.最近有工作將2D特征和3D特征構建雙流網絡[21],進行了通道融合得到了很好的結果.但上述時空行為定位方法采用的3D-CNN網絡具有很大的參數量,導致整體網絡計算負擔過大.

1.3 行為管道構建方法

構建行為管道即從視頻片段每一幀檢測到的一系列行為框中找到最優的行為框路徑,將其鏈接為行為管道,行為管道的構建方法決定了時空行為定位的準確性.行為管道構建實際上是一個最優路徑搜索問題,有學者采用貪婪算法[12]增量的生成多個行為管道,再利用動態規劃的方法找出最優的行為管道.還有學者采用維特比算法[7]鏈接不斷遞增的行為框以此形成多通道的行為序列.為了更高效地搜索到行為管道,優化動態規劃算法來增強整體算法效率也成了研究方向之一,基于此有學者開發了一種低成本的能在單次運行中找到多重路徑的算法[4].除此之外,HISAN[22]在動態規劃的基礎上采用了SR算法減少了邊界框在鏈接過程中遮擋和背景的影響,并采用多路徑搜索算法進行優化,一次迭代就能找到所有可能的路徑.

2 基于3D-SVD的行為定位算法

本文構建了一個端到端的框架,可以定位視頻中的多個行為,在這個框架下可以同時提取到關鍵幀的二維特征和輸入片段的三維特征.基于3D-SVD的行為定位算法整體框架如圖1所示,分為3個主要部分:空間定位網絡、時空特征提取網絡和行為管道構建.接下來,介紹本文框架的具體結構.

圖1 整體框架圖

2.1 雙流網絡結構

空間定位網絡和時空特征提取網絡組成了一個雙流網絡.空間定位網絡分支采用Darknet-53[23]作為主干網絡,利用視頻關鍵幀的二維特征來實現行為的空間定位.時空特征提取網絡分支在傳統三維卷積網絡的基礎上采用SVD的思想,SVD矩陣分解如圖2(a)所示.本文將SVD的矩陣分解思想擴展到三維層面,將3D卷積核進行分解,這樣分解矩陣能夠共享視頻不同維度的權值,減少傳統三維卷積網絡的參數量,我們將其稱為3D-SVD.

圖2 SVD和3D-SVD分解對比

3D-SVD將3D卷積核分解的過程可以用Tucker分解來表示,如圖2(b)所示.假設X是大小為t×h×w的三階張量,進行Tucker分解后為:

其中,g的大小為r1×r2×r3,T的大小為t×r1,H的大小為h×r2,W的大小為w×r3,即:

當g為h×t×w時,可以得到視頻的3個視角,正常視角W-H、沿著時間維度的高度信息視角H-T和沿著時間維度的寬度信息視角W-T,與CoST網絡[24]相似.

設輸入的特征圖的大小為T×H×W×C1,是輸入通道.那么3個視角的輸出特征圖為:

然后將3組特征圖進行加權求和:

如式(3)所示,3個視角的卷積核共享權重,3DSVD能夠對視頻3個視角的特征進行融合,從而實現視頻的行為分類.

3D-ResNeXt-101網絡[25]在Kinetics數據集上獲得了很好的表現,因此將3D-ResNeXt-101網絡作為時空特征提取網絡的主干網絡.3D-ResNeXt-101的網絡結構如表1所示,在此基礎上將其中的中間層卷積替換為如圖3(b)所示的3D-SVD結構即可有效的減少參數量,并能得到所需要的時空信息.

圖3 殘差單元對比

表1 3D-ResNeXt-101結構

在時空特征提取網絡這個分支中,輸入是由一系列連續幀所組成的視頻片段,經過3D-ResNeXt-101網絡后輸出為[幀數×高度×寬度×3]的特征圖,為了和空間定位分支網絡輸出的特征圖相匹配,將時空特征提取網絡輸出的特征圖的深度維數減少到1.

2.2 基于序列重排序的行為管道構建

在進行定位和分類的過程之中,行為的空間漂移會導致其定位精度的降低.因此,采用序列重排序算法,可以減少運動漂移對檢測的影響從而鏈接到行為管道的正確路徑.

接著采用非最大值抑制算法將邊界框的數量減少到Nnms

2.3 數據增強—mixup算法

在實際的行為定位任務中,Okan等[21]采用了圖像抖動、改變圖像飽和度、色調和曝光度等技術對行為定位數據集的訓練部分進行了圖像增強.這些圖像增強操作可以有效的生成不同光照條件,不同視角以及不同環境下的圖像,提高了訓練的效果.但是這些變換都是基于單個圖像進行的操作.行為定位任務實際環境復雜,所以我們需要一種增加數據多樣性的數據增強方法來增加算法的魯棒性.考慮到系統的效率,我們增加了同樣是利用了插值特性的mixup算法對已有的數據集進行進一步的圖像增強操作.這種算法是一種利用了線性插值增強新樣本數據的數據增強方法,基于領域風險最小化原則的數據增強方法.

設x為數據,y為數據標簽,P(x,y)為兩者的聯合分布,l(.)為損失函數,經驗風險為:

訓練集{x,y}用狄拉克函數近似表示為:

數據量完成由n到m的增廣之后,式子變換為:

其中,v代表鄰域分布,mixup采用了線性插值的方法,用線性表達代表鄰域分布.

設(xi,yi)和(xj,yj)為在訓練集中隨機選取的兩個樣本點,則插值產生的新的數據點為:

3 實驗結果及分析

為了評估算法的性能,本節在UCF101-24和JHMDB-21兩個流行且具有挑戰性的數據集上進行了訓練和測試實驗,并將實驗結果與其它算法的結果進行比較和分析.

本文的實驗均在配有4張32 GB顯存的DGX STATION上進行,在Linux操作系統下使用PyTorch框架作為運行環境.

3.1 實驗數據集和評價指標

UCF101-24是UCF-101的子類數據集,包含24種行為類別和3207個帶有行為邊界框標注的視頻,提供了行為的類別和空間標注信息.

J-HMDB-21是HMDB-51的子類數據集,包含21種行為類別和928個短視頻.在每個視頻的所有幀中都有一個行為實例.

兩個公開數據集中的數據來源于視頻網站上真實場景下所拍攝的視頻,主要包含體育運動行為和日常生活行為,如圖4和圖5所示.

圖4 UCF101-24數據集

圖5 J-HMDB-21數據集

評價指標:在時空行為定位任務中最常用的評價指標為Frame-mAP和Video-mAP,前者是對于幀的度量,代表了每幀檢測的召回曲線下的區域,后者是對于行為管道的度量,視頻平均每幀與真實標簽的IOU超過了實驗設定的閾值,并且準確的預測了行為的類別,則行為管道是正確的實例.最后計算每個行為類別的平均精度.

3.2 實現細節

本文采用了雙流網絡的框架,需要對提取空間信息的2D網絡參數和提取時間信息的3D網絡參數進行初始化.采用了在PASCAL VOC上進行了預訓練的2D模型和在Kinetics上進行了預訓練的3D模型.在本文的模型之中,兩個網絡的參數可以進行聯合更新.設置初始的學習速率為0.0001.

對于時空特征提取網絡輸入的視頻剪輯長度,因為長序列往往包含更多的時間信息,因此采用16幀的剪輯長度,并將下采樣率設置為1.在模型進行訓練之前,除了采用mixup算法進行數據增強之外,同時采用了圖像水平翻轉、隨機剪裁、改變圖像色調和飽和度這樣基礎的數據增強操作,將圖像統一隨機縮放為224×224大小的圖像輸入網絡.

3.3 雙流網絡消融實驗

本文采用了雙流網絡框架.在傳統的雙流網絡中,單獨的二維卷積網絡和單獨的光流網絡都無法對行為的時空信息進行準確的判斷,所以一般采用兩個網絡融合的結果.為了對每條網絡分支的作用做出更準確的判斷,本文設置了消融實驗來判斷雙流結構是否能得到更好的結果.

實驗采用Frame-mAP、定位召回率和行為分類準確率3個指標.其中,定位召回率指的是正確定位的行為數與真實標簽行為總數之比.

在兩個數據集上分別進行的消融實驗表明,空間定位網絡和時空特征提取網絡進行融合后能得到更好的平均精準度,比單獨的時空特征提取網絡提高了9.5%和15.9%,如表2和表3所示.此外,空間定位網絡在定位上能得到更好的結果,定位精度比時空特征提取網絡高3%和14.4%,時空特征提取網絡在行為分類上能得到更好的結果,分類精度比空間定位網絡高8.3%和16.1%.因此空間定位網絡更關注空間特征,時空特征提取網絡更關注時間特征.采用這兩個網絡融合的方法能更好的融合時空信息.

表2 在UCF101-24上的實驗結果(%)

表3 在J-HMDB-21上的實驗結果(%)

3.4 數據增強算法消融實驗

為了更直觀的判斷mixup算法對于本文行為定位方法的影響,進行了關于數據增強算法的消融實驗,結果如表4所示.根據表4可知,增加mixup算法能有效的擴充數據集,使訓練過程更加的有效,得到更好的結果.

表4 不同數據增強下的Frame-mAP(%)

3.5 比較實驗

本小節比較了本文提出的算法和其它相關算法在UCF101-24和J-HMDB-21兩個公開數據集上的Frame-mAP和Video-mAP,并在不同的IOU上進行了對比實驗.本小節對比的算法皆為近幾年論文產出結果,其中一部分方法在某些指標上擁有先進的結果[5,6,26],一部分采用了與本文相似的雙流網絡結構和動態規劃算法,具有比較意義[2,4,27,28].

實驗結果如表5所示,對比兩個數據集上的FramemAP指標,本文提出的方法相對于之前的方法分別提升了7.1%和5.8%,具有良好的性能.

表5 不同模型Frame-mAP對比(%)

此外,我們對比了兩個數據集上的Video-mAP性能指標,如表6和表7所示.在IoU閾值分別為0.2和0.5的情況下,本文提出的方法在J-HMDB-21數據集上總是優于當前的方法,分別提高了5.2%和5.3%,另外在UCF101-24數據集上的改進稍遜色于在J-HMDB-21上的結果,這是由于J-HMDB-21擁有更多相似子行為序列的行為類別.根據目前的實驗,隨著IoU數值的改變,Video-mAP也會隨之變化,實驗結果表明,在IoU為0.2時,能得到最好的結果.

表6 不同模型在UCF101-24上Video-mAP對比(%)

表7 不同模型在J-HMDB-21上Video-mAP對比(%)

3.6 結果可視化

最后,對圖6的時空定位網絡可視化輸出結果進行分析.由圖6(a)-圖6(c)可得,本文所用的方法在背景簡單的情況下可以準確的進行視頻行為定位任務,在視頻序列中定位行為發生的空間位置并識別行為的類別.圖6(d)和圖6(e)則表明,面對同一類行為的時空定位,在背景有與行為類別無關的行為發生時,可能會產生誤判的行為.同時,圖6(d)和圖6(e)與Saha等[28]的可視化結果進行對比表明,本文的方法在行為產生重疊的情況下也能得到準確的結果.

圖6 定位和行為識別可視化

4 結論與展望

本文提出了一種基于3D-SVD的時空行為定位算法,用于解決行為定位任務中3D網絡參數量過大的問題.本文算法基于雙流網絡的框架實現,在雙流網絡的框架下同時訓練了空間定位網絡和時空特征提取網絡,將SVD算法引入3D卷積中,構建了能將3D卷積核進行分解的3D-SVD,降低了網絡的參數量,實現了行為的定位和分類; 利用mixup算法進行了數據增強,輔以基礎數據增強操作對數據集進行增廣; 并采用序列重排序算法和動態規劃算法構建了更為合適的行為管道.在兩個常用的公開數據集上進行實驗的結果表明,本文的模型在各指標上能獲得較優的結果.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 久久永久免费人妻精品| JIZZ亚洲国产| 三区在线视频| 中文字幕免费视频| 欧美日韩成人| 欧美日韩91| 99re热精品视频中文字幕不卡| 国产又黄又硬又粗| 97人人做人人爽香蕉精品| 国产高清又黄又嫩的免费视频网站| 日韩麻豆小视频| 亚洲精品无码在线播放网站| 91久久国产综合精品| 中文字幕首页系列人妻| 在线人成精品免费视频| 韩国自拍偷自拍亚洲精品| 国产成人高清精品免费| 综合社区亚洲熟妇p| 国产激情无码一区二区三区免费| 国产亚洲精久久久久久久91| 免费人成网站在线高清| www亚洲天堂| 尤物视频一区| 天天色天天综合网| 99精品免费在线| 欧美不卡在线视频| 亚洲无码视频图片| 国产大片喷水在线在线视频| 欧美另类第一页| 国产精品99r8在线观看| 亚洲综合九九| 国产三级韩国三级理| 老司国产精品视频| 91小视频在线观看| 日韩中文无码av超清 | 熟女成人国产精品视频| 乱码国产乱码精品精在线播放| 国产微拍一区二区三区四区| 亚洲欧美成人在线视频| 色综合日本| 欧美日韩综合网| 日韩成人在线视频| 亚洲人成网站18禁动漫无码| 色偷偷综合网| 亚洲精品爱草草视频在线| 亚洲人成网站在线播放2019| 国产午夜福利在线小视频| 中文字幕亚洲无线码一区女同| 日韩午夜伦| 婷婷五月在线视频| 欧美人人干| 亚洲人成成无码网WWW| 久久精品中文字幕免费| 免费一级全黄少妇性色生活片| 免费观看三级毛片| 国产精品露脸视频| 在线欧美a| 精品久久久久久成人AV| 97国产一区二区精品久久呦| 高清不卡一区二区三区香蕉| 久久久久青草线综合超碰| 欧美日韩v| 国内精品自在自线视频香蕉| 日本欧美午夜| 免费看黄片一区二区三区| 最新亚洲人成网站在线观看| 日韩在线1| 色婷婷亚洲十月十月色天| 全部毛片免费看| 好吊色妇女免费视频免费| 欧洲在线免费视频| 国产在线自揄拍揄视频网站| 韩国v欧美v亚洲v日本v| 国产成人精品一区二区秒拍1o| 亚洲欧美不卡| 无码一区18禁| 亚洲欧美精品日韩欧美| 天天综合网亚洲网站| 国产a v无码专区亚洲av| AV无码一区二区三区四区| 在线色国产| 国产第一页亚洲|