999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于邊界敏感網絡的時序行為定位研究*

2023-09-29 05:51:58余思成
計算機與數字工程 2023年6期
關鍵詞:動作特征模型

余思成 彭 力

(江南大學物聯網工程學院 無錫 214000)

1 引言

為了保證自身的利益和安全,人們每年都會在不同的區域投放數百萬的攝像頭,這將會產生大量的記錄、傳輸和存儲視頻。視頻是一種有著密集的信息和背景變化復雜的媒介,為了減少日常繁瑣的視頻檢索任務,研究人員著手開發一項能夠檢測未修剪的視頻中發生人員活動片段的技術,這在計算機視覺中是一項具有挑戰性的任務,隨著互聯網的迅速發展,在引入卷積神經網絡之后,越來越多的算法也被研究者提出。

在視頻行為識別領域中,要對一段長視頻進行行為識別通常分為兩個步驟:行為分類和行為定位。在行為分類中很多算法已經達到了很高的準確性,大致分為兩種方法,第一種方法是Simonyan[1]等提出的雙流卷積網絡,他采用兩個二維卷積網絡分別提取視頻的時間和空間特征,最后進行特征融合,Wang L[2]等的TSN 算中在雙流卷積上增加了稀疏采樣的過程,解決了雙流卷積無法對長時間視頻建模的短板,本文的視頻特征提取部分也將采用此算法進行。第二種方法是直接使用三維卷積神經網絡提取時空特征,如3-Dimensionsal Convolutional Networks(C3D)[3],Tran 等把2D 卷積結構拓展到3D卷積結結構,對多幀連續的視頻序列提取時空特征,由于模型計算量小,所以比第一種方法速率快,但精確度不高。在行為定位領域中,GAO J[4]等提出了一種TURN 模型,借鑒Faster-Rcnn[5]中采用anchor的方式生成預測序列,并用時空坐標進行修正,Bush S[6]等的SST 算法網絡通過結構化時序金字塔對每一個動作實例的時序結構建模。在金字塔的頂端,引入一個判別模型進行視頻序列預測。

本文結合Lin T[7]提出的邊界敏感網絡(Boundary-Sensitive Network,BSN)算法,沿用了時序動作檢測的傳統的兩個階段,第一階段輸入原始視頻的圖像序列,為了獲得較高的準確率,通常引入光流來增強視頻的特征表達,原始圖片和光流序列經過二維卷積后,采用TSN 模型進行分數融合,生成視頻特征序列作為第二階段的輸入,然后使用三個獨立的模型分別進行動作時間預測,動作序列融合和預測序列置信度。本文主要貢獻如下:

1)改變了時序評估模塊中的網絡模型,在一維卷積中構造低級雙流特征,豐富了視頻原始特征的語義信息,使得生成的時序概率序列更加準確。

2)引入了目標檢測領域中的softer-NMS,應用在時序行為定位中,能夠實現修正最佳序列坐標的效果。

將改進的算法與baseline的邊界敏感網絡BSN以及目前的state-of-the-art 算法比較,通過在THUMOS-14 數據集上進行測試,證明該算法取得了較好的效果。

2 相關工作

算法主要包含三個模塊,依次為時序評估模塊,提名生成模塊和提名評估模塊,結構框圖如圖1所示。

圖1 BSN網絡框架

1)視頻特征編碼(visual encoder)

雙流法的視頻提取特征算法具有高效的性能,采用經典的雙流法TSN 用以提取視頻中豐富的特征信息,對每個包含T 幀的視頻分為T/ns T/ns個snippet 作為網絡輸入的最小單元,其中ns=16ns=16 為每個最小單元的長度。兩個通道均采用Inception-v4 作為基礎的卷積網絡,空間層將視頻的RGB 圖像作為網絡輸入,時空層的輸入的是包含x方向和y方向的兩張光流圖像,最終兩個網絡進行特征融合得到提取好的視頻特征作為下一個模塊的輸入。

2)時序評估模塊(Temporal Evaluation Module)

原BSN算法基于提取的圖像特征序列,時序評估模塊采用三層一維時序卷積層來對視頻序列中每個位置上動作開始的概率、動作結束的概率和動作進行的概率同時進行建模。本文框架延續了一維時間卷積層去探索局部語義信息,用以捕捉和判斷在時序邊界上的動作特征,不在特征提取階段將RGB特征和光流特征融合,而是在時序評估階段分別對其進行卷積融合構造低級雙流特征,從而生成動作開始概率序列,動作結束概率序列和動作概率序列。

3)提名生成模塊(Proposal Generation Module)

為了生成候選時序動作提名,將上一模塊輸出產生的時序序列中滿足條件的時間位置點篩選出來,組成多個候選序列。選擇動作開始和動作結束概率序列中滿足以下兩點條件之一的時間節點作為候選時序邊界節點:

(1)概率高于一個閾值;

(2)該時間節點的概率高于前一時刻以及后一時刻的概率(即一個概率峰值)。

然后將候選開始時間節點和候選結束時間節點兩兩結合,保留條件符合要求的開始節點-結束節點組合作為候選時序動作提名。對于生成的每一段候選序列,采用線性插值的方法生成BSP(Boundary-Sensitive-Proposal)特征,用于第三步的輸入。

4)提名評估模塊(Proposal Evaluation Module)

經過上述處理,生成的一個時序序列可以表示為Pro=()Ts,Te,Fbsp,Ts表示對應的動作開始時間點,Te表示對應的動作結束時間點,Fbsp表示通過PGM產生的BSP特征,該模塊采用一個簡單的多層感知器(MLP)對于每個時序序列進行置信度評估,置信度分數越高代表該時序序列是一個完整的動作序列的可能性越高。最后通過Soft-NMS 對結果進行非極大值抑制,降低算法產生重疊序列的可能性。

3 基于BSN的改進方法

3.1 生成時序概率序列模型

基于提取的圖像特征序列,時序評估模塊(TEM)接收時序視頻特征序列作為輸入,經過前期的視頻特征提取之后,每個視頻可以表示為V={Fw,ψw},其中Fw和ψw分別表示該視頻的特征序列和動作實例。對每一個動作實例ψw=(ts,te),其中的開始時序區域在模型中擴展為,結束時序區域擴展為,其中dg=ts-te,將作為該模型的輸入。

原算法僅采用3 層一維時序卷積層來對視頻序列進行建模,將視頻特征融合之后進行簡單的一維卷積會丟失掉視頻語義信息。為了豐富原始視頻特征,本文不在視頻特征提取階段提前將信息融合,而是利用兩個堆疊的一維卷積層分別對空間和時間特征進行卷積,如圖2 所示,時間和空間特征信息分別由Sf=Fconv(12Fconv11(S))和Tf=Fconv22(Fconv21(T))表示,然后在第二層將Sf和Tf進行融合構造低級雙流特征,dsf=Fsu(mSf,Tf)。Sf,Tf和dsf將分別采用三個卷積層用以生成三個動作特征序列Pa=(Fconv13(Sf),Fconv23(Tf),Fconv33(dsf)。

圖2 TEM網絡結構

定義一個1D-Resnet單元為

其中,x和y分別表示該殘差單元的輸入和輸出,F(x,w)表示經過2 次一維卷積之后的特征序列,W1和W2為單元中的卷積核權重,σ為激活函數,本文中采用Relu函數作為激活函數。

該模型結構組成如下:

1)輸入層(Input)為經過TSN 網絡得到的[nvmt,fd]序列,其中nv表示輸入的視頻數量,訓練集中數量為200,測試集為213,mt為時間最長的視頻序列長度,TSN 網絡的兩路輸出特征層維度都為1024,作為該網絡輸入的特征長度。

2)一維卷積(1D-Conv)分別對輸入的視頻特征卷積,過濾器設為512,卷積核大小為3,步長為1,并采用zero-padding填充保證尺度不變。

3)為加快模型收斂和防止梯度消失,在每一層卷積之后采用歸一化(Batch Normalization)操作,加快了訓練速度。

4)在歸一化之后添加dropout 層調節模型的泛化能力,這里參數設置為0.2。

5)對于構造出的低級雙流特征層,連接融合并采用下采樣(Down sample)改變特征維度,使得其與最后的輸出層特征相同。

6)全連接層(FC),其輸出維度為每個視頻的時序概率點,輸出格式為[nv*mt,cv,lp],其中cv=3表示輸出的是三通道,分別代表運動序列、開始序列和結束序列。lp分別是在時間軸上每個時間點關于行為,開始,結束的概率,從而生成動作概率序列,動作開始概率序列和動作結束概率序列,序列長度lp設為100。

在模型訓練時,考慮到這是一個多輸出的預測任務,分別計算三個預測部分各自的二元邏輯回歸損失函數Lbl,然后加權組合為該模型的損失函數,總體損失函數公式如下:

其中λ用來控制動作區域損失對結果的影響,實驗中λ=2,Lbl Lbl公式如下:

其中bi=sign(gi-θIoP)是用于轉換真值分數的二值函數,gi為在θIoP=0.5 指標下的真值iou分數,定義l+=和l-=lw-l+,均衡正負樣本數量

如表1 所示,經過模型的修改,能看出替換了時序概率階段的模型能夠在提議數量為100和200時有著近0.5 的召回率提升,相對于原始模型能夠更好地捕捉原始視頻特征信息,從而使得初步構建的時序概率曲線能將原始視頻表現的更加完整。

表1 不同模型下的召回率比較

3.2 非極大值抑制(non-maximum suppression)

在最后生成行為預測序列時,經常會出現大量用于表示同一行為的重疊序列,所以需要進行非極大值抑制從而排出重疊序列并識別和定位出我們想要看到的行為序列。NMS[8]算法被廣泛地應用在邊緣檢測和目標檢測中,主要用于解決分類器分類時,目標被大量的候選區域框包圍從而出現候選區域大量重疊的現象,該算法在時序行為定位領域同樣具有較好的效果。

傳統的NMS 是根據每個目標與得分最高目標的iou值,若大于規定閾值則刪除,低于閾值的保留。Soft-NMS算法在執行過程中不是簡單的對iou大于閾值的檢測框刪除,而是加入了高斯加權法對其進行降分,softer-NMS則是在非極值抑制之后對最終目標進行修正,具體算法如下:

1)對候選序列集合P中所有序列按照得分大小排序,選擇最大的框記為M。

2)分別計算所有的序列與M的iou值,大于某閾值的序列放入集合S中。

3)利用線性加權法將S集合中的序列逐一進行降分,并對集合S中的序列坐標進行加權平均計算,然后對M進行修正。

4)在P中刪除M,并將M放入有效結果集合R中,返回步驟1),直至P中無序列。

算法原理圖如圖3所示。

圖3 Softer-NMS算法步驟

Soft-NMS中采用高斯加權法降分,公式如下:

其中M為當前時序序列置信分數最大的序列,bi為待處理的時序序列,si是bi序列的置信分,IoU是兩者序列的重疊率,具體表達式如下:

其中A是預測序列,B是實際序列,由此可看出bi和M的IoU越大,bi的得分si就下降的越厲害。

Softer-NMS 中分別對所有IoU>Nt的預測序列坐標進行加權平均計算,得到兩個新的時間點,第i個時序序列的計算公式如下(j表示所有IoU>Nt的序列):

通過文獻Softer-NMS[9]中的實驗結果可知閾值Nt Nt設置為0.45到0.6效果最佳,通過實驗可得閾值Nt取為0.6 時能得到最佳效果。通過上述可知,為了解決時序行為定位中的預測序列重疊難以分辨,soft-NMS引入了高斯加權法對重疊部分進行降分,從而達到去除重疊時序的效果,但反而忽略了這些被降分的重疊部分的時序信息。Softer-NMS則是對這些被忽略的時序信息的時序坐標得分進行加權,實現了“多條合一”,優化了最佳候選序列坐標,充分利用了所有的時序序列信息,效果如圖4所示。

圖4 實驗效果展示

4 實驗結果與過程

4.1 數據集和評價指標

THUMOS 是一個包含大量的人類動作在真實環境中開源視頻數據集,其中人類動作包括刷牙、吹頭發等日常動作和汽車、打籃球等體育動作。THUMOS-14中包括行為識別和時序行為檢測兩項任務,帶有時序標注的視頻是用來驗證時序信為檢測算法,驗證集含有3007 個動作片段的200 個視頻,測試集含有2558 個動作片段的213 個視頻,動作類別共有20 個種類,目前大多時序行為算法都以此數據集作為評估。

評價指標通常采用平均召回率(Average Rec call)和平均視頻數量(Average Number of Proposals per Video)曲線(AR-AN),其中預測出的時序序列為正確目標的條件是該序列的時間區間和標注中的真實動作區間的tIoU(temporal intersection over union)大于等于一個閾值,遵照慣例通常設置tIoU=[0.5∶0.05∶1.0],AN具體定義公式如下:

4.2 實驗對比及其分析

實驗采用python2.7 編程,均在ubuntu16.04 操作系統下進行,處理器為intel i7-8700,主頻是3.20 GHz,內存是16G。顯卡是NVIDIA Geforce GTX 1070,顯存為8G。為了證明算法的有效性,論文實驗在THUMOS-14 數據集上與目前的state-of-the-art算法進行比較,結果如表2所示。

表2 不同tIoU下的召回率比較

根據實驗結果表明,本文的算法相比于baseline的BSN能夠提升1%~2%的精確度,在特征提取方面,雙流卷積相對于3D 卷積提取到的視頻信息更加豐富,在時序行為定位任務中也應用地更加廣泛。當候選提議數量處于50~200 之前,基于局部到全局生成時序概率曲線的方式要優于傳統的滑動窗口方法和anchor 方式,有明顯的召回率提升。本文中因為加深了第一步的網絡模型,使得整個算法能夠處理到更多的視頻語義信息,在極大值抑制時能夠修正最終序列,最終提高了提議數量少時的召回率,但在提議數量較大時提升不明顯。

5 結語

提出了一種基于局部到全局的BSN改進算法,替換了原算法的基礎網絡,構造低級雙流特征,豐富了視頻的原始特征信息,并在非極大值抑制階段引入了softer-nms 對預測序列進行修正,得到了更加準確的時序動作坐標。在共享數據集THUMOS14中的實驗結果表明,文本的算法在視頻不同的提議數量指標下均有提升。由于生成的時序概率序列的長度固定,基于局部到全局的方法能夠在提議數量較少時有著領先的精度,但在面對長時間的視頻建模卻稍顯乏力,未來將繼續改進該方法,解決時序長度不靈活的缺點,將多個模塊聯合化學習。

猜你喜歡
動作特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
動作描寫要具體
抓住特征巧觀察
畫動作
動作描寫不可少
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲一区二区三区国产精品| 波多野结衣二区| 亚洲美女操| 国产精品私拍在线爆乳| 亚洲国产欧美自拍| 色男人的天堂久久综合| 丁香五月婷婷激情基地| 99久久精彩视频| 国产一级毛片网站| 亚洲第一香蕉视频| 亚洲成人一区在线| 手机在线看片不卡中文字幕| 99精品视频九九精品| 在线日韩日本国产亚洲| 国产成人一区| 黄色不卡视频| 久草视频福利在线观看| 免费大黄网站在线观看| 欧美一级黄色影院| 超碰aⅴ人人做人人爽欧美| 九九九国产| 亚洲啪啪网| 欧美一级在线看| 午夜国产大片免费观看| 丰满人妻一区二区三区视频| 91福利免费| 亚洲欧美日韩中文字幕在线| 怡春院欧美一区二区三区免费| 亚洲天堂视频网站| 国产欧美日韩另类精彩视频| 最新精品久久精品| 99久久无色码中文字幕| 国产熟女一级毛片| 午夜无码一区二区三区| 国产视频大全| 欧美成在线视频| 免费国产在线精品一区| 国产无码精品在线播放| 欧美激情视频二区三区| 国产精品人莉莉成在线播放| 全午夜免费一级毛片| 久草视频福利在线观看| 四虎永久在线精品国产免费| 欧美亚洲国产日韩电影在线| 欧美一级黄色影院| 国产精品私拍在线爆乳| 久久综合九色综合97婷婷| 亚洲成aⅴ人在线观看| 亚洲成人黄色在线观看| 亚洲精品天堂在线观看| 国产精品自在线拍国产电影| 亚洲午夜福利精品无码不卡| 69综合网| 欧美日韩成人在线观看| 国产18在线| 久久精品视频一| 中文字幕在线免费看| 国产噜噜在线视频观看| 色久综合在线| 婷婷综合缴情亚洲五月伊| 四虎AV麻豆| 久久鸭综合久久国产| 亚洲精品片911| 亚洲第一福利视频导航| 无码有码中文字幕| 精品少妇人妻一区二区| 国产第八页| 亚洲无限乱码| 国产成人乱无码视频| 亚洲精品自在线拍| a级毛片毛片免费观看久潮| 欧美色伊人| 国产高清自拍视频| 在线另类稀缺国产呦| 亚洲综合精品香蕉久久网| 全免费a级毛片免费看不卡| 国产福利一区二区在线观看| 免费高清a毛片| 国产欧美视频综合二区| 女同国产精品一区二区| 国产在线视频自拍| 亚洲天堂免费观看|