999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多階段邊界參考網絡的動作分割

2022-03-07 05:44:08毛琳曹哲楊大偉張汝波
光學精密工程 2022年3期
關鍵詞:動作信息

毛琳,曹哲,楊大偉,張汝波

多階段邊界參考網絡的動作分割

毛琳,曹哲*,楊大偉,張汝波

(大連民族大學 機電工程學院,遼寧 大連 116600)

針對現有動作分割算法中過分割問題導致預測錯誤、造成分割質量下降的現象,提出一種可調視頻動作邊界信息作為參考的多階段參考網絡,在基于多階段時間卷積網絡的主干網絡中,為每個階段獨立引入視頻動作邊界信息作為參考。各階段使用相同的邊界信息會使模型固化,為使主干網絡能夠調整參與各階段輸出計算的邊界值,對不同樣本區分處理,提出多層并行卷積組成的權重調節單元。多階段參考網絡由于利用可調邊界信息作為參考,按照時序平滑處理各階段輸出,能顯著減少過分割錯誤。實驗表明,該方法在三個視頻動作分割數據集GTEA,50Salads和Breakfast中的性能優于現存同類方法,與BCN(Boundary-Aware Cascade Networks)算法相比,分割編輯分數平均提升1.7%,準確率與召回率的調和分數平均提升1.5%。

視頻動作分割;時間卷積網絡;視頻動作邊界;未裁剪視頻

1 引 言

針對未裁剪視頻的動作分割是計算機視覺領域中最有挑戰性的任務之一,應用前景包括行為分析、視頻監控、人機交互以及視頻審核等多個領域。現有的動作分割算法普遍存在過分割問題,即原本連續的長動作區間內預測出短暫或單幀的錯誤分割結果。過分割會明顯降低動作分割質量,使算法在實際應用中的可靠性降低。

近年來,圖像及短視頻中的人體動作識別任務已經取得很大的進展[1-2],但針對未裁剪的長視頻中的動作分割任務尚未被廣泛研究。解決長視頻中的動作分割任務,需要很好地處理時序問題,傳統的卷積神經網絡不適合時序問題的建模,受卷積核大小的限制,不能很好抓取長時依賴關系。受語音合成領域中使用時間卷積網絡的WaveNet[3]的啟發,研究人員嘗試將類似思想用于視頻動作分割任務中。Lea等人提出一種用于動作分割的時間卷積網絡(Temporal Convolutional Networks,TCN)[4],在多種任務上效果甚至超過公認適用于處理時序問題的循環神經網絡(Recurrent Neural Network,RNN)[5]和(Long Short-Term Memory,LSTM)[6-7]。在此基礎上,Farha等人提出多階段時間卷積網絡(Multi-Stage Temporal Convolutional Network,MS-TCN)[8],每一階段都采用感受野逐層遞增的多層空洞卷積,隨著層數加深獲得的視野范圍增加,可以更好地抓取長時信息。此后,視頻動作分割算法大都采用多階段網絡結構。MS-TCN的改進工作聚焦于網絡復雜度的提升,如MS-TCN++[9],在MS-TCN的基礎上添加感受野遞減的反向多層空洞卷積,彌補感受野缺失。上述算法在處理過分割問題時,大都采用添加平滑損失函數的方法,但改善效果有限。

既然單純依靠網絡自身的調整能力很難解決過分割問題,一些學者就嘗試通過引入外部信息來幫助網絡減少過分割錯誤。Wang等人提出一種結合動作邊界信息的級聯型網絡(Boundary-Aware Cascade Networks,BCN)[10]。該網絡使用具有動態建模能力的多階段網絡結構,根據樣本的難易程度自適應地采用不同的子網進行處理,淺層子網處理簡單樣本,深層子網處理難樣本,以此提高難例樣本的分類精度。但強大的細分能力帶來更嚴重的過分割現象,作者提出引入“動作邊界”,結合特殊的池化方法,來對主干網絡的輸出結果進行平滑處理,減少過分割錯誤。但是引入“動作邊界”對預測結果進行改善的方法,往往都只對主干網絡的輸出結果進行處理。

在一個多階段網絡中,僅添加單一的后處理過程難以促進網絡進行調整,在每個階段分別給予相應的參考信息,按照時間順序優化各階段輸出而減少網絡產生過分割錯誤成為一種可能。綜上所述,本文在BCN基礎上提出一種多階段邊界參考網絡(Multi-Stage Boundary Reference Network,MBNet),將邊界信息引入多階段主干網絡中,對邊界信息的利用更加充分,并增加權重調整卷積層,改變參與各階段計算的邊界值,在賦予網絡更多參考信息的同時,其可調性有助于避免多次使用相同邊界信息而導致的模型固化,幫助多階段網絡降低過分割錯誤的可能性。

2 多階段邊界參考網絡

動作分割任務適用于多種動作連續發生的細致場景,例如生產線上、視頻監控等單一場景連續動作的檢測與識別。分割過程需要對每一幀進行分類,但IOU(tIOU)在一維時序空間上計算時,會對小段孤立錯誤非常敏感,致使過分割問題影響輸出的分割質量。過分割問題的產生是因為網絡的細分能力過強,在長動作區間內產生短暫或單幀錯誤的預測結果。減少過分割錯誤的方法是保持動作類內部預測的一致性,這就需要確定不同動作類之間邊界的時間位置,動作邊界信息可以給網絡提供規范性參考,減少過分割。

自MS-TCN提出多階段時間卷積網絡結構后,動作分割算法基本上沿用多階段結構。采用多階段結構的優點是能多次優化每一幀的預測結果,使結果趨于準確,這也表明過分割錯誤并不是有規律地由單一階段產生,而是多層調整后仍然存在的,其產生由多階段處理共同造成。引入動作邊界信息的方法,致力于改善網絡的最終預測結果,忽略了過分割產生的根本原因,效果有限。本文引用BCN結構,提出為多階段網絡的每個階段引入邊界信息,按時序優化各階段輸出。在處理不同樣本時,網絡各階段需要的邊界信息其實并不相同,調節不同階段邊界信息的參與度,能有針對性地減少過分割問題的產生。因此,一種可調節的邊界信息參與特征序列計算方式,是實現多階段參考方案的關鍵。

2.1 結合邊界的池化方法

為使邊界信息參與各獨立階段的輸出計算,并賦予可調性,本文在BCN的局部邊界池化方法(Local Barrier Pooling,LBP)基礎上,提出帶權重調整的結合邊界池化方法(Weight-adjustment Local Barrier Pooling,WLBP)。

LBP把動作邊界作為池化中的限制條件,對于每一幀,在一個固定窗口下,以當前幀為中心,向兩個方向計算權重,遇到障礙自適應地遞減權重。其數學表達如下:

圖1 權重計算方式

為簡化式(1),設:

則式(1)等效為:

圖2 權重調節單元結構

圖3 帶權重調整的結合邊界池化方法的結構

2.2 多階段參考網絡

每階段的置信分數很關鍵,既用來生成下一階段的權重,又結合權重輸入到最后融合階段。所以將邊界信息用來參與每階段置信分數的生成,平滑處理每階段潛在的過分割錯誤,關聯整個網絡,對邊界信息的利用達到最大化。使用WLBP的任意單個邊界參考結構如圖4所示。

總體來說,MBNet在多階段網絡的每個階段使用WLBP引入可調邊界信息,在處理不同樣本時各階段有針對性參考邊界信息,在主干網絡輸出結果上使用LBP結合邊界信息進一步減少預測結果中的過分割。網絡整體結構如圖5所示。

算法流程如下:

第1步:使用訓練好的I3D[12]網絡提取視頻特征,分別輸入主干網絡與邊界生成模塊。

第2步:預訓練邊界生成模塊,提前優化參數,使模塊能夠穩定生成可信邊界值。

第3步:使用WLBP方法,讓邊界信息參與每階段置信分數以及融合階段輸入的生成。使用LBP方法,結合邊界信息優化分割結果。

第4步:將主干網絡與邊界生成模塊聯合訓練,使邊界模塊提供更準確的邊界信息輔助網絡整體訓練。

圖5 MBNet結構

3 實驗結果分析

3.1 數據集

本文在3個動作分割數據集上測試,分別是GTEA,50Salads和Breakfast,基本情況如表1所示。其中,GTEA和Breakfast數據集都分為4批,使用4倍交叉驗證,即取1批作為測試集,其余3批作為訓練集,依次實驗4次,取均值作為最終結果,50Salads數據集分5批,使用5倍交叉驗證,取均值作為最終結果。

表1數據集介紹

Tab.1 Introduction of dataset

3.2 實驗參數

評估指標為幀級準確度(Acc)、分割編輯分數(Edit Score)和時間交叉閾值為0.1,0.25和0.5的F1分數(F1@{10,25,50})。常用的精度指標沒有考慮預測的時間結構,也沒有反映過分割錯誤,即使含有大量不符合人類動作連續性的動作片段也能得到較高的分數。因此,本文采用TCN提出的Edit分數和MS-TCN提出的F1分數來懲罰過分割錯誤。

3.3 WLBP卷積層數分析

在提出的多層卷積并行融合結構中,雖然增加卷積層可以提升邊界信息的調整效果,但不能無止境添加卷積層來提高效果。為明確卷積層數對改善過分割問題效果的影響,本文設置實驗分析添加1到4層卷積對Edit分數和F1分數的影響,效果對比如圖6所示。

圖6 卷積層數測試

經測試對比發現,卷積層數為3時Edit分數和F1分數綜合達到最佳效果,繼續增加層數反而導致性能下降,所以卷積層數為3是綜合性能提升的最佳層數。

為檢驗權重調節單元對調權邊界系數是否進行了相應的調整,本文選擇GTEA數據集中的一個視頻,將網絡第一階段調整前后的調權邊界系數可視化進行對比,如圖7所示。

圖7 調整前后調權邊界系數對比

相比于調整前的調權邊界系數,可以看出網絡自適應調整后的調權邊界系數的映射區間不局限于0~1之間,同時還進行細微調整,證明權重調節單元的有效性。

3.4 多階段參考效果對比

為驗證多階段參考方案的有效性,利用消融實驗,首先將LBP方法用于前序階段,不使用添加權重調整結構的WLBP,僅測試多階段參考方案的效果。使用中等規模的50Salads數據集進行測試,結果如表2所示,最佳指標用粗體標出。

本文提出的多階段參考方案相比于BCN,僅在最后輸出上使用的單參考有顯著提高。在50Salads數據集中,Edit分數提高1.6%,F1分數平均提高1.2%,準確度Acc也有小幅提升(0.3%)。對于同等條件的BCN,使用本文提出的多階段參考方案后,由于在前序階段引入邊界信息,在網絡學習過程中可利用的信息增加,結合邊界信息進行學習,減少過分割錯誤。

為提升網絡對邊界信息使用的靈活性,對于前序階段,簡單采用相同邊界信息會導致模型固化,因此,本文對前序階段的參考中采用附加權重調節單元的WLBP。同樣利用消融實驗,驗證WLBP方法的有效性。在中等規模的50Salads數據集上,測試結果如表2所示,最佳指標加粗表示。

表2LBP與WLBP測試對比

Tab.2 Comparison of LBP and WLBP

使用WLBP引入邊界信息的MBNet,在F1分數和Edit分數上有更大的提高,因為權重調節單元的加入,可以對參與各階段輸出計算的邊界值進行調整,消除固定邊界對網絡的限制。相較于LBP,WLBP方法能進一步減少過分割錯誤,對比原BCN,在50salads數據集中,Edit分數提高2.2%,F1分數平均提升約1.4%,準確度Acc有小幅提高(0.2%)。

3.5 實驗結果

本文在3個動作分割數據集:GTEA、50Salads和Breakfast上,與此前的方法進行測試對比,結果如表3~表5所示。

相較于此前的視頻動作分割算法,本文提出的MBNet各項性能指標均有提升。對比BCN,MBNet在GTEA數據集上,精度Acc提升0.4%,Edit分數提升2%,F1分數平均提升約1.9%。在50Salads數據集上,Acc提升0.2%,Edit分數提升2.2%,F1分數平均提升約1.4%。在最大規模數據集Breakfast上,Acc提升0.8%,Edit分數提升0.9%,F1分數平均提升約1.2%。

表3GTEA數據集動作分割結果對比

Tab.3 Segmentation result comparisons on GTEA dataset

表450Salads數據集動作分割結果對比

Tab.4 Segmentation result comparisons on 50Salads dataset

表5Breakfast數據集動作分割結果對比

Tab.5 Segmentation result comparisons on the Breakfast dataset

為方便結果展示,本文在3個數據集中各選擇一個視頻進行可視化結果對比,如圖8所示。其中一種顏色代表一種動作類別,BCN的錯誤段用紅色線段標出區間,并添加序號。結果顯示,BCN存在錯誤分割,包括小段錯誤分割和大段錯誤分割,其中小段錯誤分割占多數,大段錯誤分割占少數。

小段分割錯誤如圖8(a)和8(b)所示,其產生原因包括網絡本身性能有限,以及邊界信息不準確,因為邊界信息由邊界生成模塊訓練得出,具備不準確性。本文提出的帶權重調整的WLBP在使用邊界信息時能夠進行再調整,一定程度上降低了邊界信息不準確的影響,更具魯棒性。

大段分割錯誤的產生原因可能是,BCN中LBP僅用在網絡的輸出結果后,作為輸出結果的后處理過程,其功能是平滑處理池化窗口內的向量,本身不具備對標簽正確與否的判斷能力。以圖8(c)中的第2與第3處錯誤來說,真值為煎雞蛋動作,BCN錯誤識別為翻炒雞蛋動作。考慮到視頻的拍攝視角,這兩種動作的表現十分相似,其特征具有很大的相似性,導致網絡很難分辨。在前序階段,出現的錯誤是微小的,但是并沒有得到及時的校正,導致錯誤累積到最終輸出時有了一定規模,而錯誤標簽占據LBP窗口范圍的一定比例后,LBP就不能將錯誤標簽修正。本文提出多階段參考方案,在每個階段都引入邊界信息進行平滑處理,在錯誤的產生階段就進行處理,避免錯誤的發展,一定程度上減少輸出結果中的大段分割錯誤。實驗表明,使用可調邊界信息的MBNet能夠修正對原本連續動作中的錯誤動作分類,明顯減少過分割錯誤。

圖8 分割結果對比

4 結 論

本文針對視頻動作分割領域普遍存在的過分割現象,提出多階段參考結構。在多階段主干網絡中,為每個階段獨立引入視頻動作邊界信息作為參考,提出多層卷積并行融合的權重調整結構,使各階段能夠對引入的邊界信息進行調整,消除固定邊界對網絡的限制性,使網絡針對不同樣本的處理可以調整各階段參考信息的使用。實驗結果表明,該方法能夠明顯減少過分割錯誤的產生,提升準確率。MBNet相比于BCN,分割編輯分數Edit平均提升1.7%,準確率與召回率的調和分數F1平均提升1.5%,分割精度Acc平均提升0.5%。本文在不影響分類精度的前提下,減少過分割錯誤,后續研究重點在于如何在減少過分割錯誤的同時又能大幅提升分類精度,提高視頻動作分割算法的可靠性。

[1] 張紅穎,安征. 基于改進雙流時空網絡的人體行為識別[J]. 光學精密工程, 2021, 29(2): 420-429.

ZHANG H Y, AN ZH. Human action recognition based on improved two-stream spatiotemporal network[J]., 2021, 29(2): 420-429. (in Chinese)

[2] 馬世偉,劉麗娜,傅琪,等. 采用PHOG融合特征和多類別Adaboost分類器的行為識別[J]. 光學精密工程, 2018,26(11): 2827-2837.

MA SH W, LIU L N, FU Q,. Using PHOG fusion features and multi-class Adaboost classifier for human behavior recognition[J]., 2018, 26(11): 2827-2837. (in Chinese)

[3] OORD AVAN DEN, DIELEMAN S, ZEN H G,. WaveNet: a generative model for raw audio[J]., arXiv preprint arXiv:1609.03499, 2016.

[4] LEA C, FLYNN M D, VIDAL R,. Temporal convolutional networks for action segmentation and detection[C]. 20172126,2017,,,,2017: 1003-1012.

[5] KUEHNE H, RICHARD A, GALL J. A hybrid RNN-HMM approach for weakly supervised temporal action segmentation[J]., 2018, 42(4): 765-779.

[6] 李慶輝,李艾華,鄭勇,等. 利用幾何特征和時序注意遞歸網絡的動作識別[J]. 光學精密工程, 2018, 26(10): 2584-2591.

LI Q H, LI A H, ZHENG Y,. Action recognition using geometric features and recurrent temporal attention network[J]., 2018, 26(10): 2584-2591. (in Chinese)

[7] SINGH B, MARKS T K, JONES M,. A multi- stream Bi-directional recurrent neural network for fine-grained action detection[C]. 20162730,2016,,,,2016: 1961-1970.

[8] FARHA Y A, GALL J. MS-TCN: multi-stage temporal convolutional network for action segmentation[C]. 2019()1520,2019,,,, 2019: 3570-3579.

[9] LI S J, ABUFARHA Y, LIU Y,. MS-TCN: multi-stage temporal convolutional network for action segmentation[J]., 1756, 99: 1.

[10] WANG Z Z, GAO Z T, WANG L M,. Boundary-aware cascade networks for temporal action segmentation[J].,2020, 2020: 34-51.

[11] LIN T W, ZHAO X, SU H S,. BSN: boundary sensitive network for temporal action proposal generation[J].,2018, 2018: 3-21.

[12] CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? A new model and the kinetics dataset[C]. 20172126,2017,,,, 2017: 4724-4733.

[13] LEI P, TODOROVIC S. Temporal deformable residual networks for action segmentation in videos[C]. 20181823,2018,,,, 2018: 6742-6751.

[14] LEA C, REITER A, VIDAL R,. Segmental spatiotemporal CNNs for fine-grained action segmentation[J]., 2016, 2016: 36-52.

[15] KUEHNE H, GALL J, SERRE T. An end-to-end generative framework for video segmentation and recognition[C]. 2016710,2016,,,,2016: 1-8.

[16] RICHARD A, KUEHNE H, GALL J. Weakly supervised action learning with RNN based fine-to- coarse modeling[C]. 20172126,2017,,,,2017: 1273-1282.

Multi-stage boundary reference network for action segmentation

MAO Lin,CAO Zhe*,YANG Dawei,ZHANG Rubo

(,,116600,),:

Over-segmentation leads to incorrect predictions and reduces segmentation quality in existing action segmentation algorithms. To address this, the reference from video action boundary information was independently introduced for each stage in the backbone, which was based on a multi-stage temporal convolutional network. To avoid the model solidification caused by the application of the same boundary information at all stages, a weight adjusting block composed of multilayer parallel convolution was proposed to adjust the boundary values involved in the output calculation of each stage and process various samples differently. The reference from the adjustable boundary information was used to smoothen the output of each stage according to the time sequence, significantly reducing the over-segmentation error. Experimental results show that the proposed method outperforms existing methods in the three video action segmentation datasets GTEA, 50Salads and Breakfast. Compared with the boundary-aware cascade networks(BCN) algorithm, the segmentation edit score is increased by 1.7% on average, and the reconciliation score between accuracy and recall rate is increased by 1.5% on average.

video action segmentation; temporal convolutional networks; video action boundary; untrimmed video

TP391.4

A

10.37188/OPE.20223003.0340

1004-924X(2022)03-0340-10

2021-04-20;

2021-07-16.

國家自然科學基金資助項目(No.61673084);遼寧省自然科學基金資助項目(No.2020-MZLH-24,No.20180550866)

毛琳(1977),女,山東榮成人,博士,副教授,碩士生導師,2005年于黑龍江大學獲得碩士學位,2011年于哈爾濱工程大學獲得博士學位,主要從事機器視覺目標跟蹤與多傳感器信息融合的研究。E-mail:maolin@dlnu.edu.cn

曹哲(1998),男,內蒙古赤峰人,碩士研究生,2020年于大連民族大學獲得學士學位,主要從事計算機視覺和視頻動作分割算法的研究。E-mail:cao_zhe@foxmail.com

猜你喜歡
動作信息
下一個動作
動作描寫要具體
畫動作
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
讓動作“活”起來
動作描寫不可少
非同一般的吃飯動作
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 韩日无码在线不卡| 成人另类稀缺在线观看| 国产精品区视频中文字幕| 色综合a怡红院怡红院首页| 四虎永久在线精品影院| 亚洲男人的天堂久久香蕉| 国产成人高清精品免费| 午夜激情婷婷| 看国产一级毛片| A级毛片无码久久精品免费| 国产爽妇精品| 国产精品hd在线播放| 特黄日韩免费一区二区三区| 国产爽歪歪免费视频在线观看| 国产中文在线亚洲精品官网| 欧美中文一区| 午夜小视频在线| 久久亚洲黄色视频| 国产色婷婷| 亚洲欧洲日产无码AV| 久久青青草原亚洲av无码| 国产黑丝一区| 激情网址在线观看| 久久香蕉国产线看观看亚洲片| 免费99精品国产自在现线| AV在线麻免费观看网站| 午夜天堂视频| 国产女人综合久久精品视| 日韩国产精品无码一区二区三区| 亚洲综合天堂网| 亚洲Va中文字幕久久一区| 欧美日韩综合网| www欧美在线观看| 欧美A级V片在线观看| 国产成人亚洲精品色欲AV| 2021最新国产精品网站| 尤物亚洲最大AV无码网站| 国产高清免费午夜在线视频| 亚洲国产无码有码| 亚洲一级毛片| 亚洲高清无码精品| 日本a∨在线观看| 免费av一区二区三区在线| 26uuu国产精品视频| 国产网站免费| 欧美国产日韩在线| 免费高清毛片| 久久综合丝袜长腿丝袜| 国产乱人伦AV在线A| 99久久免费精品特色大片| 国产成人1024精品下载| 成人综合在线观看| 91精品免费久久久| 免费在线a视频| 欧美精品H在线播放| 最新日本中文字幕| 国产9191精品免费观看| 国产精品2| 日本黄色a视频| 看国产毛片| 色综合中文综合网| 在线欧美一区| 国产99在线| 极品国产一区二区三区| 中文精品久久久久国产网址 | 伊人福利视频| 久久一级电影| 国产亚洲视频免费播放| 色老头综合网| 国产区免费精品视频| 亚洲免费福利视频| 萌白酱国产一区二区| 人妻熟妇日韩AV在线播放| 91精品专区国产盗摄| 特级毛片8级毛片免费观看| 97在线观看视频免费| 毛片基地美国正在播放亚洲 | 三上悠亚精品二区在线观看| 美女一级免费毛片| 香蕉国产精品视频| 亚洲成人网在线播放| 欧美va亚洲va香蕉在线|