999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合多路特征和注意力機制的強化學習關鍵幀提取算法

2022-01-01 00:00:00曹春萍苑凱歌
計算機應用研究 2022年4期

摘要:針對現有視頻關鍵幀提取算法對運動類視頻中運動特征提取不準導致的漏檢和誤檢問題,提出一種融合多路特征和注意力機制的強化學習關鍵幀提取算法。該算法首先通過人體姿態識別算法對視頻序列進行人體骨骼關節點提取;然后使用S-GCN和ResNet50網絡分別提取視頻序列中的運動特征和靜態特征,并將兩者進行加權融合;最后應用注意力機制對特征序列進行視頻幀重要性計算,并利用強化學習進行關鍵幀的提取和優化。實驗結果表明,該算法能較好地解決運動類視頻在關鍵幀提取中出現的漏誤檢問題,在檢測含有關鍵性動作的視頻幀時表現較好,算法準確率高、穩定性強。

關鍵詞:人體骨骼;人體姿態識別算法;S-GCN;注意力機制;ResNet50;強化學習

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2022)04-054-1274-07

doi:10.19734/j.issn.1001-3695.2021.06.0332

Key frame extraction algorithm of reinforcement learning based on

multi-channel feature and attention mechanism

Cao Chunping,Yuan Kaige

(School of Optical-Electricalamp; Computer Engineering,University of Shanghai for Science amp; Technology,Shanghai 200093,China)

Abstract:Aiming at the problem of missing detection and 1 detection caused by inaccurate motion feature extraction of existing video key frame extraction algorithms,this paper proposed a reinforcement learning key frame extraction algorithm combining multi-channel feature and attention mechanism.The algorithm extracted the human skeleton joint points from the video sequence through the human posture recognition algorithm firstly.Then it used the S-GCN and ResNet50 network to extract the motion features and static features in the video sequence respectively,and performed a weighted fusion of the two.Finally,it applied the attention mechanism to calculate the importance of the video frame of the feature sequence,and used reinforcement learning to extract and optimize key frames.The experimental results show that the algorithm can solve the problem of missing and 1 detection in the key frame extraction of motion video.It performs well in the detection of video frames containing key actions,with high accuracy and strong stability.

Key words:human skeleton;human posture recognition;S-GCN(spatial graph convolutional networks);attention mechanism;ResNet50(residual network50);reinforcement learning

隨著網絡信息的飛速發展,多媒體信息日趨增多,其中視頻類信息因為其本身的可視性、連貫性和立體性得到大家的推崇,但是視頻類信息需要大量的存儲空間[1],為了解決視頻類信息的存儲問題,人們提出了視頻關鍵幀提取技術。視頻關鍵幀提取技術是指用有限數量的靜態圖像來代表原始視頻序列的主要內容,其既能保留視頻信息的真實性,也能很大程度地節省空間[2]。

鑒于關鍵幀對視頻儲存的作用,視頻關鍵幀提取技術成為目前的研究重點。由于視頻主題的多樣性,在關鍵幀提取的過程中,不同主題的視頻需要考慮的特征也存在差異,當提取的特征和視頻主題吻合度較高時,獲得的結果會更準確、更真實。例如對于風景類視頻,色彩特征豐富,在提取關鍵幀時主要考慮其顏色和紋理特征;而對于運動類視頻,運動對象狀態變化頻繁,在提取關鍵幀時主要考慮其運動信息特征[3],如人體部位的位置、形狀等信息,但由于運動目標的多樣性和動作的相似性,僅考慮運動特征會出現漏誤檢現象,導致提取結果偏差較大。所以本文從融合特征入手,對運動類視頻進行關鍵幀提取技術的研究。

1相關工作

目前,針對運動類視頻的關鍵幀提取技術的研究主要有四種方法:

a)基于鏡頭的方法。該類方法是視頻檢索領域最先發展起來的,也是目前最為成熟通用的方法。高騰飛[4]先使用已有的鏡頭分割算法按照鏡頭變化將視頻源文件進行分割,然后在鏡頭的固定位置上進行提取。

b)基于圖像內容方法。該類方法首先對源視頻進行分幀操作,然后通過幀的顏色、亮度和紋理等特征的改變來提取關鍵幀。Lai等人[5]在對圖像的特征進行提取時進行了改進,提出基于顯著性注意模型的視頻關鍵幀提取方法。該方法共有兩步:(a)在圖像上提取其顏色和紋理特征,融合生成靜態顯著性模型,然后提取運動強度和方向的信息,融合生成動態顯著性模型,最后將兩者融合形成顯著性曲線;(b)使用時間約束聚類算法,對視頻幀按照內容相似度進行分簇,選取每個簇中顯著性最高的幀作為關鍵幀。

c)基于運動分析法。該類方法是根據物體的運動特征提出的。Wolf[6]通過計算物體運動產生的光流量,選取光流量局部最小值對應的幀為關鍵幀。該方法首先對視頻進行鏡頭分割,然后計算鏡頭中的光流量,選擇光流變化最少的幀作為關鍵幀。

d)基于聚類的方法。該類方法利用視頻幀之間的相似度將幀對象進行分組,使得類似的幀對象成為一個簇,從而使視頻劃分為一個一個的聚類,類內部視頻在內容上相似,而類間視頻在內容上有很大差別,最后將每個聚類中最靠近聚類中心的幀加入結果集。張一凡等人[7]在視頻鏡頭分割算法之上,通過層次聚類對視頻內容進行初步劃分,之后結合K均值聚類算法對初步提取的關鍵幀進行直方圖特征對比去掉冗余幀,最終確定視頻的關鍵幀序列。

綜合以上信息可知,對于運動類視頻的關鍵幀提取技術的研究,現有的方法大多基于鏡頭分割方法或依賴人工提取的運動特征,鏡頭分割方法的優劣直接影響了關鍵幀的提取,且分割鏡頭后提取的關鍵幀并不一定能反映鏡頭內容,而人工提取的運動特征魯棒性較差,工作效率低,模型的表示能力也受到人工所提取的特征限制。為了克服以上方法的缺點,本文提出融合多路特征和注意力機制的強化學習關鍵幀提取算法,使得提取過程無須鏡頭分割和人工提取特征。該算法從融合特征入手,首先使用深度神經網絡提取視頻幀中的運動特征和靜態特征,并對其進行融合;然后使用自注意力模型提取視頻序列的全局特征;隨后根據全局特征計算各個視頻幀的重要性程度;最后通過強化學習得到最優的關鍵幀結果集。

2關鍵幀提取

2.1整體網絡框架

本文算法的網絡框架如圖1所示。首先對視頻進行幀分割,然后使用S-GCN對視頻幀進行運動特征的提取,使用ResNet50對視頻幀進行靜態特征的提取,最后對靜態特征和運動特征進行融合;然后使用注意力機制計算每一幀的重要性得分,通過伯努利函數進行關鍵幀的選擇,并利用強化學習對關鍵幀的選取進行優化,選出最能代表視頻內容的有效幀。

2.2靜態特征提取

隨著網絡深度的增加,梯度消失問題的存在使得網絡訓練變得更為困難,收斂效果不好,進而引入了深度殘差網絡(residual network,ResNet)[8]。其以殘差單元為基礎來削弱梯度消失的現象,更好地保留輸入圖像中的原始信息,提高收斂速度,減少損失。殘差單元結構如圖2所示。

本文使用ResNet50網絡進行靜態特征提取,為了減少計算量和參數量,其對殘差單元進行了變換,變換后的殘差單元結構如圖3所示。

本文為了將靜態特征與運動特征進行融合,將ResNet50中的softmax層移除,并在此基礎上增加全連接層,將數據維度降低到256維,得到視頻幀的靜態特征表示Ss=[ss1,ss2,…,ssT]。

2.3運動特征提取

由于光流數據[9]會被相機運動、光照變化等噪聲干擾,且數據維度較高,處理難度較大,而骨骼數據是對三維空間里人體信息的抽象,其對相機運動、光照變化等具有一定的魯棒性,數據維度較小,且更加關注動作本身,所以,對于運動類視頻數據,骨骼數據提取出的特征更能反映人體軀干的運動模式。特征提取模塊的結構如圖4所示。

2.3.1骨架序列獲取

本文使用OpenPose算法[10]從圖像中提取人體關節(如脖子、肩膀、肘部等),它可以提取不同形式的骨架圖形,本文選擇包含18個關節點的骨架圖,如圖5所示。本文將視頻以連續幀的形式進行表示,假設輸入的視頻共有T幀,每幀包含N個關節,則視頻可以表示為X={xi|i=1,…,T},關節節點集可以表示為V={vti|t=1,…,T;i=1,…,N},其中每個關節上的特征向量由其X坐標、Y坐標和估計的置信度score組成。

2.3.2特征提取

時空圖卷積神經網絡(spatial temporal graph convolutional network,ST-GCN)[11]是用來進行人類動作識別的一種網絡,其以人體骨架關節點為基礎,共包含9個ST-GCN單元,其中每個ST-GCN單元包括注意力模塊ATT、圖卷積模塊GCN和時間卷積模塊TCN。由于本文僅對單個視頻幀進行特征提取,故不使用其中的時間卷積模塊,僅使用注意力模塊和圖卷積模塊,將新的單元稱為空圖卷積神經網絡(spatial graph convolutional networks,S-GCN)。其中注意力模塊(ATT)對不同的軀干進行加權,為不同的軀干賦予不同的權重系數,來凸顯它們在不同動作中的重要性;圖卷積模塊對數據進行學習,提取到空間中相鄰關節的局部特征。

在S-GCN中,輸入是視頻每一幀中骨骼關節點的坐標及置信度,對于輸入數據首先根據骨骼之間的物理聯系構建拓撲圖,方便后續進行特征提取等操作,然后對其進行批歸一化處理,將分散的數據進行統一,使網絡能夠更快地學習到其中的特征,最后將處理的數據經過9個S-GCN單元進行特征提取,得到一個1×256維的向量。

在二維圖像卷積中,對圖像中的某個位置x,可以使用一個固定大小的卷積核進行特征提取,假設卷積核的大小為K×K,輸入特征映射為fin,則二維圖像卷積公式可以表示為

fout(x)=∑Kh=1∑Kw=1fin(p(x,h,w))·w(h,w)(1)

其中:p為采樣函數;w為權重函數。在圖像卷積中,由于數據結構比較規整,可以通過平移卷積核來提取圖像上的特征。但在圖卷積網絡中,由于每個節點的鄰接點數量不一定相同,數據結構不規整,不能直接使用傳統圖像卷積操作中的方法。根據二維圖像卷積的思想,可定義幀τ上節點的鄰域為

B(vti)={vtj|d(vti,vtj)≤D,t=τ}(2)

其中:d(vti,vtj)表示任意從vtj到vti的最短路徑,本文設定D為1,表明vti的鄰域為距離其自身距離小于等于1的節點集。在確定好鄰域之后,可以得到采樣函數為

P(vti,vtj)=vtjvtj∈B(vti)(3)

在二維圖像卷積中,圖像具有固定的空間順序,可以根據空間位置來定義權重函數。但在圖卷積網絡中,如人體骨架的圖形結構,鄰域中的節點沒有固定的順序,且節點的鄰域節點數量不固定,不能根據節點的空間順序定義權重函數。本文參考文獻[11],將節點vti的鄰域B(vti)根據空間結構劃分為三個固定的子集,每個子集使用一個數字進行映射,記為lti:B(vti)→{0,1,2}。數字0表示由根節點本身所組成的子集;數字1表示比根節點更靠近骨骼重心的所有相鄰節點組成的子集;數字2表示比根節點更遠離骨骼重心的所有相鄰節點組成的子集。這里的骨骼重心為骨架中所有節點坐標的平均值,如圖6所示。與二維圖像卷積將權重參數分配給每個節點不同,本文將權重分配給每個子集,即每個子集具有相同的權重大小。于是可將權重函數表示為

w(vti,vtj)=w′(lti(vtj))(4)

由于每個子集包含不同數量的節點,為了平衡每個子集的貢獻,在卷積操作中需要加入一個歸一化項1/Zti(vtj),其中Zti(vtj)=|{vtk|lti(vtk)=lti(vtj)}|表示每個子集中的節點數量。將根據圖卷積網絡特性作出轉換后的采樣函數、權重函數和歸一化項代入二維圖像卷積公式中可得圖卷積網絡下的卷積公式,表示為

fout(vti)=∑vtj∈B(vti)1Zti(vtj)fin(vtj)·w′(lti(vtj))(5)

通過S-GCN學習每一幀中關節的空間特征,得到視頻的特征表示Sd={sd1,sd2,…,sdT}。

2.4關鍵幀提取

將視頻以連續幀的形式進行表示,每一幀并不是單獨獨立的,而是和其前后一幀或多幀存在著聯系,且每一幀所能表達出的內容信息也不近相同,為了能夠更好地進行視頻內容信息的表達,且減少冗余,需要重點關注能表達更多視頻信息的關鍵幀,對它們賦予較高的權重。本文使用全局—局部注意力機制進行視頻幀重要性的計算,進而對關鍵幀進行提取。計算視頻幀重要性的結構如圖7所示。

2.4.1靜態特征與運動特征融合

在提取運動類視頻中的關鍵幀時,主要考慮其運動特征,但因為運動目標的多樣性和運動的相似性,單純考慮運動特征會導致關鍵幀提取不精確,所以在進行關鍵幀提取之前,需要對運動特征與靜態特征進行融合。特征融合方法[12]分為基于特征選擇方法和基于原始特征提取新特征等。由于靜態特征和運動特征在關鍵幀提取過程中發揮的作用不同,本文選擇特征選擇方法中的加權融合方式將兩種特征按照權重大小作加權處理,然后線性處理靜態特征和運動特征。融合公式如式(6)所示。

S=αSs+βSd(6)

其中:α和β分別為靜態特征和運動特征的權重因子。

2.4.2全局特征提取

在序列建模任務中,注意力機制[13,14]的地位舉足輕重,其可以建模表示序列的相關性,而不用去考慮原始數據在序列的輸入或輸出中的距離。注意力機制不使用循環神經網絡或順序處理,僅使用矩陣運算來實現,對輸入的變長序列,依然可以快速獲取其全局相關性。然而,對于時間序列建模的問題,注意力機制是一種非遞歸方法,無法考慮時間序列中固有的時間相關性,因此需要通過顯式地定義位置編碼來建模位置信息。Vaswani等人[15]通過在注意力權重矩陣中加入位置掩碼來建模位置信息,使當前位置的注意力權重計算只依賴其前面的計算結果。但該方法只考慮了當前位置之前的狀態,并未考慮當前位置之后的狀態,而僅依賴當前位置之前的狀態并不能夠判斷當前位置在后續序列中的重要性。

為了解決該問題,本文使用雙向掩碼來建模位置信息,分別是正向掩碼和反向掩碼,其中正向掩碼表示注意力權重只與當前位置之前的計算結果有關,反向掩碼則表示當前位置的權重只與其之后的計算結果有關。通過正向掩碼和反向掩碼,可以提取視頻幀序列中當前位置的過去和未來的序列信息,從而使注意力機制關注某一視頻幀的上下文,使視頻幀的重要性不僅受到其之前視頻幀的影響,也受到其之后的視頻幀的影響。

在本節中,假設輸入的視頻共有T幀,每幀包含N個關節,則視頻可以表示為X={xi|i=1,…,T},通過2.4.1節得到的融合特征表示為S={s1,s2,…,sT},然后通過自注意力機制[16]計算相關系數eit,并將代表位置信息的掩碼融合到相關系數的結果中,具有位置編碼的自注意力模型的計算方法如式(7)(8)所示。

eit=λ[(Ust)T(Vsi)]+Mit(7)

αit=exp(sit)∑Tk=1exp(skt)(8)

其中:t,i∈[0,T);U和V是權重矩陣;M是位置編碼矩陣。在正向掩碼中,M保留上三角信息,表示第i個視頻幀僅依賴前i-1個視頻幀的信息;在反向掩碼中,M保留下三角的信息,表示第i個視頻幀僅依賴后i-1個視頻幀的信息。

將經過位置編碼處理后的注意力權重映射回原視頻幀序列,并把正反兩個方向的結果進行加權融合,將位置編碼信息融合到視頻幀序列中,具體表示為式(9)~(11)。

cft=∑Ti=1αitsi(9)

cbt=∑Ti=1αitsi(10)

ct=cft+cbt(11)

其中:cft是具有正向位置編碼的自注意力結果;cbt是具有反向位置編碼的自注意力結果;將正負向結果進行聯合,得到包含上下文信息的序列c={ct|t=1,…,T}。

2.4.3視頻幀重要性計算

在得到視頻序列的全局上下文信息后,基于此全局特征,進行局部幀注意力值的計算[17]。由2.4.1節可知,視頻幀的局部特征集合表示為S={s1,s2,…,sT},以si作為待篩選的特征。設q=f(c)為注意力特定任務向量,其中f為最大池化操作函數,c為視頻幀序列的全局相關性特征,利用q來關注局部視頻幀特征si的主題相關特征。選用乘法對齊函數作為全局—局部注意力權重計算的對齊函數,scorei=γ(q,si)=qTWsi=f(c)TWsi,其中W為權重矩陣,計算出q與si之間的匹配程度。利用式(12)對匹配度進行歸一化計算,得出全局—局部注意力權重αi,然后將上下文序列與注意力權重進行加權平均,計算出全局特征的局部注意力值att。

αi=escorei∑nj=1scorej(12)

atti=∑Ti=1αisi(13)

最后,采用兩層全連接層預測視頻幀的重要性分數,每個視頻幀的重要性分數由注意力序列和原始序列的加權和實現。兩層全連接層分別由ReLU和sigmod激活函數實現,并在每一層中設置隨機失活,防止模型過擬合,最后進行層歸一化得到最終的視頻幀預測分數y。

y=norm(dropout(Catti+si))(14)

在得到每一個視頻幀的幀得分之后,通過伯努利函數B采取相應的動作,at表示所采取的動作,at=1表示第t幀被選取,為0則舍棄,公式如式(15)所示。

at~B(Y)(15)

2.4.4關鍵幀的提取及優化

強化學習[18~20]是一種自學習系統,主要通過反復實驗來學習,最終找到規律,達到學習的目的。其關鍵要素為智能體(agent)、環境(environment)、獎勵(reward)、動作(action)和狀態(state)。通過這些要素建立一個強化學習模型,其基本原理是:智能體的某個行為策略導致環境正的獎勵增大,那么智能體以后產生這個行為的趨勢便會增加,智能體的目標是在每個離散狀態發現最優策略以使期望的獎賞最大。強化學習把學習看做試探評價過程,智能體選擇一個動作作用于環境,環境接受該動作后狀態發生變化,同時產生一個代表獎罰的強化信號反饋給智能體,智能體根據強化信號和環境當前狀態再選擇下一個動作,選擇的原則是使受到正強化獎勵的概率增大。本文將強化學習運用于關鍵幀提取,通過判斷選擇關鍵幀的獎勵大小來采取相應的動作。強化學習模型如圖8所示。

為了評判利用強化學習提取的關鍵幀結果集質量的高低,本文使用狀態—動作值,即結果集重要性與多樣性的和進行表征。由于強化學習的原理機制,狀態—動作值越大,說明提取的關鍵幀的質量越高,兩者相輔相成。

本文模型中,重要性表征關鍵幀集合對全文視頻信息的覆蓋能力,把它當做一個K-medoids問題,如式(16)所示。

E(xt)=min‖xt-xt`‖2(16)

其中:t和t`表示為非同一時刻。用R={r1,r2,…,rT}表示所選的視頻幀,則整個關鍵幀結果集的重要性值可表示為式(17),其值越高表明重要性越強。

Qi=exp[-1T∑Tt=1E(rt)](17)

為了衡量關鍵幀結果集多樣性,本文通過所選幀之間特征空間的差異大小來評估結果集多樣性的高低。其兩兩之間的差異性可以表示為式(18)和(19),其值越大表明多樣性越豐富。

D(rt,rt`)=∑t∈T∑t1∈Tt1≠t(1-rTtrt`‖rt‖2‖rt`‖2)(18)

Qd=D(rt,rt`)T|T-1|(19)

狀態—動作值Q(st,at)為Qi與Qd的和,如式(20)所示。

Q(s,a)=Qi+Qd(20)

為了最大化狀態—動作值,需要根據不同的狀態采取不同的動作。實驗中用策略函數πθ和參數θ來最大化期望獎勵,如式(21)和(22)所示。

J(θ)=Epθ(a1:T)[Q(st,at)](21)

θJ(θ)=∑Tt=1Epθ(a1:T)[θlog πθ(at|st)Q(st,at)](22)

其中:st為環境狀態;at為采取的動作;pθ(a1:T)表示通過動作序列得到的概率分布。為了方便計算避免個體的偏差,需要多次取樣并利用均值提高其準確率,并在這里引入一個基準值b,其為狀態—動作值的平均值,則式(22)就變形為

θJ(θ)≈1M∑Mm=1∑Tt=1{θlog πθ(at|st)[Qm(st,at)-b]}(23)

參數θ的更新為

θ=θ+αθ[J(θ)-β1‖1T∑Tt=1pt-l‖2-β2∑i,jθ2i,j](24)

其中:α為學習率;β1和β2為平衡權重的參數;l決定選取的視頻幀的百分比。

本文模型的主要算法如下:

算法1關鍵幀提取算法

輸入:視頻幀數據集合X={xi|i=1,…,T}。

輸出:關鍵幀數據集合R={r1,r2,…,rT}。

a)提取視頻幀中的骨骼節點坐標

b)利用骨骼數據提取運動特征Sd

c)提取視頻幀的靜態特征Ss

d)對運動特征和靜態特征進行融合S=Ss⊕Sd

e)使用自注意力機制得到全局特征c={ct|t=1,…,T}

f)for i=1:T

根據全局特征得到局部幀的重要性得分y

end for

g)通過伯努利函數B采取相應的動作進行關鍵幀的提取,并使用強化學習進行結果集的優化

3實驗及結果分析

根據上述模型,使用Python3運行環境,對本文算法進行實現并測試。在多個運動類視頻上進行實驗,為避免篇幅過長,本文僅抽取其中8段視頻片段進行說明研究。

3.1數據集

本文實驗所使用數據集為HMDB51視頻動作識別數據集[21],其共包含51類動作,6 849個視頻,覆蓋了較大范圍的人體動作,如一般面部動作、身體動作和人物交互動作等,分辨率為320×240。HMDB51視頻序列來源于商業電影和YouTube,因此在動作的采集上具有很大的多樣性,包括各種各樣的光線條件、情況和環境。

為了豐富樣本中的人體動作特征,首先采用旋轉和鏡像等圖像運算,對數據集進行擴充,并在擴充之后,人工提取出樣本中的所有關鍵幀,并將其作為衡量標準。由于動作存在持續過程及動作之間轉換的過程,本文在人工確定衡量標準時,將動作持續過程的中間部分所有幀看做該持續動作的關鍵幀區間;而在動作轉換過程中,則將轉換過程的中間部分所有幀看做轉換動作的關鍵幀區間。若實驗算法提取出的視頻幀在上述關鍵幀區間中,則認為該算法提取正確。

3.2評價標準

目前,在視頻關鍵幀提取領域中存在多個較為通用的評價指標。本文采用查準率(P)和查全率(R)兩個指標來評價本文方法的性能。其中查全率表征結果集中關鍵幀的漏檢情況,查準率表征提取結果集的準確性,如式(25)(26)所示。

R=TPTP+FN(25)

P=TPTP+FP(26)

其中:TP、FP和FN分別表示結果集中正確提取的關鍵幀數量、結果集中錯誤提取的關鍵幀數量和結果集中漏檢幀數量。為綜合表征結果集的準確性,避免關鍵幀提取過程中難以兼顧查準率和查全率的情況,本文使用兩者的調和平均值F1評價結果集,其定義如式(27)所示。

F1=2×R×PR+P(27)

3.3實驗結果分析

3.3.1權重確定實驗

在將運動特征和靜態特征進行融合時,由于不同的權重比產生的結果不同,本文通過實驗來確定最優的權重比。采用多種不同的權重比進行對比實驗,選取每種權重比所得結果對應的平均查準率、查全率和F1值,取F1值最好結果對應的權重比作為最優權重比。使用不同權重比所得實驗結果如表1所示。

通過實驗結果可以看出,隨著靜態特征所占比重增加,模型所得結果的F1值呈上升趨勢,但當靜態特征所占權重達到一定值后,繼續增加會導致F1值下降。由表1可知,當靜態特征與運動特征比例為3:7時,模型表現效果最佳,本文選取該權重比進行后續實驗。

3.3.2消融實驗

為驗證本文所提出的融合特征的有效性,通過實驗進行驗證。將只使用運動特征所得結果(A)與使用融合特征所得結果(B)進行對比,結果如表2所示。

由表2可知,只使用運動特征與使用融合特征都存在少量的漏檢幀和冗余幀,但使用融合特征所得結果中的漏檢幀和冗余幀都相對只使用運動特征較少,模型表示能力更好。計算兩種算法提取結果的F1值,其統計結果如圖9所示。

由圖9可知,融合特征所提取結果的綜合表現更優,因為運動類視頻中存在運動目標多樣性以及動作相似性等現象,而僅使用運動特征不能很好地處理上述兩種情況,故其漏檢幀和冗余幀相對較多,F1值略低于融合特征。

3.3.3關鍵幀提取實驗

將本文算法與基于ViBe算法的關鍵幀提取方法[22]以及基于動作模板的關鍵幀提取方法[23]進行對比,從視覺效果和F1值兩方面來說明本文算法的有效性。

1)視覺效果

本文算法、ViBe算法、動作模板算法和人工提取方法提取結果的視覺效果如圖10、11所示。圖10(b)檢測到5個關鍵幀,(c)檢測到8個關鍵幀,(d)檢測到6個關鍵幀。其中(b)中存在0個冗余幀,漏檢了3幀;(c)中存在1個冗余幀,漏檢了1幀;(d)中存在0個冗余幀,漏檢了2幀。根據原視頻,運動員完成了挺舉項目的全過程,包括提鈴至肩、身體直立靜止、舉鈴過頭頂、放鈴等。其中舉鈴過頭頂過程中,又包括多個過程。圖10(b)中僅反映出舉鈴過頭頂的結果,并沒有其過程;圖10(c)雖較好地展示了全過程,但在舉鈴過程中存在漏檢,且在放鈴階段存在冗余;圖10(d)雖在放鈴階段存在漏檢,但較為完整地反映了挺舉項目的全過程。如圖11所示,(b)檢測到4個關鍵幀,(c)檢測到8個關鍵幀,(d)檢測到6個關鍵幀。由圖11(c)(d)可以看出,兩種算法均能較為完整地表達人物的動作及動作轉換的全部過程,而圖11(b)無法準確地表達原視頻內容。

由圖10、11可得,本文算法與動作模板算法在動作變化緩慢的視頻中表現相當,在動作變化頻繁的視頻中表現相對較好;而相較于ViBe算法,本文算法提取的關鍵幀對原視頻的表達能力更強,對原視頻內容的表達更加準確。

2)結果分析與對比

將本文算法與ViBe算法以及動作模板算法的提取結果進行對比,計算結果集中冗余幀數量、漏檢幀數量及其F1值。本文算法與ViBe算法關鍵幀結果統計如表3所示。

由表3可知,本文算法和ViBe算法所得結果中都存在部分冗余幀。本文算法結果中的漏檢幀較少,而ViBe算法中存在較多漏檢幀。因此在兩種方法都存在較少冗余幀的情況下,本文算法的查全率更高,對原始視頻的表達和還原效果更好。

本文算法與動作模板算法(C)提取的關鍵幀結果集的統計結果如表4所示。

由表4可知,本文算法和動作模板算法的漏檢幀和冗余幀都較少,但總體來說本文算法相對動作模板算法效果較好,尤其是在動作變化較頻繁的視頻中,本文算法表現相對較好,對原始視頻的表達和還原效果更好。

對比本文算法與ViBe算法以及動作模板算法,計算三種算法提取結果的F1值,其統計結果如圖12所示。

由圖12可知,本文算法的綜合表現更優,相較于ViBe算法和動作模板算法,本文算法所得F1值更加穩定。其中基于ViBe算法的關鍵幀提取方法在關鍵幀提取之前依賴于鏡頭分割方法,同時在提取關鍵幀的過程中,需要根據鏡頭中幀的個數選取固定數量的視頻幀作為關鍵幀,同時需要依據手動設置的閾值來確定最終的關鍵幀結果集,這將導致其在一些包含關鍵幀較多的鏡頭中,發生較多的漏選和錯選的問題,從而導致其準確率不高;除此之外,由于該算法的隨機更新原則,也導致該算法不能根據視頻特征進行參數的更新,從而導致最終選取結果波動較大。基于動作模板的關鍵幀提取算法在關鍵幀提取之前需要確定動作模板,用于確定每幀中感興趣的區域,當動作變化不頻繁時,該種方法準確率較好;而當動作變化比較頻繁時會導致感興趣的區域識別不準確,同時在根據區間范圍確定候選幀時會產生大量的候選幀,而在確定關鍵幀結果集時又僅根據預設的閾值來確定最終的結果,導致漏選和錯選問題的發生,使其準確率不高,存在一定的波動。而本文算法在提取視頻幀的相應特征時,將靜態特征與動態特征融合,充分利用視頻幀中的信息,緩解了運動目標特征不明顯、運動目標多樣化的問題,同時采用強化學習機制,避免了手動設置閾值,一定程度上改善了動作變化比較頻繁的視頻的提取準確度,使得最終提取結果的F1值相比ViBe算法提升較為明顯,而相對于目前最好的動作模板算法,可以保證在動作變化不明顯時準確度達到同一量級,同時在動作變化比較頻繁的視頻中準確度有一定的提升,且整體變化更穩定,從而驗證了本文算法在運動類視頻中關鍵幀提取的準確性。

4結束語

針對運動類視頻,本文提出一種融合多路特征和注意力機制的強化學習關鍵幀提取方法。該算法使用骨骼數據提取目標的運動特征,然后將提取的靜態特征與運動特征融合,緩解了運動目標特征丟失、運動目標多樣性和動作相似性導致的關鍵幀漏檢錯檢的問題。同時使用強化學習對關鍵幀進行提取和優化,使得關鍵幀結果集最優。實驗結果表明,本文算法提取出的關鍵幀結果集的多樣性和重要性都較高,且漏檢和冗余較少,可以較好地對原始視頻進行表達和還原。通過對算法的分析可知,由于本文算法在特征提取模塊中基于ST-GCN進行特征提取,使得結果的準確性在一定程度上依賴ST-GCN的性能,如何進一步對特征提取模塊進行改進,尋找一種比ST-GCN性能更好更輕量化的圖卷積神經網絡,并將其與關鍵幀提取算法進行融合將是下一步的研究方向。

參考文獻:

[1]梁建勝,溫賀平.基于深度學習的視頻關鍵幀提取與視頻檢索[J].控制工程,2019,26(5):965-970.(Liang Jiansheng,Wen Heping.Video key frame extraction and video retrieval based on deep learning[J].Control Engineering,2019,26(5):965-970.)

[2]榮金莉.基于視覺顯著性的視頻關鍵幀提取技術研究[D].南京:南京郵電大學,2018.(Rong Jinli.Research on video key frame extraction technology based on visual saliency[D].Nanjing:Nanjing University of Posts and Telecommunications,2018.)

[3]田麗華,張咪,李晨.基于運動目標特征的關鍵幀提取算法[J].計算機應用研究,2019,36(10):3183-3186.(Tian Lihua,Zhang Mi,Li Chen.Key frame extraction algorithm based on moving target features[J].Application Research of Computers,2019,36(10):3183-3186.)

[4]高騰飛.視頻鏡頭檢測與關鍵幀提取算法研究[D].重慶:重慶郵電大學,2012.(Gao Tengfei.Research on video shot detection and key frame extraction algorithm[D].Chongqing:Chongqing University of Posts and Telecommunications,2012.)

[5]Lai Jieling,Yi Yang.Key frame extraction based on visual attention model[J].Journal of Visual Communication and Image Representation,2012,23(1):114-125.

[6]Wolf W.Key frame selection by motion analysis[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,1996:1228-1231.

[7]張一凡,李家辰,曠遠有,等.基于K均值聚類的視頻關鍵幀提取技術研究[J].電腦與信息技術,2021,29(1):13-16.(Zhang Yifan,Li Jiachen,Kuang Yuanyou,et al.Research on video key frame extraction technology based on K-means clustering[J].Computer and Information Technology,2021,29(1):13-16.)

[8]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of the 34th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.

[9]劉奕杉.一種基于改進光流法的視覺慣性狀態估計器[J].科學技術創新,2021(10):17-18.(Liu Yishan.A visual inertial state estimator based on improved optical flow method[J].Science and Technology Innovation,2021(10):17-18.)

[10]Zhe Cao,Simon T,Wei S E,et al.Realtime multi-person 2D pose estimation using part affinity fields[C]//Proc of the 35th IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:7291-7299.

[11]Yan Sijie,Xiong Yuanjun,Lin Dahua.Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Piscataway,NJ:AAAI Press,2018:7444-7452.

[12]袁夢嬌,董育寧.基于特征融合和機器學習的網絡視頻流分類[J].南京郵電大學學報:自然科學版,2021,30(2):100-108.(Yuan Mengjiao,Dong Yuning.Classification of network video stream based on feature fusion and machine learning[J].Journal of Nanjing University of Posts and Telecommunications:Natural Science Edition,2021,30(2):100-108.)

[13]張亞飛.基于注意力的權重分配機制[J].計算機技術與發展,2020,30(9):49-53.(Zhang Yafei.Attention-based weight distribution mechanism[J].Computer Technology and Development,2020,30(9):49-53.)

[14]周娟平.基于注意力機制的動態視頻摘要技術研究[D].廣州:華南理工大學,2020.(Zhou Juanping.Research on dynamic video summarization technology based on attention mechanism[D].Guangzhou:South China University of Technology,2020.)

[15]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[EB/OL].(2017).https://arxiv.org/abs/1706.03762.

[16]朱張莉,饒元,吳淵,等.注意力機制在深度學習中的研究進展[J].中文信息學報,2019,33(6):1-11.(Zhu Zhangli,Rao Yuan,Wu Yuan,et al.Research progress of attention mechanism in deep learning[J].Journal of Chinese Information Processing,2019,33(6):1-11.)

[17]劉鵬程,孫林夫,張常有,等.基于交互注意力機制網絡模型的故障文本分類[J].計算機集成制造系統,2021,27(1):72-89.(Liu Pengcheng,Sun Linfu,Zhang Changyou,et al.Fault text classification based on interactive attention mechanism network model[J].Computer Integrated Manufacturing System,2021,27(1):72-89.)

[18]Williams J R.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine Learning,1992,8(3-4):229-256.

[19]Jiang Nan,Jin Sheng,Duan Zhiyao,et al.RL-Duet:online music accompaniment generation using deep reinforcement learning[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.New York:AAAI Press,2020:710-718.

[20]Wu Jie,Li Guanbin,Liu Si,et al.Tree-structured policy based progressive reinforcement learning for temporally language grounding in video[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.New York:AAAI Press,2020:12386-12393.

[21]Kuehne H,Jhuang H,Stiefelhagen R,et al.HMDB:a large video database for human motion recognition[C]//Proc of the 13th IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2011,2556-2563.

[22]李秋玲,邵寶民,趙磊,等.基于ViBe算法運動特征的關鍵幀提取算法[J].山東大學學報:工學版,2020,50(1):8-13.(Li Qiu-ling,Shao Baomin,Zhao Lei,et al.Key frame extraction algorithm based on the motion feature of ViBe algorithm[J].Journal of Shandong University:Engineering and Technology Edition,2020,50(1):8-13.)

[23]Kzltepe R S,Gan J Q,Escobar J J.A novel keyframe extraction method for video classification using deep neural networks[J/OL].Neural Computing and Applications.(2021-08-02).https://doi.org/10.1007/s00521-021-06322-x.

收稿日期:2021-06-28;修回日期:2021-08-17基金項目:國家自然科學基金資助項目(71901144)

作者簡介:曹春萍(1968-),女,上海人,副教授,碩導,碩士,主要研究方向為數據挖掘、個性化服務;苑凱歌(1996-),男(通信作者),河南周口人,碩士研究生,主要研究方向為關鍵幀提取、人體行為識別(y13262639708@163.com).

主站蜘蛛池模板: 国产99视频精品免费视频7| 2048国产精品原创综合在线| 亚洲中文字幕无码爆乳| 亚洲一区二区三区国产精华液| 狂欢视频在线观看不卡| 欧美伊人色综合久久天天| 成人福利在线看| 伊人久久综在合线亚洲2019| 久久久黄色片| 99九九成人免费视频精品| 欧美午夜网站| 免费无码网站| 精品国产一二三区| 美女内射视频WWW网站午夜| 亚洲男人在线天堂| 中日无码在线观看| 日韩无码真实干出血视频| 老司机午夜精品网站在线观看| 秘书高跟黑色丝袜国产91在线| 日本精品αv中文字幕| 亚洲av无码牛牛影视在线二区| 久久久精品国产SM调教网站| 激情综合五月网| 国产成人无码播放| 亚洲三级成人| 国产午夜精品鲁丝片| 日韩成人在线网站| 九九九国产| 欧美天堂在线| 国产资源站| 992Tv视频国产精品| 精品综合久久久久久97超人该| 91亚洲视频下载| 久久精品波多野结衣| 日韩无码视频网站| 四虎影视国产精品| 91久久偷偷做嫩草影院免费看| 国产激情无码一区二区三区免费| 一本色道久久88综合日韩精品| 日本在线国产| 免费人成黄页在线观看国产| 中国一级毛片免费观看| 天天躁夜夜躁狠狠躁图片| 2019年国产精品自拍不卡| 色呦呦手机在线精品| h网址在线观看| 国产精品第一区| 无码免费视频| 亚洲一区毛片| 狠狠色综合久久狠狠色综合| 国产国产人成免费视频77777| 另类综合视频| 99精品一区二区免费视频| 色妺妺在线视频喷水| 91精品专区| 国产精品综合色区在线观看| 国产69精品久久久久孕妇大杂乱| 波多野结衣视频一区二区| 全裸无码专区| 欧美激情视频二区| 日本在线免费网站| 2020国产精品视频| 福利在线一区| 日韩精品成人网页视频在线 | 日韩精品毛片人妻AV不卡| 国产福利一区在线| 婷婷丁香在线观看| 五月天香蕉视频国产亚| 成年人免费国产视频| 国产综合精品一区二区| 亚洲av日韩av制服丝袜| 亚洲综合色婷婷| 日韩无码真实干出血视频| 好紧太爽了视频免费无码| 日本a级免费| 欧美人与牲动交a欧美精品| 亚洲国产综合第一精品小说| 女人18毛片一级毛片在线| 无码一区二区波多野结衣播放搜索| 69精品在线观看| 五月婷婷亚洲综合| 色妞www精品视频一级下载|