曾令安,鄭偉詩
(中山大學,廣州 510275)
近年來,隨著通訊技術和互聯網技術的快速發展,更直觀和包含內容更豐富的視頻已經成為人們記錄和分享生活內容的主流媒體形式。這些海量的視頻一方面需要巨大的人力進行視頻處理與分析,另一方面又提供了寶貴的資源用于探索計算機如何理解人體行為。針對視頻行為理解與分析的研究也在近年來成為一大熱門領域,并且發展迅速。在該領域中,旨在通過計算機對視頻中人體行為進行分數評估的視頻動作質量評估任務也受到越來越多的關注。視頻動作質量評估可以作為實時監測和評估人體行為質量的自動化技術,因而在實驗操作規范監測、康復醫療和體育訓練等領域有著重要的應用價值。
視頻動作質量評估問題最早由Gordon 在1995年提出[1],而后隨著計算機技術的發展和所評估的視頻內容的復雜性和多樣性,研究者們提出了許多新穎的視頻動作評估方法[2-16]。視頻動作質量評估方法根據采用的技術可以大致劃分成人工設計特征傳統算法[1-2,10-11]和深度學習算法[3-9,12-16]兩類,如圖1 所示。傳統方法受限于當時計算機技術局限性,主要通過追蹤每個時刻目標(包括人體部位比如手、腳和腰以及相關器材)的位置,從而獲目標的位置、速度、方向等信息,而后通過手工設計規則或者通過貝葉斯網絡來評估最終分數。傳統方法可以歸納為一下三個步驟:追蹤位置、特征提取和分數預測。深度學習興起使得研究者們可以對動作進行更加細致建模和評估,視頻動作質量評估的深度學習方法主要通過神經網絡對視頻幀或者視頻段提取特征,而后通過時序信息建模網絡和分數預測網絡進行融合視頻中的時序信息和預測最終分數。根據神經網絡所使用的輸入數據,視頻動作質量評估的深度學習方法可以分為基于人體骨架的方法和基于RGB 視頻流的方法。

圖 1 視頻動作質量評估方法分類
視頻動作質量評估是一個需要對動作具有深層次理解的比較具有挑戰性的任務。不同于動作識別、動作檢測與定位等視頻行為分析任務,視頻動作質量評估是需要對動作本身具有更深層次的理解,其不僅需要識別動作,更需要理解動作之間的細微差異。比如對于體操中高抬腿這個動作而言,抬腿高度上的小幅度變化并不會影響對于高抬腿這個動作類別的識別,但在動作質量評估任務中,抬腿的高度會直接影響動作的質量。雖然視頻行為分析領域近十年來發展迅速,但由于視頻動作質量評估任務本身的難度較高,導致該方向發展比較緩慢。
雖然目前已經有了不少關于視頻動作質量評估任務的相關文獻,但這些論文在都是國外會議、期刊或者雜志上發表的,國內目前還沒有介紹視頻動作質量評估的文章。因此本文將致力于介紹視頻動作質量評估任務的定義和簡要地梳理相關的前沿工作,以便于國內學者快速了解這個領域的發展情況。本文已經介紹了視頻動作質量評估任務的定義以及相應研究挑戰,而后將分別介紹有關該任務的傳統的和基于深度學習的前沿視頻動作質量評估方法,并分析這些方法的優劣之處,最后本文將介紹視頻動作質量評估任務在現實中的應用價值與意義。
傳統的視頻動作質量評估方法受限于當時計算機技術局限性,無法對視頻或者圖像提取更具有代表性的特征,更無法分析動作上的細微差異,導致傳統方法只能局限于某些動作模式差異明顯并且評分方式簡單的運動。
Gordon[1]提出了結合軌跡追蹤技術來評估跳馬動作質量的方法。為了記錄可以捕獲跳馬表演的第一次飛行、支撐、第二次飛行和著陸階段,相機的視軸被放置在垂直于跳板和馬的方向。而后使用運動跟蹤算法[17]對圖像進行分析,該算法可以有效地計算一系列連續幀中運動對象的中心。所得數據表示體操運動員在每幀中以圖像坐標表示的位置,如圖2 所示,這些數據可用于計算在跳高表演過程中與體操運動員的位置有關的記分規則中的得分點,比如跳馬過程中那些不正確的飛行路徑軌跡和不足的高度和不足的距離的扣分。然后,Gordon 根據跳馬的官方評分規則構造邏輯規則來評估最終的分數。

圖 2 通過分析軌跡來評估跳馬動作的質量[1]
Pervse 等[2]則是沿著結合軌跡追蹤技術的思路,將視頻動作質量評估從單人運動擴展到多人的籃球運動,并對籃球運動中的進攻行為進行質量評估。該方法首先通過視頻技術和檢測器追蹤每個運動員在場上的位置信息,而后將運動員在場上的行為劃分成移動(Move)和掩護(Screen,籃球進攻的戰術之一)兩種基本的行為,并通過相應的規則將事件之間的時間關聯信息劃分成先后發生(Before)、接連發生(Within)和同時發生(Simultaneously)三種關系。Pervse 等根據上述基本行為和基本行為關系分別分析籃球比賽中每個活動,并使用貝葉斯網絡實現有關活動的最終評估推理。其中,貝葉斯網絡結構是從籃球專家使用的標準活動模板自動獲得的,從活動模板獲得的貝葉斯網絡可以用于識別所執行的活動。基于建模活動類型和網絡類型匹配度的思路,Pervse 等通過貝葉斯網絡評估籃球比賽中個人或者團體的活動質量,貝葉斯網絡樣例圖參見圖3。

圖3 籃球比賽中雙人掩護行為的貝葉斯網絡[2]
深度學習興起使得研究者們可以對動作進行更加細致的建模和評估,不再局限只能通過追蹤運動員位置來評估動作質量[3-9,12-16]。視頻動作質量評估的深度學習方法主要通過神經網絡對視頻幀或者視頻段提取特征,而后通過時序信息建模網絡和分數預測網絡以融合視頻中的時序信息和預測最終分數。根據神經網絡所使用的輸入數據,視頻動作質量評估的深度學習方法可以分為基于人體骨架的方法[3-4]和基于RGB 視頻流的方法[5-9,12-16]。
基于人體骨架的視頻動作質量評估算法主要是先通過對視頻中人體骨架進行檢測,而后在時間和空間上建模人體關節點間的關聯信息,從而實現對人體運動的建模并對動作進行動作質量評估。這類方法在關節點準確時,可以較好的評估人體的運行信息并具有良好的可解釋性。然而在很多運動中(比如跳水、體操、跳馬和花樣滑冰等),由于運動員的身體很多時候都處于折疊或者彎曲較大的非常見姿態,這導致人體關節點檢測模型在這種體育運動的數據上效果有較大的折扣。
3.1.1 基于離散余弦變換提取關節點運動信息的方法
Pirsiavash 等[3]通過傳統的人體骨架自動檢測器來獲取運動員的骨架信息,而后通過離散余弦變換從關節點序列中提取重要特征,再使用支持向量機來預測最終得分。令pj(t)為視頻第t幀中人體第j個關節的x分量。為了使關節點的特征信息是平移不變的和與人在圖片中的位置無關的,因此將所有關節點按相對于頭部位置進行歸一化,歸一化公式參見式(1)。其中p0(t)代表第t幀中頭的位置。因為pj(t)是一個關于時間的函數,所以通過離散余弦變換來表示其在頻率上的特征信息,參見式(2)。其中矩陣A是離散余弦變換矩陣。最后使用頻率域上的前k個低頻信息的絕對值來創建最終特征,參見式(3)。而后為每個關節點的x和y分量分別計算φj,并將它們連接起來以創建最終特征向量Φ。另外對于較長的視頻,需要將其細分為多個片段,并連接特征以為整個視頻生成一個特征向量。

而后,Pirsiavash 等將視頻動作質量評估看作有監督的回歸問題,通過采用線性支持向量回歸在訓練集進行訓練,從而預測從特征到分數的映射。
3.1.2 基于圖卷積神經網絡建模關節點運動信息的方法
Pan 等[4]沿著人體骨架建模的思路,通過運動共性建模的身體部位動力學,以及通過運動差異建模的關節協調性,以進行動作評估。這個方法首先使用基于深度學習的人體關節點檢測算法Mask-RCNN[18]來檢測關節點。與之前方法不同的是,Pan等專注于通過運動共性建模身體部位的動力學信息,以及通過運動差異建模的關節協調性。因為相鄰關節的運動共性表示某個身體部位的總體運動,而這些相鄰關節之間的運動差異則反映了動作的協調性。此外,執行良好的動作也需要各個關節之間進行良好的協調。為了對關節運動之間的關系進行建模,Pan 等提出了一個基于圖的動作評估網絡,其中圖的節點與關節相對應。第一個圖用于在一個時間步長內建模關節點關系的空間關系圖,第二個圖用于在相鄰兩個時間步長內建模關節點關系的時間關系圖。這兩個圖的建模方法參見圖4,其中把人體關節點看作節點,在相鄰的關節點之間建立邊,而后在時間上有關聯的節點上通過建立邊。這兩個圖中的邊權都是由網絡學習自動調整的,最開始的賦值是從區間[0-1]中取的隨機數。最后通過圖卷積操作在圖上聚合節點之間信息,從而實現對人體關節點運動信息的建模。

圖4 Pan 等[4]提出的關于人體關節點的時空關系圖
基于RGB 視頻流的視頻動作質量評估算法通過深度學習模型如C3D(3D Con-volution Networks)[19], I3D(Inflated 3D Convolution Network)[20], TSN(Temporal Seg-ment Networks)[21]等直接從視頻幀中提取特征,而后利用LSTM(Long Short-Term Memory Networks)[22]、平均池化等方法在時間上提取最終特征,最后通過全連接神經網絡進行分數預測。此類方法利用視覺活動信息來評估動作質量,但模型的可解釋性比較差。下面將介紹主要的幾種RGB視頻流的算法。
3.2.1 基礎的基于RGB 視頻流的方法
Parmar 和Morris 首先提出了使用RGB 視頻流的動作質量評估方法[5]。這種方法不是顯式地使用人體姿勢信息,而是利用視覺活動信息來評估動作質量。由于體育運動的動作質量評估需要關注整體動作的情況,因此第一階段使用C3D 網絡從視頻中提取時空特征。C3D 可以從視頻段的前幾幀中捕獲場景信息,從視頻段的后續幀中提取其中的運動信息。在特征提取之后,有三種不同的時序信息融合方法:
(1)對特征在時域取平均值,而后使用SVR 預測最終得分。但通過這種在時間維度上取平均值的操作會導致動作的時序信息和運動變化信息大量丟失。
(2)使用LSTM 建模特征之間的時序關系,而后使用全連接神經網絡預測最終分數。這種方法利用視頻段內容之間的連續性關系,是一種比較自然建模時序信息的方式。
(3)基于上面兩種方法的融合,使用LSTM 建模視頻段之間的時序關系,最后使用SVR 預測最終得分。這種架構通過LSTM 提供了顯式的序列動作建模和時間建模,同時利用了SVR 來面對有限的訓練數據進行泛化。
3.2.2 基于動作階段分割的方法
Li 等[6]采用將跳水運動過程劃分成多個階段的思路,提出了ScoringNet 網絡來預測跳水視頻的階段劃分,再剔除掉無關的視頻幀后再對關鍵視頻段進行特征提取和分數預測。ScoringNet 的網絡結構如圖5 所示,該網絡由關鍵片段分割模塊(Key Fragment Segmentation, KFS)和分數預測模塊(Score Prediction, SP)組成,由這兩個主要模塊實現對跳水運動的動作質量評估。由于體育視頻通常是未修剪的,因此從未修剪的視頻中提取特征會影響動作質量評估的準確性。而且并非所有修整后的視頻片段都對得分有所貢獻(例如運動員準備跳水的片段)。ScoringNet 采用關鍵片段分割模塊來對視頻內容進行執行語義視頻分割,以剔除無關內容。然后使用3D 卷積神經網絡從保留的視頻內容中提取特征。最后ScoringNet 不是簡單只預測最終得分,而是通過分數預測模塊生成動作的難度分、執行得分和最終得分,從而更準確地評估運動員的表現。

圖5 ScoringNet 的網絡結構圖[6]
3.2.3 基于空間注意力網絡的方法
Li 等[7]將空間注意力機制引入到提取特征的骨架網絡中以從視頻關注于重要的視頻區域。Li 等提出的空間注意力網絡考慮了先前幀的累積注意力狀態以及有關正在執行任務的高級知識。整個模型網絡結構如圖6。該方法先將視頻切分成N 個片段,并在每個片段中隨機采樣一幀以形成整個視頻的稀疏采樣。在每個時間步長處,網絡都將RGB圖像和相應的堆疊光流圖像作為輸入,并將從中提取深層運動特征。然后通過結合深層運動特征的低級視覺信息和正在執行任務的高級信息,并且考慮了注意力之間的時間關系,從而將空間注意力子模塊用于生成注意力圖。根據估計的注意力圖,通過加權融合深層特征來生成關注的特征向量。而后將特征向量輸入到循環神經網絡(Recurrent Neural Network, RNN)中來建模運動在時間的變化。最后使用最終時間步的RNN 網絡輸出用于產生最終分數。

圖6 空間注意力網絡[7]
3.2.4 多尺度卷積LSTM網絡
Xu 等[8]針對于時間較長的花樣滑冰視頻動作質量評估和如何從視頻中提取具有鑒別力的視頻片段問題,提出了一個基于LSTM 的動作質量評估網絡。如圖7 所示,基于LSTM 的動作質量評估網絡可以分為兩個互補的子網絡:自注意LSTM(Self-Attentive, S-LSTM)和多尺度卷積LSTM(Multi-scale Convolutional Skip LSTM, M-LSTM)。 在 自 注 意LSTM 網絡中,通過自我關注的特征嵌入以有選擇地學習以壓縮特征表示。這樣的表示可以有效地對本地信息建模,通過使用簡單的自我關注注意力機制來選擇重要的片段特征,這些特征代表了局部的信息。在多尺度卷積LSTM 網絡中,通過在時間維度上對特征進行多尺度卷積LSTM 來建模局部信息和全局信息。而后,通過將兩個子網絡的輸出特征結合到一起,輸入進最終的全局連接神經網絡進行分數預測。

圖7 多尺度卷積LSTM 網絡[8]
3.2.5 基于非對稱交互式行為的動作評估方法
Gao 等[9]指出現有的動作評估方法大多局限于單個人的動作,尤其是缺乏對對象主體之間(例如人與物之間)非對稱關系建模的方法。因為在許多交互式動作中對象主體之間始終存在從屬關系,這種局限性破壞了它們評估包含非對稱交互式動作的能力。為解決這個問題,Gao等對主體之間的非對稱交互關系進行建模,從而進行動作評估(模型框架如圖8)。特別地,Gao等提出了一種非對稱交互模塊(AIM),顯式地模擬一個動作中對象主體之間的非對稱交互。在該動作中,將這些對象主體分為主要對象主體(例如人)和次要對象主體(例如物體);然后利用同一個潛在空間中的主要對象和次要對象之間的差異,并利用嵌入該差異的主要對象來學習時域中的交互關系。使用此模塊,該方法可以顯式地學習交互關系評估的潛在標準。然后構建了一個注意力融合模塊,對整個場景特征和AIM特征進行不同程度的關注和融合。

圖8 基于非對稱交互式行為的動作評估網絡[9]
視頻動作質量評估問題針對的是評估人體動作或者行為的質量,因為視頻動作質量評估算法可以某些特定的情況下充當教練或者裁判的位置,因而在現實生活中有許多應用場景:
(1)在體育運動領域中,視頻動作質量評估算法可以用作輔助裁判和輔助教練。通過計算機來進行動作質量評估,將不需要教練在現場陪同訓練即可獲得實時反饋,這不僅可以節省請教練的費用開支,更有望為運動員設計量身定制訓練計劃。例如,在2021年8 月的東京奧運會中便采用了如圖9所示的自動評分系統對運動員動作進行分數評估[23]。

圖9 2020年東京奧運會采用的自動動作評分系統
(2)在實驗教學領域中,視頻動作質量評估算法可以用于實時監測和指導學生進行實驗。通過視頻動作評估可以檢測出潛在的危險實驗操作,并通過及時的提醒以避免意外事故的發生。
(3)在康復醫療領域中,視頻動作質量評估算法可監測和協助患者進行康復訓練。醫生通常需要通過觀察病人進行康復訓練時的動作質量進行分析和評估康復狀態,但這需要花費醫生的大量時間。通過視頻動作質量評估技術,有望可以通過計算機來替代醫生進行自動化的動作質量評估。
本文調研了視頻動作質量評估方向近年來的研究和發展情況。本文首先介紹了視頻動作質量評估任務的定義和研究挑戰,而后系統地梳理了相關的研究工作,介紹了基于傳統方法的和基于深度學習的視頻動作質量評估方法,并詳細分析這兩類方法的優缺點,最后本文介紹了視頻動作質量評估在現實生活中的應用價值。期望本文的內容可以促進國內對于視頻動作質量評估任務的研究和,推動國內視頻理解技術的發展。