文|全美在線(北京)教育科技股份有限公司 朱國平、江蘇省住房和城鄉建設廳執業資格考試與注冊中心 蔣曉曦 徐鋒
【關鍵字】機器學習;卷積神經網絡;視頻識別;行為識別;無紙化考核
計算機視覺(Computer Vision)是研究計算機如何像人類視覺系統一樣,從數字圖像或視頻中理解其高層內涵的一門學科,簡言之就是研究如何讓計算機看懂世界,包括對數字圖像或視頻進行預處理、特征提取、特征分類、分析理解幾個過程,將現實世界中的高維數據向低維符號信息的映射,進而觸發自主決策。
考試在中國源遠流長,而有考試,一般來說,就會有作弊。隨著科學技術的逐步發展,基于深度學習的視頻行為/動作/物體識別的技術可以在考試中進行應用,通過監控鏡頭加上運算分析,代替監控人員實時的監督整個考試的過程,對發現的違紀行為、違紀物品進行報警。
本文將探索使用DL 方法解決考試監控視頻中行為識別/動作識別的問題。從算法介紹、算法實現、具體應用效果等方面進行闡釋。
針對考場監控場景使用卷積神經網絡,需要對監控視頻在時間和空間維度都進行多幀連續特征計算,捕捉有效特征。
傳統卷積:

表示I 層第j 特征map 的x,y 位置的單元值,其中tanh 為雙曲正切函數,bij 為這個特征map 的偏差,
三維卷積:

三維卷積是多個連續的幀組成一個立方體,使用三維卷積核卷積。采用多種卷積核,提取多種特征,捕獲動作信息。

網絡結構:
使用7 幀 60x40 大小幀序列作為輸入,第一層為硬編碼的卷積核,然后進行兩次卷積和下采樣,最后得到一個128 維的特征集合。

在這里,我們采用一個線性分類器來對這128 維的特征向量進行分類,實現行為識別。模型中所有可訓練的參數都是隨機初始化的,然后通過在線BP 算法進行訓練。
1.系統將考生人體骨骼向量化。

(1)以w*h 大小的彩色圖像作為輸入 ;
(2)經過VGG 的前10 層網絡得到一個特征度F ;
(3)網絡分成兩個循環分支,一個分支用于預測置信圖S:關鍵點(人體關節),一個分支用于預測L:像素點在骨架中的走向(肢體) ;
(4)第一個循環分支以特征圖F 作為輸入,得到一組S1,L1 ;
(5)之后的分支分別以上一個分支的輸出St-1,Lt-1 和特征圖F 作為輸入 ;
(6)網絡最終輸出S,L ;

(7)損失函數計算S,L 的預測值與groundtruth(S*,L*)之間的L2 范數;

2.關鍵點檢測(關節) 計算方法:
(1)通過第k 個人的兩個關建點Xj1,k,Xj2,k 之間任意像素p 的單位向量計算L 的groundtruth(Lc*)//其中k 表示第k 個人,j1 和j2 表示兩個能夠相連的關節(例如手肘和手腕直間通過手臂相連),c 表示第c 種肢體。

計算方法:計算圖像中第k 個人的關鍵點Xj1,k 指向Xj2,k 的單位向量Lc,k*(P)=v(v 大小和方向固定)。
其中像素P 是否落在肢體上需要滿足兩個條件

每張圖像中第c 中肢體的Lc*,為k 個人在位置p 的向量平均值

(2)評估兩個關鍵點之間的相關性。
關鍵點dj1,dj2 和PAF 已知之后,計算兩個關鍵點連線向量和兩關鍵點連線上各像素的PAF 向量之間的點積的積分作為兩個關鍵點之間的相關性。

3.多人檢測:
關鍵點和關鍵點之間的相關性PAF 已知,將關鍵點作為圖的頂點,將關鍵點之間的相關性PAF 看為圖的邊權,則將多人檢測問題轉化為二分圖匹配問題,并用匈牙利算法求得相連關鍵點最優匹配。

Dj1,Dj2 是兩種關節的集合,Zc 是第c 種肢體的集合,Emn 是兩種關鍵點之間的相關性,求最優的zc 集合。
最終通過系統反應出考生人體結構,并對其具體是否違規予以判別。
如下圖所示,我們通過對考場內監控視頻進行了計算機化的圖像識別。通過訓練,系統能夠自動識別視頻中的人體與物品,同時對視頻內的多個人體進行識別:

在人體有明顯動作違規行為時,能夠進行自動判定。

下一步,系統將在如下幾方面深入開展研究:
1.結合移動網絡通信和云計算技術,創建在不同終端(PC、手持設備、車載設備等)下的視頻識別方案,著眼實時的可視化、數據化考核管理研究。
2.進一步深化動態數據分析模型,采取合理的數據挖掘技術輔助決策工作;同時實時通過系統數據分析決策過程的實施情況,利用數據對決策結果進行監控,為制定政策、形勢預判提供有力的技術支撐。
3.對考生的在考試監控中的行為動作和物別識別進一步優化,為后續建立全面無人值守考場夯實基礎。