任彥軍+黃麗敏
摘 要: 針對傳統的運動參數提取方法一直存在提取誤差大、耗時長的問題,提出基于圖像識別技術的中老年人下肢動作運動圖像參數提取方法,使人體運動行為識別能力得到提升。首先,結合中老年人下肢運動速度特征和三維運動形狀的時空梯度自相關特征,計算出邊緣梯度方向空間分布與梯度之間的自相關性,將時空自相關特征與視頻運動特征相結合,使特征識別具備相應的數據條件;其次,人體下肢動作的視頻圖像數據是典型的時間序列數據,因此,基于人體骨架局部特征,利用訓練數據能夠構造完備字典,完成數據編碼,運用時域金字塔匹配法對編碼后的向量進行下肢動作運動圖像特征參數提取與識別。實驗結果證明,利用基于圖像識別技術對中老年人下肢動作運動圖像參數實現了準確有效的提取。
關鍵詞: 圖像識別; 下肢動作; 自相關性; 運動行為識別; 時域金字塔匹配法; 參數提取
中圖分類號: TN911.73?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2018)01?0071?05
Abstract: The traditional motion parameter extraction method has big extraction error and long time?consumption. Therefore, an image recognition based motion parameter extraction method of lower limbs movement for elderly people is proposed to improve the recognition ability of human motion behavior. On the basis of the speed characteristics of lower limbs movement for the middle?aged and elderly people and the spatiotemporal gradient correlation characteristic of the three?dimensional motion shape, the autocorrelation between the spatial distribution and gradient in the edge gradient direction is solved. The spatiotemporal autocorrelation characteristic and video motion feature are combined to satisfy the corresponding data condition of the feature recognition. Because the video image data of human lower limbs movement acts as the typical time series data, the training data is used to construct the complete dictionary according to the local feature of the human skeleton to realize the data encoding. The time domain pyramid matching method is adopted to extract and recognize the characteristic parameter of the lower limbs motion image for the encoded vector. The experimental results show that the proposed method based on image recognition technology can extract the image parameters of the lower limbs movement for the middle?aged and elderly people effectively.
Keywords: image recognition; lower limbs movement; autocorrelation; motion behavior recognition; time domain pyramid matching method; parameter extraction
0 引 言
近年來,隨著各類智能設備的發展與廣泛應用,人們對人體運動行為的識別研究也越加重視,并已漸漸成為機器視覺領域中的一項重要研究課題[1]。在日常生活中,人們已漸漸熟悉并適應了在各個領域中對視頻監控的運用。此外,如人機交互、基于步態與人臉的生物鑒定、手勢識別、人臉識別等機器視覺技術的應用也被人們熟知[2?4]。文獻[5]指出對于機器視覺技術也愈發重視,為人體運動行為識別技術的發展帶來了十分有利的契機。
解析圖像場景中的目標行為是機器視覺研究的主要目的,行為理解的首要步驟就是要識別人體運動,因此學術界非常重視人體運動識別的研究??梢院唵蔚貙⑷梭w運動行為識別問題視為關于隨時間變化的運動圖像特征的分類問題,即匹配測試圖像序列與帶標簽的代表特定行為訓練圖像序列,問題的關鍵在于如何獲取樣本數據中代表特定行為的圖像序列以及如何測量訓練圖像序列[6?7]。由于每個人執行統一動作時,其速率是不同的,因此,文獻[8]提出當匹配模板與行為圖像序列相配時,相同動作行為在時間和空間尺度上出現變化時,對應行為也會發生變化的情況需要得到有效處理。endprint
為了能更加準確地了解人體運動行為識別問題,本文提出基于圖像識別技術的中老年人下肢動作運動參數提取方法。首先,將基于三維運動形狀的時空梯度自相關特征與中老年人下肢運動速度特征相結合,在計算邊緣梯度方向的同時,也求解梯度間的自相關性,再通過時空自相關特征和視頻運動特征實現級聯,為特征提取奠定數據基礎;其次,由于人體下肢動作的視頻圖像數據為時間序列數據,以人體骨架局部特征為基礎,通過訓練數據構造超完備字典,并對數據實現編碼,編碼后的向量采用時域金字塔匹配法進行下肢動作運動圖像特征參數提取[9?10]。
1 中老年人下肢動作運動參數提取過程
1.1 基于時空梯度和運動速度的人體圖像特征
通過拓展SIFT和HOG由一階到二階梯度自相關統計特征,從而獲取時空梯度自相關特征,其很難分離肢體運動形狀近似行為,因此本文提出一種結合時空梯度特征與運動速度特征的提取方法。
平移不變的圖像特征可以通過梯度自相關法獲取,通過該方法可以檢測出豐富的圖像信息,在辨識度方面比直方圖更具優勢。假定[I]表示一個圖像區域,圖像區域[I]中的一個位置向量由[r=x,y]表示,[?I?x,?I?y]是所有像素點處的梯度,則可分別描述梯度大小與梯度方向角度為:
[n=?I2?x+?I2?y, θ=arctan?I?x,?I?y] (1)
式中:[n]和[θ]分別表示梯度大小及梯度方向角度;[?]表示常數。
像素點[r]的梯度在局部領域內的自相關性函數可通過該點梯度方向向量[f]以及梯度大小[n]計算得出,即:
[Rd0,…,dN,a1,…,aN=Iωnr+a1,…,nr+aNfd0rfd1r+a1…fdNr+aNdr] (2)
式中:[R?]表示梯度相關函數;[ai=a1,…,aN]代表其他像素點至參考點[r]的位移向量;梯度方向向量[f]的第[di]個元素由[fdi]表示,[di]代表梯度方向向量元素個數,其中[di=d0,…,dN,]且[fd0r]表示像素點的梯度向量函數;[N]代表參數;[ω]代表權重系數。
式(2)表示兩種梯度相關性:從位移向量[ai]得到的空間相關性和從元素值[fdi]得到的方向相關性。
為使孤立的噪聲點得到有效抑制,將權重系數值設置為最小,則可描述實際梯度自相關函數公式為:
[RN=0d0=r∈Inrfd0rRN=0d0,d1,a1=r∈Iminnr,nr+a1fd0rfd1r+a1] (3)
式(3)代表在參數[N=0,N=1]階時的梯度自相關特征,[nr]表示像素點梯度函數。
平移不變性是該特征最主要的特點,所以在人體運動行為識別領域中可以應用此方法,時空梯度的[N]階自相關函數可利用二維的梯度自相關函數進行計算,具體公式如下所示:
[RNa1,a2,…,aN=wmr,…,mr+aN? hr?…?hr+aNdr] (4)
式中:[w]表示時空區域內的權重系數值;[mr]表示空間時域內的梯度向量;[hr]表示梯度編碼向量;[?]表示向量張量外積。
中老年人不同種類的下肢運動行為不僅在時空運動形狀上的產生不同,也在運動速度特征上存在差異。數字圖像特征可由圖像矩實現表述,當數字圖像在各個方向發生轉換時,圖像的重心依然不發生改變。因此,能夠求解出運動圖像中的人體重心,依據重心點的移動位置計算垂直和水平方向的速度特征值,將該速度特征當作運動圖像中的運動特征。具體圖像矩可作如下定義:
[Mx_order,y_order=x,yIx,yxx_orderyy_order] (5)
式中:[x_order]代表像素點[x]的矩;[y_order]代表像素點[y]的矩;[Ix,y]表示像素點[x,y]處的像素值。利用圖像零階距[M0,0]代表人體所在圖像域面積[A,]則:
[A=M0,0=x,yIx,y] (6)
則運動目標重心[x,y]根據下列公式計算:
[x=M1,0A=x,yIx,yxA, y=M0,1A=x,yIx,yyA] (7)
式中:[M1,0]代表[x=1]階次圖像矩;[M0,1]代表[y=1]階次圖像矩。則第[k]幀圖像中人體重心位置是[xk,yk]。
設置人體行為數據集的幀率為[g,]則兩幀圖像的時間距離為[t=1g,]按照以下公式求解垂直方向[Vyk、]水平方向[Vxk]的瞬時速度和總速度[Vk]:
[Vyk=yk+1-ykt=yk+1-yk?g] (8)
[Vxk=xk+1-xkt=xk+1-xk?g] (9)
[Vk=xk+1-xk2+yk+1-yk2t=xk+1-xk2+yk+1-yk2?g] (10)
式中:[xk+1,yk+1]代表第[k+1]幀圖像的人體重心位置;[t]代表時間間隔。
通過上述步驟獲取了時空自相關特征和人體運動速度特征向量,為下肢運動圖像參數的特征提取識別提供數據支持。
1.2 基于時間域金字塔匹配式運動參數特征提取
作為典型的時間序列數據,人體下肢動作視頻數據需要在提取空間特征與時間特征的條件下保全原數據里的空間及時間性質。如果視頻數據的時序性丟失,那么不同速度下做出的同一動作可能會出現誤判,因此需對視頻時間域特征實現進一步提取。
首先利用構造字典訓練數據,獲得一組能夠表征訓練數據的整個特征空間超完備的基;再利用構造的字典完成所有數據編碼,所有數據通過構造基向量來表征數據;最后,通過編碼后的向量提取出視頻動作的時域特征。
聚類方法是構造字典最簡單便捷的一種方法,其基本原理就是聚類,在特征空間里將數據聚成[K]簇,其中[K]表示給定數值。假設[X=x1,x2,…,xm]是待處理的數據集合, [m]是數據點總量,其中[xi∈Rn,]并引入數據點[μk,]而[k=1,2,…,K,mμk∈Rn,]即[K]個聚類中心點。找到一組數據中心點[μk,]即是[K?means]聚類的最終目的,同時滿足全部數據點與中心點[μk]的距離和最小。endprint
所有數據的中心點均可以通過[K-1]編碼方式進行描述。將所有待聚類的數據點特征向量[xi]代入一組二元向量集合,[rik∈0,1,]其中[k=1,2,…,K]。判斷每一個二元變量[rik]的第[i]個數據點是否屬于第[k]個聚類中心,則:
[rik=1,k=k00,k≠k0] (11)
式中:[k0]代表聚類中心[k]的點。定義最終代價函數,計算所有點與其對應的聚類中心點值,可描述為:
[J=i=1mk=1Krikxi-μk2] (12)
式中:[ri]表示第[i]個數據點的二元變量。首先隨機選擇[μk]的初始值,設定[μk]值不變,[rik]為變量條件對[J]進行優化;設定[rik]值不變,[μk]為變量條件對[J]最小化,重復以上過程直至[rik]值優化完成,實現對[μk]的求解,則:
[μk=irikxinrik] (13)
式中[n]表示迭代過程次數。
本文利用構造字典中的單詞表征處理特征向量[xi,]選用局部約束線性編碼模型,則:
[C=argminci=1Nxi-Dci2+λli⊙ci2s.t. ITci=1, ?i] (14)
式中:[C]代表特征向量編碼集合;[c]為集合中的特征向量;[ci]表示集合中第[i]個特征向量;[D]代表構造的字典集合;[λ]為常量;[li]代表局部性質的變量;[IT]為約束項參數。
時間域金字塔匹配法是將原始數據場景引入到空間域金字塔場景中,再將視頻人體下肢動作識別應用到場景中與時間域金字塔進行匹配。
設定需進行對比的兩個特征集合為[X,][Y,]針對特征集合存在不同尺度的分割,[0~R]是分割尺度的層級數。假設[HRX]和[HRY]分別是第[R]層兩個特征向量[X]和[Y]的直方圖特征。分布于區域內的兩個向量集合匹配數據交集點為:
[?R=i=12dlminHRXi,HRYi] (15)
式中:[2dl]表示分割區域的數據量;[HRXi]與[HRYi]分別表示兩個向量集合在區域[i]的分布數量。
通過不同尺度對特征向量進行分割操作,獲取不同時間維度上的特征向量,將其通過時間域金字塔匹配,得到人體下肢運動參數特征向量。
2 仿真實驗及結果分析
為有效實現中老年人下肢運動圖像參數特征的提取,本文以提取視頻圖像序列中人體運動速度特征為基礎,利用金字塔匹配法對圖像特征向量進行匹配后獲取下肢運動圖像參數,通過以下兩個實驗驗證本文方法的可行性。
實驗1:實驗給出3幅中老年人不同下肢運動圖像,利用本文人體運動速度特征提取法及光流法對圖像中下肢運動圖像區域進行準確劃分,具體實驗效果如圖1~圖9所示。
實驗中給出中老年人下肢動作圖1,分別利用光流法及本文人體運動速度特征提取法對下肢動作特征進行提取。
圖2為利用光流法對下肢運動圖像進行處理后的結果,從圖中可觀察出,雖然對運動狀態的特征進行了提取,但圖像區域并不是下肢運動特征區域,因此,光流法對運動特征提取效果并不好。
圖3為利用本文人體運動速度特征提取法進行的下肢運動特征區域處理效果圖,可明確地看出利用本文方法能較為準確地將中老年人下肢運動區域提取出來。
實驗給出圖4及圖7兩幅不同的下肢動作圖像,運用光流法對兩幅圖像進行下肢運動區域特征處理,具體如圖5和圖8所示,可觀察出光流法不能準確地提取出中老年人下肢運動的特征區域。利用本文運動速度特征提取法對兩幅圖像處理后的效果圖如圖6及圖9所示,效果圖顯示本文方法對下肢動態運動特征提取較為準確,表明本文方法可行性較高。
實驗2:為了能夠準確地提取下肢運動圖像數據,本文利用金字塔匹配法與稀疏二值圖像特征數據提取法對下肢運動圖像數據實現有效提取,比較兩種方法的差異性。實驗給出6組圖像特征數據,在有限時間內對這6組圖像特征數據進行有效參數提取,并輸出圖像,比較參數提取時間及輸出圖像質量差異。具體數據如表1所示。
通過表1能夠看出實驗給出的6組下肢運動圖像實驗數據,運用本文金字塔方法對圖像有效參數提取時間為1 s之內,耗時較少;利用稀疏二值圖像數據提取法對有效參數進行處理時,耗時較長,基本在4 s以上,因此對后續圖像處理影響較大。另一方面,從輸出圖像質量來看,比較這兩種方法的數據可以看出,利用本文方法輸出的圖像清晰度較高。因此對比可看出本文方法性能較為優越。
3 結 論
人體肢體運動分析在計算機圖像處理技術領域中是諸多學者研究的重點問題,本文提出基于圖像識別技術對中老年人下肢運動圖像參數進行有效提取。首先,將空間運動形狀的梯度自相關特征與肢體運動速度特征相結合,求解出梯度自相關函數及運動特征速度函數,為運動圖像特征提取奠定數據基礎;然后,通過訓練圖像特征數據構造字典,并通過字典中的單詞表征圖像特征向量;最后,利用金字塔匹配法實現了對下肢運動圖像特征參數的有效提取。
參考文獻
[1] 劉雨嬌,范勇,高琳,等.基于時空深度特征的人體行為識別算法[J].計算機工程,2015,41(5):259?263.
LIU Yujiao, FAN Yong, GAO Lin, et al. Human action recognition algorithm based on spatial temporal depth feature [J]. Computer engineering, 2015, 41(5): 259?263.
[2] 任子良,秦勇,黎志雄.基于擴展卡爾曼濾波的人體行為識別算法[J].電子設計工程,2016,24(2):15?17.endprint
REN Ziliang, QIN Yong, LI Zhixiong. Activity events recognition algorithm based on extended Kalman filter [J]. Electronic design engineering, 2016, 24(2): 15?17.
[3] 侯遠韶,張瑤.機器視覺中圖像分割問題研究[J].洛陽理工學院學報(自然科學版),2016,26(2):76?80.
HOU Yuanshao, ZHANG Yao. Study on image segmentation in machine vision [J]. Journal of Luoyang Institute of Science and Technology (natural science edition), 2016, 26(2): 76?80.
[4] 張生軍,吳仕勛,王宏剛,等.無標記手勢識別中基于混合特征的手部分割研究[J].重慶交通大學學報(自然科學版),2016,35(5):185?192.
ZHANG Shengjun, WU Shixun, WANG Honggang, et al. Hand segment using multi?feature fusion method in unmarked hand gesture recognition [J]. Journal of Chongqing Jiaotong University (natural sciences), 2016, 35(5): 185?192.
[5] 紀彬,張建平,周大志,等.一種基于簡單特征量信息的快速行為識別算法[J].黑龍江科學,2016,7(17):1?3.
JI Bin, ZHANG Jianping, ZHOU Dazhi, et al. A fast behavior recognition algorithm based on simple information of characteristic quantity [J]. Heilongjiang science, 2016, 7(17): 1?3.
[6] 胡榮,羅小青,何尚平.遠程視頻圖像人體運動特征監控仿真研究[J].計算機仿真,2016,33(6):298?301.
HU Rong, LUO Xiaoqing, HE Shangping. Simulation study on the human motion characteristics monitoring of remote video image [J]. Computer simulation, 2016, 33(6): 298?301.
[7] 王佳欣,魏濤.基于圖像融合技術的運動目標圖像識別研究[J].微電子學與計算機,2016,33(8):158?162.
WANG Jiaxin, WEI Tao. Research on image recognition of moving target based on image fusion technology [J]. Microelectronics & computer, 2016, 33(8): 158?162.
[8] 徐珩,賀飛越.模板匹配跟蹤的哈希增強算法[J].計算機應用與軟件,2016,33(7):167?171.
XU Heng, HE Feiyue. Hash enhancement algorithm for template matching tracking [J]. Computer applications and software, 2016, 33(7): 167?171.
[9] 許梅梅,肖瓊琳,王璐,等.基于空間梯度信息的自適應邊緣算法優化[J].計算機工程,2016,42(8):233?236.
XU Meimei, XIAO Qionglin, WANG Lu, et al. Optimization of adaptive edge algorithm based on spatial gradient information [J]. Computer engineering, 2016, 42(8): 233?236.
[10] 魯雯,崔子冠,干宗良,等.基于空時域特征的視覺顯著圖生成算法[J].電視技術,2015,39(17):1?4.
LU Wen, CUI Ziguan, GAN Zongliang, et al. Visual saliency map algorithm using spatiotemporal features [J]. Video engineering, 2015, 39(17): 1?4.endprint