





摘"要:常規人機交互方法主要依托于深度自適應算法,缺少對動作特征的重構,無法對待檢測樣本進行動態對齊,使得動作識別錯誤率較高。為此,提出了擬合稀疏信號的可穿戴設備混合現實視覺人機交互方法。基于骨骼信息融合原理獲取動作動態,并將動作圖像從深度圖像中分割出來,通過將動作圖像進行超平面轉換,得到動作參數峰值。結合動作邊緣方程提取動作特征值,采用擬合稀疏信號算法對特征點進行空域離散化處理,利用稀疏信號陣列模型對動作特征進行重構與動態對齊,從而近似分類與識別動作類型,借助鼠標控制pynput庫對角色進行動作驅動,由此實現人機交互。以可穿戴設備混合現實視覺數據集作為實驗對象,將所提方法應用于人機交互的動作識別,結果表明,所提方法對于不同類別的動作識別具有更低的識別錯誤率。
關鍵詞:擬合稀疏信號;可穿戴設備;混合現實視覺;人機交互
中圖分類號:TP212""""""文獻標識碼:A
Wearable"Device"Hybrid"Reality"Visual"Humanmachine
Interaction"Method"for"Fitting"Sparse"Signals
ZHANG"Heng1,REN"Xiaokang1,HAO"Fei1,GAO"Yajuan2,WANG"Tianyu3,XIE"Lide1
(1.Biomedical"Engineering,"Chengde"Medical"University,Chengde,"Hebei"067000,China;
2.Department"of"Radiology,Peking"University"Third"Hospital,Beijing"100191,China;
3.Institute"of"Medical"Technology,Peking"University"Health"Science"Center,Beijing"100191,China)
Abstract:The"conventional"humancomputer"interaction"methods"mainly"rely"on"deep"adaptive"algorithms."Due"to"the"lack"of"reconstruction"of"action"features,"they"cannot"dynamically"align"the"detected"samples,"resulting"in"a"high"error"rate"in"action"recognition.To"this"end,"a"wearable"device"hybrid"reality"visual"humanmachine"interaction"method"that"fits"sparse"signals"is"proposed."Based"on"the"principle"of"bone"information"fusion,"motion"dynamics"are"obtained,"and"the"motion"image"is"segmented"from"the"depth"image."Through"the"hyperplane"transformation"of"the"motion"image,"the"peak"value"of"the"motion"parameters"is"obtained."Combined"with"the"action"edge"equation,"the"action"feature"values"are"extracted,"and"the"feature"points"are"processed"by"spatial"discretization"using"the"sparse"signal"fitting"algorithm."The"action"features"are"reconstructed"and"dynamically"aligned"using"the"sparse"signal"array"model,"Thus,"approximate"classification"and"recognition"of"action"types"can"be"achieved,"and"the"pynput"library"can"be"controlled"by"the"mouse"to"drive"the"actions"of"characters,"thereby"achieving"humanmachine"interaction."Using"a"wearable"device"mixed"reality"visual"dataset"as"the"experimental"object,"the"proposed"method"was"applied"to"action"recognition"in"humancomputer"interaction."The"results"showed"that"the"proposed"method"has"a"lower"recognition"error"rate"for"different"types"of"action"recognition.
Key"words:fitting"sparse"signals;"wearable"devices;"hybrid"reality"vision;"humanmachine"interaction
計算機技術和虛擬現實技術正逐漸滲透到人們的生活中,推動人機交互領域的升級和演變。其中,可穿戴設備及其附帶的各種運動傳感器在人機交互過程中催生了各種運動識別應用。通過傳感器數據收集和特定的反饋機制實現了人與虛擬機之間的運動匹配,從而達到人機交互的目的。
目前已實現的人機交互動作識別算法主要包括文獻[1]基于眼動方法和文獻[2]基于語義本體方法。基于眼動方法的人機交互方法以眼電與腦電信號為基礎,通過自適應閾值歸一化方法進行眼電信號識別,結合特征匹配模板實現對角色的實時控制。但該方法為單通道交互方式,對于類不均衡的數據樣本無法達到理想的交互識別效果。基于語義本體的人機交互方法將體感設備作為輸入,通過三維醫學影像的顯示結果,構建自適應識別模型,由此完成人機交互。但此方法對于非接觸式單手動態交互軌跡無法進行實時跟蹤,且不適用于具有深度信息的動作識別。
針對以上所述方法存在的不足,提出了一種基于擬合稀疏信號的人機交互方法,適用于可穿戴設備混合現實視覺的人機交互。
1"可穿戴設備混合現實視覺人機交互方法
設計
1.1"動作特征提取
為了確保動作識別不受環境光照條件和其他干擾因素的影響,應首先對操作員的動作進行分割,并根據分割參數提取動作特征,以實現更準確的人機交互[3]。
本文采用骨骼信息融合的原理,首先獲得操作者的運動動力學,根據操作人員右手的骨骼特征數據,建立關鍵關節點的空間坐標,并將其與深度坐標系進行深度轉化,根據同一關節點在不同坐標系下的映射坐標值,對動作圖像設定相應的分割閾值,進而將動作從深度圖像中分割出來[4]。一般情況下,建立以手的主要關節點為質心的邊界框,以及將邊界框的高度作為分割閾值,以達到分割動作的目的。
定義動作分割的損失函數為:
f(x)=1-Ac-UcAc-αc(1)
式中,Ac、Uc分別表示動作動態估計邊框的質心點與模糊邊緣點;αc表示提取框與圖像邊緣的距離。
度量動作包圍框寬高比的相似性計算公式為:
vv=4π2[arctan"wchc×f(x)]"(2)
式中,wc表示目標框與預測框的距離;hc表示預測框的重疊率。
設包圍框重采樣點的離散序列為A,Ak(xk,yk)為框中的第k個點,取當前采樣點前后各4個點,利用最小二乘法分別對采樣點進行擬合[5],則得到的矩陣形式為:
Mk=α0(Akb+vv)(3)
式中,α0表示目標框的參量;b表示目標框與預測框的轉換系數。
假設左右相機距離剛好為深度圖像的長度ls,則視場角下的動作范圍可由下式得到:
ω1=arctan"4d×lfls-Mk"(4)
式中,ω1表示動作范圍視場角;d表示觀察距離;lf表示手部等效直徑。
動作關節點的三維坐標系與圖像基準坐標系之間的轉換方法為:
T1=ω1(Rr*R-1s)"(5)
式中,T1表示圖像坐標系;Rr表示旋轉矩陣;Rs表示平移矩陣。
則得到動作包圍框的長、寬、高的像素值為:
L1=Tl-T1B1=Nk'*255H1=n0+p0(6)
式中,Tl表示圖像的轉置矩陣;Nk'表示k'級灰度的像素數;n0表示像素個數;p0表示標定點數量。
利用上式對操作人員關節坐標點單位進行換算,并從深度圖像中二值分割出動作,以手勢動作為例,具體如圖1所示。
圖1"手勢動作分割圖
將操作人員的動作動態分割出來后,需要提取動作的關鍵特征,為人機交互的實現奠定基礎[6]。假設動作關節點x的鄰域為高斯近似,則可以利用x的鄰域信息根據動作周邊像素點坐標估計出極值,具體如下:
y=12δ0π×exp"-L1B1H142"(7)
式中,y表示一維高斯函數;δ0表示擬合系數。
利用動作分割圖的等效質心點的坐標對高斯函數進行超平面轉換,獲得動作參數μ0即為峰值位置[7],由此得到動作邊緣的橢圓方程表達式為:
f1(x)=by+fpo"(8)
式中,b表示方程系數;fpo表示橢圓中心點坐標。
將在橢圓方程上均勻的生成點作為特征點集合,則得到的動作特征向量集合為:
fn(p)=∑f1(x)×2τ(p;x0,y0)(9)
式中,τ表示特征點描述子;p(x0)、p(y0)分別是圖像中x0、y0的像素灰度值;fn(p)表示動作特征點向量集合。
根據動作關節坐標系與深度圖像坐標系之間的關系,采用骨骼融合原理對動作輪廓進行分割,結合動作邊緣橢圓方程,提取動作關鍵特征點,并構造特征向量集合。該過程可為后續動作識別做準備。
1.2"基于擬合稀疏信號的動作類型識別
在對動作進行特征提取和表示之后,需要使用提取的動作特征來訓練分類器,以完成動作類型的分類和識別[8]。本文采用稀疏信號擬合方法,通過最大區間超平面將兩類數據盡可能分離,對輸入樣本進行近似可分,進而實現動作類型分類。
首先,基于動作特征值構建稀疏陣列信號模型,并根據特征點在整個空間域中的稀疏特性對其進行離散化[9]。動作特征點的空域稀疏性示意圖如圖2所示。
圖中,θ1、θ2、θ3分別表示特征點對應的空域參數;θi-1、θi、θi+1分別表示第i-1、i和i+1個特征點的信號矢量;θI、θI-1、θI-2分別表示對應特征點的高斯白噪聲。
通過將特征點在空域進行離散化以后,可以將特征向量的這列流行矩陣A(θ)擴展為一個完備的導向矢量字典D(θ),則有:
D(θ)=A(θ)(fn(p)+θi)(10)
式中,fn(p)表示特征點向量集合。
此時,陣列特征點的處理模型可表示為:
x(t)=m×D(θ)×θI"(11)
式中,m表示陣元個數。
基于上述模型,將特征向量進行稀疏信號重構,可得到:
x'(t)=2n/s0x(t)"(12)
式中,n表示特征點個數;s0表示重構范數。
采用動態規劃方式將兩個序列進行動態對齊[10],將兩段序列的特征匹配路徑定義為R,則輸入特征序列T1和待匹配序列T2之間的規整距離為:
d1(T,T2)=min"∑rk/x′(t)"(13)
式中,rk表示匹配系數。
參考人體運動的運動學規律,初步設計了上點擊、下點擊、左點擊和右點擊4個基本動作,根據可穿戴設備的功能人機交互開關,擴展了上滑動、下滑動、左滑動和右滑動4個控制動作以及另外2個輔助動作[11],并制定了數字人的動作規范,具體如表1所示。
使用基尼指數作為分類器的分割指標,每次選擇最優屬性,在每次迭代中,分類器選擇基尼指數最低的特征及其對應的分割點進行分類[12],則第j個樣本的類別被標記為第l類動作類型的概率為:
pjl=exp"(αi)∑Ci=1d1(T,T2)(14)
式中,αi表示分類器最后一層的輸出;C表示樣本數。
根據求得的pjl的大小,即可識別數字人當前的動作規范類型,為接下來實現人機交互提供有利條件。
1.3"實現人機交互
在上述對于操作人員肢體動作分類與識別的基礎上,文中采用鼠標控制pynput庫進行人機交互。具體實現過程如下。
(1)通過pynput.mouse設置和控制鼠標與觸摸板的監控輸入設備的后端參數[13]。
(2)將運動捕捉數據庫中角色的所有關節坐標和X、Y、Z軸方向設置為初始姿勢,即右側坐標系是具有X、Y和Z軸方向的標準世界坐標系。
(3)將角色與操作人員的不同動作類型與運動數據加載到運動模型的資源庫中,其中不同的手勢類型對應不同的肢體動作[14]。根據手勢類型選擇要調用的運動類型。
(4)對特定的動作片段進行虛擬預演分析,獲得分解后的動作信息,并將其映射到當前視野中場景的水平面。
(5)修改運動數據庫中角色的水平坐標,對運動軌跡數據進行歸一化,并根據更新后的運動類型對數據進行校正,以驅動角色運動[15]。
通過以上分析,借助pynput數據庫,即可實現對虛擬角色的交互控制。至此,完成基于擬合稀疏信號的可穿戴設備混合現實視覺人機交互方法的設計。
2"實驗論證
2.1"實驗準備
由于缺乏具體的動作控制數據集,當前開源數據庫中針對人機交互動作識別的數據樣本較少,容易導致樣本與總體之間出現偏離,使得樣本結果不能夠泛化到總體,從而影響實驗結論的可靠性。為了降低實驗樣本選取的偏差性影響,在本實驗中,采用數據依賴項采集的方式收集大量角色的動作視頻,增加樣本量,使得樣本更具代表性,減少選取偏差,提高實驗結果的可靠性。并通過區域標記與動作幀截取構造實驗數據集。對于利用雙目攝像機與虛擬現實技術捕捉的動態彩色人物動作圖像,可進行去噪與二值化等預處理,得到最終用于實驗的像素級灰度圖像。并以10幀/s的速度將其從深度圖像中分割出來,之后采用擬合稀疏信號算法進行手動標記,標記內容包括動作的類別信息與方位信息。
實驗中主要針對的交互類型是可穿戴設備的虛擬界面交互。將智能設備的心智映射到可穿戴設備上,從交互邏輯的角度分析可穿戴設備和智能設備在顯示界面上的差異,從而深入用戶的實際應用場景,并根據交互信息的水平完成與界面的直接觸屏交互。
實驗中主要對可穿戴設備的手勢進行識別,手勢交互模式如圖3所示。
如圖3所示,利用可穿戴設備內置的三軸加速度傳感器收集用戶當前的行為和運動數據,通過算法對數據進行分析,并建立運動模型。當用戶的動作與相應的運動模型相匹配時,可以通過特定的反饋機制觸發相應的反饋,完成人機交互動作。
2.2"實驗說明
選擇健康的受試者進行實驗,并按照前文所述方法進行動作特征提取以及動作類型分類與識別等操作。首先,令受試者雙腳呈平行狀態站立在交互區域,然后在鼠標控制pynput庫中調用激活模塊,對虛擬角色進行動作控制,并根據手勢的實時運動軌跡,將所有動作類型歸一化到平面場景窗口,然后利用轉換指令控制角色按照指定的運動軌跡移動,并通過手勢的上下移動來控制角色的動作速度。
設計實驗如下:受試者隨機做出5種待識別樣本中的任意一種手勢動作,交互界面從pynput運動數據庫中檢索手勢圖像并進行特征值提取,之后將特征信息反饋給監控計算機,計算機根據監測到的手勢調用反饋程序來控制角色做出相應的動作。同時,監測模塊通過實時監測人機交互界面的角色動作對其進行調整,從而實現人機交互。
2.3"人機交互結果分析
選取操作人員5種待檢測手勢(如圖3)。將所提方法應用于實驗設計的人機交互場景,引入虛擬角色反饋手勢與操作人員的動作手勢之間的匹配度來衡量人機交互效果。動作匹配度的計算公式如下。
Ms=1k1J(α1-α2)"(15)
式中,Ms表示動作匹配度;k表示動作類別樣本數;J表示實驗次數;α1表示動作的真實方位;α2表示動作的識別方位。
采用所設計的方法進行人機交互,利用上式求取動作匹配度,所得匹配度越高,表明動作識別越準確,人機交互效果越好。基于本文方法的人機交互結果如圖4所示。
如圖4所示,利用本文設計的人機交互方法對待檢測的手勢動作進行識別,對于5種不同的動作類型,本文方法均以較高準確率對其進行了分類與識別,在整個實驗過程中,角色與操作人員的動作匹配度始終在80%以上。由此可以說明,本文所提的人機交互方法能夠使角色按照操作人員的具體手勢完成相應的動作,可以達到預期效果,人機交互效果良好。
2.4"動作識別準確性對比實驗分析
為進一步證明本文設計的人機交互方法在動作識別方面的優越性能,采用文獻[1]基于眼動(方法1)、文獻[2]基于語義本體(方法2)作為本文方法的對比方法。以上述5種手勢動作類別作為不同方法的輸入樣本數據,并統計三種人機交互方法的動作識別錯誤率,以定量、直觀地比較不同方法的人機交互效果。對比結果如圖5所示。
從圖5可以看出,本文提出的方法對于不同類別的手勢動作識別得到的識別錯誤率相對更低,始終控制在10%~30%范圍內,而方法1與方法2的識別錯誤率較高,其中方法2的最高錯誤率達到90%以上,該方法在分類模型的訓練過程中通過減慢動作損失的下降速度來提升模型的訓練效率,因此影響了模型是識別效果;方法1雖然可以考慮不同動作尺度參數對回歸損失的影響,但未考慮到待檢測手勢與反饋手勢位置坐標的相關性,所以兩個手勢的重合程度較差。通過實驗對比結果可以得知,本文方法能夠準確識別人體動作,更好地實現人機交互。本文方法之所以能在對比實驗中取得優勢,是因為該方法基于骨骼信息融合原理獲取全面的動作動態,并對動作圖像進行分割和超平面轉換,得到動作參數峰值,為后續人體動作識別提供了更為精準的基礎數據;結合動作邊緣方程提取動作特征值,采用擬合稀疏信號算法對特征點進行空域離散化處理,并對動作特征進行重構與動態對齊,提高了動作類型的識別精度,從而加強了人機交互效果。
3"結"論
為提高人機交互動作識別的準確性,結合擬合稀疏信號算法研究并設計了針對可穿戴設備混合現實視覺的人機交互方法。通過提取動作特征向量與識別動作類型,借助運動數據庫實現人機交互。但本研究在動作交互場景的實時識別方面還存在一定不足,接下來將對該方面進行深入研究。
參考文獻
[1]"蔣貴虎,劉仲,王亞卓.基于眼動的戰機座艙人機交互方法[J].飛機設計,2022,42(3):11-14+19."
[2]"徐巍峰,徐非非,王文軍,等.基于語義本體的無人機人機交互控制方法研究[J].計算機應用與軟件,2021,38(12):103-109+148.
[3]"柯健,張量.用于虛擬現實/增強現實人機交互的實時動作識別方法的研究[J].現代計算機,2023,29(1):59-62.
[4]"程瑞洲,黃攀峰,劉正雄,等.一種面向在軌服務的空間遙操作人機交互方法[J].宇航學報,2021,42(9):1187-1196.
[5]"厲鈺琪,鞏淼森.復雜駕駛任務下基于多資源理論的汽車人機交互設計方法[J].設計,2022,35(10):24-27.
[6]"張玉蘭,杜羽.多自由度包裝機器人人機交互控制方法[J].包裝工程,2021,42(15):239-244."
[7]"周巡,黃保青,陳亞晨,等.智能眼鏡人機交互功能中眼行為識別方法的設計與實現[J].激光雜志,2022,43(3):76-81.
[8]"蘇翎菲,化永朝,董希旺,等.人與無人機集群多模態智能交互方法[J].航空學報,2022,43(S1):129-142.
[9]"段文婷.智能翻譯機器人人機交互模塊自動優化方法[J].自動化與儀器儀表,2021(10):194-197."
[10]"郭馨蔚,陶霖密.用于輕度認知障礙測試的自然交互方法[J].應用科技,2022,49(2):33-39.
[11]"錢一潤,王從慶,張聞銳,等.基于SSVEP的空間機械臂腦機交互方法[J].計算機測量與控制,2022,30(6):197-202."
[12]"蘇靜,劉兆峰,王嫄,等.基于改進的YOLOv3實現動作識別的人機交互方法[J].天津科技大學學報,2021,36(6):49-54."
[13]"劉尚旺,王培哲,張翰林,等.人機交互系統多維語音信息識別方法[J].計算機仿真,2021,38(12):367-370+469.
[14]"龍年,劉智惠.虛擬運動目標人機交互方法設計與仿真[J].計算機仿真,2022,39(6):201-205.
[15]"任雅琪.新聞領域中的可穿戴交互技術應用[J].全媒體探索,2022(7):111-112.