999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DenseNet和卷積注意力模塊的高精度手勢識別

2024-04-11 07:29:44趙雅琴宋雨晴何勝陽劉璞秋吳龍文
電子與信息學報 2024年3期
關鍵詞:特征模型

趙雅琴 宋雨晴 吳 晗 何勝陽 劉璞秋 吳龍文*

①(哈爾濱工業大學電子與信息工程學院 哈爾濱 150001)

②(中國航天科工集團八五一一研究所 南京 211100)

1 引言

手勢識別是一種新型非接觸式的人機交互方法。非接觸式人機交互系統如智能家居[1,2]、自動駕駛[3]和增強現實(Augmented Reality, AR)/虛擬現實(Virtual Reality, VR)[4]等,都應用了手勢識別。具體來說,在智能家居框架[2]中,可以通過手勢控制家庭住宅和工作環境中的物聯網設備,如空調、電視、洗衣機、燈光等等。文獻[3]建立了手勢模型,以識別車輛中發生的司機和乘客的手勢。文獻[4]提出了一個基于手勢識別的文本輸入系統,并用于AR和VR設備。之前的一些手勢識別工作依賴于攝像頭(彩色攝像頭、深度攝像頭等)[5-7]。然而,它存在一系列缺陷,如,對光照條件和天氣敏感,有泄露隱私的風險,視線被阻擋時無法工作。在這種情況下,雷達傳感器能很好地解決這些問題。雷達能夠全天時、全天候工作,不受光線影響,不會泄露隱私,能夠穿透阻礙。更重要的是,毫米波頻段的雷達在捕捉微動目標方面表現很好。同時由于其體積小、精度高、保密性強,在近年來受到了廣泛的關注。目前,用于手勢識別的毫米波雷達大多采用調頻連續波 (Frequency Modulated Continuous Wave, FMCW)技術和多發多收 (Multiple Input Multiple Output, MIMO)天線。2016年,Google公司在Soli項目中設計了60 GHz頻段、2發4收天線的FMCW毫米波雷達芯片,實現了近距離微動手勢識別[8,9]。2022年,Shen等人[10]利用工作頻率為77 GHz、2發4收天線的雷達傳感器對10種動態手勢進行了特征提取。Zhang等人[11]、Yu等人[12]、Liu等人[13]均采用德州儀器(Texas Instruments,TI)公司的77~81 GHz頻段、3發4收的IWR1443雷達,對動態手勢進行識別。2021年,Smith等人[14]利用該雷達對靜態手勢識別進行了探索。但是,上述雷達的角度分辨率有待提高,無法對動態手勢進行很好的3維表征。

在手勢識別的研究中,手勢目標的檢測和特征提取是至關重要的。Gan等人[15]利用FMCW雷達原理,通過2維快速傅里葉變換(Two-Dimensional Fast Fourier Transform, 2D-FFT)提取出距離-多普勒 (Range-Doppler, RD)譜圖,直接用于手勢識別。2019年,王勇等人[16,17]利用2D-FFT求取手勢的距離和速度,利用多信號分類(MUltiple SIgnal Classification, MUSIC)算法求取角度,在時間上累積,得到距離-時間譜圖(Range-Time Map, RTM)、多普勒-時間譜圖(Doppler-Time Map, DTM)、方位角-時間譜圖(Azimuth-Time Map, ATM),充分挖掘動態手勢的空間信息,并將3種譜圖結合,作為多維數據集,得到較好的識別效果。RTM, DTM和ATM目前已經成為比較常用的動態手勢特征,在文獻[5,18,19]中均被應用。2022年,Liu等人[13]設計了名為M-Gesture的毫米波雷達手勢識別系統,針對RD圖,采用幀差法消除靜態噪聲,采用恒虛警檢測器 (Constant False AlaRm, CFAR)和聚類方法提取手勢目標,然后將目標的點數、距離、速度和方位角作為特征向量,用于手勢識別。俯仰角也是動態手勢的一個重要特征,但是由于天線數量和技術的限制,很少被考慮到。

深度學習算法能夠自動提取特征,卷積神經網絡(Convolutional Neural Network, CNN)對圖像的識別效果較好,循環神經網絡(Recurrent Neural Network, RNN)能循環提取特征,對時間序列有很好的識別效果,它們都在手勢識別領域得到廣泛應用。Park等人[20]提出了一個雙平行CNN模型,使用2D-FFT、歸一化和特提取之后的數據作為輸入,對5種常見手語進行識別,準確率達到96.50%。Shen等人[10]提出了一種基于3維CNN的雙通道融合網絡,一個通道以距離-多普勒矩陣為輸入,另一通道以方位角-多普勒矩陣為輸入,充分利用了多個特征的相關性,對10種動態手勢實現了98.40%的識別率。Liu等人[5]提出了一種雙流融合可變形殘差網絡,對6種手勢實現了97.5%的識別率。Dang等人[21]分別采用ResNet50, DenseNet121, MobileNet,MnasNet和EfficientNet模型,基于新標準數據集SHAPE (Static HAnd PosturE)進行了手勢識別。可見,目前手勢識別的準確率還有待提高,手勢的種類還不夠復雜。為此,本文引入了卷積注意力模塊(Convolutional Block Attention Module,CBAM),研究[22-24]表明,注意力機制能有效改善識別精度。

為了解決目前研究中雷達角度分辨率不夠高、缺乏對俯仰角特征的利用的問題,并實現高精度的手勢識別,對更多更復雜的微動手勢進行表征,本文對基于MIMO毫米波雷達的高精度手勢識別方法進行了研究,采用3D點云、RTM, DTM, ATM和俯仰角-時間圖 (Elevation-Time Map, ETM)等多種特征,能夠較準確地檢測出手勢目標,具有較強的抗干擾能力,并對12種常用的微動手勢進行了高精度識別。本文的主要貢獻如下:

(1) 采用4片AWR1243雷達板級聯而成的毫米波級聯(MilliMeter Wave CAScaded, MMWCAS)雷達采集手勢回波,它具有12發16收的天線,經過數據預處理后,角度分辨率大大提高;

(2) 采用3D點云對手勢進行表征,并基于聚類的方法進行離群點去除,以更加準確地檢測手勢目標,有較強的抗干擾性;

(3) 提取動態手勢的RTM, DTM, ATM和ETM,并形成混合特征譜圖,與其他研究相比,更加全面,能夠表征更多的復雜手勢;

(4) 將CBAM與Densenet結合,形成一個基于CBAM的手勢識別網絡,采用混合特征譜圖對12種微動手勢進行識別,識別準確率達到99.03%。該網絡能夠靈活調整注意力,實現了高精度的手勢識別。

2 毫米波雷達原理

FMCW雷達發射線性調頻信號,其將發射信號與接收信號經過混頻器混頻以獲得中頻(Intermediate Frequency, IF)信號,進而對其分析得到回波中物體的距離、速度、角度等信息。人手與雷達的相對位置示意圖如圖1所示,雷達豎直擺放在中心O處,操作者在雷達前方,θE為俯仰角,θA為方位角。

圖1 人手和雷達的相對位置示意圖

由文獻[25,26]可得,對于周期為T,帶寬為B的線性調頻信號,一個chirp內雷達的發射頻率可以表示為fT(t)=fc+(B/T)·t,對于在距離R處,速度為v的目標,中頻信號以TA的采樣間隔經過采樣后可以表示為

其中,AIF表示中頻信號幅度,fc表示調頻信號的起始頻率,為簡化后續的公式表達,設AIF=1。1幀數據中包含Nc個chirp, 2個chirp的時間間隔為Tc,1個chirp內的采樣點數為Nadc。則雷達數據可以表示為

對雷達數據進行2D-FFT可得RD圖,計算過程為

其中,nadc表示距離索引,而nc表示多普勒索引。

3 手勢識別方法

為實現高精度的手勢識別,對多種微動手勢進行表征,本文提出了如圖2所示的手勢識別方法。

圖2 本文提出的手勢識別方法示意圖

3.1 最優雷達參數配置

在綜合考慮距離分辨率、速度分辨率和角度分辨率,同時保證毫米波雷達系統有足夠的采集幀率的情況下,對于毫米波雷達的參數配置如表1所示。對應地,在表1的參數設置下,由FMCW雷達原理[27]計算出,各項性能指標如下:距離分辨率3.75 cm,速度分辨率2.76 cm/s,理論方位角分辨率1.4°,理論俯仰角分辨率16°,采集幀率13.89 fps,采集時間2016 ms。

表1 毫米波雷達參數設置

3.2 手勢特征提取

對雷達數據進行預處理,針對提取到的手勢目標,分別構建RTM, DTM, ATM和ETM,再通過混合特征圖譜的構建為后續的深度學習準備好數據集。

3.2.1 手勢數據預處理

對于采集的手勢數據,首先采用動目標顯示(Moving Target Indication, MTI)技術濾除靜目標,采用2D-FFT獲取RD圖。接著,基于RD圖進行人手目標檢測,即檢測出在有效的手勢范圍(本研究是0.2~0.6 m)內、能量較大、較集中的一簇點。根據MIMO原理,12個發射天線和16個接收天線共形成192個虛擬通道。每個通道都形成一個RD圖,對每個通道的RD圖進行上述的目標檢測操作。由于每個接收天線處的信號相位不同,將每個通道的RD圖按照天線的空間位置重新排列,形成3維信號,第3維就是通道號。接著,先在水平方向的86個通道上執行FFT,即可估計出方位角,然后在方位角確定的基礎上,在豎直方向上執行FFT,即可估計出俯仰角。對于單個目標點,其與雷達的距離為R,方位角為θA,俯仰角為θE,則其3D坐標如下,x=R·sin(θE)·cos(θA),y=R·sin(θE)·sin(θA),z=R·cos(θE)。

將全部的目標點映射到3D坐標上,就構成了3D點云,效果如圖2所示。接著,采用聚類[28]的方法對3D點云進行聚類,找出離群點。最后,把離群點在RD圖、距離譜圖、多普勒譜圖和角度譜圖中對應的目標點剔除,從而更加準確地檢測出人手目標,獲得更加精準的距離譜圖、多普勒譜圖和角度譜圖。

3.2.2 特征提取與特征圖譜構建

首先針對只包含手勢目標的RD圖,分別將其投影到距離軸和速度軸,以得到當前幀中手勢目標的距離譜和速度譜。然后將距離譜按幀順序進行拼接,這樣橫向為時間軸,縱向為距離信息,拼接完所有幀之后,即可得到RTM,提取過程如圖3(a)所示。

為了進一步挖掘手勢的微動特征、提高DTM的時間分辨率,本文采用短時傅里葉變換,將微多普勒的思想融入到DTM的提取中。對于某一RTM信號R(i,j),i=1,2,...,128,j=1,2,...,28,i為向量維,j為幀序號,利用spectrogram函數對其每幀數據進行短時傅里葉操作,信號長度為128,窗長度為64,步長為32,FFT點數為256,得到256×3的數據。將28幀信號拼接起來,即得到微多普勒-時間譜圖,其大小為256×84。接著,對全部人手目標點的DOA估計結果進行疊加,根據如圖3(b)所示的流程提取出ATM和ETM。

單特征圖譜只能夠表征運動手勢的部分信息,因此對圖譜進行有效的混合是很有必要的。本文采用縱向拼接的方式進行處理,在圖譜混合之前,對數據進行了歸一化、時間軸對齊、插值和裁剪等操作。對4種圖譜進行拼接形成混合特征圖譜,如圖3(c)所示,準備好數據,以備后續卷積神經網絡的學習和訓練。

3.3 基于CBAM的手勢識別網絡

為提高整體模型的識別能力,本文提出一種融合CBAM[29]和DenseNet[30]的手勢識別網絡,其網絡架構如圖4(a)所示,不同顏色的方塊表示不同的網絡層,箭頭上方的數字顯示了當前輸出特征的尺寸。輸入特征圖的尺寸為1×320×56,1表示圖像是灰度圖,320是向量維,56是時間維。

圖4 所提手勢識別網絡的整體結構

該網絡以DenseNet121為主干網絡,以混合特征圖譜為輸入,先后經過一個7×7卷積層, 3×3的最大池化層,包含6個[1×1 conv 3×3 conv]的稠密連接塊 (dense block)[30],過渡層,包含12個[1×1 conv 3×3 conv]的稠密連接塊和過渡層。然后通過CBAM在通道和空間兩個層面進行注意力推算,再經過一個包含24個[1×1 conv 3×3 conv]的稠密連接塊,過渡層,包含16個[1×1 conv 3×3 conv]的稠密連接塊,全連接層和softmax激活層,得到12維向量,從而得到識別結果。

CBAM注意力機制由通道注意力模塊和空間注意力模塊構成,兩個子模塊的運算過程如下。通道注意力模塊如圖4 (b)所示。假設輸入特征圖的通道數為C,在本文中,C=512,分別采用最大池化層和平均池化層對輸入特征圖進行處理,獲得兩個尺寸為1×1×C的特征向量,可以分別記為Fmax和Favg,然后將它們分別送入一個共享的多層感知器(Multi-Layer Perceptron, MLP)中進行計算。然后將計算結果對應相加并且經過sigmoid激活層得到權重系數Mc。假設MLP兩層的權重系數分別表示為W0,W1,則

通道注意力解決了把網絡注意力集中在“哪個通道”的問題,而空間注意力則具體地解決了把網絡注意力集中在“哪里”的問題,其處理流程圖如圖4(c)所示。假設輸入特征圖尺寸為C×H×W,其中C=512代表通道數,H=40代表特征圖高度,W=7代表特征圖寬度,將特征圖分別在通道維度上執行最大池化和平均池化,得到兩個描述子,分別記為F和F,將它們按照通道拼接在一起,使用一個 7×7卷積核處理,而后經過sigmoid激活函數得到權重系數Ms,表達式為

將輸入特征圖與權重相乘,即可得到注意力分配之后的特征圖。

4 實驗結果與分析

4.1 實驗數據

本文選取了如圖5所示的12種日常生活中常用的手勢,有打勾 (Tick)、畫叉 (Fork)、順時針畫圓(CW)、逆時針畫圓 (CCW)、左右揮手 (Wave)、左劃 (Swipe left)、右劃 (Swipe right)、招手(Come)、擺手 (Go)、點擊 (TAP)、握拳 (Palm clench)和張開 (Palm open)。

圖5 12種手勢示意圖

本研究邀請了10名實驗人員(6男4女)參與手勢數據采集,操作者在一個10 m2的房間中,面對毫米波雷達,距離雷達平面20~60 cm,每人采集手勢數量大致相同。最終形成了每種手勢600組樣本,共計7 200組樣本的手勢數據集,其中隨機抽取70%用于模型訓練,剩余30%用于模型測試。

4.2 數據預處理結果

根據第3節的方法對手勢數據進行處理,由于本文手勢是微動的,所以除了“招手”和“擺手”兩個手勢之外,其他手勢的距離隨時間變化并不明顯。各種手勢的DTM, ATM和ETM分別如圖6、圖7和圖8所示。可以看出,盡管“握拳”和“張開”兩個手勢在4種特征譜圖中的表現不夠明顯,但是除此之外,這4種特征譜圖聯合起來,能對微動手勢進行很清晰、準確的表征。

圖6 12種手勢的DTM示例

圖7 12種手勢的ATM示例

圖8 12種手勢的ETM示例

由于采集到的手勢樣本數量比較有限,對于DenseNet這種深層網絡來說,這樣的數據集規模仍然較小,因此采用拉伸、旋轉、平移、裁剪和高斯模糊等圖像變換的方法對數據集進行擴充,這些變換可以等效為手勢動作的誤差,能夠增強模型的魯棒性。

4.3 實驗平臺

實驗采用Python 3.8, Pytorch 1.12.0環境,此外,實驗平臺如表2所示。使用交叉熵損失函數和Adam優化器,初始網絡學習率設置為10-4并且使用余弦學習率策略進行學習率調整。

表2 實驗平臺

4.4 手勢識別結果

采用如圖4的手勢識別網絡,將混合特征譜圖轉化為灰度圖,作為輸入,對12種手勢進行識別,此外,進行了大量實驗,對網絡的性能進行驗證。

4.4.1 網絡訓練過程

在迭代過程中,網絡被逐步優化直至收斂,測試集正確率整體穩步上升并在一定水平上維持穩定。最終得到總體分類正確率99.03%,其混淆矩陣如圖9所示。可見,本文提出的手勢識別網絡效果較好。對于幅度較大的運動手勢,如“左右揮手”“左劃”“右劃”“招手”“擺手”等,識別率幾乎可以達到100%。對于只包含手指運動的手勢,如“打勾”“畫叉”“點擊”,識別效果也較好,準確率能達到98%以上。而對于易混淆手勢,如“順時針畫圓”和“逆時針畫圓”、“握拳”和“張開”,識別效果不夠理想,僅能達到96%。

圖9 所提網絡的混淆矩陣

4.4.2 網絡性能分析

本文分別采用原始特征圖與數據擴充后的特征圖,對多種CNN進行了實驗,最終的模型識別率統計如表3所示。可見,數據擴充能有效地提高識別效果。DenseNet121的識別率僅次于DenseNet161,但是其計算量較小,網絡參數個數較少,單次迭代用時60.02 s,模型訓練速度更快,模型復雜度較低。綜合對比,本文選取有著最好的識別效果的DenseNet121。

表3 各種CNN模型進行數據擴充的效果對比

此外,CBAM的位置是由大量實驗確定的。本文將DenseNet121網絡和CBAM的不同組合方式進行試驗。DenseNet121含有4個Dense Block,在不同位置加入CBAM,再采用圖像變換的方法對數據集進行擴充,以混合特征圖譜為輸入數據進行手勢分類。CBAM模塊的插入情況按照位置采用4位二進制碼,比如0011代表在Dense Block3和Dense Block4后插入CBAM,以此類推,不同情況的識別效果如表4所示。

表4 CBAM在DenseNet121不同位置的效果對比(%)

CBAM位置不同,對網絡模型性能帶來的影響也不同,1 011時甚至出現了負優化的現象,CBAM位置為0010時相比原始DenseNet121網絡可以提升近1%。為了分析造成這種現象的原因,利用Grad-Cam繪制了CBAM插入位置不同的情況下,模型對于某輸入ATM的注意力分布熱圖,如圖10所示,其中紅色部分是對識別結果貢獻較大的部分。

圖10 注意力分布熱圖

當CBAM位置為1 011和0100時,模型只關注到了手勢動作的結束階段,在這一階段中,手勢動作往往已經接近完成,因此不能進行很好地表征。當CBAM位置為0110和0001時,模型只關注到了手勢剛剛開始的部分。當CBAM位置為0010時,模型很好地關注到了手勢的開始和中間部分。這個階段中往往存在較大且表征性較強的手勢運動,因此該階段的手勢特征也更加有效,故而可以獲得更高的模型識別率。綜上,本文提出的手勢識別網絡將DenseNet和CBAM進行了較好的融合,與其他CNN相比,實現了高精度的手勢識別。

5 結論

本文提出一種新型的基于MIMO毫米波雷達的微動手勢識別方法,提高了手勢識別效果,實現了高精度的手勢識別。在現有研究成果的基礎上,采用4片AWR1243雷達板級聯而成的MMWCAS雷達采集手勢回波,構建了包含12種手勢,每種手勢600個樣本的手勢識別數據集,為手勢數據處理工作提供了有力的數據支撐。然后,利用距離-多普勒譜圖和3D點云進行目標檢測,提取了距離-時間譜圖、多普勒-時間譜圖、微多普勒-時間譜圖、方位角-時間譜圖和俯仰角-時間譜圖這5種特征,與其他研究相比,更加全面,能夠準確表征多種微動手勢。最后,提出了基于DenseNet和CBAM的手勢識別網絡,使用數據擴充后的混合特征圖譜進行手勢分類,實驗表明,本網絡將注意力放在手勢動作的前半段,并且能夠靈活調整,達到了99.03%的識別率,實現了高精度的手勢識別。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 99久久精品美女高潮喷水| 亚洲精品你懂的| 尤物国产在线| 国产一二三区在线| 亚洲天堂网2014| 亚洲人成在线精品| 欧美成人午夜视频| 久久美女精品国产精品亚洲| 国产一线在线| 久久人午夜亚洲精品无码区| 在线欧美国产| 欧美中文字幕在线视频| 麻豆精选在线| 欧美www在线观看| 99在线国产| 五月婷婷激情四射| 国产精品嫩草影院av| 亚洲成年网站在线观看| 米奇精品一区二区三区| 97精品久久久大香线焦| 精品五夜婷香蕉国产线看观看| 国产精品亚洲五月天高清| 国产福利大秀91| 欧美一区二区三区不卡免费| 无码精品一区二区久久久| 亚洲精品无码AⅤ片青青在线观看| 四虎影视永久在线精品| 亚洲IV视频免费在线光看| 伊人无码视屏| 奇米精品一区二区三区在线观看| 日韩精品成人网页视频在线| 国产黑丝视频在线观看| 67194亚洲无码| 久久精品电影| 精品久久香蕉国产线看观看gif| 欧美一级一级做性视频| 天天摸天天操免费播放小视频| 欧洲免费精品视频在线| 欧美第一页在线| 2021国产精品自产拍在线| 欧美日韩中文字幕在线| 91精品福利自产拍在线观看| 国产制服丝袜91在线| 国产青榴视频| 欧美成人精品在线| 97视频在线观看免费视频| 国产精品所毛片视频| 日本www在线视频| 国产免费久久精品44| 免费高清毛片| 欧美中文字幕无线码视频| 亚洲高清在线天堂精品| 欧美激情成人网| 亚洲欧美日韩中文字幕一区二区三区| 日韩区欧美国产区在线观看| 美美女高清毛片视频免费观看| 中文字幕久久波多野结衣| 91探花在线观看国产最新| 亚洲中文字幕在线观看| 国产成人AV综合久久| 亚洲男人天堂2020| 成人精品区| 久久精品亚洲专区| 丁香婷婷综合激情| 免费国产一级 片内射老| 亚洲色图在线观看| 国产精品第5页| 五月天在线网站| 欧美日韩国产在线播放| 国产精品永久在线| 国产成人1024精品| 国产第八页| 亚洲视屏在线观看| 女人18一级毛片免费观看| 中文字幕在线永久在线视频2020| 亚洲国产成熟视频在线多多| 999精品免费视频| 国产男人天堂| 中文字幕无码av专区久久| 麻豆AV网站免费进入| 日韩成人在线网站| 午夜丁香婷婷|