基于純自注意力機(jī)制的毫米波雷達(dá)手勢(shì)識(shí)別

2024-03-05 10:30:50張春杰王冠博鄧志安

系統(tǒng)工程與電子技術(shù) 2024年3期

張春杰, 王冠博, 陳奇, 鄧志安

(1. 哈爾濱工程大學(xué)信息與通信工程學(xué)院, 黑龍江哈爾濱 150001;2. 先進(jìn)船舶通信與信息技術(shù)工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室, 黑龍江哈爾濱 150001)

0 引言

60～64 GHz毫米波雷達(dá)相比傳統(tǒng)長波段雷達(dá)對(duì)細(xì)微動(dòng)作的獲取能力更好。雷達(dá)工作環(huán)境受環(huán)境光影響小,不會(huì)暴露個(gè)人影像信息,與傳統(tǒng)的數(shù)據(jù)手套、攝像頭相比具有豐富的優(yōu)勢(shì)。近年來,基于毫米波雷達(dá)的非接觸式人體動(dòng)作識(shí)別在遠(yuǎn)程控制、智慧家居、健康檢測(cè)等領(lǐng)域都得到了重點(diǎn)關(guān)注。其中,基于毫米波雷達(dá)的手勢(shì)識(shí)別系統(tǒng)在智能互聯(lián)設(shè)備操控,殘疾人及行動(dòng)不便者輔助信息傳達(dá)等領(lǐng)域擁有十分開闊的應(yīng)用前景。

目前,有關(guān)毫米波雷達(dá)對(duì)人體姿態(tài),手勢(shì)動(dòng)作識(shí)別的算法研究大多是先積累目標(biāo)回波數(shù)據(jù),獲取目標(biāo)動(dòng)作每一幀的二維快速傅里葉變換(two-dimensional fast Fourier transform, 2D-FFT)矩陣和基于多重信號(hào)分類(multiple signal classification, MUSIC)算法獲得的角度信息,將這兩組數(shù)據(jù)處理為圖像,通過兩組并行的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)學(xué)習(xí)其中隱含的特征信息并將這兩組特征進(jìn)行特征融合,再把這些圖像數(shù)據(jù)通過長短時(shí)記憶(long short-term memory, LSTM)網(wǎng)絡(luò)來獲得時(shí)序特征,最后通過一個(gè)全連接層進(jìn)行分類。文獻(xiàn)[1]提出基于CNN的雷達(dá)手勢(shì)識(shí)別方法,通過對(duì)目標(biāo)手勢(shì)回波數(shù)據(jù)在慢時(shí)間維和快時(shí)間維兩個(gè)維度做兩次快速傅里葉變換(fast Fourier transform, FFT),獲得目標(biāo)手勢(shì)的距離-多普勒?qǐng)D,設(shè)計(jì)數(shù)據(jù)集并將數(shù)據(jù)集輸入CNN進(jìn)行訓(xùn)練,對(duì)數(shù)據(jù)集中數(shù)據(jù)進(jìn)行分類。文獻(xiàn)[2]提出基于雙流融合網(wǎng)絡(luò)的毫米波雷達(dá)手勢(shì)識(shí)別方法,除了獲得目標(biāo)手勢(shì)的距離-多普勒?qǐng)D外,再通過MUSIC算法估計(jì)目標(biāo)手勢(shì)的角度信息,分別通過兩組CNN進(jìn)行特征提取,再進(jìn)行特征融合,將融合后的特征通過LSTM學(xué)習(xí)時(shí)序特性,最后通過全連接層輸出分類結(jié)果。此種方法,增加了角度維特征作為輸入,提高了分類結(jié)果的準(zhǔn)確度,但雙圖譜的并行輸入和MUSIC算法增加了網(wǎng)絡(luò)模型和預(yù)處理算法的復(fù)雜度。文獻(xiàn)[3]提出基于多通道調(diào)頻連續(xù)波(frequency modulated continuous wave, FMCW)的雷達(dá)手勢(shì)識(shí)別方法,通過對(duì)目標(biāo)手勢(shì)的雷達(dá)回波數(shù)據(jù)在慢時(shí)間、快時(shí)間、天線通道3個(gè)維度做3次FFT,得到距離-時(shí)間、速度-時(shí)間、角度-時(shí)間3組譜圖,并將3組譜圖按幀編號(hào)進(jìn)行拼接,構(gòu)建數(shù)據(jù)集并輸入CNN進(jìn)行訓(xùn)練、分類。此種方法的輸入數(shù)據(jù)維度過大,并沒有直接關(guān)聯(lián)不同幀之間的時(shí)序信息,造成網(wǎng)絡(luò)訓(xùn)練的收斂速度較慢。文獻(xiàn)[4]提出了基于串聯(lián)式一維神經(jīng)網(wǎng)絡(luò)的毫米波雷達(dá)手勢(shì)識(shí)別方法,將采集到的目標(biāo)手勢(shì)回波不經(jīng)任何預(yù)處理,直接傳入CNN中獲得特征,將這些學(xué)得的特征通過一維Inception v3結(jié)構(gòu),再將輸出通過LSTM提取時(shí)序特征,從而對(duì)手勢(shì)進(jìn)行分類識(shí)別。此種方法嘗試了用純深度學(xué)習(xí)的思想解決雷達(dá)問題,但只依賴CNN來提取特征會(huì)造成整體網(wǎng)絡(luò)訓(xùn)練難度增大,且對(duì)數(shù)據(jù)量也有較大的需求。文獻(xiàn)[5]提出基于雙視角時(shí)序特征融合的毫米波雷達(dá)手勢(shì)識(shí)別方法,通過兩個(gè)毫米波雷達(dá)獲取目標(biāo)手勢(shì)信息,將兩個(gè)視角的距離-多普勒?qǐng)D,角度隨時(shí)間變化圖分別通過嵌入注意力機(jī)制的時(shí)序特征融合神經(jīng)網(wǎng)絡(luò),獲得最后手勢(shì)目標(biāo)的分類結(jié)果。此種方法通過增加傳感器的方法,進(jìn)一步提升了分類準(zhǔn)確率。然而,上述基于LSTM+CNN組合網(wǎng)絡(luò)的毫米波雷達(dá)手勢(shì)識(shí)別方法都存在模型復(fù)雜問題、收斂速度較慢。在數(shù)據(jù)集構(gòu)建部分,數(shù)據(jù)集中不同種類的手勢(shì)之間特征差異比較明顯,對(duì)同類手勢(shì)的統(tǒng)一性要求過高,測(cè)量環(huán)境較理想化,而這些與實(shí)際應(yīng)用是不相符的。

人機(jī)交互領(lǐng)域中,使用毫米波雷達(dá)作為傳感器實(shí)現(xiàn)非接觸式的命令傳達(dá)或信息交互是十分重要的研究方向之一,此研究方向需要注意保證手勢(shì)識(shí)別的準(zhǔn)確性和及時(shí)性。對(duì)此,本文提出一種基于純自注意力機(jī)制的毫米波雷達(dá)手勢(shì)識(shí)別方法,擁有以下創(chuàng)新點(diǎn):① 采用特定種類特征(固定數(shù)量種類)提取,代替CNN提取目標(biāo)雷達(dá)回波數(shù)據(jù)的特征,對(duì)每一幀雷達(dá)回波數(shù)據(jù)的三維(three-dimensional, 3D)-FFT數(shù)據(jù)矩陣進(jìn)行特征提取,通過峰值尋找來獲得目標(biāo)手勢(shì)回波的固定定義特征,相比于利用CNN提取特征,既不需要訓(xùn)練時(shí)間,計(jì)算復(fù)雜度也大幅下降,且不需要將特征拆分再并行輸入,可實(shí)現(xiàn)單網(wǎng)絡(luò)分類。② 采用基于純注意力機(jī)制的雷達(dá)特征變換(radovr feature transformer, RFT)網(wǎng)絡(luò)來代替LSTM+CNN組合網(wǎng)絡(luò),RFT網(wǎng)絡(luò)可以通過更改位置編碼方式來改變時(shí)序關(guān)聯(lián)的順序,增加了時(shí)序的靈活性,并且相比LSTM+CNN的組合網(wǎng)絡(luò),模型的算法復(fù)雜度低,在有限的硬件資源下更加利于硬件移植。

1 雷達(dá)回波數(shù)據(jù)處理與特征處理

1.1 雷達(dá)回波數(shù)據(jù)的時(shí)序特征提取

毫米波雷達(dá)產(chǎn)生的線性FMCW(linear FMCW, LFMCW)信號(hào)為

(1)

式中:T為信號(hào)時(shí)寬;B為信號(hào)帶寬。雷達(dá)回波為經(jīng)過延時(shí)的線性調(diào)頻信號(hào)為

(2)

式中:td為信號(hào)傳輸時(shí)延。回波信號(hào)與發(fā)射信號(hào)混頻后:

(3)

(4)

式中:R為目標(biāo)相距雷達(dá)的距離。首先對(duì)混頻后的每一幀中頻信號(hào)進(jìn)行模擬數(shù)字轉(zhuǎn)換(analog-to-digital converter, ADC)采樣,按采樣點(diǎn)、線性調(diào)頻、接收通道3個(gè)維度進(jìn)行數(shù)據(jù)重組,組成一個(gè)三維矩陣。對(duì)這個(gè)三維矩陣分別在3個(gè)維度上依次做FFT,即3D-FFT。分別獲得目標(biāo)的距離R,速度v,角度信息θ,如下所示:

(5)

(6)

(7)

式中:fIF為混頻后的中頻頻率;λ為毫米波雷達(dá)信號(hào)的波長;Δφ為兩個(gè)連續(xù)線性調(diào)頻之間的相位差;TC為兩個(gè)線性調(diào)頻之間的時(shí)間間隔;ω為兩個(gè)RX對(duì)應(yīng)的2D-FFT矩陣峰值處的相位差;d為接收天線之間的間距。

通過3D-FFT算法處理后,得到的是一個(gè)與輸入維度相同的三維矩陣,根據(jù)這個(gè)三維矩陣即可得到對(duì)應(yīng)的距離、速度、角度信息。

1.2 噪聲抑制

因?yàn)樵诒疚牟杉謩?shì)回波數(shù)據(jù)過程中,環(huán)境噪聲是不定的,并且存在多個(gè)較強(qiáng)的靜目標(biāo)雜波存在,因此通過動(dòng)目標(biāo)顯示(moving target indication, MTI)+恒虛警率(constant false alarm rate, CFAR)的方法來對(duì)環(huán)境雜波進(jìn)行抑制。具體為對(duì)1D-FFT的結(jié)果做MTI,對(duì)2D-FFT的結(jié)果(已做完MTI)做CFAR。其中,MTI的作用是濾除靜目標(biāo)的影響[6],在手勢(shì)回波采集時(shí),人體和周圍的大雷達(dá)反射截面積的靜物是主要的環(huán)境噪聲因素,MTI算法的主要思想是利用雜波與動(dòng)目標(biāo)的多普勒頻率的差異使得濾波器的頻率響應(yīng)在直流和脈沖重復(fù)頻率的整數(shù)倍處具有較深的阻帶,而在其他頻點(diǎn)的抑制較弱,從而通過較深的凹口抑制靜目標(biāo)和靜物雜波。本文具體采用的是兩脈沖對(duì)消器,其中兩脈沖對(duì)消器的時(shí)域表達(dá)式和傳遞函數(shù)如下所示:

y(n)=x(n)-x(n-1)

(8)

H(z)=1-z-1

(9)

式中,CFAR的作用是對(duì)環(huán)境整體噪聲進(jìn)行估計(jì)并濾除[7],其工作原理為首先將輸入的噪聲進(jìn)行相關(guān)處理,得出一個(gè)門限,將此門限與輸入的待檢測(cè)信號(hào)相比,如輸入的待檢測(cè)信號(hào)超過了這個(gè)根據(jù)輸入噪聲所得出的門限,則認(rèn)為有目標(biāo),反之,則認(rèn)為無目標(biāo);本文具體采用的具體CFAR種類是單元平均CFAR(cell-averaging-CFAR, CA-CFAR),CA-CFAR的檢測(cè)原理圖如圖1所示。

2 手勢(shì)識(shí)別網(wǎng)絡(luò)模型

2.1 網(wǎng)絡(luò)輸入

目前,深度學(xué)習(xí)的應(yīng)用領(lǐng)域主要是自然語言處理(natural language processing, NLP)[8-11]與計(jì)算機(jī)視覺(computer vision, CV)[12-15],并且深度學(xué)習(xí)領(lǐng)域中大部分網(wǎng)絡(luò)都是服務(wù)這兩個(gè)方向[16-19]。在基于毫米波雷達(dá)手勢(shì)識(shí)別方法研究中,因?yàn)?D-FFT矩陣在格式上與圖片數(shù)據(jù)類似,所以絕大部分方法都套用CNN在圖像數(shù)據(jù)處理方面的方法,即把2D-FFT矩陣轉(zhuǎn)為能量分布圖再存為圖像格式,用CNN學(xué)習(xí)這些距離-多普勒?qǐng)D中的隱含特征。而且因?yàn)?D-FFT矩陣的能量分布圖并不能直觀表現(xiàn)出角度信息,所以還需要一組角度-時(shí)間圖來表征角度維信息,這樣就造成了必須使用兩組并行的CNN來分別提取信息。然而,雷達(dá)數(shù)據(jù)與圖像數(shù)據(jù)相比,雷達(dá)數(shù)據(jù)中所需獲得的部分重要特征是已知的,通過這些固定種類的特征即可完成分類,而不需要通過深度學(xué)習(xí)的方法再抽取特征。在獲得3D-FFT矩陣后,通過峰值搜索即可獲得目標(biāo)的重要特征信息,這與在獲得3D-FFT矩陣后,處理為兩組圖像數(shù)據(jù)并通過CNN抽取特征的方法相比,可以大幅降低算法復(fù)雜度,并省去此部分特征提取模型的訓(xùn)練時(shí)間。本文特征提取方式與其他文獻(xiàn)提取特征方法差異如表1所示。

表1 不同文獻(xiàn)特征提取差異Table 1 Differences in feature extraction of different documents

續(xù)表1Continued Table 1

其中,單層CNN復(fù)雜度部分為每秒浮點(diǎn)運(yùn)算次數(shù)(floating point operations per second,FLOPs),M為每個(gè)卷積核輸出特征圖的邊長,K為每個(gè)卷積核的邊長,Cin為每個(gè)卷積核的通道數(shù)(輸入通道數(shù),即上一層的輸出通道數(shù)),Cout為本卷積層具有的卷積核個(gè)數(shù)(輸出通道數(shù))。本文選取目標(biāo)距離、速度、水平角度、豎直角度、水平角度隨速度的變化、豎直角度隨速度的變化這6種特征來表征某一類目標(biāo)手勢(shì)回波,具體如圖2所示。

圖2 某一類手勢(shì)特征數(shù)據(jù)Fig.2 A kind of gesture feature data

對(duì)于某一類手勢(shì)特征數(shù)據(jù),每一列分別表示表征某一類手勢(shì)回波的6種特征,其順序如上述特征說明順序一致,每一行表示6種特征中對(duì)應(yīng)一種特征在16幀信號(hào)中的具體值。6種特征對(duì)應(yīng)的單位如表2所示。

表2 手勢(shì)特征及對(duì)應(yīng)單位Table 2 Gesture feature and corresponding unit

2.2 RFT網(wǎng)絡(luò)架構(gòu)

注意力機(jī)制目前已廣泛應(yīng)用于NLP[20-22]和CV[23-25]領(lǐng)域,本文方法使用的是基于縮放點(diǎn)積的多頭注意力機(jī)制,具體結(jié)構(gòu)如圖3所示。

圖3 基于縮放點(diǎn)積注意力機(jī)制的多頭注意力機(jī)制結(jié)構(gòu)Fig.3 Multi-head attention mechanism structure based on scaled dot-product attention mechanism

帶縮放點(diǎn)積的注意力函數(shù)公式如下所示:

(10)

MultiHead(Q,K,V)=Concat(head1,head2,…,headH)WO

(11)

headi=Attention(QWQi,KWKi,VWVi)

(12)

式中:WO為不同頭輸出做拼接后對(duì)應(yīng)的線性層的可學(xué)習(xí)的權(quán)重矩陣;WQ,WK,WV為Q、K、V對(duì)應(yīng)的線性層的可學(xué)習(xí)權(quán)重矩陣。

基于純自注意力機(jī)制的手勢(shì)識(shí)別網(wǎng)絡(luò)模型主要根據(jù)模型Transformer[26]改進(jìn)而來,Transformer網(wǎng)絡(luò)自提出以來,在NLP領(lǐng)域獲得了極好的效果[27],隨著Vit[28]、Swin Transformer[29]此類針對(duì)圖像優(yōu)化網(wǎng)絡(luò)的出現(xiàn),注意力機(jī)制在圖像領(lǐng)域也獲得了極大的成功[30-31]。并且,自注意力層相比于卷積層和循環(huán)層有著復(fù)雜度低,順序的計(jì)算(下一步計(jì)算需等待前多少步計(jì)算完成)少,信息從一個(gè)數(shù)據(jù)點(diǎn)走到另一個(gè)數(shù)據(jù)點(diǎn)的步長短。具體如表3所示。

表3 不同類型層比較Table 3 Comparison of different types of layers

其中,n為序列長度,d為向量長度,k為卷積核大小。因此,本文基于Transformer原模型,針對(duì)毫米波雷達(dá)手勢(shì)識(shí)別任務(wù)做了特定的優(yōu)化,網(wǎng)絡(luò)整體架構(gòu)如圖4所示。

圖4 RFT網(wǎng)絡(luò)整體架構(gòu)Fig.4 RFT network overall architecture

RFT模型首先對(duì)特征數(shù)據(jù)(維度為6×16)按幀編號(hào)進(jìn)行拆分,獲得每一幀的特征數(shù)據(jù)(維度為6×1,共16組),對(duì)這16組特征數(shù)據(jù)添加一個(gè)分類向量用于最后的分類(組成17組6×1特征向量),再給這17組特征向量添加位置編碼(本文使用的是可學(xué)習(xí)的位置編碼),以關(guān)聯(lián)不同幀之間的時(shí)序信息,再將組合后的這17組向量輸入Transformer網(wǎng)絡(luò)的Encoder部分。Transformer的Encoder部分對(duì)經(jīng)過預(yù)處理的特征數(shù)據(jù)(原始數(shù)據(jù)經(jīng)過分割,添加分類向量,添加位置編碼)做層歸一化,再經(jīng)過多頭自注意力機(jī)制,再做LayerNorm和多層感知機(jī)。以上定義為一個(gè)Block,將這個(gè)Block堆疊L次,每個(gè)Block之間采用殘差連接,最后抽取分類向量,通過一個(gè)Dense層進(jìn)行分類。

3 實(shí)驗(yàn)分析與討論

3.1 實(shí)驗(yàn)設(shè)備

本節(jié)使用TI公司生產(chǎn)的IWR6843ISK-ODS毫米波雷達(dá)開發(fā)板與DCA1000數(shù)據(jù)采集卡,將數(shù)據(jù)采集卡輸出的bin文件(雷達(dá)回波數(shù)據(jù))傳輸?shù)絇C端進(jìn)行保存與處理,PC端重要硬件配置包括GTX1650顯卡和4GDDR3內(nèi)存,其中IWR6843ISK-ODS的收發(fā)天線如圖5所示。通過編號(hào)RX1和RX2做豎直方向上的角度估計(jì),用RX1和RX4做水平方向的角度估計(jì)。本文使用的天線模式為一發(fā)四收模式。

圖5 IWR6843ISK-ODS天線圖Fig.5 Antenna diagram of IWR6843ISK-ODS

3.2 數(shù)據(jù)采集與數(shù)據(jù)集構(gòu)建

本文實(shí)驗(yàn)的數(shù)據(jù)采集環(huán)境如圖6所示。

圖6 實(shí)驗(yàn)數(shù)據(jù)采集環(huán)境Fig.6 Experimental data collection environment

手掌與天線距離為30 cm(±8 cm)。另外,考慮到手勢(shì)識(shí)別系統(tǒng)的真實(shí)應(yīng)用場(chǎng)景,本文實(shí)驗(yàn)中添加了一個(gè)靜坐不動(dòng)的人,后部存在一個(gè)正常坐姿的人,以及不定時(shí)在后方行走及周圍出現(xiàn)的人作為復(fù)雜環(huán)境的模擬情況。在此情況下對(duì)手勢(shì)數(shù)據(jù)進(jìn)行采集。毫米波雷達(dá)開發(fā)板參數(shù)設(shè)置方面具體參數(shù)如表4所示。

表4 雷達(dá)參數(shù)配置Table 4 Radar parameter configuration

在數(shù)據(jù)集構(gòu)建方面,首先通過3D-FFT算法、MTI和CA-CFAR算法,獲得手勢(shì)回波的特征數(shù)據(jù),具體表征為距離、速度、水平角度、豎直角度、水平角度隨速度的變化,豎直角度隨速度的變化這6類特征數(shù)據(jù)。將這6類特征數(shù)據(jù)按行放置,以幀序號(hào)按列拼接,獲得某一類手勢(shì)的特征-時(shí)間數(shù)據(jù)(幀序號(hào)即表征了時(shí)序信息),具體如圖2所示。本文實(shí)驗(yàn)一共采集了13組不同的手勢(shì),分別推拉、逆時(shí)針旋轉(zhuǎn)、反z滑動(dòng)、順時(shí)針旋轉(zhuǎn)、下滑、左滑、右滑、斜向左下滑、斜向左上滑、斜向右下滑、斜向右上滑、上滑、正z滑動(dòng),每類手勢(shì)數(shù)據(jù)采集80組作為訓(xùn)練集,80組作為測(cè)試集。具體如圖7所示。

圖7 手勢(shì)類別圖Fig.7 Gesture category diagram

在進(jìn)行同一種手勢(shì)采集時(shí),要求所采集的手勢(shì)盡可能不統(tǒng)一,如圖8所示。

圖8 同類手勢(shì)測(cè)量規(guī)則(上滑)Fig.8 Same gesture measurement rules(up-slip)

而在進(jìn)行不同種手勢(shì)采集時(shí),若可能與其他種類存在混淆情況(不同類手勢(shì)數(shù)據(jù)存在特征類似的情況),盡可能增加混淆度,如圖9所示。

圖9 不同類手勢(shì)測(cè)量規(guī)則(下滑,左滑,逆時(shí)針)Fig.9 Different gesture measurement rules(down/left-slip,anticlockwise)

3.3 網(wǎng)絡(luò)訓(xùn)練與實(shí)驗(yàn)結(jié)果分析

本文采用基于純注意力機(jī)制的網(wǎng)絡(luò)模型RFT作為分類模型。其中,模型的輸入維度為6×16,輸入文件格式為xls;網(wǎng)絡(luò)采用6層堆疊Transformer Encoder;訓(xùn)練批次大小設(shè)置為2,學(xué)習(xí)率設(shè)置為動(dòng)態(tài)學(xué)習(xí)律,初始學(xué)習(xí)律為0.001,最大學(xué)習(xí)率為0.01;損失函數(shù)為分類交叉熵和利用L2范數(shù)計(jì)算張量誤差值(優(yōu)化目標(biāo)函數(shù)正則項(xiàng),避免因參數(shù)過多導(dǎo)致的過擬合)這兩種的混合誤差(相加),衰減權(quán)重為0.000 1;優(yōu)化器采用SGD,共訓(xùn)練100個(gè)epoch。對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行打亂操作。RFT模型的重要參數(shù)如表5所示。

表5 RFT模型重要參數(shù)(以batch_size=1為例)Table 5 Important parameters of RFT model (taking batch_size=1 as an example)

其中,添加分類向量用于最后的分類而不是根據(jù)最后一個(gè)向量的輸出進(jìn)行分類的方法借鑒了Transformer網(wǎng)絡(luò)中的操作;使用可學(xué)習(xí)的一維位置編碼,而不是采用絕對(duì)位置編碼,是借鑒了文獻(xiàn)[32]模型的操作。

為了測(cè)試不同Block數(shù)(即Transformer Encoder的深度)對(duì)分類效果的影響,本文做了不同Block數(shù)的網(wǎng)絡(luò)性能對(duì)比實(shí)驗(yàn),其中訓(xùn)練部分如圖10和圖11所示。

圖10 不同Block數(shù)的訓(xùn)練準(zhǔn)確率Fig.10 Training accuracy of different Blocks

圖11 不同Block數(shù)的訓(xùn)練損失Fig.11 Training loss of different Blocks

可以看出,在較少的Block數(shù)可以獲得較好效果,最后在測(cè)試集上對(duì)不同Block數(shù)的模型進(jìn)行測(cè)試,結(jié)果如圖12所示。

圖12 不同Block數(shù)的測(cè)試準(zhǔn)確率Fig.12 Test accuracy of different Blocks

根據(jù)測(cè)試結(jié)果,本文RFT模型Blocks最終選用6。通過訓(xùn)練,本文的RFT模型在100個(gè)epoch內(nèi)即可得到較好的效果,且每個(gè)epoch訓(xùn)練時(shí)間僅為41 ms,證明了此模型可以快速收斂,訓(xùn)練的準(zhǔn)確率與損失函數(shù)曲線如圖10和圖11中紅色線所示。此外,本文額外采集了13類,每類80組的額外手勢(shì)數(shù)據(jù)作為RFT模型的測(cè)試數(shù)據(jù),所得預(yù)測(cè)結(jié)果的混淆矩陣如圖13所示。

圖13 預(yù)測(cè)結(jié)果的混淆矩陣Fig.13 Confusion matrix of prediction results

其中,數(shù)字0～12分別代表推拉,逆時(shí)針旋轉(zhuǎn),反z,順時(shí)針旋轉(zhuǎn),下滑,左滑,右滑,斜向左下滑,斜向左上滑,斜向右下滑,斜向右上滑,上滑,正z這13類手勢(shì)。

關(guān)于對(duì)比實(shí)驗(yàn)部分,本文采用的數(shù)據(jù)集是提取的特征數(shù)據(jù),本文的數(shù)據(jù)集中每一幀數(shù)據(jù)維度是6×1,而對(duì)應(yīng)的圖像格式數(shù)據(jù)集維度是244×244。如果在本文的數(shù)據(jù)集上采用CNN,會(huì)因輸入數(shù)據(jù)維度過小導(dǎo)致模型收斂效果很差,造成最終的分類準(zhǔn)確度較低。因此,若采用本文的方法構(gòu)建數(shù)據(jù)集時(shí),RFT網(wǎng)絡(luò)與其他文獻(xiàn)中的網(wǎng)絡(luò)相比會(huì)因數(shù)據(jù)集維度方面而導(dǎo)致準(zhǔn)確率有明顯的差異,不一定完全是因?yàn)榫W(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致,也就無法直接比較模型之間的準(zhǔn)確率優(yōu)劣。所以本文直接根據(jù)不同文獻(xiàn)中結(jié)論給出不同模型的準(zhǔn)確率,如表6所示。

表6 不同文獻(xiàn)的手勢(shì)分類準(zhǔn)確率Table 6 Accuracy of gesture classification in different literatures

其中,文獻(xiàn)[4]共采集上下按壓、前后推拉、手掌翻轉(zhuǎn)、手指摩擦、抓握5種手勢(shì),每種手勢(shì)采集800組,以其中80%作為訓(xùn)練集。本文RFT模型共采集推拉、逆時(shí)針旋轉(zhuǎn)、反z滑動(dòng)、順時(shí)針旋轉(zhuǎn)、下滑、左滑、右滑、斜向左下滑、斜向左上滑、斜向右下滑、斜向右上滑、上滑、正z滑動(dòng)共13種手勢(shì)(且模擬復(fù)雜噪聲環(huán)境下采集),每類手勢(shì)采集80組作為訓(xùn)練集。為針對(duì)因數(shù)據(jù)集維度差異導(dǎo)致無法直接判別模型優(yōu)劣的情況,在其他復(fù)雜下游任務(wù)中(如雷達(dá)點(diǎn)云成像分類),可以通過增加特征類別和幀數(shù)來增加特征-時(shí)間數(shù)據(jù)集的維度,使其可以適應(yīng)于CNN,便可以直接比較這兩種模型之間的準(zhǔn)確率優(yōu)劣。

4 結(jié)束語

本文提出了一種基于純注意力機(jī)制的RFT網(wǎng)絡(luò)用于毫米波雷達(dá)手勢(shì)識(shí)別任務(wù)。通過固定類別的特征提取方法,與CNN提取特征相比,計(jì)算復(fù)雜度降低,特征的提取可靠性、可用性、高效性得到提升。通過基于自注意力機(jī)制的RFT模型可內(nèi)部直接關(guān)聯(lián)時(shí)序信息,并直接獲得所有特征輸入。與傳統(tǒng)的采用多組并行CNN提取特征再進(jìn)行特征融合,通過LSTM抽取時(shí)序特征的方法相比,系統(tǒng)的結(jié)構(gòu)更簡潔、算法復(fù)雜度更低、收斂速度更快、更容易訓(xùn)練,且保證了較高的準(zhǔn)確率。考慮到RFT模型的高效性和準(zhǔn)確性,后續(xù)的研究可以將此模型套用到手語識(shí)別等復(fù)雜分類問題上,且根據(jù)Transformer網(wǎng)絡(luò)已有的研究,在利用此種結(jié)構(gòu)的網(wǎng)絡(luò)進(jìn)行復(fù)雜分類問題時(shí),應(yīng)保證樣本盡可能多,因此可以考慮使用數(shù)據(jù)生成網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,以獲得更好的分類效果。