馮心欣 李文龍 何 兆 鄭海峰
(福州大學物理與信息工程學院 福建省媒體信息智能處理與無線傳輸重點實驗室 福州 350108)
在人機交互的發展過程當中,人體姿勢識別是其中關鍵技術之一[1]。人體姿勢識別技術在智能家居、運動分析、游戲娛樂等各類范疇均有運用[2]。
基于視覺的姿勢識別技術發展成熟[3–6],但是圖像質量易受環境光照干擾,且目標在被障礙物或者其他對象所遮擋等不利條件下識別率相對較低。更重要的是,基于視覺的人體姿勢識別需要采集用戶的圖像信息,存在暴露用戶信息、泄露用戶隱私等安全隱患。基于無線感知技術的姿勢識別方法是指通過電波、磁聲波等普適無線信號對人和環境進行非接觸式感知的技術,是目前應用前沿的一種人體姿勢識別技術[7]。由于無線信號的特性,該方法可以有效克服圖像的光照、障礙物干擾等因素的影響。而調頻連續波技術因其測距范圍廣、測量準確率高等特點而受到廣泛的關注[8]。文獻[9]介紹了調頻連續波(Frequency Modulated Continuous Wave, FMCW)雷達目標角度、速度和距離估計的原理與方法。文獻[10]通過對FMCW雷達信息進行時頻分析得到手勢目標的距離、多普勒及角度多維參數,使用卷積神經網絡及特征串聯融合方法進行手勢識別。文獻[11]通過將毫米波雷達的2維數據時間-范圍、時間-多普勒和距離-多普勒特征聯合拓展為3維數據模型然后進行人體運動的識別。文獻[12]提出利用圖像訓練一個教師網絡來指導FMCW信號生成人體關節點熱圖以進行人體姿勢的識別。文獻[13]提出了利用射頻信號進行3D人體姿勢估計的方法,該方法利用了射頻信號對人體的各個部位進行跟蹤和定位,再結合神經網絡的方法來進行人體姿勢識別。多模態研究是人工智能的一個新興領域,多模態數據融合是該領域的主要研究問題之一。多模態數據融合是將多個單模態表示整合為一個緊湊的多模態表示的過程[14]。文獻[15]使用級聯特征作為輸入,并組合特征聯合模型,從而消除了模態中存在的時間依賴性,實現多模態情感分析任務。文獻[16]為每個單模態特征建立單獨的模型,然后使用多數投票或加權平均等方法將輸出整合在一起進行最終的決策。為了充分考慮每個模態內部的信息和跨模態之間的相互作用關系,文獻[17]利用張量的表示方式,基于張量外積對多模態特征進行融合,充分利用多模態特征之間的相關性。文獻[18]在文獻[17]的基礎上,引入張量分解的概念,進一步提出了低秩多模態融合網絡,以減少網絡大量參數。文獻[19]結合對抗網絡概念提出域對抗神經網絡(Domain-Adversarial Neural Network, DANN),通過讓網絡學習到的特征具有域不變性,達到域自適應的效果,讓網絡適應不同環境下的數據。
然而,現有的基于FMCW雷達信號對人體姿勢的感知方法存在以下問題。第一,對多維信息的利用不夠充分,只是進行了簡單的拼接融合或者維度拓展;第二,由于實際應用中,背景環境是復雜多變的,但這些方法并未考慮到實際環境的多樣復雜性對系統性能的影響。針對以上工作和問題,本文提出一種基于多維信息融合的FMCW雷達人體姿勢識別方法,本方法使用3維快速傅里葉變換、具有噪聲的基于密度的聚類算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)及Hampel濾波算法對FMCW雷達信號進行分析得到有效的多維信息,然后通過低秩多模態融合網絡對多維信息進行融合,并結合對抗網絡的概念使用域鑒別器進一步獲得與環境無關的特征,最終通過分類器獲得分類結果。本文方法由于對融合網絡和域鑒別器的設計,在保證識別精度的同時,實現了對環境的強魯棒性。
本文提出基于多維信息特征融合的FMCW雷達人體姿勢識別系統,主要包括FMCW雷達數據處理、數據集構建及深度學習模型設計部分。首先,根據FMCW雷達原理對原始數據進行快速傅里葉變換得到距離、速度及角度參數。其次,利用DBSCAN聚類、Hampel濾波以及線性插值的方法獲取最終的數據集。最后,搭建深度學習模型框架進行姿勢識別。
FMCW雷達是一種調頻連續波雷達,它傳輸一種頻率隨時間遞增的信號。FMCW信號經過目標反射回來后與發射的信號進行混合,得到的信號稱為中頻信號。FMCW雷達在某個時間點采集到的回波信號,經過數字信號采樣后變成數字信號。采樣后的數據形狀是一個2維矩陣,分別為快時間維度和慢時間維度,采樣的數據點對應快時間維度,慢時間維度對應時間。對于多接收天線雷達,采樣后的數據可以排列成一個3維矩陣,即采樣點數、調頻脈沖數以及接收天線數。
在快時間維度對數據進行快速傅里葉變換(Fast Fourier Transform, FFT),并且為了防止頻譜泄漏,需要對每一列數據添加海明窗,得到距離-FFT圖。然后在慢時間維度上每一行做采樣點數的快速傅里葉變換,得到距離-多普勒圖。將距離-多普勒圖中位于不同接收天線但索引相同的值取出并進行補零,然后進行180點的快速傅里葉變換處理,得到角度-FFT圖,從而構建成3維的距離-多普勒-角度圖,其中3個維度分別對應距離、速度及角度。
3維快速傅里葉變換將數據從時域變換到頻域,然后通過峰值搜索檢測出峰值位置(x,y,z),其中x對應距離維,y對應速度維,z對應角度維。當物體運動時,回波信號和發射信號之間有時延τ,而回波時延可以通過差拍頻率fb得到,這是因為差拍頻率與回波時延呈線性關系。但由于物體的運動,差拍頻率包含了多普勒頻移,測距時需要減去多普勒頻移fd,差拍頻率為
其中,fs是采樣頻率,NRFFT是距離維度的FFT點數。多普勒頻率為
其中, c為光速,k是調頻連續波信號頻率隨時間的變化率,λ是雷達初始頻率波長,L是接收天線間的 距離。
雷達探測到的距離及角度信息是相對于雷達而言的,因此經過簡單的坐標變換可以獲得目標以雷達為原點的位置坐標信息。在實際環境中,雷達所探測到的信息不僅包含雷達前方有效的目標姿勢信息,同時也包含了雷達前方的各種無效的靜態或動態目標信息。DBSCAN聚類算法將聚類定義為高密度的連續區域,能夠將數據中不同類型的數據聚類成不同形態的簇[20]。由于人體運動的軌跡具有一定的連續性和規律性,在同一場景中,不同目標在執行動作時所產生的運動軌跡具有不同的密度區域,因此通過DBSCAN聚類算法能夠將雷達探測到的所有目標的位置坐標信息根據密度的差異聚類成不同形態的簇,從而去除無關目標的軌跡信息,保留所需的人體目標運動信息,進而保留對應的距離、速度及角度參數。
本文以50幀數據為觀測時長,在時間上分別對距離、速度和角度參數進行積累,從而得到距離-時間圖(Distance-Time Map, DTM)、速度-時間圖(Velocity-Time Map, VTM)以及角度-時間圖的數據集。但由于硬件噪聲的原因,不同的數據集中可能存在異常點,本文采用Hampel濾波排除異常點。Hampel濾波是指將信號中特定的信號點濾除出去,從而抑制干擾,即對于數據集中的每個樣本,選取該樣本的左右各3個樣本組成窗口,同時求出這6個樣本的中值,確定窗口中的值與中值的偏差,并且將偏差的中值乘以用戶定義的閾值,然后根據該值判斷樣本點是否離群。如果窗口中的某個樣本為離群值,則用樣本中值替換掉該樣本的值。
在進行數據處理的過程中可能導致原本數據樣本的丟失,從而導致數據缺乏完整性。考慮到FMCW雷達在實際測量的過程中每一幀的時間極為短暫并且人體目標的運動速度比較均勻,因此,可以采用數據重構的方式進行線性插值,即以丟失時刻的前一未丟失時刻的值代替丟失時刻的值。
由于人體在執行動作的過程中,人體的運動幅度比較大,從而導致了角度-時間數據集效果不佳。所以在本文主要采用DTM數據集和VTM數據集。DTM數據集與VTM數據集存在很大的差異,為了使深度學習模型更快收斂,對數據集采取歸一化處理
本文提出一種多維參數域自適應網絡(Distance-Velocity-Environment-Independent-Net, DV-EINet),對DTM和VTM數據進行融合并提取出與環境無關的特征,從而對環境噪聲進行消除。該網絡由4個部分組成:特征提取器、特征融合器、活動識別器和域鑒別器,如圖1。
2.3.1 模型輸入
本文模型的輸入使用的是不同環境下采集的人體姿勢數據。將數據分為源域數據和目標域數據兩部分,其中源域數據是有姿勢標簽的姿勢數據,而目標域數據是無姿勢標簽的姿勢數據,并且每一個數據均有其相應的環境標簽,具體的實驗數據配置可見本文3.1節的描述。模型的輸出為目標域數據的預測姿勢標簽。
2.3.2 特征提取器
本文使用卷積神經網絡提取每個分支網絡的特征,由于DTM和VTM描述的是目標的距離和速度的變化信息,相對于正常光學圖像有效信息占比較少,使用兩個2D卷積層和1個池化層對DTM和VTM進行特征提取。假設各個分支網絡的輸出分別為ZDTM和ZVTM。卷積神經網絡(Convolutional Neural Network, CNN)的參數集為λDTM和λVTM,輸入數據集為XDTM和XVTM,則提取的特征可以表示為
2.3.3 特征融合器
為了更好地利用多維度特征之間的各種相互關系,可以借助張量的表示方法,通過創建高階張量來捕捉各個特征所包含的信息,但高階張量構建將帶來更大的計算成本。因此,本文采用低秩多模態融合網絡(Low-rank Multimodal Fusion network,LMF)[18],如圖2所示,該網絡通過張量分解提出低階的張量融合網絡,減少計算成本。
2.3.4 活動識別器
活動識別器由兩個全連接層組成,使用softmax層獲取特征提取器的概率。對于已標記的數據,可以使用交叉熵函數Ly來計算預測結果與事實之間的損失
2.3.5 域鑒別器
在本文中主要考慮不同環境下人體姿勢的識別,由于在不同的環境下采集到的數據具有一定差異性,且這些差異性都與特定的環境因素有關,以至于特征提取器所提取的特征也包含了與特定環境相關的特征,因此需要對特征進一步消除環境干擾。
本實驗使用的FMCW雷達是德州儀器(Texas Instruments, TI)公司的IWR1642BOOST毫米波雷達開發板。實驗使用了4個接收天線以及2個發射天線,FMCW雷達的參數設置為數據幀長為50幀,每幀調頻脈沖數為128,每個脈沖的采樣點數為64,工作頻率范圍在77~78 GHz,帶寬約為1.50 GHz。為了體現環境的復雜性,實驗數據在4種不同的環境下進行采集,包括了走廊、會議室、實驗室及空曠的房間。本實驗一共邀請了4名實驗者(2男2女)在4種環境下實施站立、坐下、行走以及揮拳這4種姿勢,每一種姿勢在每一個環境下都采集了100個樣本。實驗共收集了8組人——環境相對應的姿勢數據集,對應于8個不同的域。將這8組姿勢數據集中的4組劃分為源域數據(包含2個實驗者在2個環境下采集的有姿勢標簽的數據),4組劃分為目標域數據(包含2個實驗者在2個環境下采集的無姿勢標簽的數據),并規定源域和目標域數據的環境是不同的,最終共得到800個源域數據樣本和800個目標域數據樣本。
本文的實驗平臺框架如圖3所示,主要由FMCW毫米波雷達、PC端、邊緣計算平臺所構成。FMCW毫米波雷達用于姿勢數據的采集;PC端對采集到的數據使用算法進行處理并生成DTM和VTM數據,生成的數據通過局域網實時傳送給邊緣計算平臺;邊緣計算平臺使用深度學習網絡模型進行姿勢識別。本文使用Jetson Nano作為邊緣計算平臺,該邊緣計算平臺上搭載的是預先離線訓練好的深度學習網絡模型,本文后續的實驗均是基于該實驗平臺所實現的。
為了驗證DBSCAN聚類、Hampel濾波和線性插值對數據的處理效果,在有無關人員走動的實際環境下進行數據的采集工作。比如實驗者在執行向雷達靠近的行走動作時,實驗者后面有無關的人員走過。在聚類實驗中,DBSCAN的實驗效果如圖4。
其中,紫色是干擾的行走人員軌跡,綠色是實驗所需的行走數據,黑色是其他靜態物體信息。從圖4可以看出即使在有人員干擾的情況下,使用DBSCAN聚類算法可以保留所需的人體姿勢數據并消除分散的噪聲點。聚類主要去除的無關靜態和動態物體干擾,實驗數據處理過程中有可能產生的數據丟失和數據異常仍然存在,本文使用Hampel濾波去除距離-時間和速度-時間圖中殘留的干擾噪聲,處理結果如圖5所示。
從圖5可以看出Hampel濾波有效去除了信號的跳躍噪聲點,從而獲得更加平滑的數據,而線性插值對數據進行了重構,使得距離-時間和速度-時間圖數據更加完整。
在經過數據處理后,最終得到的人體姿勢數據DTM和VTM圖以及對應數據在Jetson Nano邊緣計算平臺上的識別結果如圖6所示。
為了驗證多維參數數據集相比于單參數數據集的優勢,設計一個單參數DV-EI-Net網絡,即將多維參數DV-EI-Net網絡的輸入改為單輸入,刪除特征融合器,輸入經過特征提取器后直接進入活動識別器和域鑒別器。單參數DV-EI-Net網絡的具體配置為:特征提取器包含2層卷積層,將卷積核大小設置為5×5,每個卷積層后都有一個激活函數及最大池化層,且池化層大小為2×2;活動識別器和域鑒別器都包含2層全連接層,最后都是使用Softmax層獲取活動和域的概率向量。表1給出了單參數網絡分別在DTM和VTM數據集上進行單獨訓練后的識別精度。在總體情況下,對于在VTM數據集上的精度要比DTM數據集高3.5%~4.5%,這說明速度信息相比于距離信息而言,對于人體姿勢的表征能力要更好。
將DTM和VTM數據集加載到多維參數DV-EI-Net網絡。其中多維參數網絡DV-EI-Net的網絡配置與單參數網絡一樣,但該網絡的輸入是多維參數數據集DTM和VTM。在測試數據集上對多維參數DVEI-Net網絡進行測試,得到表2所示的姿勢識別混淆矩陣。為了驗證多維參數的融合方法對網絡性能的提升,本文使用簡單串聯特征融合方法FADD=[ZDTM,ZVTM]T與LMF融合方法進行比較,通過表3和表1可知,基于多維數據融合的方法明顯比單參數網絡的精度來的高,這說明充分融合多維數據能夠帶來更多的潛在信息。而基于LMF的融合方法比串聯特征融合方法精度要高4%左右,這表明基于LMF特征融合方法挖掘到了更多的多維參數特征之間的相互關系。從表3還可知,在有域鑒別器的情況下,基于串聯融合方式的精度提升了2.5%,而基于LMF融合方式的精度可達91.5%,相比于無域鑒別器的情況提升了5%,這說明域鑒別器的存在可以有效消除復雜環境的干擾,從而獲得了與環境無關的特征,進一步提升了系統精度。

表1 DV-EI-Net單參數網絡目標域分類精度(%)

表2 姿勢分類混淆矩陣(%)

表3 DV-EI-Net多參數網絡目標域分類精度(%)
為了驗證本文完整的DV-EI-Net多參數網絡的性能,表4給出了本文方法與其他方法準確率的比較。其中,對比算法CNN[21]和視覺幾何群網絡(Visual Geometry Group network 16, VGG16)[22]為單參數網絡,距離多普勒角度-時間網絡(Range Doppler Angle-Time, RDA-T)[10]為多參數網絡。具體來說,RDA-T利用簡化版VGG16網絡和特征串聯的方式對手勢進行分類;CNN網絡利用多普勒譜圖做輸入,通過10層的卷積神經網絡對手勢進行分類;VGG16是在圖像分類上效果顯著的網絡結構。同時,本文在上述3個算法中進一步增加了域鑒別器結構,參與對比實驗。為了比較公平,上述算法的輸入均采用相同的DTM, VTM數據集,其中單參數網絡只使用對人體姿勢表征能力更好的VTM數據集。通過表4可知,無論是單參數網絡還是多參數網絡,相比于源域精度,在無標簽的目標域下精度都有著一定程度的下降,且下降精度最大達到7.5%。加入域鑒別器后,下降精度減小為最多4%,這說明了域鑒別器具有通用性和有效性,不僅適用于本文所提出的網絡結構,也可應用于其他姿勢識別算法。從總體上看,本文所提出的方法在有姿勢標簽的源域數據下精度可達94.0%,并且在目標域精度也可以達到91.5%,相比于RDA-T[10]多參數網絡提高3.0%,對比其他單參數網絡算法則具有更加顯著的優勢。

表4 本文方法與其他方法平均精度的比較(%)
本文提出一種基于FMCW雷達信號的人體姿勢識別方法,本方法利用FMCW雷達信號的多維信息,并關注復雜環境背景的處理。通過對FMCW雷達信號的有效算法分析,如3維FFT變換、DBSCAN聚類算法等,獲得準確的目標距離、速度及角度參數,并進一步通過Hampel濾波和線性插值方法構造出VTM和DTM數據集。然后搭建了基于LMF融合網絡和域自適應網絡對多維參數數據集進行有效融合并提取與環境無關的特征。通過最終實驗表明,本文方法對于復雜的目標域環境下的人體姿勢的識別精度可達91.5%。