魏忠誠,張新秋,馮 浩,連 彬,王 巍
(1.河北工程大學 信息與電氣工程學院,河北 邯鄲 056038;2.河北工程大學 河北省安防信息感知與處理重點實驗室,河北 邯鄲 056038;3.河北工程大學 水利水電學院,河北 邯鄲 056038)
隨著人們對用戶安全和隱私泄露等問題的日益關注,在提供用戶舒適環境和保護個人隱私的情況下驗證人員的合法性有著廣泛的應用需求。Wi-Fi感知由于設備成本低廉、無需佩戴感知設備、可實現被動式感知和不容易侵犯用戶隱私等優點,受到了研究人員的廣泛關注,其中接收信號強度指示(received signal strength indicator,RSSI)和信道狀態信息(channel state information,CSI)為其主要的數據形式。但是相較于RSSI僅能夠提供人體的粗粒度信息[1,2],CSI數據包則可以感知到多種細粒度的人體活動,如定位[3]、呼吸頻率[4]、活動識別[5]和持續時間檢測[6]等。
Zhang等[7]將CSI感知引入到身份識別領域,但未對人員合法性進行分析。當有非法人員入侵,系統無法進行有效的防御,實用性不強。Shi等[8]實現了合法用戶識別和非法用戶驗證,但未對其進行深入分析,并且合法人員個數較少,識別率偏低。針對身份識別系統中合法性研究的重要性問題,我們提出了身份合法性認證系統[9],但存在判斷閾值隨實驗群體變化的問題,缺乏自適應性。因此基于前期研究,本文再次提出一種基于Wi-Fi信號的人員合法性檢測系統(WI-LVS),通過算法優化實現閾值調節,進而自適應群體變化,并在基于聚類算法的合法性檢測中提出個體差異對合法性研究的影響。實驗過程中收集了10個志愿者的1000條數據,結果表明WI-LVS具有更高的識別精度。
CSI是物理層信息,表示為發射機與接收機之間信道的固有物理特征,頻域傳播模型[10]為Y=HX+N,Y和X分別為接收端和發射端信號向量,N是附加的高斯白噪聲向量。并且,在頻域中,接收端和發射端信號分別可表示為Y(f,t) 和X(f,t), 因此可得知Y(f,t)=H(f,t)*X(f,t), 其中H(f,t) 為在時刻t、 載頻f下的信道頻率響應(channel frequency response,CFR)。
當一個信號通過M條不同的路徑到達接收端時,H(f,t) 可以由式(1)給出
(1)
式中:ak(f,t) 是復數值,表示第k條路徑初始的信號衰減和相移,exp(-j2πτk(t)) 表示第k條路徑傳播時間τk(t) 內發生的相移,exp(-j2πΔft) 是由發射端和接收端之間的頻率偏差導致的相移。
信道的頻率響應描述出了信號的多徑效應,反映了CSI信號的幅值和相位變化,為無線感知提供了豐富的人體活動信息,是CSI能夠實現細粒度感知的重要因素。
WI-LVS系統結構如圖1所示,分為4個部分:數據預處理、人員檢測、特征提取、合法性檢測。實驗使用了Wi-Fi設備進行了數據采集,并使用了收發端第一根天線的主天線鏈路的CSI幅值。

圖1 系統結構
由于受到Wi-Fi設備的硬件缺陷和周圍環境的影響,原始數據包含著多種噪聲,首先對原始數據進行預處理。在數據預處理中主要利用Hampel濾波器進行異常值處理,主成分分析(principal component analysis,PCA)和巴特沃斯低通濾波器去除無用的信號成分以及30 Hz以上的高頻噪聲,這與我們之前的工作一致,不再詳細闡述。隨后檢測視距(line of sight,LOS)路徑是否有人員行走,設計方差與短時間能量的乘積分割有效的行走片段。然后利用離散小波變換(discrete wavelet transformation,DWT)算法提取近似系數特征,并進行離群點去除和歸一化處理。最后合法性檢測提出自適應距離閾值(distance threshold,DT)的基于粒子群優化(particle swarm optimization,PSO)的近鄰傳播(affinity propagation,AP)算法(DT-PSO-AP)從個體差異和群體變化兩個角度對人員合法性研究進行深層次分析。
在實驗數據采集的過程中,研究人員需要將感知的活動與含有人體運動信息的CSI數據相互對應,因此檢測一個人是否在環境區域內行走是十分有必要的。
2.2.1 活動檢測
當有人穿過LOS路徑時,CSI數據發生明顯的波動[6]。數據的方差可以檢測出數據波動程度,短時能量可以體現多徑傳播后的信號功率的變化情況。圖2是利用第二主成分的方差和短時間能量進行人員檢測和片段截取的說明。在圖2記錄了兩輪行走活動。從圖中可以明顯看出,方差和短時能量都可以檢測出人體存在。但是同一個人在不同時刻的行走方式和不同人之間的行走方式都存在著差異[11],導致對CSI數據計算得到的方差和短時能量的峰值不會總是對應于活動持續時間的中心,因此單獨使用方差或短時能量進行人員檢測的結果魯棒性不強。觀察圖2(b)、圖2(c)可知,CSI方差和短時能量的乘積可以更好地表現第二主成分波形的波動情況。具體的計算公式如下
(2)
(3)
S{Var,E}=Var?E
(4)
(5)


圖2 利用第二主成分的方差和短時間能量進行人員檢測和片段截取的說明
2.2.2 有效片段提取

當檢測到環境中有人行走時,記錄S{Var,E}max所對應的主成分位置L,L為有效區域中心。通過將T設為有效區域的持續時間,K設為常用閾值判斷系數,以L±T為活動片段的起點和終點對CSI數據進行截取得到有效區間。
有效片段提取后的CSI數據包含豐富的人體運動信息,直接進行識別會造成較大的計算量,且準確率也不能達到理想的預期,因此需要對CSI有效活動片段進行特征提取操作。小波系數可以保留原波形大多數的脈沖和峰值等特點的高度變化[12],具有較強的代表性,因此使用DWT算法對第二主成分波形進行小波分解,計算近似系數。
2.3.1 離群點去除
大部分聚類算法對于離群點都有一定的敏感性,因此需要在聚類之前進行離群點去除[13]。根據我們之前的研究[9],選擇了第一層近似系數作為特征進行實現。特征的散點圖如圖3所示,其中方框中的點為離群點。由于同一個人和不同人之間的特征都存在著一定差異,導致特征數據中的離群點數量不同,去除離群點后用于聚類的特征值維度也不同。為了避免以上情況對系統性能的影響,使用Hampel濾波器去除異常值之后又對數據進行插值處理,從而保證特征維度的統一性。

圖3 近似系數的離群點檢測
2.3.2 歸一化處理
聚類算法通過各維度的距離計算對數據進行聚類操作,當某個特征值域范圍非常大時,距離計算就主要取決于這個特征,從而降低了其它特征的權重,造成較低的識別率[14]。從圖3可以看出,近似系數的值在各個維度變化較大,因此本文使用了線性函數歸一化方法,對原始數據進行線性變換,使結果映射到0~1之間。
AP聚類算法是一種無監督算法,通過分析測試數據的內在相似性對未標記的數據進行聚類,非常適合于非法人員未知的合法性檢測研究。它無需提前設置分類數量,這對于日常生活中樣本種類的變化有更強的魯棒性和靈活性。AP聚類主要有偏向參數和阻尼因子兩個參數,但是它的收斂性嚴重依賴于這兩個參數,容易產生震蕩,為AP聚類算法的一大缺點[15]。同時,根據我們之前的研究可知[9],合法人員與非法人員的距離閾值是判決人員合法性的關鍵,是一個非常重要的參數。它需要根據環境中群體的變化而不斷進行人為調整,且參數調整工作量很大。基于以上分析,對AP聚類算法進行改進。
改進的AP聚類算法首先對訓練集進行訓練,確定每類數據的聚類中心和距離半徑。然后通過距離閾值(距離系數*距離半徑)對測試集進行合法性檢測。最后利用PSO優化算法找到參數在最佳情況下的檢測結果。其具體處理步驟如下。
(1)將數據樣本分為兩類,合法人員和非法人員;
(2)將合法人員的數據分為兩類,即訓練集和測試集,非法人員全部作為測試集;
這是個發散性問題,對學生理解疊加法,非常有幫助!數列遞推關系,若具備后一項減前一項,且差f(n)能求和,則能用疊加法求通項公式.如an-an-1=n或等,再給出首項a1的值,則由疊加法可求an.
(3)將訓練集放入改進的AP聚類算法中進行聚類,從偏向系數和阻尼因子的范圍中獲取參數輸入值,得到第i類的中心坐標Oi和第i類中的第j點到Oi的距離Lij, 具體公式如式(6)、式(7)所示,其中N為每個種類中含有的樣本數
(6)
Lij=sum(Li)
(7)
(4)從距離系數的范圍中獲取C, 使得距離閾值Ri=CLij, 并計算測試集中的每個數據到各個聚類中心Oi的距離P。 若P (5)將合法人員和非法人員識別率均值作為優化目標,隨機粒子在指定范圍內按照標準PSO算法規則不斷改變粒子的速度和位置,更新偏向系數、阻尼因子和距離系數; (6)重復(3)~(5)的步驟,直到達到最大迭代次數結束循環,并得到最終的優化值。 為了驗證上述方法的有效性,實驗采集了10名志愿者的數據,其中每人包含100條,其基本信息見表1。實驗場景如圖4所示,TP-Link 802.11n無線路由器為無線發射端,配備Atheros9382 NIC和開源工具Atheros-CSI-Tool的戴爾筆記本電腦為無線接收端并在Ubuntu 14.04 OS上運行。實驗過程中設備離地面的高度約1 m,彼此相距1.5 m,頻段設置為5 GHz,帶寬為40 MHz,采樣頻率設置為500 Hz。為了更貼近現實場景,在數據采集過程中不對志愿者的行走速度和行走方式進行限制,整個實驗過程僅從門口走到室內,每次的行走時間約為20 s,并允許4名干擾人員在實驗室內正常工作。 表1 志愿者信息 圖4 實驗場景平面圖 本文將從TPR、TNR、正確率、PTNR這4個方面深入分析個體差異和群體變化對人員合法性的影響,在不同的數據集上進行驗證。實驗統計信息見表2,每次實驗重復5次。基本指標量定義見表3。 表2 實驗統計信息 表3 混淆矩陣 真陽性率(TPR):系統對合法人員做出正確判斷的概率 (8) 真陰性率(TNR):系統對非法人員做出正確判斷的概率 (9) 正確率:系統對合法人員和非法人員做出正確判斷的概率 (10) 用戶TNR需求度下識別率(PTNR):用戶TNR需求度為P?(0,1) 下的系統識別率 PTNR=(1-P)*TPR+P*TNR (11) 不同的訓練集比例包含著不等量的特征信息,因此選擇合適比例在研究中是較為關鍵的一步。為了選擇合適的訓練集比例,我們使用了TNR和TPR兩個評價指標進行測試。在本實驗中,設計了5個合法人員的5種不同樣本比例進行分類訓練,合法人員的剩余樣本比例和所有非法人員的樣本進行測試。 圖5描述了去除異常值前后的5種不同比例的TPR和TNR。當訓練集比例從10%增加到30%時,去除離群點后的TPR、TNR分別由90%、80%增加為93%、83%,提升較為明顯。但是訓練集樣本持續增加時,提升速度開始變慢,原因是訓練集含有的特征信息已趨于飽和。因此,在其它的實驗評估中,我們將訓練集比例設為30%。從圖5中還可以得知,未進行離群點去除的TPR、TNR在人數規模增加時也呈現同樣的規律,但精度稍低于去除離群點后。這是由于AP聚類把數據的真實值作為潛在聚類中心,對離群點的敏感度不強。 圖5 訓練集比例對系統的影響 從以往的身份識別研究可知每個人的自然行走方式具有較大差異,為識別一個人的身份提供了可能性。根據這一現象,我們開展了人員合法性檢測實驗。 3.4.1 不同個體的人員組合 為了驗證不同個體對系統的影響,我們選取1~4個合法人員進行多種組合,得到如圖6所示的4個直方圖。圖6(a)可以看出,1號、2號、3號的PTNR為100%,5號的PTNR為98%,而4號的PTNR為82%,相對偏低。一個人的步態和他/她的身高、體重和年齡大致相關。查看表1可知,4號的身高和體重在合法人員中都是較大的,可推測人的身高、體重可能對合法性檢測影響較大,并在下一小節進行了實驗驗證。 從圖6整體可以看出,組合中的人員越多,PTNR越趨于穩定,這是由于群體的PTNR是組合中不同個體的共同作用結果。因此當合法人員增多時,系統仍然保持較好的性能,甚至呈現出更好的穩定性。根據圖6(b)~圖6(d)中含有4號的組合的PTNR低于其它組合這一現象,還可以推斷出4號的人員合法性檢測效果較差,這一發現也正好與圖6(a)對應,進一步驗證了系統的魯棒性。 圖6 不同個體組合對系統的影響 3.4.2 不同個體的身高、體重 從我們之前的身份識別研究可知[9],當實驗人員的身高和體重與其它人員相差較大時,錯誤分類的概率最低,如8號在所有的志愿者中身高和體重都是較低的,她的識別率是100%。相似的,在本文中1號、2號、3號的身高和體重是5個合法人員中相對較低的,也達到了100%的識別率,與身份識別中的結論對應,因此人體的身高和體重對合法性檢測影響較大具有一定的理論依據。接下來,設計了兩個實驗進行反向驗證。 實驗1中,合法人員設置為1~5號,非法人員設置為7~10號。實驗2中,合法人員設置為1號、2號、3號、6號、5號,非法人員保持不變,同時其余實驗參數不變。圖7為實驗驗證結果,從圖7中可以看出,在訓練集為一名合法人員的5種組合中,當合法人員由4號變為6號時,PTNR發生明顯下降。因此驗證實驗發現具有較高的可信度,并且進一步驗證了人體身高和體重對無線信號傳輸有重要影響。 圖7 不同個體對系統的影響 在本節中,我們從群體變化角度介紹系統的性能。 3.5.1 不同訓練集比例 為了驗證不同比例對系統的影響,實驗將5名合法人員都作為訓練樣本,并在相同的實驗條件下對比了WI-LVS與傳統方式的識別效果。從圖8可以看出,兩種方法的識別精度都隨著訓練集規模的增大而增大,其原因是樣本數量越多,人類步行活動的有效特征也就越多。但在相同訓練集情況下,WI-LVS始終保持較高正確率,說明了WI-LVS性能更好。 圖8 訓練集比例對系統的影響 3.5.2 不同群體個數 群體的大小對系統的計算復雜度有一定的影響,因此設計了1~5名合法人員進行實驗。如圖9所示,隨著群體人數規模的增加,WI-LVS的PTNR從96%下降到88%。產生這一現象的原因是,群體規模越大,行走特征越相似,越難識別合法志愿者,并且傳統方式也呈現了相同趨勢。另外,因為傳統方式對同一人數規模的個體組合進行了隨機選擇,當選取規模為5時組合方式唯一,因此在此規模下進行了算法比較,從實驗可以得出WI-LVS具有更好的性能。 圖9 群體個數對系統的影響 同時,從圖9可以看出,相同距離系數C的PTNR變化明顯,甚至隨著群體規模的增大而迅速減小(如C=2.7),因此特定系數C不能令PTNR在所有群體規模下都達到最優,需要用戶手動調整以達到理想結果,但是這一過程時間復雜度高,用戶參與度高。而DT-PSO-AP算法可以通過自適應調整距離系數C避免這一問題。 3.5.3 不同用戶需求度 由于生活中人們對TNR的需求度不同,實驗選取了5種需求供用戶使用。實驗中訓練集中包含5名合法人員。圖10為WI-LVS和傳統方式在不同需求下的實驗結果。如圖10所示,當傳統方式中不同需求的PTNR都達到最高時,存在4個不同距離系數C。隨著用戶需求的改變,PTNR值也發生了改變,這是因為不同用戶需求對應的TPR和TNR的權重不同,當用戶需求為0.1和0.9時,更加強調單個指標(TNR/TPR)的重要性,PTNR相對較高。與傳統方式相比,WI-LVS具有更高的PTNR。 圖10 用戶需求度對系統的影響 3.5.4 測試集中合法人員比例 圖11 合法人員比例對系統的影響 隨著無線路由器在生活中的普及,使得無線信號的獲取更加便捷,基于Wi-Fi信號的無線感知識別研究更受關注。我們著眼于人員合法性檢測系統的信息采集和識別方式存在隱私性差、舒適度低的現象,提出了一種基于Wi-Fi信號的人員合法性檢測系統,將其獨立應用于日常檢測。在非法人員不參與合法性檢測訓練基礎上,利用聚類算法實現高精度的自適應合法性檢測。評估結果表明,本文提出的方法優于傳統的合法人員檢測方法。下一步將收集更多的數據擴大合法人員個數滿足更大的用戶需求,并在非視距場景下檢測人員合法性。3 實驗結果及分析
3.1 實驗設置


3.2 性能評估



3.3 選取合適的訓練集比例

3.4 個體差異對系統的影響


3.5 群體變化對系統的影響





4 結束語