張彭明,張曉梅,胡建鵬
(上海工程技術大學,電子電氣工程學院,上海 201620)
智能移動設備的普及為人們獲取信息提供了極大的便利,方便了生活。但在帶來便利以外,同時引入了新的安全隱患[1]。傳統的密碼認證方式易被攻破,從而導致用戶信息泄露。目前諸如手機等智能移動設備都是綁定了多個服務賬戶,比如銀行、支付寶等支付軟件在手機解鎖后即可免密支付,不法分子可假冒用戶身份行騙,手機作為存儲用戶重要信息的設備,一旦遺失不但用戶自身會受其影響,其周圍熟悉的人也會變成被攻擊的目標。
目前大部分移動設備都基于傳統知識型密碼作為認證保護措施,比如PIN 碼或九宮格圖案解鎖等。這類密碼認證安全性薄弱,容易被猜測或被黑客暴力破解[2]。雖然基于聲紋、語音識別、指紋識別和虹膜識別等生物認證方案也取得了一定的成果,但都存在一些不足,這些特征容易被偽造從而欺騙認證系統(指紋偽造、3D 面部偽造,錄音回放)。生物特征對識別環境要求較高,如:指紋識別需要保持手部干燥,人臉識別要求光亮環境,聲紋認證掃描結果容易受到環境的影響,容易導致認證失敗。采用虹膜認證準確率高且不易被復制破解,是一種安全性較高的生物特征認證方法。但虹膜認證需要專門的設備且設計比較復雜,一般用于軍事領域或高級實驗室使用,昂貴不適于普及。
針對以上認證方式缺陷,本文基于用戶日常觸屏行為特征,建立身份認證模型檢測用戶。該方案采集觸屏傳感器數據實時分析用戶行為,若檢測到異常立即強制重新認證系統,且在交互過程中可持續檢測用戶真實性。在使用中無需做特定的認證手勢動作,體驗度佳且易接受。該方案基于移動設備配備的屏幕傳感器進行數據采集,不受環境限制、成本低、易于普及。
因觸屏行為特征認證的隱蔽性和難以模仿等特點,近年來基于觸屏行為特征身份認證逐漸成為研究熱點。
Mario Frank 等人采取用戶觸屏信息特征,利用XY坐標、手指觸屏面積和手指劃動軌跡建立行為模型來進行用戶認證,當采用一次劃屏模式時錯誤率(ERR)為13%,采用11~12 次劃屏模式時ERR 降低到2%~3%之間,取得良好認證效果[3]。但在其實驗中提取觸摸行為特征,發現隨著時間延長EER在不斷上升,認證性能逐步下降,說明選取的特征不適合用于長期身份認證。這種認證方式要求用戶多次劃動才能獲得觸屏行為特征,操作繁瑣不友好。Wang Xiao 等人采集手指點擊的坐標等信息,通過SVM 訓練得到用戶觸摸行為模型,同時還嘗試了跨設備認證,首次加入數據校正方法,提高了認證準確率[4]。但其特征值過多,在使用算法訓練時容易產生過擬合,導致模型對同一個人不同的操作不能識別,造成認證失敗。Gong Zhenqiang 等人基于觸摸模式不同,把觸摸行為看作是對于其他用戶而言的隨機“隱式秘密”模型,是真實用戶在潛意識下使用設備形成的行為特征,可用于提升認證安全性[5],不過其模型等錯誤率較高,為18%,在高安全身份認證需求中并不適用。
本文通過分析用戶的觸屏行為信息提取行為特征,訓練模型用于持續認證用戶。由于不同用戶的觸屏操作習慣不同,使得個體行為很難模仿,訓練的模型可提升認證安全性。選取的觸屏行為特征容易采集、模型訓練迅速,易于實現。
本文結合觸屏信息提出一種新型智能移動設備身份認證方案,認證流程分為以下幾個階段:信息采集、數據預處理、特征提取與篩選、模型訓練和匹配認證。在信息采集階段,通過觸屏傳感器采集用戶與設備交互行為信息;在預處理階段,去除觸屏噪聲數據,數據歸一化處理;在特征提取階段,提取用戶使用移動設備時手指觸屏XY坐標、劃動時長、點擊壓力、劃動速度等原始行為特征,再根據原始行為特征提取觸屏行為特征分量;在訓練階段,采用兩種機器學習算法評估特征有效性,選取與特征相結合下性能最佳的分類器,并將認證模型保存;在匹配認證階段,分類器載入認證模型,并與測試數據對比分析,返回認證結果。認證方案如圖1 所示。

圖1 認證方案設計Fig.1 Authentication scheme design
為選取適合本文特征的分類算法,本文采用支持向量機(Support Vector Machine,SVM)和隨機森林(Random Forests,RF)兩種機器學習算法作對比分析。支持向量機是有監督二分類器,從訓練集的兩個類中尋找超平面,作為分類決策邊界。對于復雜高維特征,可用核函數對數據進行映射,使得數據集易于分類。SVM 本身是通過間隔概念的結構化來分類優化目標,使得SVM 具有優秀的泛化能力,因此對大多數類型數據具有較好的適用性。隨機森林是通過組合多個弱分類器,經過多個弱分類器共同投票或取均值使得模型具有較高精確度和泛化性能。其能夠處理高維度數據,對數據集的適應能力強。
為收集觸屏行為數據,本文開發了安卓閱讀程序并加入觸屏數據收集功能,安裝在Huawei V10 手機上,用戶閱讀時,觸屏行為收集功能自動在后臺持續采集數據。本次實驗共有10 名在校學生參與,規定每人每次閱讀1 h 左右。全部人員共采集100次,共有12 000條數據。原始數據經預處理后按7:2:1 分為訓練集、測試集和驗證集。訓練集用于篩選和訓練分類器模型,測試集用于評估認證模型性能,驗證集用于調參優化分類器。實驗者首先通過APP 注冊用戶號,填寫采集記錄,之后開始采集。
3.2.1 去噪處理
由于用戶在劃動操作時,傳感器會在開始與結束處記錄大量冗余值,對此可采取截斷法過濾冗余數據,去除開始與結束點處1ms 內軌跡點。在實驗中用戶反常操作行為導致觸屏傳感器產生異常數據,這會對后續的特征提取產生影響。但對于每個用戶產生的異常點的變化不同,需要針對不同用戶計算出各個特征的門限值。本文采用行為數據均值的±10%范圍為上下界門限值用于過濾異常點,公式(1)和公式(2):

其中,ki為第k個特征集合內第i個為特征內的數據點;n為特征內數據點個數;thup為門限值上界;thdown為門限值下界。
3.2.2 歸一化處理
如果數據直接用于訓練會導致分類器僅僅依賴于某些特征,從而造成過擬合,模型泛化能力差。因此,需要對數據進行歸一化處理。本文采用離散標準化方法把特征值映射在[0,1]區間內,式(3):

其中,ki為第k維度下特征的第i個數據點;為k維特征的最小值;為第k維特征最大值;k?i為第k維度下特征的第i個數據點的映射值。
原始數據特征量較少,不能詳細反映用戶觸屏行為特征。本文采集用戶觸屏時記錄的XY坐標、手指壓力、XY速度和觸屏時長共六維原始特征,在每個原始特征維度上,進一步提取了每個特征的最大最小值、均值、標準差和中位數共5 種數據變化信息,因此本文共提取5×6 =30 維觸屏行為信息作為特征集。
機器學習算法訓練的分類模型性依賴于所選的特征集,特征集的優劣會影響分類器準確度,無用特征不僅會延緩訓練速度,還有可能干擾分類器。由于初步提取的特征可能存在冗余,因此剔除不相關、不必要的特征可以提高模型的分類準確率,加快訓練速度。因隨機森林算法不受數據量綱影響,且可輸出訓練數據特征重要性,可用于特征貢獻率分析,所以本文采用隨機森林作為觸屏行為特征子集篩選方法。
先采用小批量特征集數據,經RF 算法輸出每個特征分量對總體分類的重要性,每個分量在特征中的貢獻率如圖2 所示。

圖2 各個特征貢獻率Fig.2 Contribution rate of each feature
從原始特征角度來看,關于坐標XY、觸屏壓力的行為特征分量貢獻率較大;其次是使用時長,關于XY速度特征分量貢獻率最低,表明觸屏操作時XY坐標和觸屏壓力與行為變化間關聯密切,不同用戶在這部分特征上有明顯的差異性,區分度明顯;劃動時長也具有較高的貢獻率,表明用戶劃動時長特征具有區分性。在默認采集頻率下,數據相鄰點的間隔時長變化不一,表明不同用戶在使用移動設備時,手指在觸屏軌跡上停留時間有明顯差異;XY速度特征分量整體貢獻率較低,但其中一些特征分量的貢獻率很高。從具體的特征分量上來看,Y軸坐標的標準差特征貢獻率最高,在24%以上,說明每個用戶一段時間內的連續軌跡的Y軸坐標變化值的離散度不一,觸屏行為表現出差異性。而劃動時長最小值特征重要度排在第二,貢獻率較高,說明觸屏最短時間特征在每個用戶上都保持穩定的觸屏時長,在不同用戶間區別明顯;而X坐標標準差分量貢獻率低,說明觸屏行為在X坐標軸上變化差別較小,反映出用戶在移動設備屏幕的縱向上與橫向上的劃動趨勢,不難發現關于X軸劃動速度特征變化較小,貢獻率較低,因此可去除與X軸劃動速度相關的特征分量,保留其他特征用于訓練模型。
選擇最佳特征集后,本文采用準確率評估算法與特征相結合的整體性能,同時也探討了參數對模型準確率的影響,結果見表1。

表1 分類器參數對模型準確率影響Tab.1 Influence of classifier parameters on model accuracy
由表1 可以看出,分類器參數對模型準確率有重要影響。橫向來看,SVM 的Linear 核訓練的模型準確率最高,高出RBF 核2.57 個百分點。而RF 算法與初始化樹的棵數有關,隨著樹的棵數增加,其訓練的模型準確率逐步上升,說明增加樹的棵數能有效提升準確率,但在estimators =150 時模型準確率沒有提升,說明在estimators =100 時RF 算法已經達到最優,不會再隨樹的增加而增加??v向來看,SVM 算法在采用Linear 核下也有較高的準確率,超過了RF 算法在樹的棵數為20、50 時的情況,低于樹棵數為100 時的RF 算法。因此將觸屏行為特征與優化參數的RF 算法結合,可使訓練身份認證模型準確度最高。
本文基于觸屏行為信息,經提取篩選后用機器學習方法建立身份認證模型,不需要顯式輸入密碼驗證身份,還能持續檢測當前用戶身份真實性。與傳統密碼認證相比,不僅增強了身份認證安全性,也提升了移動設備使用體驗。采用的觸屏行為特征易于采集,特征提取方便,模型易于實現。且通過特征選擇進一步降低了模型整體的復雜度,有利于減少模型訓練時間,提升認證速度。
雖然基于觸屏行為特征的能實現身份認證,但本文只在閱讀應用程序使用場景中做了相關研究,未深入分析用戶在不同應用程序場景下的觸屏行為,其觸屏行為在不同應用上的變化是否一致,這一問題值得在下階段工作中探討分析。