易彬,胡曉勤
(四川大學計算機學院,成都 610065)
基于加權貝葉斯的擊鍵特征身份識別
易彬,胡曉勤
(四川大學計算機學院,成都 610065)
生物擊鍵是以人的行為特征為基礎的身份認證技術。在樸素貝葉斯分類理論的背景下,提出一種改進的加權貝葉斯方法。實驗結果表明,加權后錯誤率較樸素貝葉斯大大降低,錯誤拒絕率FRR和錯誤接受率FAR分別為2.5%和1.4%。
擊鍵特征;身份識別;加權貝葉斯
目前,在各種計算機安全措施中,傳統的基于口令(用戶名-密碼)的身份驗證技術仍使用較廣,但口令有易泄漏、易遺忘等缺點;另一種身份驗證方法使用物理令牌(如:信用卡、智能卡等)代替口令認證,但很明顯這種方式不僅使成本增高而且容易遺失令牌;由于人的生物特征具有不可復制、難以改變等特性,故生物特征識別技術在近年來被越來越多的人們所研究。常見的生物特征識別技術有:指紋識別技術、人臉識別技術、虹膜識別技術、語音識別技術等[1]。但這些生物特征識別技術都需要配備成本較高的硬件設備,使得應用不方便且難以普及。
生物擊鍵特征識別技術[2]通過人的固有擊鍵特性(如:擊鍵時延、擊鍵力量等)進行身份識別,不僅解決了傳統基于口令身份驗證的不安全性,同時和其他生物識別技術相比,具有成本低、靈活性高等優點。
人們嘗試了很多算法來實現擊鍵特征身份識別問題。這些算法大致可以歸納為兩類:基于統計學的算法和基于神經網絡的識別算法。本文使用的數據集的作者C.C.Loy等人使用Fuzzy ARTMAP(模糊自適應諧振理論網絡)方法得出的實驗結果顯示錯誤接受率(FAR)為0.87%,錯誤拒絕率(FRR)為4.4%。雖然使用神經網絡識別算法具備誤報率低、識別效果好的優點,但當身份識別系統更新時,神經網絡模型需要花費較長時間重新訓練[10],實時性不高。本文在樸素貝葉斯分類理論的基礎上進行改進,提出了一種加權貝葉斯算法,該算法實現簡單,且具有較好的測試結果。
1.1 擊鍵時延
擊鍵動力學中,大量研究關注擊鍵時間特征。大多數文獻中[3,6],主要使用兩種擊鍵時間間隔作為用戶的生物擊鍵特征:單鍵持續時間和雙鍵間隔時間。這兩種時間間隔能較好地描繪用戶的擊鍵時序特征。常見的擊鍵時序特征有以下五種(如圖1所示):
①單鍵(Sing1e Key)時延Ts:即按下某鍵到釋放該鍵的時間間隔。
②R-P(Re1ease-Press)時延TRP:即釋放第一個鍵到按下第二個鍵的時間間隔。
③P-R(Press-Re1ease)時延TPR:即按下第一個鍵到釋放第二個鍵的時間間隔。
④P-P(Press-Press)時延TPP:即按下第一個鍵到按下第二個鍵的時間間隔。
⑤R-R(Re1ease-Re1ease)時延TRR:即釋放第一個鍵到釋放第二個鍵的時間間隔。

圖1 五種擊鍵時序特征:單鍵時延、R-P時延、P-R時延、P-P時延、R-R時延
②~⑤屬于雙鍵的時序特征,且根據它們的定義易知:TPP、TPR的值始終保持正值,而TRP、TRR的值有可能是正值也有可能是負值,還有可能為零。為了方便處理,大多數文獻常選取TPP描述雙鍵時序特征。如鍵入“computer”時的P-P時延特征,如圖2所示。

圖2 示例:鍵入“computer”時P-P時延特征圖
1.2 錯誤率
擊鍵動力學中,常用兩個指標評估身份識別系統的可靠性,即錯誤接受率FAR(Fa1se Accept Rate)和錯誤拒絕率FRR(Fa1se Reject Rate)。在身份識別系統中,錯誤接受率FAR代表入侵者被錯誤地當做合法用戶的比率,錯誤拒絕率FRR代表合法用戶被錯誤地當做入侵者的比率。因為操作閾值的不同的值可能會導致不同的FAR和FRR,為了保證在不同的系統中的可比性,常用另一個標準衡量,即相等錯誤率EER(Equa1 Error Rate)。在這一點上,錯誤接受率FAR和錯誤拒絕率FRR都是相等的。此外,一些研究人員也使用準確率和錯誤率用來衡量他們的方法的性能。錯誤接受率FAR和錯誤拒絕率FRR見公式(1)、(2)[7]:


較高的錯誤接受率FAR使得身份識別系統不安全,因為系統授予入侵者訪問權。同時,較高的錯誤拒絕率FRR會導致身份識別系統頻繁地拒絕合法用戶訪問系統,這使得系統不合理且難以使用。因此,身份識別系統的設計目標為通過控制減小錯誤接受率FAR和錯誤拒絕率FRR到一個可接受的水平來提高系統的性能質量。
2.1 貝葉斯定理
貝葉斯定理是關于隨機事件A和B的條件概率的一則定理:

公式(3)中,P(A|B)是在B發生的情況下A發生的可能性,P(A)是A的先驗概率,P(B)是B的先驗概率,則P(B|A)是已知A發生后B的條件概率。
樸素貝葉斯算法是一種基于貝葉斯定理的分類算法,通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一對象的概率,選擇具有最大后驗概率的類作為該對象所屬的類。
2.2 加權貝葉斯算法描述
基于樸素貝葉斯的擊鍵特征身份識別步驟:
(1)設x={t1,t2,…,tm}為一個待分類用戶,而每個t分別為x的一個雙鍵時延(特征屬性);
(2)系統用戶集合為U={U1,U2,…,Un};
(3)分別計算x屬于每個用戶Ui的概率P(Ui│x);
(4)如果P(Uk│x)=max{P(U1│x),P(U2│x),…,P(Un│x)},當P(Uk|x)大于一個給定的閾值P,即:

則x屬于用戶Uk,反之則x不屬于系統中現有用戶。
樸素貝葉斯算法假定每個特征屬性(即擊鍵特征的雙鍵時延)是條件獨立的,則根據貝葉斯定理有如下推導:

由于P(x)和P(Ui)對于所有待分類用戶和所有類別均為相同常數,故公式(4)中P(Uk│x)=max{P(x|U1),P(x|U2),…,P(x|Un)}。假定用戶擊鍵特征每個雙鍵時延服從正態分布,則用戶每個雙鍵時延的概率密度為:

其中m為用戶樣本中每次鍵入的雙鍵個數(本文中由于密碼長度為8,故m=7),ti為待分類用戶x的一個雙鍵時延,μi為用戶Uj對應于ti相同雙鍵時延的均值,σi為用戶Uj對應于ti相同雙鍵時延的標準差。
由于樸素貝葉斯分類器基于一個簡單的假定:給定目標值時屬性之間相互條件獨立。但這條假設“樸素貝葉斯假設”與現實存在一定的差異,用戶每個擊鍵時延(雙鍵時延)對分類結果的“貢獻度”是相互不同的。因此在某些擊鍵數據上可能導致較差的分類結果。
加權貝葉斯算法恰好能解決上述問題,本文提出的加權算法直接作用在每個分解的雙鍵時延概率密度f(ti;μi,σi)上,以更加直接的方式影響分類的過程,提高了分類精確度。
事實上,大多數文章[8~9]在使用統計學相關分類算法建立用戶的擊鍵模型之前,都基于一個假設:擊鍵特征服從正態分布(高斯分布)。由于方差象征著隨機變量和均值之間的偏離程度(“離散度”),方差越大,則離散度越大。因此,我們假設方差越大,擊鍵特征越不穩定,對認證結果的“貢獻度”越小,故該雙鍵的權值應越小;反之,該雙鍵的權值應越大。因此,可以考慮使用正態分布的特征量(均值、方差等)作為權值。本文將方差倒數作為對應雙鍵時延概率密度的權重系數,得到加權貝葉斯分類模型[10]:


設P(Uk│x)=max{P(x|U1),P(x|U2),…,P(x|Un)},則當P(Uk│x)>P時,x屬于用戶Uk,反之則x不屬于系統中現有用戶。
針對樸素貝葉斯算法未正確識別的部分實驗對象,分別對其相應雙鍵時延概率密度f(ti;μi,σi)加上權值,使用上述加權貝葉斯模型中P(Uk│x)>P判定用戶的合法性,有效地提高了系統的識別率,降低了系統錯誤通過率FAR和錯誤拒絕率FRR。如下圖3,4所示為計算FAR和FRR時樸素貝葉斯算法和本文算法的條件概率項P(Uk│x)對比:

圖3 計算FAR時條件概率項P(Uk│x)對比

圖4 計算FRR時條件概率項P(Uk│x)對比
由圖3可知,使用本文加權貝葉斯算法計算錯誤通過率FAR時,原本使用樸素貝葉斯算法未識別出的11名非法用戶中,有10名被正確識別出來;由圖4可知,使用本文加權貝葉斯算法計算錯誤拒絕率FRR時,原本使用樸素貝葉斯算法錯誤拒絕的12名合法用戶中,全部識別為合法用戶,有效地提高了系統識別率。由此可見,本文提出的加權貝葉斯算法在一定的閾值范圍內有效地提高了系統識別率。
本文采用C.C.Loy,W.K.Lai等人[4~5]的數據集,該數據集包含100個用戶樣本,每個用戶須敲擊指定的密碼("try4-mbs")10次,因此,每個用戶樣本包含10組數據,每組數據包含7個雙鍵時延(密碼長度為8)。本文分別采用以下兩個步驟測試系統錯誤通過率(FAR)和錯誤拒絕率(FRR):
(1)測試FAR(Fa1se Accept Rate)
測試選取45個用戶樣本作為訓練樣本集,其他55個用戶樣本作為攻擊測試樣本集,測試系統的錯誤通過率(FAR)。設測試樣本總數為NFAR,錯誤樣本總數為EFAR,其中NFAR=55×10=550(55個測試樣本集,每個測試樣本集包含10次擊鍵數據)。實驗步驟如下:
①測試樣本i:1->55,EFAR=0;
②對每個測試樣本i中的每次擊鍵數據j:1->10,按照本文2.2節中加權貝葉斯算法計算。若j屬于訓練樣本集,則EFAR++;
③計算系統錯誤通過率(FAR)

(2)測試FRR(Fa1se Reject Rate)
每次測試選取一個用戶樣本作為測試樣本集,100個用戶樣本作為訓練樣本集,測試系統的錯誤拒絕率(FRR)。設測試樣本總數為NFRR,錯誤樣本總數為EFRR,其中NFRR=100×10=1000(100個測試樣本集,每個測試樣本集包含10次擊鍵數據)。實驗步驟如下:
①測試樣本i:1->100,EFRR=0;
②對每個測試樣本i中的每次擊鍵數據j:1->10,按照本文2.2節中加權貝葉斯算法計算。若j不屬于訓練樣本集,則EFRR++;
③計算系統錯誤拒絕率(FRR)


表1 樸素貝葉斯算法和加權貝葉斯算法性能測試結果

圖5 FAR/FRR關于閾值P的曲線圖
由表1可以看出,基于本文提出的加權貝葉斯算法,錯誤接受率(FAR)和錯誤拒絕率(FRR)分別為1.4%和2.5%,顯著優于樸素貝葉斯方法;雖然C.C. Loy等人的實驗結果顯示錯誤接受率(FAR)為0.87%,低于本文算法錯誤接受率(FAR),但C.C.Loy等人使用壓力鍵盤作為額外的實驗工具用于收集按鍵壓力數據,并作為實驗數據集的一部分,而本文未使用C.C. Loy數據集中壓力數據,只使用擊鍵時延作為本文實驗樣本數據。
由圖5可知,隨著閾值P的增大,錯誤接受率FAR不斷減小,錯誤拒絕率FRR不斷增大;當P≈0.158時,FAR=FRR≈2.1%,即相等錯誤率EER(Equa1 Error Rate)=2.1%。當P=0.16時,FAR=1.4%,FRR=2.5%。實驗結果顯示,閾值P取值為0.158±0.002時,識別效果最佳。
本文提出一種基于擊鍵特征的用戶身份認證方法,該方法在樸素貝葉斯分類理論基礎上加以改進,得出一種加權貝葉斯分類算法。該算法不僅實現簡單有效,并且有效地克服了樸素貝葉斯分類器“樸素假設”的缺陷。實驗結果表明,使用本文加權貝葉斯算法進行身份識別時,錯誤通過率(FAR)和錯誤拒絕率(FRR)都得到有效的降低。
參考文獻:
[1] D Gunetti,C Picardi.Keystroke Ana1ysis of Free Text.ACM Trans.Inf.Syst.Secur.,2005,8(3):312~347
[2] F.Bergadano,D.Gunetti,C.Pcardi,User Authentication through Keystroke Dynamics.ACM Transactions on Information and System Security,2002,5(4):367~397
[3] Shimshon T,Moskovitch R,Rokach L,et a1.Continuous Verification Using Keystroke Dynamics[C].Computationa1 Inte11igence and Security,Internationa1 Conference on.IEEE,2010:411~415
[4] C.C.Loy,W.K.Lai,and C.P.Lim,Keystroke Patterns C1assification Using the ARTMAP-FD Neura1 Network,Internationa1 Conference on Inte11igent Information Hiding and Mu1timedia Signa1 Processing,pp.61-64,Taiwan,2007(IIHMSP 2007)
[5] C.C.Loy,C.P.Lim,W.K.Lai.Pressure-based Typing Biometrics User Authentication Using The Fuzzy ARTMAP Neura1 Network,Internationa1 Conference on Neura1 Information Processing,pp.647~652,Taiwan,2005(ICONIP 2005).
[6] Shimshon T,Moskovitch R,Rokach L,et a1.Continuous Verification Using Keystroke Dynamics[C].Computationa1 Inte11igence and Security,Internationa1 Conference on.IEEE,2010:411~415
[7] Benjamin Ngugi,Bever1y K.Kahn,Mari1yn Tremaine.Typing Biometrics:Impact of Human Learning on Performance Qua1ity,Journa1 of Data and Information Qua1ity(JDIQ)JDIQ Homepage archive Vo1ume 2 Issue 2,February 2011 Artic1e No.11 ACM New York,NY,USA
[8] Hosseinzadeh D,Krishnan S.Gaussian Mixture Mode1ing of Keystroke Patterns for Biometric App1ications[J].Systems,Man,and Cybernetics,Part C:App1ications and Reviews,IEEE Transactions on,2008,38:816~826.DOI:10.1109/TSMCC.2008.2001696.
[9] 史揚,曹立明.基于擊鍵特征的用戶身份校驗[J].計算機工程,2005(6):120~122
[10] 高艷,管曉宏,孫國基等.基于實時擊鍵序列的主機入侵檢測[J].計算機學報,2004(3):396~401
Keystroke Characteristics Identity Authentication Based on Weighted Bayesian
YI Bin,HU Xiao-qin
(Co11ege of Computer Science,Sichuan University,Chengdu 610065)
Bio1ogica1 keystroke is an identity authentication techno1ogy based on peop1e's behavior characteristics.Under the background of naive Bayesian c1assification theory,proposes an improved weighted Bayesian method.Experimenta1 resu1ts show that the error rate after weighted is great1y reduced compared to naive Bayesian method,fa1se rejection rate and fa1se pass rate are 2.5%and 1.4%respective1y.
Keystroke Characteristics;Identity Authentication;Weighted Bayesian
1007-1423(2015)05-0015-05
10.3969/j.issn.1007-1423.2015.05.003
易彬(1990-),男,安徽六安人,碩士,研究方向為計算機網絡與安全
胡曉勤(1977-),男,四川內江人,博士研究生,講師,研究方向為計算機網絡與安全
2014-12-31
2015-01-20