本文提出了一種針對安卓設備的入侵檢測算法,首先通過手機系統的CPU信息建立特征數據集,并在此基礎上通過分析選擇了隨機森林為作異常檢測時使用的算法。通過對常用入侵檢測方法的分析,能夠對現有的狀況起到改善的作用,更好的促進手機系統穩定性。在檢測的過程中采用了定量指標的檢測方法,并通過實驗證明了評估的客觀性、準確性和有效性。
【關鍵詞】入侵檢測 隨機森林
1 引言
隨著Android平臺越來越流行,針對Android平臺的攻擊性程度不斷加深。根據檢測方式的不同能夠將針對攻擊的檢測系統主要分為分為以下兩個方面:誤用檢測和異常檢測,誤用檢測在使用當中準確度很高,誤報率低,但不能檢測未知入侵行為,異常檢測通過建立正常的用戶和系統行為輪廓,能夠檢測未知入侵行為,但誤報率也會相比較而言較高。而根據訓練數據源去劃分的話能夠將針對攻擊的檢測系統劃分為以下兩個方面:有監督和無監督,有監督方法能夠從標記數據集中發現與標記示例近似的入侵或正常行為,如決策樹、神經網絡、SVM等,無監督方法能夠從無標記數據集中發現隱藏的結構性知識,即不同于正常行為的異常行為,如聚類方法。
目前的Android平臺安全軟件,大多與傳統殺毒軟件類似,都是基于規則匹配的。這種方法的優勢在于:檢測率高、誤報率低,檢測實時性好。但是隨著病毒包總數的不斷增加以及攻擊手段的層出不窮,規則庫的規模和監控的范圍將會越來越大,隨之而來就是檢測性能的下降,而且還將嚴重占用Android平臺有限的硬件資源。為此,基于規模可控的主機用戶的行為特征,設計一種輕量級Android平臺主機入侵檢測系統是勢在必行的。
2 特征數據提取
實驗通過采集安卓設備中的CPU信息,并對信息進行標記,將收集到的數據作為數據集。獲得CPU信息的方法是通過讀取系統文件/proc/stat獲得的,每條記錄包含37個信息。
實驗選用數據提取模塊收集到的數據作為此次研究的對象,其重點劃分為了“Normal”類正常行為記錄和“abnormal”類異常行為記錄,總體的數據共計65021條。在保持原始數據類別比例結構不變的情況下,我們將會任意的從中抽取出來百分之六十的數據作為重點分析對象。共計有39012條做訓練樣本集,然后使用剩余的數據去制作修正的樣本集。
3 基于隨機森林的異常檢測方法
實驗使用Waikato大學開發的數據挖掘方式去進行數據的收集。為了更好的去進行分析和探討,還選取了其他幾種在網絡流量異常檢測當中經常使用的方式;樸素貝葉斯(Naive Bayes)、貝葉斯網絡(Bayes Network)、C4.5和AdaBoost共同進行實驗。
實驗的結果主要通過以下兩個指標表示出來:精確率(記作Pre.,也稱為查準率)和召回率(記作Rec.,也稱為查全率)來反映。定義如下:
Pre=TP/(TP+FP) (4)
Rec=TP/(TP+FN) (5)
其中TP(true positive)所展示的是正面的反映,其表示的結果也是正值。FP(false positive)所展示的是負面的反映,其表示的結果也是負值;FN(false negative)表示實際類別為正,預測結果為負。精確率所指的是預測的結果和實際結果之間的差值,在這個實驗當中,正值越高其代表著實驗的準確率越高。召回率則指的是在實驗當中,正的記錄值所占據的比例。召回率和誤分率之間形成的是反比關系。但是假使在模型當中存在著所有的被測實例都斷言為正,那么召回率就能夠表示為百分之百,但是召回率 的確定也會和實驗的精準度之間有關聯。因此只有這個兩個指標綜合起來才能夠更好的反饋實驗結果,從而說明該模型的水平高低。
在香農熵特征集上的檢測因此其特性要求只能夠使用一維的熵值來反映,這樣的話就會對實驗的結果產生不利影響,使得檢測的效果往往不盡人意。
在非廣延熵特征集上的檢測結果能夠進行更加全面的檢測,使得檢測的結果更具有代表性。基于貝葉斯技術的算法,對異常的召回率會不斷增加,這就從側面反映出了非廣延熵的提取帶有著少量異常的特征;較低的精準率也會對召回率產生影響,使得召回率不斷的下降,同時也說明了他們之間的具有著很強烈的關聯。
通過在特征數據集分別使用香農熵和非廣延熵,并綜合二者的結果作為最終檢測結果,在組合熵特征集上的結果,所有算法都會對攻擊檢測的精確率和召回率產生影響,特別是本文使用的隨機森林檢測算法。但是如果站在了貝葉斯技術的算法角度去看的話,由此看來,算法的不同將會影響到檢測結果。
4 結語
面向安卓設備的實時異常檢測會面對數據信息復雜、異常數據相對較少等問題,本文針對這些問題提出了解決方案,能夠通過對網絡數據流特征的建立更好的了解到這種變化。在這個建立的過程中能夠采用非廣延熵的方式。同時通過對隨林森林檢測算法的使用,對網絡數據流中的異常進行定期檢測。最后運用實驗的方式檢測這些設置的合理性和有效性。
雖然隨機森林檢測法的適應需要的更高的維數與之匹配,但是為了提升檢測結果的準確性和檢測方式的效率,能夠對非廣延熵建立起來的特征集進行特征選擇的研究。對于該方面的相關內容,還有待于進一步探討和研究。
參考文獻
[1]楊宏宇,朱丹,謝豐等.入侵異常檢測研究綜述[J].電子科技大學學報,2009,38(05):587-592.
[2]Quinlan J R.Bagging, boosting, and C4.5[C].Proceedings of the National Conference on Artificial Intelligence.1996:725-730.
作者簡介
曲峰(1991-),男,山東省青島市人。大學本科學歷。現中車青島四方機車車輛股份有限公司信息技術部基礎架構組組長、工程師。研究方向為計算機網絡及信息安全。
作者單位
中車青島四方機車車輛股份有限公司 山東省青島市 266000endprint