周佩1 朱嫻睿1 何漢1 張毅2
1黑龍江省財政信息中心 2哈爾濱市信息化建設項目管理中心
基于數據挖掘的移動互聯網數據包安全檢測
周佩1 朱嫻睿1 何漢1 張毅2
1黑龍江省財政信息中心 2哈爾濱市信息化建設項目管理中心
本文主要對移動互聯網數據包安全檢測的主要方法進行研究,與傳統檢測方法相比,其靈活性較好。其首先是將移動數據包中所包含內容的主要特征進行提取,之后通過數據挖掘算法對安全和惡意移動的數據包存在的特征進行學習,并對分類模型進行建立。通過實驗可知,基于數據挖掘進行構建的分類模型可以對移動互聯網數據包進行有效的分類。
數據挖掘 移動互聯網 數據包 安全檢測
此系統主要應用于互聯網的安全防護,入侵檢測是指在進行收集信息的過程中,發現在系統中存在危害或是違背安全方面的行為進行檢測的方法。其主要分為誤用入侵檢測和異常入侵檢測兩類,此項技術已在移動互聯網的安全防護中得到廣泛應用,其能夠檢測出惡意數據是否在移動終端中出現。
數據挖掘主要是指利用科學的方法對大量的數據以及潛在的數據進行開發的全過程。其主要包含提取特征、對數據的預處理、模型的訓練以及發現知識四個過程。為了使檢測的準確性得以增加,可通過對惡意數據進行建立來檢測其準確性。本文主要對部分安全以及惡意移動數據包進行搜集,然后對缺失值、去重以及歸一化等相關數據進行處理,已達到挖掘建模的目的。
基于數據挖掘所進行建立的安全檢測主要包含數據檢測和模型訓練,數據檢測主要包括數據預處理、特征移動互聯網數據包以及構建完畢的模型,這些形成了新數據包,并對這些數據包進行安全檢測;模型訓練主要包含預處理文件、移動互聯網數據包以及數據挖掘算法。
針對移動互聯網中的入侵檢測系統主要分為兩種,其一是移動終端中的內部數據,主要包括軟件狀態數據以及系統狀態數據;其二是非移動終端的數據,主要包括藍牙數據、聯網數據等。本次研究主要是根據移動數據包中所包含的內容來進行分析的,對各類移動終端所包含的一些數據沒有必要進行搜集,所以,其屬于非移動終端的入侵檢測數據。
為了將特征提取對安全及惡意數據的區分性是否較好進行確認,本次研究對數據分類所采取的主要方法為分類算法。首先需要將數據包進行劃分,主要劃分為安全數據包和惡意數據包兩類,之后通過其已設定的內在特征,將這些數據特征向量化,在所有分類算法中,最為常用的算法是決策樹算法以及樸素貝葉斯算法。
2.3.1 決策樹算法
決策樹算法是以信息熵為基礎的一種分類模型,樹可以對分類規則進行表示,其具有直觀的特點,因此,其可讀性良好。決策樹算法對樹進行構造是以遞歸的方法來完成的,從而利用這種算法來解決一些分類問題,同時,這種算法還是一種貪婪的算法,其是通過向下增長的指定方式進行的,針對于樹的節點選擇,應選擇沒有重復的屬性分類的節點,直至此決策樹可以針對訓練樣本做好相應的分類為止,又或是將所有的屬性已經使用完畢為止。
2.3.2 樸素貝葉斯算法
樸素貝葉斯是這樣一種分類模型,其是以統計和概率為基礎進行的,這種算法的主要的意旨在于對尚待分類的所有樣本分屬各種類別時所形成的概率進行計算,計算結果出現后,將此模型分配至較大概率的類別之中來達到分類的完成。
本次實驗研究從數據信息庫中選取安全數據20000條,惡意數據,4700條,其分組及組間數據如表一所示。并采取召回率、精度、錯誤率以及正確率對分類的結果進行分析和評價,并通過五折交叉法分別對決策樹模型以及樸素貝葉斯模型進行測試,測試結果顯示如表

?

?
從以上數據可以看出,兩種模型的性能在總體上都較好,并且兩種模型的精度以及準確率都能夠高于94%,但是在移動互聯網數據包的召回率方面來看,決策樹的召回率偏高,因此,樸素貝葉斯模型的性能在檢測的過程中發揮的較為穩定。
本次研究主要以數據挖掘為基礎。采用決策樹算法以及樸素貝葉斯算法來對安全及惡意移動互聯網數據包的行為模式進行學習,并通過入侵檢測的方法對兩種算法的召回率、精度、錯誤率以及正確率進行分析,結果表明樸素貝葉斯算法的穩定性能更加明顯,因此對移動互聯網數據包的安全檢測應以此計算方法為主。
[1]袁騰飛.基于數據挖掘的入侵檢測系統研究[J].電子科技大學,2014,11(2):221-221.
[2]陳茹茹.基于數據挖掘的移動互聯網業務推薦模型研究[J].北京郵電大學,2014,17(2):45-49.
周佩(1982.11—),男,漢族,山東省福山縣人,碩士研究生學歷,高級工程師,研究方向:計算機信息系統分析與應用。朱嫻睿(1978.04—),女,漢族,黑龍江省綏化市人,碩士研究生學歷,高級工程師,研究方向:電子工程。何漢(1979.10—)男,漢族,黑龍江省哈爾濱市人,碩士研究生學歷,高級工程師,研究方向:計算機應用。張毅(1982.12—)男,漢族,河北省高陽縣人,大學本科學歷,工程師,研究方向:計算機軟硬件、網絡工程。