摘 要: 利用PE文件剖析器、00A規則生成器、可疑文件掃描器按照主動防御系統原理,生成了基于數據挖掘技術的DMAV病毒主動防御系統。通過對比不同殺毒軟件的變形病毒、未知病毒檢測效果,發現新設計的DMAV病毒主動防御系統較其他殺毒軟件殺毒范圍更廣、效率更高。
關鍵詞: 數據挖掘; 網絡病毒; 變形病毒; 防御系統
中圖分類號: TN915.08?34 文獻標識碼: A 文章編號: 1004?373X(2016)21?0120?03
Exploration of data mining technology based virus defense technology
for computer network
YU Li
(Department of Information Security Engineering, Xinjiang Police College, Urumchi 830011, China)
Abstract: According to the principle of active defense system, the PE file parser, 00A rule generator and suspicious file scanner are used to generate the DMAV virus active defense system based on data mining technology. By comparing the detection effects of different antivirus softwares dealing with deformation virus and unknown virus, it is found the new designed DMAV active virus defense system has wider antivirus scope and higher efficiency than those of other antivirus softwares.
Keywords: data mining; network virus; deformation virus; defense system
1 數據挖掘技術
1.1 數據挖掘概述
描述和預測是數據挖掘的兩大主要任務。基于對這兩大任務的不同角度理解,可以演變出不同的含義。其中,相關定義、分類和功能如表1所示。
1.2 數據挖掘過程及方法
數據挖掘主要經過以下幾個環節進行操作:數據收集→數據預處理和數據清洗→數據挖掘→模型建立→模型評價。
其中,數據收集和數據預處理、數據清洗被劃分為數據準備階段,這一階段的主要目的是收集相關價值信息并進行數據編碼。數據挖掘階段主要利用機器學習法、數據庫法、統計學法、神經網絡法等相關挖掘方法,通過不同的算法獲得準確度較高的預測模型。模型建立和模型評價被劃分為分析結果顯示階段,這一階段主要是根據不同用戶的需求剔除冗余信息,并反復采用新的挖掘算法進行數據優化和信息反饋。
1.3 數據挖掘應用及發展趨勢
數據挖掘技術在不同的行業領域均有較大發展。當前應用較為廣泛的主要是制造業、通信業、財務金融保險業、銷售業等領域。此外在網絡安全領域,數據挖掘技術由于其具備的高效性、準確性、可預見性等眾多優點,在海量數據分析、病毒檢測、信息提取及預測等方面也有廣泛應用。
雖然數據挖掘在不同領域均有廣泛應用,但在應用過程中也存在以下幾方面的問題:數據源形式多樣和數據缺失問題;網絡和分布式環境數據挖掘問題;海量數據挖掘問題;數據挖掘系統交互性問題;數據挖掘算法可伸縮性和效率問題;數據表示和知識積累問題。這些問題都迫使數據挖掘技術需要進行更高層次的改進和發展。
2 病毒防御技術
2.1 病毒分類及特點
計算機病毒是指可以毀壞計算機相關程序、功能、數據文件,并影響計算機正常使用的一組程序代碼或數據指令。根據相關病毒的傳播繁衍方式的不同,當前的計算機病毒主要可分為惡意軟件病毒、蠕蟲、后門、間諜軟件、特洛伊木馬等病毒,其中后門是計算機安全領域最常見的病毒形式。
這些病毒常見的攻擊方式有:復雜海量數據、進行進程枚舉、盜取機密信息并獲取相關權限、清除數據文件并下載垃圾文件、感染其他關聯系統及計算機。不論何種病毒、何種攻擊,都具有隱蔽性、潛伏性、不可預見性、感染性、破壞性、非授權性等特點。
2.2 病毒的發展歷程
病毒從產生到現在,主要經歷了加密病毒、單變形病毒、準變形病毒、全變形病毒四個階段。其中,不同階段病毒的特點如表2所示。
2.3 現階段病毒常用的變形技術及防治
加密、程序演化、重定位是現階段病毒常用的三種變形技術。加密技術主要是可以為病毒隱藏和抗分析提供相對安全的區域,以防止病毒分析軟件檢測分析。程序演化技術主要是通過等價指令交換、等價指令序列替換、指令重排序、增加和刪除指令、插入垃圾指令等方法演化出各種各樣的變異程序。
與病毒變形技術相對應的就是病毒檢測防治技術。當前反毒軟件主要采用的技術有特征碼檢測技術、虛擬機技術、主動內核技術、啟發式查毒技術、行為查殺病毒技術。其中,特征碼檢測技術是通過提取病毒特征碼進行檢測;虛擬機技術是采用虛擬環境執行程序命令進行檢測;主動內核技術是主動將防毒系統嵌入到操作系統內核進行主動防御;啟發式查毒技術是通過查找病毒指令集數據庫進行檢測;行為查殺病毒技術利用一定的行為規則進行病毒判斷。
3 基于數據挖掘技術的病毒主動防御系統DMAV
的設計和實現
3.1 DMAV系統的體系結構
本文開發的DMAV病毒主動防御系統原理為: 將可疑的PE文件壓縮或加殼,之后將剖析后的數據文件導入到Win API函數中;API查詢數據庫對收集到的特征數據進行優化,同時結合00A數據挖掘算法形成關聯規則;可疑文件掃描器利用規則庫對Win API函數進行對比分析;滿足任意規范就是病毒,否則是安全文件。DMAV系統體系結構圖如圖1所示。
從圖1中可以看出,PE文件剖析器、00A規則生成器、可疑文件掃描器是構成該結構的三大主要模塊。其中,PE文件剖析器的功能是提取、導出、匯編Win API函數序列;00A規則生成器利用不同數據挖掘算法進行關聯規則挖掘;可疑文件掃描器的功能是進行可疑文件掃描。
3.2 PE文件剖析器
PE病毒是當前計算機安全領域中最為常見,也是數量最多、影響最大的病毒類型,因此本文主要對PE病毒進行分析。PE是Win32環境中自帶的可執行文件格式,它可以在任何Win32平臺中運行和識別。PE文件是通過檢查并運行DOS MZ header的偏移量、PE header的有效性、節表、Import Table邏輯部分進行計算機裝載的。
為了實現PE文件解剖器的相關功能,需采取如下步驟進行操作:檢驗PE文件的有效性;定位PE header;獲取數據文件目錄地址,并提取當中的VirtualAddress值;定位IMAGE結構,檢查Original First Thunk值;判斷是否為0,判斷每個數組元素的元素值;遍歷DLL引入函數,反復循環計算直到數組底部。相關調閱命令如圖2所示。
3.3 00A規則生成器
00A規則生成器需要通過Apriori算法才能實現相關功能,具體步驟為:通過Apriori算法計算出00A頻繁集;判斷00A頻繁集,如果oc% 本文采用00A?FP?growh算法代替00A?Apriori算法進行數據庫掃描,提高了規則生成器的運行效率,降低了運行空間。其中對00A?FP?growh算法的描述如下:使用FP樹挖掘頻繁模式;將數據表SignatureDT輸入到特征數據庫DMAV?DB中;輸出頻繁模式完全集;構造FP?數,并進行數據挖掘。其中,00A?FP?growh算法、00A?Apriori算法、00A?DMAV?FPgrowh算法的規則生成器效率對比如表3所示。 4 實驗結果及分析 本文對5 611個樣本訓練集和1 500個樣本測試集進行實驗分析。其中,訓練集中的病毒主要有木馬病毒、后門病毒、蠕蟲病毒等互聯網常見病毒。 4.1 變形病毒的檢測及結果分析 通過DMAV病毒檢測系統對病毒樣本進行了掃描檢測,得到了變形病毒的檢測結果,如表4所示。通過表中的檢測結果可以看出,DMAV病毒檢測系統對變形病毒具有較高精度的檢測效果。 4.2 未知病毒的檢測及結果分析 對未知病毒的檢測分析,本文采用DMAV系統和其他病毒掃描軟件進行對比分析,病毒樣本加入了全新的1 000個特征病毒,檢測結果如表5所示。通過對比分析可以發現,利用00A挖掘算法開發的DMAV病毒檢測系統對未知病毒的防御能力較其他殺毒軟件有明顯的優勢,病毒檢測的準確度和檢測效率都有明顯提高。其中,DMAV病毒檢測系統的殺毒范圍達到了92%,較其他殺毒軟件提高20%左右。 5 結 論 本文首先簡要介紹了數據挖掘的定義、分類、功能及發展應用趨勢,其中數據挖掘的操作過程為:數據收集→數據預處理和數據清洗→數據挖掘→模型建立→模型評價。其次簡要介紹了病毒的種類、特點和常見攻擊方式,并對病毒產生的四個階段的攻擊方法和特點進行了分析,同時介紹了加密、程序演化、重定位三種常見的病毒變形技術。在此基礎上,本文利用PE文件剖析器、00A規則生成器、可疑文件掃描器按照主動防御系統原理,生成了基于數據挖掘技術的DMAV病毒主動防御系統。通過對比不同殺毒軟件的變形病毒、未知病毒檢測效果,發現新設計的DMAV病毒主動防御系統較其他殺毒軟件殺毒范圍更廣、效率更高。 參考文獻 [1] 梁雪霆.數據挖掘技術的計算機網絡病毒防御技術研究[J].科技經濟市場,2016(1):25. [2] 陳春.基于數據挖掘技術的計算機網絡病毒防御分析[J].信息通信,2015(5):121?122. [3] 黃偉杰.基于主動貝葉斯分類器檢測未知惡意可執行代碼的研究與實現[D].桂林:廣西師范大學,2002. [4] 黃小霞.電廠信息網絡安全分析[D].西安:西安理工大學,2003. [5] 王麗蘋.自適應的分布式網絡入侵檢測及防御系統的研究與實現[D].西安:西北大學,2004. [6] 王莉娜.分布式蠕蟲檢測與主動防御系統的研究與實現[D].西安:西北大學,2005. [7] 潘鳳.基于數據挖掘技術的安全事件分析平臺的研究與設計[D].成都:成都理工大學,2009. [8] 李智勇.數據挖掘在計算機網絡病毒防御中的應用探究[J].電子測試,2014(12):46?48. [9] 張錚.基于貝葉斯分類的入侵檢測規則學習模型的研究與實現[D].南京:南京航空航天大學,2007. [10] 符廣全.基于Honeyfarm的蠕蟲主動防御系統的研究與實現[D].蘇州:蘇州大學,2006. [11] 王旭.基于增量式關聯規則挖掘算法的研究及其在手機病毒檢測中的應用[D].北京:北京郵電大學,2013. [12] 謝方方.基于距離的孤立點挖掘在計算機取證中的應用研究[D].濟南:山東師范大學,2014. [13] 劉志祥.網絡環境下計算機病毒的檢測與防御技術研究[D].武漢:華中科技大學,2009.