劉清毅
(陜西廣播電視大學,西安 710068)
計算機網路病毒屬于一種惡意攻擊的執行代碼,往往會利用計算機網絡系統中的漏洞入侵用戶終端。計算機網絡具有明顯的開放性,所以病毒可以以非常快的速度進行傳播,容易給用戶造成非常嚴重的經濟損失甚至導致整個網絡系統的癱瘓。數據挖掘技術主要是從大型的、噪雜的、擁擠的空間中提取不被人知的數據,這些數據都是有用的潛在信息。傳統的數據挖掘技術存在一定的局限性。隨著互聯網技術的快速發展,將傳統數據挖掘與互聯網相結合所產生的網絡數據挖掘技術已經普遍運用于計算機病毒防御系統中,使計算機網絡的安全性得到提高,確保計算機網絡能夠穩定運行。
1)擴散快
計算機網絡病毒與網絡之間存在密切聯系,計算機病毒可以通過多種途徑對計算機網絡進行蓄意破壞或入侵,主要方式包括不良網頁、系統漏洞、電子郵件等。
2)破壞性強
網絡病毒具有較強的破壞性,人們所接觸到的網絡病毒大多是對其他相關技術有很強的依賴性,像木馬技術和黑客技術等,這類病毒往往是混合型病毒,對病毒的檢測非常困難,很容易導致計算機內部重要信息泄露,甚至造成系統癱瘓。極大程度破壞計算機運行的穩定性。
3)種類繁多
計算機網絡病毒種類繁多,變化也比較快,大部分網絡病毒都很容易制作與生產,許多病毒都是借助高級程序而進入電腦系統中,對病毒的編寫非常容易,僅僅需要變換幾個簡單的指令就會產生不同類型的電腦病毒,所以,網絡病毒種類繁多,而且存在不確定性。
4)針對性強
隨著計算機網絡的不斷發展,計算機病毒的產生目的也在發生著變化,傳統的網絡病毒僅僅是編寫者為了體現自身的高超技術,是一種心理扭曲所造成的負面影響。而當前的計算機網絡病毒具有一定的針對性,攻擊性非常強,已經開始向商業盈利方向轉變,病毒的編寫人員也會通過制造病毒而獲取利益。
計算機網絡病毒首先感染到主機,然后再進行擴散傳播,在傳播的過程中,病毒會入侵用戶的操作系統,然后掃描用戶信息以及用戶網絡中所存在的其他用戶信息,最終進行破壞、竊取信息等操作。這些異常的行為恰好可以為數據挖掘技術提供支持,通過數據挖掘技術可以抓取并且分析網絡過程中的數據,根據數據的分析結果,對網絡中存在異常問題的銀發原因進行診斷,從而幫助用戶選擇合適的策略來進行安全防護,及時的阻止或消除防落病毒。
為了更好的實現數據挖掘技術,需要進一步分析網絡病毒的感染與傳播,把相關的依據提供給數據挖掘技術。例如,計算機受到蠕蟲病毒感染,首先要對主機進行掃描,與此同時在計算機防御系統建設方面構建一個突破口,將數據挖掘技術作為基礎,構建全新的防御系統,在通常情況下,由以下幾個部分構成:數據源模塊,數據挖掘模塊,決策模塊,預處理模塊,規則庫模塊以及防御模塊,主要的工作原理在于網絡,在數據源形成之后,由預處理模塊進行處理,記錄網絡信息傳播病毒,形成一定的免疫能力,以后一旦有類似病毒入侵,就會及時報警,通過防御系統對主機進行保護。
數據挖掘技術主要是對功能覆蓋范圍內的所有數據進行分類與分析,查找到數據中存在的潛在關系。數據挖掘技術以及應用過程如圖1所示:

圖1 數據挖掘結構圖
當數據模式確定以后,相關的挖掘引擎都會按照知識庫的相關要求對數據進行分析與歸類,然后查找規律和特點,為后期的數據分析提供支持。在網絡病毒防御系統中所構建的數據挖掘技術主要包含五個模塊:數據源模塊、數據挖掘模塊、規則庫模塊、預處理模塊、決策模塊。
3.1 工作原理
1)數據源模塊。數據源模塊的主要工作在于將網絡所截獲的數據包傳送到主機,數據源模塊中最原始的數據包存在包括與某個特定數據相關的數據結構,處于數據源模塊中的抓包程序接收數據包,然后移交給預處理模塊,從而實現數據的預處理目的。
2)預處理模塊
由數據源模塊所收集到的信息交給預處理模塊進行歸類和分析,轉化為可以被識別處理的統一數據,可以按照數據包中的IP地址、端口信息等進行歸納與總結,通過數據預處理模塊可以有效的縮短數據分析與數據挖掘所需要的時間,提高挖掘效率,增強數據的辨識度。
3)數據挖掘模塊
數據挖掘模塊屬于挖掘技術的核心模塊,主要包括數據的挖掘算法、事件庫兩個部分。利用數據挖掘算法能夠對數據收集所生成的事件庫進行分析與歸納,最終形成特征明顯的分析結果。
4)規則庫模塊
在網絡病毒出現之后,規則庫模塊主要對以往的網絡病毒進行挖掘、識別、分類后得到一類規則集。其中記錄著網絡病毒的相關信息,這些信息可以用于指導挖掘計算機網絡中尋在的其他病毒,也可以對新識別的病毒進行分類,進一步來完善數據挖掘規則庫,為以后計算機病毒的特征分析提供大力支持。
5)決策模塊
通過數據挖掘而形成的數據庫與規則庫通過決策模塊進行匹配,在結果數據庫中如果存在于規則庫中相似度高的數據信息,則證明了該數據信息具有病毒的相關特征,有可能存在病毒,如果相似度不高,則證明數據包中存在的病毒具有新的特性,是一種新類型的病毒,需要將該病毒納入一個新的規則庫。
3.2 基于數據挖掘技術的計算機網絡安全病毒防御系統構建
1)關聯規則
關聯對則是在數據庫中存在一類可以被關聯的知識,數據庫中所存在的變量之間具有一定的規律性,數據挖掘主要由因果關聯、時序關聯以及簡單關聯三種關聯組成,分析這三種關聯主要為了發現數據庫中的關聯網,挖掘數據之間存在的關系。
2)聚類分析
該分析需要把數據包分解為不同組,每個組都有相似的特征,不同組別之間又存在不同特征,通過聚類數據,可以識別數據分布中的疏密情況,使全局模式都能夠得到呈現,數據之間的屬性也會得到體現。
3)分類分析
分類分析是在預先設定的幾個分類中把個體根據類別進行納入,主要是為了利用統計方法和機器學習方法對分類模型進行構造,利用分類規則來對數據進行分類。
4)異類分析
主要分析數據庫中不同點比較明顯的數據,這些數據大多與常規數據偏離,在異類分析中主要包括發現孤立點和分析孤立點,發現與一般數據相比價值更高的數據可能性會更大。
3.3 決策樹挖掘
決策樹是一種樹形狀的圖,由多個節點構成,每個內部節點都是一個性質測試,每個樹枝代表一個檢測結果,葉子上的節點代表不同形式的狀態分配。在分類樹中最基本的運算法則是ID3和C4.5。這兩種方法都是從上到下樹的結構。以下是使用決策樹分類算法未知程序是病毒還是非病毒進行分類。其流程如圖2所示。

具體說明:惡意病毒的決策條件
條件1:惡意程序有破壞的能力。
條件2:惡意程序有傳染的能力。
條件3:惡意程序有隱藏的能力。
檢測病毒程序的步驟
第一步:如果某個程序有破壞能力,就會到達節點1.否則到達葉節點1,并且判斷出該程序為非惡意程序。
第二部:到達節點1的惡意程序具有傳染能力,就會到達節點2,不就有傳染能力的情況下到達葉節點1,并且能夠判斷該惡意程序為非病毒程序。
第三步:惡意程序到達節點2,如果該程序具有隱藏能力,則可以判定該程序為病毒,否則該程序為非病毒程序。
防御計算機病毒系統的重要作用在于第一時間捕捉到樣本,為用戶提供正確的解決方案。決策樹模型可以減輕傳統防病毒工程中手工分揀的負擔,讓分析員優先分析更近似于病毒的樣本,提高分析處理的效率。
互聯網在人們生產生活中所應用的領域越來越廣,涉及到金融、財產以及人際關系的內容越來越多,數據挖掘技術在計算機網絡安全防御系統中的地位越來越重要。數據挖掘技術基于大數據模塊更多的運用在計算機網絡詐騙防護、危機評估等。有效的檢測病毒的各種入侵活動。數據挖掘技術充分反應了當前防病毒工具的現進性,能夠準確的預測、檢測病毒的入侵形式和數量。在對電腦系統的防御中,數據挖掘技術扮演著“守護者”的重要角色。所以病毒防范系統的分析與應用具有遠大的戰略性意義。
[1] 高輝.數據挖掘在計算機網絡病毒防御中的應用[J].電子技術與軟件工程,2017,7(4):218.
[2] 欒志福.數據挖掘技術在計算機網絡病毒防御中的應用分析[J].赤峰學院學報(自然科學版),2015,10(8):24-25.
[3] 張玉英.基于數據挖掘技術的計算機網絡病毒防御技術[J]電子技術與軟件工程,2017,8(3):222-223.
[4] 鄭剛.數據挖掘技術在計算機網絡病毒防御中的應用探討[J].信息與電腦(理論版),2016,8(2):25-27.
[5] 李嘉嘉.淺談數據挖掘在計算機網絡病毒防御中的應用[J].網絡安全技術與應用,2017,15(8):84-89.