文/曾芳香
計算機網絡病毒防御中數據挖掘技術的應用
文/曾芳香
現代計算機網絡的迅速發展人們的生活發生了翻天覆地的變化,它在給人們帶來便利的同時,網絡安全問題也給人們帶來了一定的困擾。計算機網絡使用過程中常常會有一些網絡病毒侵入,這些網絡病毒的入侵對人們正常使用網絡造成了嚴重的影響,會造成用戶的一些重要文件丟失或者用戶的一些重要信息將被竊取。
計算機 網絡病毒 防御 數據挖掘技術
在目前計算機網絡使用過程中,網絡病毒對人們正常的使用計算機網絡造成了嚴重的影響。因此,在計算機網絡中務必要選擇科學先進的技術防御計算機網絡中的病毒,最大程度的阻止網絡病毒帶來的不利影響。
網絡和網絡病毒之間聯系是非常密切的,計算機網絡病毒的傳播范圍非常廣泛,通過多種途徑入侵到計算機網絡并對其造成破壞,計算機網絡病毒主要通過電子郵件、不良網頁和系統漏洞就行傳播,并且網絡病毒擴散的速度非常快。
通常情況下,計算機網絡病毒都是依賴黑客技術、木馬技術等相關技術才存在的,這種類型的病毒通常表現出混合型的特點,在網絡運行環境下很難發現這種病毒的存在。這種類型的病毒具有很強的破壞性,這種病毒很可能會使用戶的一些重要數據或文件丟失,還有可能使用戶的重要信息泄露,嚴重的還會使整個計算機系統癱瘓,對計算機網絡的安全和穩定的破壞程度極大。
目前計算機網絡病毒的種類比較多,因為許多的計算機網絡病毒都是通過計算機高級程序編寫制造的,這就使得網絡病毒很容易進行生產。如果有人改變編程中的一些簡單的指令對病毒進行修改或者是重新編寫病毒的程序,就會產生出許多的新病毒,這些計算機病毒是不確定的且變化性很大。
數據挖掘技術是一種計算機網絡病毒的防御技術,該技術是通過對數據進行分類、聚類和分析尋找計算機網絡病毒數據間存在的具體規律,然后對計算機網絡病毒進行防御。因此,數據挖掘技術主要包括數據的準備、尋找規律和表示規律三個步驟。
3.1.1 數據源模塊
數據源模塊主要的程序來源是抓包程序,它是在網絡向主機系統發送數據過程中截獲的數據包。最原始的網絡數據包就存在于數據源模塊中,也就是說關于某個數據庫信息的數據結構姐存在于數據源模塊中。抓包程序接到數據包后,數據就會進入到下一個程序即預處理模塊。
3.1.2 預處理模塊
數據從數據源模塊到預處理模塊后進行數據的預處理階段,該階段是整個數據挖掘過程的基礎階段。預處理模塊是將之前的數據變換、分析轉換成能夠進行識別和處理的數據,方便后面數據的處理。數據的預處理能夠有效的縮短數據分析和數據處理的時間。
3.1.3 規則庫模塊
規則庫模塊主要用于存儲規則集,這些規則集是計算機出現網絡病毒后通過一些特征識別,聚類分析或數據挖掘獲得的。將規則集對計算機網絡病毒信息的記錄應用到數據挖掘工作中,就能可以分析網絡中潛在的病毒,從而起到病毒防御的作用。此外,規則庫模塊還可以鑒別計算機網絡病毒。將聚類分析應用在未作標記的數據集中,不數據集分成多組數據,通過各數據之間的差異度對計算機網絡病毒進行鑒定。
3.1.4 數據挖掘模塊
數據挖掘模塊主要是使用數據挖掘的算法收集數據從而形成事件庫,然后分析事件庫的數據,將分析后的數據交給決策模塊進行處理。數據挖掘模塊是數據挖掘技術的核心部分。
3.1.5 決策模塊
決策模塊主要負責匹配數據挖掘的結果和規則庫中的規則,規則庫中的規則是計算機蠕蟲病毒基本特征的表現。如果挖掘數據的結果和規則模塊匹配,就證明數據包中存在計算機蠕蟲病毒,已知的計算機蠕蟲病毒就會被發現;如果挖掘數據的結果和規則模塊不匹配,發現計算機未知蠕蟲病毒的警報由預防模塊發出,這種未知的計算機蠕蟲病毒就會形成一種新的計算機網絡病毒規則并納入規則庫。
3.2.1 關聯規則
關聯規則即某一種類數據中一定存在能被發現的知識,一般在多個變量中取值時存在某些規律,那么能證明這些數據存在一定聯系。數據挖掘技術亦存在關聯規則,可以簡單分成簡單關聯、因果關聯和時序關聯等。可以通過研究分析數據庫中存在的關聯,找出各個關聯之間形成的關聯網,然后挖掘各個數據間關聯性,從而確定數據庫中關聯規則。
3.2.2 聚類分析
聚類分析即將得到的數據包進行分解,且把它分成不同組別,那么每組間分類都會存在一種或多種相似特點,同時每組會有明顯的不同特征。通過將數據聚類分析,能夠快速搜尋識別出全部數據分布疏密度,還可以很好看出整體分布模式,也可以表明各組數據特征相互存在的關聯。
3.2.3 異類分析
異類分析的另一名稱是孤立點分析。它的含義是將數據庫中相對突出的不同點和較其它數據偏離比較明顯的數據進行分析。這些異類分析的數據就是較常規模式發生偏查的數據。異類分析內容大概有尋找孤立點和通過研究分析孤立點,找到孤立點往往存在不符合常規的結果,將孤立點進行分析時,會有較高的可能找到和常規數據相比較具有利用價值的數據。
3.2.4 序列分析
序列分析即統計動態數據處理結果的一種分析方法,將隨機數據序列規律進行研究分析,搜索事件庫中存在的病毒數據序列。進行數據挖掘時,序列分析進行時最重要的即構建序列模式模型,運行數據挖掘算法搜索事件經常發生的時間序列。數據挖掘序列分析算法實際能如下進行:如果事件庫D,交易T和時間戳之間相互關聯,交易位于(t1 , t2)區間,X,Y,Z為D中的項目集,序列規則可以表示為X, Y-} Z(Con-fidence,Support, Window),規則支持度為Suppor(X}J Y }J Z),置信度為Support(X U Y U Z)/Sup-port(X}J Y)。
縱觀全文可知,計算機網絡技術日新月異快速發展,它與人們生活工作的聯系日益緊密。計算機網絡技術在給人們帶來了便利的同時,它應用時產生的計算機病毒很容易使計算機系統受到嚴重損害。那么在計算機病毒防御時應用數據挖掘技術時很有必要的,可以有效防御抑制計算機網絡病毒,達到提高計算機網絡系統的安全性和確保計算機用戶財產安全的目的。
作者單位湖南藥品食品職業技術學院 湖南省長沙市410208