張振紅
(云南電網(wǎng)有限責任公司信息中心,云南 昆明 650217)
當今時代網(wǎng)絡(luò)應用規(guī)模不斷拓展,網(wǎng)上用戶數(shù)量持續(xù)且快速增長,進一步加劇了網(wǎng)絡(luò)安全問題的嚴峻性。在信息安全保護的需求下,深度防御體系概念應運而生。深度防御是指在多元化安全機制建立與應用的基礎(chǔ)上,通過這些機制的優(yōu)勢互補實現(xiàn)對網(wǎng)絡(luò)安全的有效防御。在網(wǎng)絡(luò)技術(shù)逐步優(yōu)化與完善的過程中,深度防御體系模式逐步呈現(xiàn)出開放性特征,并且實現(xiàn)了分布式處理,可操作性也進一步增強。但在網(wǎng)絡(luò)攻擊種類及數(shù)量變化的同時,深度防御效率、效果仍有不足,因此,需要通過數(shù)據(jù)挖掘技術(shù)在深度防御網(wǎng)絡(luò)安全體系中的有效應用化解這一問題。
網(wǎng)絡(luò)運行過程中,計算機網(wǎng)絡(luò)病毒會通過多渠道進入計算機網(wǎng)絡(luò)實施破壞,計算機病毒可在極短的時間內(nèi)擴散至整個網(wǎng)絡(luò)系統(tǒng),既可依托于不良網(wǎng)頁實施入侵,也可依托系統(tǒng)漏洞、電子郵件實施入侵。
計算機網(wǎng)絡(luò)病毒的破壞性較強,一些網(wǎng)絡(luò)病毒需要依賴于木馬技術(shù)或黑客技術(shù)而存在,此類病毒屬于混合型病毒,普通病毒檢驗方式極難檢測出來,一旦計算機網(wǎng)絡(luò)系統(tǒng)遭到此類病毒入侵,會導致重要信息被盜取或篡改,也可能導致系統(tǒng)無法正常運行,難以維持計算機的穩(wěn)定運行。
目前發(fā)現(xiàn)的計算機網(wǎng)絡(luò)病毒有多個類別,并且這些病毒仍在不斷地變化,計算機網(wǎng)絡(luò)病毒具有生產(chǎn)制造容易的特點,并且可依托于高級程序入侵計算機系統(tǒng)。通常一種病毒通過指令改變便可轉(zhuǎn)化為新型病毒,因而網(wǎng)絡(luò)病毒類別繁雜,預防難度較高。
在計算機網(wǎng)絡(luò)日益發(fā)展的過程中,計算機病毒生產(chǎn)制造的目的也出現(xiàn)了多元變化。以往計算機網(wǎng)絡(luò)病毒制造者只是為了炫耀其技術(shù)的高超性,所產(chǎn)生的負面影響并不大。然而當今時代背景下,計算機網(wǎng)絡(luò)病毒的針對性越來越強,許多病毒帶有較強的攻擊性,并且是以獲取商業(yè)利益為目的編寫制造病毒,因而所帶來的損害也更為嚴重。
計算機網(wǎng)絡(luò)病毒通常是入侵到主機,而后再由主機向其他系統(tǒng)擴散,通過傳播逐步進入到用戶的操作系統(tǒng)之中,獲取用戶及存儲于網(wǎng)絡(luò)之中的其他用戶信息,并實施信息盜取、篡改、損壞等破壞行為。計算機病毒攻擊行為的實施,為數(shù)據(jù)挖掘技術(shù)的應用提供了機會。可通過數(shù)據(jù)挖掘技術(shù)抓取與分析相關(guān)數(shù)據(jù),并結(jié)合數(shù)據(jù)分析結(jié)果判斷網(wǎng)絡(luò)異常情況出現(xiàn)的原因,結(jié)合用戶需求實施有效地進行安全防護。計算機感染病毒后,計算機系統(tǒng)會掃描主機,于計算機防御系統(tǒng)構(gòu)建的過程中設(shè)置突破口,依托于數(shù)據(jù)挖掘技術(shù)完成新型防御系統(tǒng)的構(gòu)建,將之劃分為數(shù)據(jù)源、數(shù)據(jù)挖掘、決策、預處理、規(guī)則庫、防御等多個模塊。依托于網(wǎng)絡(luò)構(gòu)建數(shù)據(jù)源之后,經(jīng)預處理模塊完成數(shù)據(jù)處理,進而對計算機網(wǎng)絡(luò)病毒的傳播情況進行記錄,以此構(gòu)建免疫體系,系統(tǒng)檢測到有同類病毒入侵后會立即發(fā)出警報,從而在防御系統(tǒng)支持下實現(xiàn)對主機的有效保護。
網(wǎng)絡(luò)安全技術(shù)模型通常由四部分構(gòu)建而成,一是安全策略,二是防護,三是檢測,四是響應。這四個部分共同構(gòu)建了一個動態(tài)化與系統(tǒng)化的安全循環(huán),其中安全策略起到的主導作用,能夠使信息系統(tǒng)的安全性得到有效保證。現(xiàn)階段,許多網(wǎng)絡(luò)安全系統(tǒng)采用信息安全技術(shù)加固或防護自身,但在網(wǎng)絡(luò)攻擊類型不斷創(chuàng)新的情況下,信息系統(tǒng)的安全防護逐步實現(xiàn)了傳統(tǒng)靜態(tài)防護向動態(tài)防護的轉(zhuǎn)化,可在防火墻、身份認證以及加密手段應用的基礎(chǔ)上,通過漏洞評估、入侵檢測等檢測工具的應用對系統(tǒng)的安全狀態(tài)進行評估與把控,從而使系統(tǒng)始終處于安全性與低風險性的狀態(tài)之下,可依托于動態(tài)化的防護手段,提升系統(tǒng)的響應及恢復速度。網(wǎng)絡(luò)安全深度防御體系除包含基礎(chǔ)設(shè)施之外,還涵蓋日常防御及實時防御兩個重要部分,擴展性良好是此體系結(jié)構(gòu)的主要特征。
數(shù)據(jù)挖掘技術(shù)是一種可從規(guī)模數(shù)據(jù)中挖掘與學習潛在知識及有價值知識的技術(shù)方法,需要經(jīng)過數(shù)據(jù)收集、預處理、特征篩選、深度挖掘、知識表達以及知識利用6個階段。對研究對象的現(xiàn)有及歷史數(shù)據(jù)進行收集后,以對象為依據(jù)構(gòu)建模型并完成數(shù)據(jù)分類與格式規(guī)范,而后定性描述數(shù)據(jù)并實施數(shù)據(jù)去噪等預處理,再將數(shù)據(jù)中關(guān)聯(lián)性較少的特征數(shù)據(jù)剔除以降低數(shù)據(jù)維度,以增強數(shù)據(jù)挖掘效率、強化知識的可理解性,而后再利用挖掘算法深入挖掘特征數(shù)據(jù)庫中不同形式的數(shù)據(jù)知識,根據(jù)知識庫的要求形式完成知識的表達與理解,要求能夠在人機交互模式下完成知識的顯示與驗證,最后利用多種不同的知識模型完成智能信息處理。數(shù)據(jù)挖掘算法類別眾多,具備多種組合方式應用,能夠運用多種不同的知識表達形式,結(jié)合應用對象的特征及要求選用適合的方法,為多個平臺提供應用支持。在已通過驗證的數(shù)據(jù)挖掘算法支持下,實現(xiàn)訓練樣本中有價值知識內(nèi)容的篩選。
4.2.1 數(shù)據(jù)源模塊
此模塊的作用是向主機傳輸網(wǎng)絡(luò)截獲的數(shù)據(jù)包,這些數(shù)據(jù)庫中涵蓋與特定數(shù)據(jù)有所關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu),可利用抓包程序完成數(shù)據(jù)包的接收,而后將之傳送給預處理模式,并由其完成數(shù)據(jù)的預處理。
4.2.2 預處理模塊
預處理模塊接收到來自于數(shù)據(jù)源模塊提供的信息后,首先需歸類分析數(shù)據(jù)信息,將之轉(zhuǎn)化為統(tǒng)一化的可識別處理的數(shù)據(jù),可根據(jù)數(shù)據(jù)包的IP地址進行分類,或是以端口信息作為分類依據(jù),預處理之后數(shù)據(jù)分析及挖掘需耗費的時間會得到有效節(jié)約,可在挖掘效率提升的同時增強數(shù)據(jù)的辨識度。
4.2.3 數(shù)據(jù)挖掘模塊
作為數(shù)據(jù)挖掘技術(shù)的核心結(jié)構(gòu),數(shù)據(jù)挖掘模塊由事件庫、挖掘算法兩個關(guān)鍵部分組成,數(shù)據(jù)挖掘算法的作用是分析與歸納數(shù)據(jù)收集后產(chǎn)生的事件庫,進而得出具備鮮明特征的數(shù)據(jù)分析結(jié)果。
4.2.4 規(guī)則庫模塊
規(guī)則庫模塊的作用是挖掘已出現(xiàn)的網(wǎng)絡(luò)病毒,通過病毒識別與歸類建立規(guī)則集。規(guī)則集包含網(wǎng)絡(luò)病毒的各種信息,可以此信息為依據(jù)對計算機網(wǎng)絡(luò)中潛在的其他病毒展開搜尋,并歸類新識別的病毒,進而優(yōu)化與完善規(guī)則庫,為后續(xù)病毒特征分析奠定基礎(chǔ)。
4.2.5 決策模塊
決策模塊主要是用于匹配數(shù)據(jù)挖掘后構(gòu)建而成的數(shù)據(jù)庫及規(guī)則庫,對二者的數(shù)據(jù)信息相似性進行比對,若相似度較高,說明數(shù)據(jù)信息存在病毒特征,意味著網(wǎng)絡(luò)中存在以往發(fā)現(xiàn)過的潛在病毒。若二者不具備相似數(shù)據(jù)信息,說明數(shù)據(jù)包中的病毒產(chǎn)生了新的特征,屬于新型病毒,因而應將其納入到新的規(guī)則庫之中。
關(guān)聯(lián)規(guī)則是指數(shù)據(jù)中涵蓋關(guān)聯(lián)性知識,若數(shù)據(jù)庫中兩個或多個變量之間取值具備規(guī)律性,說明數(shù)據(jù)之間存在關(guān)聯(lián)。數(shù)據(jù)挖掘具有三種關(guān)聯(lián)關(guān)系,一是簡單關(guān)聯(lián),二是因果關(guān)聯(lián),三是時序關(guān)聯(lián),排查分析數(shù)據(jù)之間的關(guān)聯(lián)便是從數(shù)據(jù)庫中查出與確定關(guān)聯(lián)網(wǎng)的過程,可在數(shù)據(jù)間關(guān)系深挖與明確的基礎(chǔ)上進一步確定不同數(shù)據(jù)間的關(guān)聯(lián)規(guī)則。
聚類分析時需要先分解數(shù)據(jù)包,確保各組同時存在相似特征與不同特征,在聚類數(shù)據(jù)的基礎(chǔ)上對數(shù)據(jù)分布的稀疏性或致密性進行分析,而后整體化進行模式呈現(xiàn),如此方可進一步展示數(shù)據(jù)之間的屬性特征。
此種分析是指先預設(shè)幾種分類,而后結(jié)合類別的不同納入個體,分類分析的目的是通過統(tǒng)計方法的應用,在機器學習方法的輔助下構(gòu)建分類模型,而后在分類規(guī)則的基礎(chǔ)上完成數(shù)據(jù)的分類整理。
異類分析主要是針對數(shù)據(jù)庫中存在顯著差異而進行的分析方法,這些數(shù)據(jù)通常與常規(guī)數(shù)據(jù)存在嚴重偏離。異類分析時,需要進行孤立點的發(fā)現(xiàn)與分析,此分析過程中高價值性數(shù)據(jù)被發(fā)現(xiàn)的幾率更高。
決策樹是由多節(jié)點構(gòu)建的樹形圖,其中各個節(jié)點均屬于性質(zhì)測試之一,各個樹枝分別展示對應的檢測結(jié)果,各種形式的狀態(tài)分配則以葉節(jié)點表示。分類樹中常用ID3與C4.5運算法則,二者均為由上至下的樹形結(jié)構(gòu)。基本決策樹分類算法的病毒及非病毒分類流程圖如圖1所示。

圖1 基于決策樹的病毒與非病毒分類流程
5.5.1 分類條件
基于決策樹分類病毒與非病毒時,條件1代表具備破壞能力的惡意程序,條件2指的是具備傳染能力的惡意程序,而條件3則代表的是具備隱藏功能的惡意程序。
5.5.2 病毒程序檢測步驟
具備破壞能力的程序會到達節(jié)點1,無破壞能力的程序劃分至葉節(jié)點1,可判定此程序?qū)儆诜菒阂獬绦颉6螅?jié)點1的惡意程序若是有傳染能力,便會劃分到節(jié)點2,不具備傳染能力的程序歸類到葉節(jié)點1,可判定此程序不屬于病毒程序。到達節(jié)點2的惡意程序若存在隱藏功能,可將之判斷為病毒程序,應歸類到節(jié)點3中,其他程序為非病毒程序,歸類至葉節(jié)點3。網(wǎng)絡(luò)防御系統(tǒng)的作用是在病毒出現(xiàn)時快速捕獲樣本,從而總結(jié)出有效抵御與消除病毒的方案。決策樹模型的應用可降低手工歸類病毒的工作量,能夠基于近似病毒樣本的分析實現(xiàn)高效分析處理。
深度防御網(wǎng)絡(luò)安全體系當中,入侵檢測系統(tǒng)屬于十分關(guān)鍵的構(gòu)建技術(shù),此技術(shù)發(fā)揮著重要的作用。以下便以基于IDS(入侵檢測系統(tǒng))的典型深度防御體系結(jié)構(gòu)為例,如圖2所示,分析數(shù)據(jù)挖掘技術(shù)在此深度防御網(wǎng)絡(luò)安全體系中的具體應用。

圖2 典型深度防御體系結(jié)構(gòu)
在此典型深度防御體系結(jié)構(gòu)當中,各個局域網(wǎng)中均設(shè)置了IDS,且LPS(本地安全策略服務(wù)器)負責管理IDS中的信息。GPS(全局安全策略服務(wù)器)負責控制各個LPS信息,同時也可對各分支上的IDS行為進行監(jiān)控。為此,需要通過深度防御網(wǎng)絡(luò)安全體系的防御能力提升有效展現(xiàn)系統(tǒng)效能。
在這個深度防御網(wǎng)絡(luò)安全體系結(jié)構(gòu)中,LPS及GPS負責管理大規(guī)模的數(shù)據(jù)信息,并且將數(shù)據(jù)挖掘技術(shù)應用于GPS管理過程當中,可在數(shù)據(jù)挖掘的基礎(chǔ)上構(gòu)建一個聯(lián)合防御系統(tǒng)。其中,LPS的作用是隨時收集在線日志,同時也可向GPS安全傳送數(shù)據(jù),而GPS則負責深度挖掘日志信息中有價值的數(shù)據(jù)信息。
6.2.1 數(shù)據(jù)挖掘階段劃分
(1)離線學習
首先由LPS將所收集的日志全部傳送至GPS,而后將這些日志納入到學習樣本集之中,利用數(shù)據(jù)挖掘工具實施挖掘進而獲得規(guī)則集,而后再依托于規(guī)則集協(xié)調(diào)器推動機器學習算法的運行,而后對規(guī)則參數(shù)進行優(yōu)化調(diào)整,再以規(guī)則集為依據(jù)建立有效分類器。構(gòu)建分類器時,先要經(jīng)過數(shù)據(jù)預處理,設(shè)定好記錄格式,再將完成預定的數(shù)據(jù)填入數(shù)據(jù)挖掘格式之中。之后運行挖掘工具,在學習樣本基礎(chǔ)上產(chǎn)生規(guī)則集,最后將規(guī)則集轉(zhuǎn)為能夠執(zhí)行的形式。
(2)在線檢測
在線檢測也可劃分為3個階段,首先是通過數(shù)據(jù)在線挖掘過程實現(xiàn)數(shù)據(jù)庫中所記錄數(shù)據(jù)的分類檢測。之后需要以規(guī)則庫為依據(jù)進行規(guī)則參數(shù)的調(diào)整,并對活動日志展開在線數(shù)據(jù)挖掘。此后,安全策略分派器待命,在線數(shù)據(jù)挖掘命令下達后便可執(zhí)行。
6.2.2 數(shù)據(jù)挖掘技術(shù)的作用過程
此深度防御體系結(jié)構(gòu)當中,各個IDS在LPS管理之下,且同時被GPS管理。GPS所包含的聯(lián)合防御模塊需在數(shù)據(jù)挖掘技術(shù)支持下實現(xiàn)對LPS中所收集事件的分析。若得出攻擊檢測結(jié)果,則立即向LPS或IDS發(fā)送指令,由其通過策略調(diào)整阻止網(wǎng)絡(luò)攻擊。在這一過程中,數(shù)據(jù)挖掘可依托于自學習建模功能,以入侵監(jiān)控數(shù)據(jù)為基礎(chǔ),結(jié)合不同情況下的入侵監(jiān)控數(shù)據(jù),完成特征分析與提取過程。而后通過特征綜合而構(gòu)建特征數(shù)據(jù)庫,為挖掘建模提供支持。而后可在KNN(最鄰近結(jié)點算法)或PCA(主成分分析算法)的支持下完成數(shù)據(jù)特征的關(guān)聯(lián)分析,從而達到數(shù)據(jù)降維的目的。之后可利用決策樹方法對決策規(guī)則進行挖掘,而后利用多層感知器網(wǎng)絡(luò),結(jié)合BP學習規(guī)則,對自學習構(gòu)建決策分類器提供訓練支持。
在互聯(lián)網(wǎng)與各生產(chǎn)生活領(lǐng)域逐步融合的過程中,網(wǎng)絡(luò)安全防御當中數(shù)據(jù)挖掘技術(shù)所起到的作用越發(fā)顯著。在大數(shù)據(jù)模塊中,可用于防護計算機網(wǎng)絡(luò)詐騙、評估危機等多個層面,可有效檢測病毒入侵活動。深度防御安全體系當中數(shù)據(jù)挖掘技術(shù)的應用是當今社會病毒防御工具先進性的重要體現(xiàn),可精準預測與檢測病毒入侵形式與入侵數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)的應用,擔負著保護電腦系統(tǒng)的重要作用。在智能信息處理理論方面,數(shù)據(jù)挖掘是關(guān)鍵研究內(nèi)容,同時也是極為有效的工具,在復雜應用對象模型構(gòu)建及優(yōu)化的過程中具有重要作用,數(shù)據(jù)挖掘技術(shù)在深度防御網(wǎng)絡(luò)安全體系中應用,能夠促進系統(tǒng)效率提升,既與體系特點相契合,也可滿足體系的要求。