摘 要:研究宏觀網(wǎng)絡(luò)安全數(shù)據(jù)挖掘系統(tǒng)的目的是保護(hù)大型網(wǎng)絡(luò)中關(guān)鍵網(wǎng)絡(luò)基礎(chǔ)設(shè)施的可用性、機(jī)密性和完整性。為此,首先提出了一種宏觀網(wǎng)絡(luò)數(shù)據(jù)挖掘的系統(tǒng)框架;然后分析了宏觀網(wǎng)絡(luò)挖掘子系統(tǒng)和態(tài)勢分析子系統(tǒng); 最后利用網(wǎng)格計算技術(shù)實(shí)現(xiàn)了該平臺, 并給出了其運(yùn)行環(huán)境。該系統(tǒng)具有可擴(kuò)展性, 能有效進(jìn)行宏觀網(wǎng)絡(luò)的數(shù)據(jù)挖掘和實(shí)時勢態(tài)感知。
關(guān)鍵詞:數(shù)據(jù)挖掘;網(wǎng)格計算;網(wǎng)格服務(wù)
中圖分類號:TP309 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2008)08-2480-04
Cyberspace network data mining grid system
LIN Dong-dai1, SHI Ming-ruo2, SHEN Gui-cheng2
(1.State Key Laboratory of Information Security, Institute of Software, Chinese Academy of Sciences, Beijing 100080, China;2.Beijing Wuzi University, Beijing 101149, China)
Abstract:Research on cyberspace network security data mining system is to protect the usability, secret and integrity of key network infrastructure. This paper firstly put forward a framework for cyberspace network data mining system. Then described network mining subsystem and situational apperception subsystem.Finally discussed the corresponding system implementation and its runtime environment. The framework was scalable to conduct cyberspace data mining and situational apperception effectively.
Key words:data mining; grid computing; grid service
0 引言
宏觀網(wǎng)絡(luò)安全的規(guī)律性知識(正常和異常模式)難以被及時和有效發(fā)現(xiàn), 迫切需要借助數(shù)據(jù)挖掘工具。隨著計算機(jī)及網(wǎng)絡(luò)技術(shù)的發(fā)展, 計算機(jī)網(wǎng)絡(luò)的應(yīng)用已深入到社會生活的各個領(lǐng)域, 網(wǎng)絡(luò)黑客入侵和攻擊手段也日顯復(fù)雜性和隱蔽性, 集中表現(xiàn)在攻擊的分布化、攻擊對象擴(kuò)大到網(wǎng)絡(luò)中的所有組件。網(wǎng)絡(luò)安全問題在宏觀上已威脅到國家的政治、經(jīng)濟(jì)和軍事安全, 在微觀上也已影響到部門正常工作。為此,迫切需要一個科學(xué)的方法來研究宏觀網(wǎng)絡(luò)空間(cyberspace)的可靠性, 辨識、跟蹤、評估帶有多重復(fù)雜威脅的計算機(jī)空間的整體狀態(tài)。對互聯(lián)網(wǎng)的關(guān)鍵基礎(chǔ)設(shè)施從宏觀上進(jìn)行安全態(tài)勢分析、網(wǎng)絡(luò)大規(guī)模異常發(fā)現(xiàn)和感知, 必要時進(jìn)行應(yīng)急響應(yīng), 以保障網(wǎng)絡(luò)基礎(chǔ)設(shè)施(如骨干網(wǎng))的正常運(yùn)行和安全, 有效預(yù)防和遏制以網(wǎng)絡(luò)為中心的威脅。然而由于大型網(wǎng)絡(luò)日趨復(fù)雜, 以及攻擊網(wǎng)絡(luò)能力不斷提高且形式多樣化, 造成難以有效地從時間和空間兩個維度發(fā)現(xiàn)宏觀網(wǎng)絡(luò)的正常和異常運(yùn)行模式, 以及模式之間的變化規(guī)律, 它已成為網(wǎng)絡(luò)安全的研究熱點(diǎn), 同時也是制約宏觀網(wǎng)絡(luò)安全分析的關(guān)鍵。
雖然分布式數(shù)據(jù)源(如流經(jīng)基礎(chǔ)設(shè)施的原始網(wǎng)絡(luò)數(shù)據(jù)、路由器、防火墻和交換機(jī)日志以及入侵檢測系統(tǒng)的高級報警事件)有大量的數(shù)據(jù)可供分析, 但是數(shù)據(jù)具有廣泛分布、跨多個組織、數(shù)據(jù)格式差異大、海量等特點(diǎn),給數(shù)據(jù)收集、傳輸、格式轉(zhuǎn)換及存儲提出了挑戰(zhàn)。從不同數(shù)據(jù)數(shù)據(jù)源中得到的海量宏觀網(wǎng)絡(luò)安全歷史數(shù)據(jù)中, 蘊(yùn)涵著宏觀網(wǎng)絡(luò)運(yùn)行潛在的正常和異常的規(guī)律性知識。入侵檢測研究[1~3]結(jié)果表明, 數(shù)據(jù)挖掘是目前發(fā)現(xiàn)宏觀網(wǎng)絡(luò)安全態(tài)勢知識的最有效手段。宏觀網(wǎng)絡(luò)安全數(shù)據(jù)挖掘的目的是從海量的原始數(shù)據(jù)中挖掘出宏觀網(wǎng)絡(luò)的正常和各種異常運(yùn)行模式。針對宏觀網(wǎng)絡(luò)安全威脅的速度一直在加快, 威脅的復(fù)雜性也在不斷提高, 網(wǎng)絡(luò)分析人員迫切需要及時發(fā)現(xiàn)宏觀網(wǎng)絡(luò)新異常知識和實(shí)時監(jiān)測新異常的工具。數(shù)據(jù)挖掘技術(shù)是目前自動發(fā)現(xiàn)宏觀網(wǎng)絡(luò)安全規(guī)律性知識最有效的手段。
研究宏觀網(wǎng)絡(luò)安全數(shù)據(jù)挖掘系統(tǒng)的目的是保護(hù)大型網(wǎng)絡(luò)中關(guān)鍵網(wǎng)絡(luò)基礎(chǔ)設(shè)施的可用性、機(jī)密性和完整性, 這涉及到保護(hù)網(wǎng)絡(luò)基礎(chǔ)設(shè)施免遭拒絕服務(wù)攻擊(DoS)、蠕蟲病毒、未授權(quán)的信息泄露、修改和破壞, 實(shí)時監(jiān)視和分析網(wǎng)絡(luò)的態(tài)勢, 進(jìn)行大規(guī)模異常感知和及時報警。由于大型網(wǎng)絡(luò)的數(shù)據(jù)流量大, 網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,給分析、統(tǒng)計和異常感知帶來了極大的困難。其中最主要的困難是盡管有海量的原始數(shù)據(jù), 但是卻難以發(fā)現(xiàn)其規(guī)律性。在國內(nèi)外, 研究宏觀網(wǎng)絡(luò)的安全還剛剛處于起步階段, 并沒有試圖給出一種有效的框架進(jìn)行挖掘和態(tài)勢感知。
由于網(wǎng)格技術(shù)能潛在地將分布式數(shù)據(jù)源、異構(gòu)的處理資源及已有的和新的數(shù)據(jù)挖掘工具有效地集成起來, 人們正在探索如何將網(wǎng)格計算技術(shù)應(yīng)用到數(shù)據(jù)挖掘中, 已有研究工作主要集中在基于網(wǎng)格的數(shù)據(jù)挖掘體系結(jié)構(gòu)上。調(diào)查和開發(fā)網(wǎng)格系統(tǒng)的經(jīng)驗(yàn)表明, 網(wǎng)格計算技術(shù)將是構(gòu)建實(shí)用宏觀網(wǎng)絡(luò)安全數(shù)據(jù)挖掘和勢態(tài)感知系統(tǒng)最有效的技術(shù)和方向。
本文通過對大型網(wǎng)絡(luò)可能出現(xiàn)的宏觀異常進(jìn)行研究, 根據(jù)主流的宏觀異常(拒絕服務(wù)攻擊、蠕蟲病毒、 惡意消耗網(wǎng)絡(luò)帶寬、宏觀網(wǎng)絡(luò)關(guān)鍵基礎(chǔ)設(shè)施的損壞), 以及宏觀網(wǎng)絡(luò)異常種類不斷增加的趨勢, 提出靈活、可擴(kuò)展的宏觀網(wǎng)絡(luò)數(shù)據(jù)挖掘方案、異常感知和決策支持方案;并在此基礎(chǔ)上開發(fā)出大規(guī)模網(wǎng)絡(luò)安全數(shù)據(jù)挖掘和綜合分析原型系統(tǒng), 提供大規(guī)模網(wǎng)絡(luò)異常特征發(fā)現(xiàn), 構(gòu)建安全態(tài)勢分析仿真模型, 開發(fā)行為感知相關(guān)的算法及原型系統(tǒng)。
1 相關(guān)工作
網(wǎng)絡(luò)安全分析和研究工作已取得了許多研究成果[1~6]。例如訪問控制系統(tǒng)、防火墻、VPN、物理隔離、網(wǎng)絡(luò)防毒、反垃圾郵件、入侵檢測系統(tǒng)、路由器和交換機(jī)的日志分析, 這些都能從某一個方面保護(hù)網(wǎng)絡(luò)的安全。由于這些研究和產(chǎn)品并不是專門針對大型宏觀網(wǎng)絡(luò),它們不足以對宏觀網(wǎng)絡(luò)的態(tài)勢進(jìn)行分析和預(yù)測。但是這些產(chǎn)品的結(jié)果卻可以作為宏觀網(wǎng)絡(luò)分析的數(shù)據(jù)來源。
Zhu等人[7]提出了分類器的方法對帶有噪聲的數(shù)據(jù)流進(jìn)行挖掘,這種方法能有效去除需要挖掘的歷史數(shù)據(jù)的噪聲; Nittel等人[8]提出了對數(shù)據(jù)源進(jìn)行并行聚類分析的方法, 分析了如何有效地進(jìn)行并行數(shù)據(jù)挖掘; Floering等人[9,10]提出了監(jiān)視和分析高速網(wǎng)絡(luò)的自適應(yīng)方法; Sanchez等人[11]提出在網(wǎng)格環(huán)境進(jìn)行數(shù)據(jù)挖掘的框架, 但是這種框架并不適用于大規(guī)模宏觀網(wǎng)絡(luò)環(huán)境。
網(wǎng)格計算是一種新型的廣域網(wǎng)分布式計算技術(shù)。網(wǎng)格(grid)[12]是由分布在網(wǎng)絡(luò)上的異構(gòu)計算機(jī)(網(wǎng)格節(jié)點(diǎn)) 構(gòu)成的虛擬超級計算機(jī), 從而有效利用其上的各種軟件、硬件和網(wǎng)絡(luò)資源, 進(jìn)行高效分布式、動態(tài)和異構(gòu)計算。網(wǎng)格計算是研究如何將互連的工作站組織起來, 有效地利用其計算、存儲能力的研究領(lǐng)域。隨著網(wǎng)格計算研究和應(yīng)用的需求,相繼出現(xiàn)了一些網(wǎng)格計算環(huán)境。其中最著名和應(yīng)用最廣泛的是Globus Toolkit網(wǎng)格計算工具包, 它是由美國USC的信息科學(xué)研究所和阿岡(Argonme)國家重點(diǎn)實(shí)驗(yàn)室開發(fā)的網(wǎng)格計算平臺。OGSA(open grid service architecture, 開放的網(wǎng)格服務(wù)體系結(jié)構(gòu))是使用網(wǎng)格關(guān)鍵技術(shù)和Web 服務(wù)(Web services)機(jī)制構(gòu)建的一個集成的、分布式系統(tǒng)框架。網(wǎng)格服務(wù)是它的統(tǒng)一服務(wù)語義(創(chuàng)建、命名和發(fā)現(xiàn)臨時服務(wù)實(shí)例的標(biāo)準(zhǔn)機(jī)制), 提供了服務(wù)實(shí)例的位置透明性和多重協(xié)議綁定, 并支持與本地平臺系統(tǒng)的集成。Globus Toolkit是OGSA的一個參考實(shí)現(xiàn), 它是一個網(wǎng)格系統(tǒng)的開發(fā)環(huán)境,包括暴露網(wǎng)格服務(wù)和訪問網(wǎng)格服務(wù)實(shí)現(xiàn)的編程模型。對于Globus平臺, 一個單一的網(wǎng)格節(jié)點(diǎn)的計算和數(shù)據(jù)資源被看做一些網(wǎng)格服務(wù)。WSRF(Web services resource framework, 網(wǎng)格服務(wù)資源框架)是OGSA規(guī)范的擴(kuò)充和改進(jìn), 能建模有狀態(tài)的資源, GT4(Globus Tookit 4)是支持WRSF規(guī)范的一個網(wǎng)格開發(fā)工具包。現(xiàn)在GT已被應(yīng)用到包括科學(xué)計算、電子商務(wù)和電子政務(wù)在內(nèi)的多個行業(yè)。
2 系統(tǒng)模型
本文提出的整個系統(tǒng)框架如圖1所示。該框架由一些網(wǎng)格服務(wù)組成, 它們可以方便地在不同計算節(jié)點(diǎn)上部署, 形成宏觀網(wǎng)絡(luò)安全數(shù)據(jù)挖掘和異常感知網(wǎng)格系統(tǒng)。
系統(tǒng)各組件的含義如下: a)元目錄服務(wù)(MDS), 存放和訪問傳感器(數(shù)據(jù)源)、學(xué)習(xí)組件、分類器組件的元信息。 在系統(tǒng)運(yùn)行過程中, 通過該服務(wù), 目錄數(shù)據(jù)庫能夠被各種服務(wù)查詢、插入、刪除和更新。b)決策支持服務(wù), 用于輔助網(wǎng)絡(luò)管理人員進(jìn)行決策支持。c)數(shù)據(jù)挖掘服務(wù), 根據(jù)需要自動加載元學(xué)習(xí)插件進(jìn)行學(xué)習(xí),必要時可關(guān)聯(lián)多個元學(xué)習(xí)插件, 以便得到更抽象的知識;考慮到數(shù)據(jù)分布特性和計算資源的限制,可進(jìn)行水平和垂直分布式數(shù)據(jù)挖掘。d)勢態(tài)檢測服務(wù),根據(jù)從歷史數(shù)據(jù)中挖掘的知識對網(wǎng)絡(luò)勢態(tài)進(jìn)行實(shí)時檢測和分析。為了得到高層次的異常事件和勢態(tài), 勢態(tài)檢測服務(wù)可以使用多個不同級別的元分類器插件進(jìn)行異常檢測和感知;根據(jù)需要, 元分類器插件可以選擇多個相關(guān)的數(shù)據(jù)源進(jìn)行分析, 以便得到多個傳感器融合后的態(tài)勢結(jié)果。e)數(shù)據(jù)訪問服務(wù), 根據(jù)調(diào)用者提供的數(shù)據(jù)元信息, 將對應(yīng)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行過濾和預(yù)處理后, 提交給調(diào)用者, 或者存儲至數(shù)據(jù)倉庫。f)數(shù)據(jù)仲裁服務(wù), 對分布式數(shù)據(jù)進(jìn)行集成, 然后將集成后的數(shù)據(jù)提交給數(shù)據(jù)挖掘服務(wù), 或者提交給勢態(tài)檢測服務(wù)。g)對象庫, 為了增加勢態(tài)的準(zhǔn)確性, 本文采用基于TCP/IP和SNMP MIB管理框架的TCP/IP威脅分類法。SNMP MIB非常適于表達(dá)以網(wǎng)絡(luò)為中心的威脅和異常。本文對TCP/IP協(xié)議的層次進(jìn)行編號并用安全威脅所在的協(xié)議層擴(kuò)展編號來表示威脅, 這樣便于元分類器的使用;還可將數(shù)據(jù)組織成數(shù)據(jù)流進(jìn)行勢態(tài)異常分布式和并行檢測, 組合多種分類器, 同時保證充分重用已有的和新加入的元分類器。
整個框架被分為兩個子系統(tǒng):a)大規(guī)模宏觀網(wǎng)絡(luò)安全數(shù)據(jù)挖掘子系統(tǒng)。其目的是通過在網(wǎng)格環(huán)境下對大規(guī)模宏觀網(wǎng)絡(luò)歷史數(shù)據(jù)進(jìn)行分析和挖掘, 獲取宏觀網(wǎng)絡(luò)安全的規(guī)律性知識。b)網(wǎng)絡(luò)異常感知異常發(fā)現(xiàn)子系統(tǒng)。其目的是應(yīng)用挖掘子系統(tǒng)得出的知識, 實(shí)時分析網(wǎng)絡(luò)的當(dāng)前運(yùn)行狀態(tài), 從而得出網(wǎng)絡(luò)的態(tài)勢。
1)大規(guī)模宏觀網(wǎng)絡(luò)安全數(shù)據(jù)挖掘子系統(tǒng)的設(shè)計
本文提出的大規(guī)模宏觀網(wǎng)絡(luò)安全數(shù)據(jù)挖掘子系統(tǒng)的模型如圖2所示。
該子系統(tǒng)是一個網(wǎng)絡(luò)勢態(tài)和異常相關(guān)知識創(chuàng)建及求精的過程。本文將以前收集的數(shù)據(jù)過濾、變換并組織成信息集合;信息集合進(jìn)一步被用于發(fā)現(xiàn)隱藏的且未曾被檢測出來的宏觀網(wǎng)絡(luò)勢態(tài)模式(situational patterns)以便用于未來的勢態(tài)分析和異常感知。來自相關(guān)網(wǎng)絡(luò)管理系統(tǒng)和入侵監(jiān)測系統(tǒng)收集到的原始數(shù)據(jù)將被放入數(shù)據(jù)倉庫。數(shù)據(jù)源的種類多(數(shù)據(jù)包嗅探器輸出、防火墻日志、交換機(jī)日志、路由器日志和入侵監(jiān)測系統(tǒng)輸出等)、數(shù)據(jù)源的位置分散且格式不同、數(shù)據(jù)的定義不一致, 一種數(shù)據(jù)源僅包含挖掘所需要的部分信息, 因此需要數(shù)據(jù)清洗和融合。一個數(shù)據(jù)挖掘過程需要在數(shù)據(jù)倉庫中選擇初始數(shù)據(jù), 并根據(jù)挖掘算法的需求進(jìn)行變換。對選擇的數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘時, 可能采用手工模式, 也可能采用自動模式。在宏觀網(wǎng)絡(luò)數(shù)據(jù)挖掘中, 使用的挖掘操作包括 聚類、關(guān)聯(lián)分析、統(tǒng)計分析、規(guī)則歸約、關(guān)聯(lián)歸約、樹歸約、偏離分析和神經(jīng)網(wǎng)絡(luò)分析。
本文對常見的宏觀網(wǎng)絡(luò)異常和各種數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)和類型進(jìn)行了分析, 在數(shù)據(jù)源中找出能夠反映各種宏觀網(wǎng)絡(luò)異常的特征集合。本文參考入侵檢測系統(tǒng)、網(wǎng)格計算系統(tǒng)和網(wǎng)絡(luò)管理系統(tǒng)的相關(guān)標(biāo)準(zhǔn)和已有方法, 并為每一種數(shù)據(jù)源定義基于XML格式的元信息(meta-info)。它包括數(shù)據(jù)源元數(shù)據(jù)的格式、表達(dá)標(biāo)準(zhǔn)、存儲方法、解析方法以及與具體數(shù)據(jù)源的綁定方法。子系統(tǒng)根據(jù)對收集數(shù)據(jù)的范圍、約束以及數(shù)據(jù)的引用和層次關(guān)系, 與數(shù)據(jù)源元數(shù)據(jù)進(jìn)行對照, 分布式提取每一種數(shù)據(jù)源的數(shù)據(jù), 然后根據(jù)元數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和格式轉(zhuǎn)換。采用數(shù)據(jù)源元數(shù)據(jù)保證可隨時加入新的數(shù)據(jù)源種類, 而不需要對子系統(tǒng)進(jìn)行更改。同時, 本文也設(shè)計了GUI接口, 便于對挖掘算法的結(jié)果進(jìn)行分析、求精和消減。
為了能夠組合多種數(shù)據(jù)挖掘算法同時進(jìn)行挖掘, 本文將挖掘算法包裝成插件(plug-ins)并提供統(tǒng)一的接口, 以便子系統(tǒng)進(jìn)行分布式順序或并行數(shù)據(jù)挖掘。這種策略的目的是將挖掘算法與被分析的數(shù)據(jù)分開, 使得算法能夠容易地動態(tài)集成和動態(tài)擴(kuò)充。本文把這些挖掘算法定義為元算法;元算法也需要通過元信息進(jìn)行描述, 進(jìn)一步實(shí)現(xiàn)子系統(tǒng)動態(tài)綁定和遠(yuǎn)程復(fù)制。通過挖掘發(fā)現(xiàn)的模型可以被人工求精, 并存儲和分發(fā), 便于日后進(jìn)行分布式異常感知。為了達(dá)到可擴(kuò)充性和靈活性, 本文采用XML語言作為插件的元數(shù)據(jù)描述方式。在發(fā)現(xiàn)的知識中, 本文按知識的層次分成多級勢態(tài)知識, 從而對勢態(tài)進(jìn)行多級分析。本文提出的方法可保證, 數(shù)據(jù)挖掘可以在分布式環(huán)境中進(jìn)行, 而且分布的粒度也可按計算資源的具體情況動態(tài)適應(yīng)。
為了有效利用多種學(xué)習(xí)算法, 本文采用元學(xué)習(xí)(meta-learning)方法,其目的是關(guān)聯(lián)多重異常檢測模型, 通過學(xué)習(xí)最終產(chǎn)生一個組合的檢測模型。這種方法需要分析宏觀網(wǎng)絡(luò)安全數(shù)據(jù)的特征集合以及多個檢測模型之間的內(nèi)在聯(lián)系, 通過適當(dāng)?shù)奶卣骷蠈⒍鄠€模型關(guān)聯(lián)起來, 使產(chǎn)生的組合模型效率更高, 而且能夠得到更高層次的異常事件。
2)大規(guī)模網(wǎng)絡(luò)異常感知異常發(fā)現(xiàn)子系統(tǒng)的設(shè)計
本文采用的大規(guī)模異常行為感知和發(fā)現(xiàn)子系統(tǒng)如圖3所示。
本文將異常感知子系統(tǒng)設(shè)計成分布式、靈活并可擴(kuò)展的。由于知識是分層的,根據(jù)知識本身的層次, 本文將異常規(guī)則分配到與網(wǎng)絡(luò)傳感器接近的底層, 將中層知識放在多個網(wǎng)絡(luò)傳感器的局部匯聚點(diǎn), 而將高層全局知識放在頂層的異常發(fā)現(xiàn)點(diǎn)上。這樣可以保證異常發(fā)現(xiàn)和行為感知可以分布式進(jìn)行, 充分利用分布式資源, 以期達(dá)到網(wǎng)絡(luò)宏觀實(shí)時異常發(fā)現(xiàn)的目標(biāo)。本文把每一個傳感器的輸出看做一個流(stream), 把每一個相關(guān)的異常發(fā)現(xiàn)規(guī)則集合包裝成一個網(wǎng)絡(luò)異常分類器(classifier)。網(wǎng)絡(luò)異常檢測時, 系統(tǒng)根據(jù)某種算法將網(wǎng)絡(luò)傳感器定向到低級異常分類器, 低級異常分類器的輸出是低級網(wǎng)絡(luò)事件流, 系統(tǒng)再將低級異常事件流作為相關(guān)高級的分類器的輸入, 這樣逐步得到更高層次的事件, 最終至最頂層, 網(wǎng)絡(luò)分析人員看到的是直觀的網(wǎng)絡(luò)勢態(tài)和宏觀的匯總信息。對于異常趨勢, 子系統(tǒng)將給出異常的起源、目的地、可能造成的影響, 以及應(yīng)該采取的建議措施, 以便輔助網(wǎng)絡(luò)安全人員進(jìn)行決策。由于采用統(tǒng)一接口的分類器, 當(dāng)發(fā)現(xiàn)新的異常, 并且通過挖掘提取到新的知識后, 可以包裝成新的分類器動態(tài)(即插即用)添加到實(shí)時監(jiān)測子系統(tǒng)的相應(yīng)級別。
3 實(shí)現(xiàn)
由于該系統(tǒng)中的數(shù)據(jù)具有異構(gòu)和分布式特點(diǎn), 大規(guī)模網(wǎng)絡(luò)安全異常感知和數(shù)據(jù)挖掘的數(shù)據(jù)處理量巨大, 并需要強(qiáng)大的處理能力。資料顯示, 傳統(tǒng)的分布式入侵檢測和分布式數(shù)據(jù)挖掘速度相對需求來說慢, 且計算敏感。為了使本系統(tǒng)的系統(tǒng)負(fù)載平衡并能更合理地利用處理和存儲資源, 本文通過分析和比較, 采用網(wǎng)格計算技術(shù)開發(fā)整個系統(tǒng), 帶來如下三個好處:a)高的檢測負(fù)載可以在分布式節(jié)點(diǎn)之間共享和平衡;b)可避免因大量網(wǎng)絡(luò)傳輸而導(dǎo)致系統(tǒng)崩潰;c)網(wǎng)格技術(shù)本身支持資源的訪問、分配和管理, 以及提供可擴(kuò)展的安全解決方案, 能提高系統(tǒng)的魯棒性和安全性。
系統(tǒng)實(shí)現(xiàn)基于網(wǎng)格開發(fā)工具包GT4, 保證所有的節(jié)點(diǎn)都可以部署在任意硬件和軟件平臺上;同時利用GT4本身提供的網(wǎng)格安全組件GSI和PKI對系統(tǒng)各組件、用戶信息及其他各種數(shù)據(jù)和信息進(jìn)行加密、認(rèn)證和簽名等多種安全保護(hù)。對于大數(shù)據(jù)集, 采用GT4的GRIDFTP進(jìn)行安全數(shù)據(jù)傳輸。使用GT4還能保證與其他系統(tǒng)(如外部入侵檢測系統(tǒng)和事件響應(yīng)系統(tǒng))協(xié)作, 而且容易集成第三方的工具(如網(wǎng)絡(luò)數(shù)據(jù)包分析工具TCPDUMP和外部分類器RIPPER等)。利用GT4的通知/預(yù)定機(jī)制可以使該系統(tǒng)各組件在時間和空間兩方面進(jìn)行異步操作, 從而達(dá)到更高程度的并行處理。
本文開發(fā)了一個原型系統(tǒng), 系統(tǒng)運(yùn)行環(huán)境的網(wǎng)絡(luò)拓?fù)鋱D如圖4所示。
1)節(jié)點(diǎn)組成
在圖4中, 本系統(tǒng)的節(jié)點(diǎn)機(jī)包括中心數(shù)據(jù)挖掘機(jī)、 數(shù)據(jù)挖掘機(jī)1、 數(shù)據(jù)挖掘機(jī)2、 中心異常檢測機(jī)、異常檢測機(jī)、中心數(shù)據(jù)倉庫、數(shù)據(jù)倉庫1、數(shù)據(jù)倉庫2、對象/模式庫、GUI控制臺以及若干的傳感器。由于整個系統(tǒng)是分布式的,隨著實(shí)際網(wǎng)絡(luò)環(huán)境不同, 考慮到性能等因素, 這些組件的位置會有所不同。
2)節(jié)點(diǎn)的功能
a)GUI控制臺,控制網(wǎng)絡(luò)安全數(shù)據(jù)的挖掘和大型網(wǎng)絡(luò)的實(shí)時檢測, 它是網(wǎng)絡(luò)管理員與整個系統(tǒng)的接口。
b)數(shù)據(jù)挖掘機(jī),負(fù)責(zé)分布式數(shù)據(jù)挖掘。根據(jù)實(shí)際需要, 數(shù)據(jù)挖掘機(jī)可能有多個, 目的是為了進(jìn)行水平或者垂直數(shù)據(jù)挖掘。在每一次數(shù)據(jù)挖掘會話中, 每一個挖掘機(jī)可能順序或者并行啟用多個元學(xué)習(xí)插件, 以便生成高層的異常模式。在測試環(huán)境中, 有三臺數(shù)據(jù)挖掘機(jī), 數(shù)據(jù)挖掘機(jī)1和數(shù)據(jù)挖掘機(jī)2挖掘的知識層次較低, 或者只能挖掘出部分知識;中心挖掘機(jī)能夠挖掘更高層次的知識。
c)異常檢測機(jī),進(jìn)行實(shí)時的宏觀網(wǎng)絡(luò)安全異常檢測。中心異常檢測機(jī)和異常檢測機(jī)1可進(jìn)行分布式檢測。異常檢測機(jī)1使用多個相對低級的元分類器進(jìn)行低級別,或者耗時較少的異常檢測;中心異常檢測機(jī)的檢測使用相對高級的元分類器,負(fù)責(zé)發(fā)現(xiàn)高級的宏觀網(wǎng)絡(luò)安全異常, 將最終得到的網(wǎng)絡(luò)勢態(tài)和高層次網(wǎng)絡(luò)異常事件報告給GUI控制臺, 以便網(wǎng)絡(luò)安全人員掌握網(wǎng)絡(luò)勢態(tài), 輔助網(wǎng)絡(luò)安全人員進(jìn)行決策。
d)數(shù)據(jù)倉庫,存儲海量網(wǎng)絡(luò)安全原始數(shù)據(jù)。在該環(huán)境中, 被挖掘出的各種網(wǎng)絡(luò)宏觀異常勢態(tài)模型被存放在對象/模型庫中;被數(shù)據(jù)挖掘出的新對象/異常模型將被加入到異常對象編碼庫中, 在異常檢測時, 異常檢測節(jié)點(diǎn)將從該庫中提取需要的模型信息。中心數(shù)據(jù)倉庫、數(shù)據(jù)倉庫1和2分別存儲海量的網(wǎng)絡(luò)安全數(shù)據(jù), 多個傳感器會根據(jù)需要將網(wǎng)絡(luò)安全原始數(shù)據(jù)追加至這三個數(shù)據(jù)倉庫中。在數(shù)據(jù)挖掘時, 元學(xué)習(xí)插件會根據(jù)需要提取特定的數(shù)據(jù)子集(行和列兩個方向)。
e)傳感器,分布在大型網(wǎng)絡(luò)關(guān)鍵基礎(chǔ)設(shè)施的附近(對大型網(wǎng)絡(luò)關(guān)鍵的服務(wù)器、路由器、防火墻、交換機(jī)、子網(wǎng)以及入侵檢測系統(tǒng)), 負(fù)責(zé)獲取網(wǎng)絡(luò)安全原始數(shù)據(jù)。原始數(shù)據(jù)包括子網(wǎng)數(shù)據(jù)包組裝后的連接信息,路由器、交換機(jī)、防火墻和關(guān)鍵主機(jī)的流量信息及日志信息。由
于目前已有很多sniffer, 連接組裝器和日志提取服務(wù), 本文編寫了傳感器元信息來集成這些工具, 避免重復(fù)開發(fā), 提高可擴(kuò)展性。
4 結(jié)束語
本文提出了一種宏觀網(wǎng)絡(luò)數(shù)據(jù)挖掘網(wǎng)格系統(tǒng)。由于網(wǎng)格系統(tǒng)具有協(xié)議的統(tǒng)一性、與系統(tǒng)平臺的無關(guān)性、開放性以及面向服務(wù)的體系結(jié)構(gòu),本文將系統(tǒng)劃分為若干個相對獨(dú)立的網(wǎng)格服務(wù), 使得該系統(tǒng)能夠分布式進(jìn)行并行大規(guī)模宏觀網(wǎng)絡(luò)數(shù)據(jù)挖掘和實(shí)時態(tài)勢分析, 充分利用更多的異構(gòu)資源以及更大程度的分布, 提高并行性。本文將數(shù)據(jù)源看做數(shù)據(jù)流, 通過元數(shù)據(jù)對數(shù)據(jù)源進(jìn)行描述, 不同數(shù)據(jù)源可以方便地集成到該系統(tǒng)中, 還可根據(jù)需要對數(shù)據(jù)源進(jìn)行分級, 上級分析容易利用下級分析的結(jié)果。由于根據(jù)不同的數(shù)據(jù)量和挖掘速度、準(zhǔn)確度以及關(guān)聯(lián)分析的需要, 系統(tǒng)可能需要不斷加入新的挖掘算法。本文采用元算法對算法的描述, 能統(tǒng)一處理不同的挖掘算法, 并能隨時將相關(guān)的不同挖掘算法集成, 進(jìn)行關(guān)聯(lián)分析。本文采用網(wǎng)絡(luò)異常分類器包裝異常發(fā)現(xiàn)規(guī)則, 使規(guī)則能有效復(fù)用, 而且便于處理不同級別的異常。
參考文獻(xiàn):
[1]MUKHERJEE B,HEBERLEIN L T,LEVITT K N.Network intrusion detection[J]. IEEE Network,1994,8(3):26-41.
[2]BREZANY P, HOFER J, WOHRER A,et al. Towards an open service architecture for data mining on the grid[C]//Proc of the 14th International Workshop on Database and Expert Systems Applications.Washington DC:IEEE Computer Society Press,2003: 113-120.
[3]LEE W,STOLFO S J,MOK K W.A data mining framework for building intrusion dectection models [C]//Proc of 1999 IEEE Symposium on Security and Privacy.Oakland,CA:IEEE Computer Society Press,1999: 120- 132.
[4]唐正軍, 李建華. 入侵檢測技術(shù)[M]. 北京: 清華大學(xué)出版社, 2004.
[5]ROIGER J R,GEATZ M W.數(shù)據(jù)挖掘教程[M]. 翁敬農(nóng),譯. 北京: 清華大學(xué)出版社, 2003.
[6]馮登國.計算機(jī)通信網(wǎng)絡(luò)安全[M].北京: 清華大學(xué)出版社, 2001.
[7]ZHU Xing-quan,WU Xin-dong,YANG Ying. Dynamic classifier selection for effective mining from noisy data streams[C]//Proc of the 4th IEEE International Conference on Data Mining.Washington DC:IEEE Computer Society Press,2004:305-312.
[8]NITTEL S, LEUNG K T. Parallelizing clustering of geoscientific data sets using data streams[C]//Proc of the 16th International Confe-rence on Scientific and Statistical Database Management.Washington DC:IEEE Computer Society Press,2004:73-84.
[9]FLOERING B, BROTHERS B,KAIBARCZYK Z,et al. An adaptive architecture for monitoring and failure analysis of high-speed networks[C]//Proc of the International Conference on Dependable Systems and Networks.Washington DC: IEEE Computer Society Press,2002:69-78.
[10]BASS T,ROAD S.Publish-subscribe enabled multisensor data fusion[C]//Proc of the 5th International Conference on Information Fusion.[S.l.]:IEEE Computer Society Press,2002:1076-1083.
[11]SANCHEZ A,PENA J M,PREZ M S, et al. Improving distributed data mining techniques by means of a grid infrastructure[C]//LNCS 3292.2004:111-122.
[12]FOSTER I,KESSEIMAN C,NICK J,et al. The physiology of the grid:an open grid services architecture for distributed systems integration [J]. IEEE Computer, 2002,35(6):37-46.
[13]JIN Hai,SUN Jian-hua,CHEN hao,et al. A fuzzy data mining based intrusion detection model[C]//Proc of the 10th IEEE International Workshop on Future Trends of Distributed Computing Systems.Washington DC:IEEE Computer Society Press,2004:191-197.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文