劉嘉 謝冰 楊傳旭 萬洪強(qiáng) 鄭妍 楊晶
摘 ? 要:高級持續(xù)威脅(APT)對網(wǎng)絡(luò)安全構(gòu)成嚴(yán)重威脅,其獨(dú)特的高度不可預(yù)測性、深度隱蔽性和嚴(yán)重危害性使得傳統(tǒng)網(wǎng)絡(luò)監(jiān)控技術(shù)在大規(guī)模復(fù)雜網(wǎng)絡(luò)流量背景下面臨前所未有的挑戰(zhàn)。針對APT檢測的迫切需求,依托大數(shù)據(jù)分析和云計(jì)算技術(shù)的快速發(fā)展,基于機(jī)器學(xué)習(xí)理論,對網(wǎng)絡(luò)應(yīng)用語義豐富的行為特征模式進(jìn)行描述,通過網(wǎng)絡(luò)協(xié)議反向分析和數(shù)據(jù)流處理技術(shù)的有機(jī)結(jié)合,建立了一套支持建立入侵容忍網(wǎng)絡(luò)生態(tài)環(huán)境的新的APT自學(xué)習(xí)檢測框架。
關(guān)鍵字:高級持續(xù)性威脅;網(wǎng)絡(luò)安全;數(shù)據(jù)流處理;入侵檢測;網(wǎng)絡(luò)行為模式
中圖分類號:TM769 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A
Research on Advanced Continuous Threat Detection Technology Based
on Network Self-learning Behaviors
LIU Jia?覮,XIE Bing,YANG Chuan-xu,WAN Hong-qiang,ZHENG Yan,YANG Jing
(Yuxi Power Supply Bureau,Yunnan Power Gird Co.,Ltd. ,Yuxi,Yunnan ?653100,China)
Abstract: A serious threat is posed by advanced persistent threat(APT) ?to network security. Its unique high unpredictability,deep hiding and serious harm make traditional network monitoring technologies face unprecedented challenges in the context of large-scale complex network traffic. The urgent need for APT detection is addressed in this paper,and relies on the rapid development of big data analysis and cloud computing technology. Based on the theory of machine learning,it describes the behavior pattern of semantic richness in network applications,through the reverse analysis of network protocols and the technology of data flow processing. In combination,a new APT self-learning detection framework was established to support the establishment of an intrusion-tolerant network ecosystem.
Keywords: advanced persistent threats;network security;data stream processing;intrusion detection;network behavior patterns
由于強(qiáng)大和資金雄厚的組織(特別是政府)的參與,網(wǎng)絡(luò)攻擊現(xiàn)在變得越來越復(fù)雜。自2009年以來發(fā)生一系列重大安全事件,如Stuxnet攻擊核電站事件、RSA SecureID黑客攻擊、RAT病毒、DuQu和Flame等,表明高級持續(xù)性威脅(APTs)是當(dāng)今信息安全領(lǐng)域面臨的最快速增長的網(wǎng)絡(luò)安全威脅之一[1]。APT是一種新一代具有高度復(fù)雜性的網(wǎng)絡(luò)威脅,通常以一個非常精確的目標(biāo)或瞄準(zhǔn)一個特定的系統(tǒng)、實(shí)體,并在長時間內(nèi)執(zhí)行持續(xù)有效的攻擊[2-4]。
與傳統(tǒng)的網(wǎng)絡(luò)威脅相比,APT具有三個突出特點(diǎn):獨(dú)特的高度不可預(yù)測性、深度隱蔽性和嚴(yán)重危害性,然而傳統(tǒng)成熟的基于網(wǎng)絡(luò)流量模式和已知攻擊特征的成熟網(wǎng)絡(luò)監(jiān)控技術(shù)很難找到一個APT。根據(jù)各種報(bào)道,F(xiàn)lame在被發(fā)現(xiàn)之前一直潛伏了兩年。同時,隨著移動互聯(lián)網(wǎng)消費(fèi)者和網(wǎng)絡(luò)應(yīng)用的迅速增長,網(wǎng)絡(luò)協(xié)議日益復(fù)雜多樣,網(wǎng)絡(luò)空間充斥著龐大而復(fù)雜的網(wǎng)絡(luò)流量。因此,APT攻擊難以用傳統(tǒng)的網(wǎng)絡(luò)防御機(jī)制來檢測。
文獻(xiàn)[5]提出一種虛擬執(zhí)行分析檢測。這種APT檢測方法是典型的代表有沙箱檢測技術(shù),是通過在虛擬環(huán)境上執(zhí)行檢測,基于運(yùn)行行為來判定攻擊。由于APT 的長期性,沙箱檢測技術(shù)短期運(yùn)行效果不顯著,長期運(yùn)行必然耗時、耗資源。且虛擬環(huán)境與真實(shí)環(huán)境存在差異,需要進(jìn)行差異性分析。文獻(xiàn)[6]基于流量和深度內(nèi)容對APT攻擊行為機(jī)械檢測。這種檢測技術(shù)包括全流量審計(jì)技術(shù)和內(nèi)容深度分析檢測技術(shù)。由于APT 攻擊持續(xù)的時間很長,需要對長時間內(nèi)的數(shù)據(jù)流量和內(nèi)容進(jìn)行深入、細(xì)致的分析。全流量審計(jì)和深度內(nèi)容檢測目前面臨的最大問題是數(shù)據(jù)處理量非常龐大,因此檢測效率常常難以滿足業(yè)務(wù)需求。
基于網(wǎng)絡(luò)行為模式自學(xué)習(xí)而提出了網(wǎng)絡(luò)基因的概念,通過這一概念描述語義豐富的網(wǎng)絡(luò)應(yīng)用行為特征模型。通過對網(wǎng)絡(luò)行為和網(wǎng)絡(luò)基因的匹配和學(xué)習(xí),可以確定網(wǎng)絡(luò)實(shí)體行為的身份相關(guān)性和與已知網(wǎng)絡(luò)應(yīng)用程序的源相似性。因此,本文通過網(wǎng)絡(luò)行為模式的匹配發(fā)現(xiàn)深層次的異常網(wǎng)絡(luò)行為,為識別和追蹤APT攻擊提供依據(jù)。基于上述理論,本文提出了一種基于網(wǎng)絡(luò)基因的檢測框架來預(yù)防和識別未知的APT攻擊。
1 ? 高級持續(xù)威脅(APT)
1.1 ? 定義
目前對APT沒有一個統(tǒng)一的標(biāo)準(zhǔn)化定義。美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)將APT描述為“擁有先進(jìn)水平的專業(yè)知識和重要資源的對手,可以利用多種攻擊載體(例如,網(wǎng)絡(luò)、物理和欺騙)創(chuàng)造機(jī)會實(shí)現(xiàn)其目標(biāo)”[7]。“高級”表明該威脅來自熟練的攻擊者組織良好,且資金充足,具有充分的資源來收集情報(bào),并能充分利用網(wǎng)絡(luò)入侵技術(shù)和傳統(tǒng)的情報(bào)技術(shù)。“持久性”指攻擊者通過監(jiān)視被破壞的組織網(wǎng)絡(luò)來維持長期隱蔽存在的良好生存能力,以最終達(dá)到攻擊的目的。
盡管APT曾經(jīng)是軍事和防務(wù)專家領(lǐng)域的專業(yè)術(shù)語,但一系列復(fù)雜且效果突出的網(wǎng)絡(luò)攻擊(如Stuxnet、Duqu、Flam等)已經(jīng)將“APT”推向了輿論前沿,因此近年來網(wǎng)絡(luò) APT攻擊的監(jiān)測和分析技術(shù)已成為網(wǎng)絡(luò)安全學(xué)術(shù)界乃至整個行業(yè)的焦點(diǎn)。
與網(wǎng)絡(luò)系統(tǒng)相比,有許多自然系統(tǒng)要復(fù)雜得多,但即便如此,它們也是非常強(qiáng)健、有彈性和有效的。許多有機(jī)體用來抵御入侵者的生物免疫系統(tǒng)在分布式、復(fù)雜和不斷變化的環(huán)境中發(fā)揮著極其出色的作用,即使受到連續(xù)不斷的攻擊。正如美國政府在2011年的聯(lián)邦網(wǎng)絡(luò)安全研究和發(fā)展計(jì)劃的戰(zhàn)略計(jì)劃中提到的,生物免疫系統(tǒng)展示了大量有趣的機(jī)制,這些機(jī)制可以激發(fā)許多新方法來對抗網(wǎng)絡(luò)攻擊和保護(hù)網(wǎng)絡(luò)系統(tǒng)[8]。
從網(wǎng)絡(luò)監(jiān)控的角度來看,需要更多地關(guān)注APT威脅,并通過持續(xù)監(jiān)控,精確分析和實(shí)時響應(yīng)來構(gòu)建全方位的網(wǎng)絡(luò)監(jiān)控系統(tǒng)[9]。考慮到APTs獨(dú)特的高度不可預(yù)測性,應(yīng)加強(qiáng)對網(wǎng)絡(luò)異常行為檢測技術(shù)的研究。
1.2 ? 異常檢測
對APT攻擊的檢測來源于捕獲的病毒樣本的實(shí)際分析,如Stuxnet和Flame。 在實(shí)施階段,APT攻擊與傳統(tǒng)網(wǎng)絡(luò)攻擊之間沒有本質(zhì)區(qū)別,因此APT的概念模型在網(wǎng)絡(luò)監(jiān)控中幾乎沒有幫助。此外,即使存在APT的特定行為模型,由于APT攻擊的獨(dú)特高度不可預(yù)測性和對特定APT實(shí)例的分析,其檢測新攻擊的實(shí)用性可能是值得懷疑的,因?yàn)閷μ囟ˋPT實(shí)例的分析得出結(jié)論認(rèn)為,每次攻擊對于每個目標(biāo)都是獨(dú)特且高度自定義的。因此,APT的網(wǎng)絡(luò)監(jiān)控應(yīng)該被用于基于異常的入侵檢測。
網(wǎng)絡(luò)中基于異常的入侵檢測指的是在網(wǎng)絡(luò)流量中發(fā)現(xiàn)不符合預(yù)期正常行為的異常模式的問題。 然而,由于APT網(wǎng)絡(luò)行為與超低速攻擊流量不可見,現(xiàn)有的基于流量模式的異常檢測方法難以區(qū)分隱藏的APT流量與大量正常背景流量。基于協(xié)議分析的異常檢測是一個更有潛力的方向[10-12]。
文獻(xiàn)[13]引入了一種方法,使用決策樹和協(xié)議分析來進(jìn)行有效的入侵檢測。該方法為每個應(yīng)用層協(xié)議構(gòu)建一個自適應(yīng)決策樹。異常檢測將數(shù)據(jù)記錄分為兩類:良性和異常。異常情況包括多種類型,如DOS(拒絕服務(wù)),掃描和僵尸網(wǎng)絡(luò)。因此,多類分類器是一種自然選擇,但與任何分類器一樣,它們需要昂貴的手標(biāo)數(shù)據(jù)集,并且也無法識別未知攻擊。文獻(xiàn)[14]介紹NIDS擴(kuò)展的設(shè)計(jì)和實(shí)現(xiàn)以執(zhí)行動態(tài)應(yīng)用層協(xié)議分析。對于每個連接,系統(tǒng)首先識別正在使用的潛在協(xié)議,然后激活合適的分析器來驗(yàn)證決策并提取更高級別的語義。
需要注意的是,對于未發(fā)布的協(xié)議,私有協(xié)議或加密協(xié)議,則必須事先通過反向工程方法獲得協(xié)議規(guī)范信息。
1.3 ? 大數(shù)據(jù)流計(jì)算
由于攻擊者越來越能夠規(guī)避傳統(tǒng)的安全機(jī)制,傳統(tǒng)防御性邊界的瓦解需要安全專家采用大數(shù)據(jù)驅(qū)動的安全模式,依靠大數(shù)據(jù)計(jì)算和分析,這是更具風(fēng)險意識,相關(guān)性和靈活性的。批量計(jì)算和流計(jì)算是大數(shù)據(jù)計(jì)算的兩種重要形式。由于其在大數(shù)據(jù)環(huán)境中的實(shí)時處理,波動性,突發(fā)性,不規(guī)則性和無窮大等特點(diǎn),流計(jì)算是網(wǎng)絡(luò)安全應(yīng)用中更合適的選擇。現(xiàn)在已經(jīng)有了各種各樣的開源或商業(yè)大數(shù)據(jù)流處理引擎(如Storm、S4),它們可以滿足安全分析平臺的要求,如可擴(kuò)展性、一致性、低延遲、高可靠性和容錯性。
由于網(wǎng)絡(luò)實(shí)體在許多方面模仿有機(jī)系統(tǒng)的行為,已有研究將基因模型應(yīng)用于數(shù)據(jù)模型的匹配和自學(xué)習(xí),并提出“一個檢測網(wǎng)絡(luò)事件的有機(jī)模型” [15]。這是一種用于映射網(wǎng)絡(luò)實(shí)體參與到文本串中的行為序列并使用改進(jìn)的生物信息學(xué)算法分析這些字符串的新穎方法。這種生物信息學(xué)方法可以快速計(jì)算以前未見過的網(wǎng)絡(luò)實(shí)體在具有良好特征的實(shí)體方面的相似性度量,并用于對具有大量后臺流量的網(wǎng)絡(luò)事件進(jìn)行分類和比較分析。
在大數(shù)據(jù)分析和云計(jì)算的驅(qū)動下,大數(shù)據(jù)流技術(shù)和網(wǎng)絡(luò)安全實(shí)時數(shù)據(jù)分析實(shí)施平臺得到迅速發(fā)展,為細(xì)化網(wǎng)絡(luò)行為監(jiān)控提供了堅(jiān)實(shí)的基礎(chǔ)。但與此同時,其在APT網(wǎng)絡(luò)監(jiān)測中的應(yīng)用研究剛剛起步,缺乏統(tǒng)一有效的計(jì)算模型。
2 ? 網(wǎng)絡(luò)基因
APT檢測需要支持更豐富的行為語義,這可以通過基于協(xié)議分析的異常檢測來提供。 APT檢測還需要分析網(wǎng)絡(luò)協(xié)議行為以發(fā)現(xiàn)異常,協(xié)議反向工程有助于解決自動生成協(xié)議行為正常模式的效率問題。 由于實(shí)時處理能力對于APT檢測非常重要,因此將APT檢測與數(shù)據(jù)流處理技術(shù)相結(jié)合是一個合適的發(fā)展方向。
APT檢測是一個非常全面和系統(tǒng)化的新興研究重點(diǎn)。本文在前人關(guān)于網(wǎng)絡(luò)威脅行為分析,網(wǎng)絡(luò)入侵檢測,軟件逆向分析和協(xié)議逆向工程等研究的基礎(chǔ)上,利用云計(jì)算和數(shù)據(jù)流處理的最新研究成果,提出了一種新的系統(tǒng)理論和計(jì)算模型,計(jì)算大量網(wǎng)絡(luò)應(yīng)用程序的語義豐富的網(wǎng)絡(luò)行為模式。然后以網(wǎng)絡(luò)基因?yàn)榧~帶,將網(wǎng)絡(luò)行為深入分析與網(wǎng)絡(luò)數(shù)據(jù)流實(shí)時處理有機(jī)結(jié)合起來,可以為檢測未知的APT提供重要支持。
為此,本文引入網(wǎng)絡(luò)基因這一概念來描述網(wǎng)絡(luò)行為。網(wǎng)絡(luò)基因通過網(wǎng)絡(luò)協(xié)議反向分析提取的數(shù)字段,以及它們的組合序列,它們表示網(wǎng)絡(luò)應(yīng)用的語義豐富的網(wǎng)絡(luò)行為模式。
根據(jù)APT網(wǎng)絡(luò)行為表達(dá)的高度復(fù)雜性,網(wǎng)絡(luò)應(yīng)用程序的行為模式由低至高的消息行為基因、協(xié)議行為基因和操作行為基因三個層次基因組成,我們將其全部稱為應(yīng)用程序的網(wǎng)絡(luò)基因組。消息行為基因表征協(xié)議消息級別的行為模式,包括消息格式,消息特征字符串及其類型限制。協(xié)議行為基因表征協(xié)議狀態(tài)機(jī)級別的行為模式,例如協(xié)議消息序列。 操作行為基因的特點(diǎn)是應(yīng)用程序級別的行為模式,它反映了密鑰協(xié)議,文件傳輸和加密通道建立等高級行為意圖。在基因組中不同水平的基因之間存在關(guān)聯(lián)關(guān)系,正如在某種意義上,較高水平的基因是由較低水平基因形成的關(guān)聯(lián)。
多個應(yīng)用的網(wǎng)絡(luò)基因組構(gòu)成了龐大的網(wǎng)絡(luò)基因庫,并且在庫中的不同基因組之間存在共享的相關(guān)性和變異相關(guān)性。共享相關(guān)性是指不同基因組中較高水平的基因共享相同的相關(guān)較低水平基因。變異相關(guān)性意味著該基因是另一個相同水平的基因的表征,并且其行為模式有一些變化。這兩個相互性關(guān)系,尤其是后者,表達(dá)了不同基因之間的譜系演變。信息行為基因的變異可能意味著隱藏在消息內(nèi)部的信息,而協(xié)議或操作行為基因的變異可能暗示欺騙性異常行為。網(wǎng)絡(luò)基因的譜系演化對深入分析APT網(wǎng)絡(luò)行為具有重要意義。
如圖1所示,網(wǎng)絡(luò)基因表達(dá)和網(wǎng)絡(luò)基因庫示意圖鑒定了重用和共享基因以及變異基因。協(xié)議行為基因GP2由具有相同協(xié)議行為模式的操作行為基因GO2和GO3共享。與協(xié)議行為基因GP1相關(guān)的消息行為協(xié)議GM2是GM4的變體,這可能意味著存在某種隱藏行為或攻擊行為的網(wǎng)絡(luò)安全威脅。
我們也可以從形式化的角度描述網(wǎng)絡(luò)基因和基因組。網(wǎng)絡(luò)基因庫D由網(wǎng)絡(luò)基因組和相互之間的關(guān)系組成:
D =
其中G代表基因組集合,S代表共享相關(guān)集合,V代表變異相關(guān)集合。
該組基因組G = {G1,G2,G3,...,Gn},其中Gi代表基因組。Gi =
3 ? 檢測框架
3.1 ? 基于網(wǎng)絡(luò)基因的APT檢測
如圖2所示,以網(wǎng)絡(luò)基因?yàn)殒溄樱珹PT網(wǎng)絡(luò)監(jiān)測模型分為兩個階段:網(wǎng)絡(luò)基因的自動分析和提取,以及基于網(wǎng)絡(luò)基因?qū)崟r計(jì)算的異常網(wǎng)絡(luò)行為的深入分析。
首先,通過構(gòu)建動態(tài)二進(jìn)制程序分析環(huán)境,可以通過處理多種網(wǎng)絡(luò)應(yīng)用程序提取網(wǎng)絡(luò)基因,構(gòu)建網(wǎng)絡(luò)基因庫。來自大量網(wǎng)絡(luò)應(yīng)用的網(wǎng)絡(luò)基因庫(可以被確定為良性、惡性或中性類型)為網(wǎng)絡(luò)流量監(jiān)測和分析提供統(tǒng)一的分析模板和客觀依據(jù)。網(wǎng)絡(luò)應(yīng)用包括已知的應(yīng)用軟件(具有特定的功能和不同的意圖)以及未知的應(yīng)用軟件。對于已知的應(yīng)用程序,如果它們是著名的商業(yè)軟件或開源軟件,則應(yīng)該認(rèn)定它們是良性的;或者如果他們被捕獲惡意軟件樣本,則應(yīng)將其標(biāo)識為惡意。對于未知的應(yīng)用程序,在基因分析和提取之前應(yīng)將其確定為中性,并且在自動分析之后,它們的性質(zhì)可以被初步確定。
利用網(wǎng)絡(luò)基因庫,可以構(gòu)建基于數(shù)據(jù)流處理平臺的網(wǎng)絡(luò)監(jiān)控環(huán)境。通過部署具有網(wǎng)絡(luò)基因?qū)崟r計(jì)算能力的深度行為異常檢測系統(tǒng),可以發(fā)現(xiàn)APT攻擊者或惡意軟件利用墊腳石攻擊特定目標(biāo)服務(wù)器的隱身流量,同時分析由該網(wǎng)絡(luò)產(chǎn)生的正常流量 大量的應(yīng)用程序。這是一個典型的白名單異常檢測方法。在網(wǎng)絡(luò)基因的基礎(chǔ)上,還可以應(yīng)用黑白名單混合檢測。通過對網(wǎng)絡(luò)流量的全面檢查和分析,在深度行為模式匹配后,我們可以發(fā)現(xiàn),驗(yàn)證和預(yù)測各種異常網(wǎng)絡(luò)行為。
基于網(wǎng)絡(luò)基因的網(wǎng)絡(luò)監(jiān)測模型可以為構(gòu)建具有異常檢測和入侵容忍能力的網(wǎng)絡(luò)生態(tài)環(huán)境提供強(qiáng)有力的安全保障。
3.2 ? 網(wǎng)絡(luò)基因庫
在APT檢測框架中,網(wǎng)絡(luò)基因庫是實(shí)現(xiàn)檢測的關(guān)鍵數(shù)據(jù)。網(wǎng)絡(luò)基因的自動生成和數(shù)據(jù)庫構(gòu)建能夠滿足APT網(wǎng)絡(luò)監(jiān)測中自動建立語義豐富的網(wǎng)絡(luò)行為模式的需求。如圖3所示,網(wǎng)絡(luò)基因的構(gòu)建包括兩個過程:網(wǎng)絡(luò)協(xié)議行為的反向分析和網(wǎng)絡(luò)基因的自動提取。
網(wǎng)絡(luò)協(xié)議行為的反向分析采用動態(tài)二進(jìn)制分析和主動學(xué)習(xí)。通過對網(wǎng)絡(luò)消息格式的反向分析,網(wǎng)絡(luò)協(xié)議模型的反向推理和提取操作序列,我們可以提取消息格式,協(xié)議模型和操作序列,然后將它們放入相應(yīng)的數(shù)據(jù)庫中。
污點(diǎn)分析是網(wǎng)絡(luò)消息格式反向解析的關(guān)鍵技術(shù)。在指令級、數(shù)據(jù)以字節(jié)為單位進(jìn)行移動和計(jì)算,多字節(jié)數(shù)據(jù)段的處理與指令流的邏輯結(jié)構(gòu)有關(guān)。 因此,可以使用指令級污點(diǎn)分析技術(shù)來精確確定消息域的邊界,并構(gòu)建消息域?qū)哟谓Y(jié)構(gòu)。在功能層面,接口的輸入輸出參數(shù)是消息域的處理,它們反映了消息域的功能。因此,梳理系統(tǒng)調(diào)用,典型的API和相關(guān)的語義知識庫,可以使用功能級污點(diǎn)分析來推斷消息域中的語義。
協(xié)議模型描述了網(wǎng)絡(luò)協(xié)議的整個運(yùn)行過程,是網(wǎng)絡(luò)行為的抽象描述,以圖同構(gòu)算法為基礎(chǔ)的同構(gòu)子圖挖掘和前綴樹狀態(tài)機(jī)規(guī)范為關(guān)鍵技術(shù)。在信息交互圖中,同構(gòu)子圖描述了協(xié)議的相同會話狀態(tài),并可用于合并協(xié)議狀態(tài)。前綴樹狀態(tài)機(jī)是一種冗余協(xié)議模型,通過指定機(jī)器我們可以得到協(xié)議系統(tǒng)的協(xié)議模型。
操作序列可以反映出高水平的網(wǎng)絡(luò)應(yīng)用程序的行為和功能的意圖,是網(wǎng)絡(luò)應(yīng)用程序在網(wǎng)絡(luò)對象(例如,某個文件)上執(zhí)行操作時生成的操作序列(例如,發(fā)送或接收操作),也是APT深度網(wǎng)絡(luò)行為的重要表征。通過構(gòu)建語義知識庫,采用動態(tài)的污染跟蹤方法,可以找到語義知識的操作,以及內(nèi)存和網(wǎng)絡(luò)之間對象的傳輸軌跡,從而獲得足夠的網(wǎng)絡(luò)行為模式知識。
在對多個網(wǎng)絡(luò)應(yīng)用樣本進(jìn)行網(wǎng)絡(luò)協(xié)議行為反向分析后,建立了消息格式數(shù)據(jù)庫、協(xié)議模型數(shù)據(jù)庫和操作序列數(shù)據(jù)庫,從而可以在網(wǎng)絡(luò)基因自動提取過程中獲得行為基因片段。如圖3所示,我們可以進(jìn)行消息相關(guān)性提取,從消息格式數(shù)據(jù)庫中獲取消息行為基因,通過協(xié)議相關(guān)性提取從協(xié)議模型數(shù)據(jù)庫中獲取協(xié)議行為基因,并從操作序列中獲取操作行為基因數(shù)據(jù)庫通過操作相關(guān)提取。
由于已經(jīng)獲得了各種行為基因片段,我們可以對它們進(jìn)行綜合關(guān)聯(lián)和變異,比較和匹配基因片段,最終構(gòu)建網(wǎng)絡(luò)基因組和關(guān)鍵網(wǎng)絡(luò)基因庫。
3.3 ? 基于數(shù)據(jù)流計(jì)算的實(shí)時網(wǎng)絡(luò)基因處理
Storm是一個開源的分布式實(shí)時計(jì)算系統(tǒng),可以輕松可靠地處理無限數(shù)據(jù)流,為實(shí)時處理Hadoop進(jìn)行批處理所做的工作提供便利。它使用自定義創(chuàng)建的“噴嘴”和“螺栓”來定義信息源和操作,以允許流式數(shù)據(jù)的分布式處理。針對APT檢測應(yīng)急響應(yīng)的特殊要求,提出了基于Storm的網(wǎng)絡(luò)基因?qū)崟r計(jì)算模型。該模型如圖4所示,旨在實(shí)現(xiàn)一個高性能的網(wǎng)絡(luò)基因計(jì)算系統(tǒng),能夠處理無限的網(wǎng)絡(luò)數(shù)據(jù)流和大規(guī)模的網(wǎng)絡(luò)基因庫。