999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ALEAP模型在WAF場景下的應用研究

2020-09-02 07:00:23范舒涵王之梁楊家海
網絡空間安全 2020年7期

范舒涵 王之梁 楊家海

摘? ?要:文章探究基于深度學習的事件預測模型ALEAP在WAF場景下的應用情況,通過對校園網WAF系統日志數據的統計分析和事件嵌入分析,發現Web攻擊事件分布上的聚集性以及上下文之間的關聯性;通過WAF歷史日志數據對ALEAP模型進行預訓練,利用預訓練模型預測下一個可能發生的Web攻擊事件,模型最終達到78%的預測準確率,證實了ALEAP模型在該場景下的適用性,為網絡管理者實施防御策略提供可靠性參考依據,同時也說明ALEAP模型在具有上下文關聯關系的安全日志事件預測方面的普適性。

關鍵詞:安全事件預測;Web應用防火墻;ALEAP

中圖分類號: TP309.5? ? ? ? ? 文獻標識碼:A

Abstract: This paper explores the application of ALEAP, a security event prediction model based on deep learning, in the WAF context. Web Application Firewall, or WAF in short, is a kind of middlebox for protecting Web application security. The WAF system logs of the data center of Tsinghua campus network are analyzed by statistical methods and the ALEAP is used to predict the next web attack event. ALEAP is proved effective in this scenario with as high accuracy as 78%. It also shows the universality of ALEAP in context-sensitive security log prediction.

Key words: security events prediction; Web application firewall; ALEAP

1 引言

隨著網絡滲透門檻的不斷降低,常規網絡攻擊事件如SQL注入、跨站腳本攻擊、會話劫持等頻頻發生。在過去,防火墻被視為企業安全保障的第一道防線,能在網絡層進行數據包的有效阻斷。然而隨著越來越豐富多樣的Web應用誕生,Web應用成為主要被攻擊的目標。傳統防火墻在阻止利用應用程序漏洞進攻方面卻無能為力。在大型組織中,許多Web應用程序需要不同的安全策略來保護它們免受各種攻擊。因此,Web應用防火墻(Web Application Firewall,WAF)[1]應運而生。

WAF通過執行一系列針對HTTP、HTTPS的安全策略,為Web應用程序提供保護。對于網絡安全管理人員來說,WAF能夠對部分網絡協議通信流量進行檢測識別,屏蔽常見的Web攻擊行為,阻止對Web應用的非法訪問,增強Web應用的安全性。不足在于,WAF通過對一系列網絡請求的內容進行規則模式匹配檢測出異常情況,是一種被動的反應,是在異常行為發生后,對特定攻擊模式的反應或者針對觀察到的現象進行告警,無法預測可能發生的攻擊,進一步為網絡安全管理人員提供防御意見和攻擊趨勢預警。

ALEAP[2]是在2019年提出的基于深度學習的安全事件預測模型,基于安全防護終端日志中的安全事件之間存在上下文關聯,通過對歷史安全事件的攻擊模式學習,預測下一個可能發生的安全事件。

通過對WAF數據觀察可知,WAF日志記錄中的Web攻擊事件之間同樣存在上下文關聯。因此,使用ALEAP對WAF日志數據進行攻擊模式學習,預測下一個可能發生的Web安全事件,使得網絡安全管理人員能夠提前采取防御措施,避免不必要的傷害是可行的。

本文基于對清華大學WAF防護系統日志數據的分析,探究ALEAP模型在該場景下的應用效果,并對其性能進行評估。

2 ALEAP模型

ALEAP模型是一個基于深度學習[3]的安全事件預測模型,適用于已知多種安全防護設備產生的警報日志,預測下一步可能發生的安全事件類型,在網絡管理者實施防御策略時提供可靠性參考依據。

2.1 研究的問題

ALEAP模型公式化描述為:

已知條歷史安全事件序列,其中表示輸入序列長度,表示安全事件的事件嵌入向量維度,表示時刻的安全事件嵌入向量。

ALEAP旨在通過歷史數據的訓練,學習歷史事件序列到下一個可能產生的安全事件類型的關系映射:

其中,,是需要學習的非線性映射關系。

2.2 ALEAP系統框架

ALEAP模型框架如圖1所示,包括數據預處理層、事件嵌入向量構建層、基于注意力機制的LSTM模型學習層和預測層。在數據預處理層中,如圖1(a)所示,首先從多源安全警報中提取出數據特征,包括匿名計算機ID、時間戳、安全事件ID、安全事件描述等信息,而后從這些數據特征中提取“攻擊者、被攻擊者、攻擊行為、補充行為”四個特征組成四元組,構建新型安全事件類型。在圖1(b)所示的嵌入層中,通過上下文關聯學習,將安全事件類型嵌入到高維度的向量空間,用于反映事件之間的相似性和互異性。基于注意力機制[4]的深度學習模型如圖1(c)所示,編碼序列化的注意力機制能夠在所有事件序列中,自動學習增加相關性高的隱藏狀態的權重,從而捕獲到長期的事件序列依賴,以達到更高的預測準確性。

3 ALEAP在WAF場景下的應用

WAF通過對一系列網絡請求的內容進行規則模式匹配、行為分析,檢測出惡意行為,并做出相關動作,包括阻斷、記錄、告警等,為Web應用程序提供保護[5]。

通過對WAF日志的觀察可知,WAF日志中記錄了跨站腳本(Cross-site Scripting, XSS)、SQL注入攻擊、Web服務器漏洞攻擊等攻擊行為,針對某個攻擊,存在一定的攻擊鏈。比如,SQL注入主要攻擊步驟包括惡意掃描、在發送給SQL服務器的輸入參數中注入惡意可執行代碼、SQL注入攻擊成功等。同時由于WAF規則設置的不同,對某些檢測到的攻擊流量采取阻塞的方式,因此這些被阻塞的攻擊事件之間存在攻擊嘗試鏈,比如存在PUT、OPTIONS、DELETE不同請求方式的連續HTTP訪問控制事件。由此可見,Web攻擊事件之間也存在著上下文聯系,滿足符合ALEAP模型的使用前提。

通過對WAF日志的統計分析、事件嵌入式分析和ALEAP模型的應用,進一步挖掘WAF數據的隱藏價值,探究其所在網絡環境態勢以及攻擊規律。

3.1 WAF日志數據統計分析

研究數據采自于清華大學WAF系統安全防護日志2019年11月21日至2019年11月27日時長為一周的日志數據,共計3,214,041條記錄,18種安全事件過濾規則。

3.1.1 基礎數據特征

(1)日志字段

采集到的WAF日志一共有個18字段,其中關鍵字段以及說明如表1所示。在對數據進行處理的時候,需要根據站點ID對數據進行分類,根據告警發生的時間排序,并主要關注于告警類型的變化。

(2)攻擊事件類型分布

本文研究的WAF日志中一共有18個事件類型,包括SQL注入攻擊、Web服務器漏洞攻擊等。事件分布情況如表2所示。

由表2可知,在該數據集中,最頻繁發生的攻擊是SQL注入、Web服務器漏洞攻擊以及遠程文件包含攻擊。不同的事件類型歸屬于不同的攻擊階段,比如惡意掃描可以是跨站攻擊的前期準備階段,SQL注入攻擊可能是服務器信息泄露的后續。不同事件之間存在一定的關聯性,也說明了Web應用防火墻產生的數據符合ALEAP模型的應用場景。

3.1.2 日志記錄特征

(1)重復性

清華校園網WAF系統日志數據針對一類警報類型,往往出現連續重復的日志記錄。通過對數據集的觀察可知,這些連續出現的警報類型相同的記錄并不完全相同,一般存在URI、Domain Name、HTTP Request Method三個字段的區別。因此,這些字段在區分不同的攻擊行為,構建安全事件類型中起到重要作用。同時這也意味著,在發起Web攻擊時,攻擊者通過改變攻擊路徑、攻擊對象和請求手段等方式進行多種攻擊嘗試。

(2)關聯性

WAF對被檢測到的異常事件的處理手段主要包括三種:攔截、記錄但不攔截、放過,采用何種處理手段取決于規則對應攻擊的危害性。如果是明顯攻擊,就配置攔截手段,可疑行為配置記錄但不攔截處理手段,正常行為采用放過的處理方式。

通過對采集到的日志數據進行觀察,發現數據記錄中存在攔截、記錄但不攔截兩種處理手段。記錄但不攔截的處理方式可以記錄一個多步攻擊的攻擊鏈,攔截的處理方式意味著某些數據之間并不存在攻擊鏈行為。如表3所示。

從表中可以很明顯發現攻擊者在某次請求被攔截之后,還是針對同樣的攻擊發起了不同攻擊路徑、不同攻擊子對象、不同HTTP請求方式的攻擊嘗試,這些嘗試之間也存在一定的規律。比如攻擊路徑可能是在原來的路徑的基礎上添加新的根目錄,或者攻擊的域名和前一個域名之間享有同樣的一級、二級子域名。所以,針對WAF日志的預測模型訓練可以學到兩類模式:Web攻擊鏈以及Web攻擊嘗試鏈。

3.2 事件嵌入分析

這一小節利用事件嵌入(Event Embedding)對WAF日志事件進行深入分析。通過事件嵌入的使用,主要研究兩項內容。

(1)探索安全日志事件上下文之間存在的內在聯系。確認向量近似度大的事件在語義上是相關的,從而證明事件嵌入被其他模型引入是有價值的。

(2)從全局上查看嵌入向量的空間分布以及聚合關系。

3.2.1 算法原理

事件嵌入來源于自然語言處理(Natural Language Processing, NLP)中適用的詞嵌入(Word Embedding)[6]。詞嵌入的訓練原理就是利用一個深度學習框架將一個詞語映射到另一個空間,并且保證相似的詞語映射到相似方向,而且低維度、易訓練。Word2vec[7]是詞嵌入中的一種,也是目前最廣泛的詞嵌入方法,其訓練簡單,具有速度快、易擴展、效果好的特點。

在網絡安全領域中,安全日志事件之間存在著和自然語言處理領域的單詞之間同樣的上下文關系。所以,將單詞之間的關聯關系抽取方法類比到安全事件之間,用事件ID來代表某個安全事件,替換自然語言中的單個詞語,采用類似的詞嵌入方法對安全事件進行向量表示,這個算法稱之為事件嵌入。

因此,本節采用事件嵌入方法對WAF攻擊的內部關聯進行深入機器學習和分析。

3.2.2 實驗

本次實驗的事件嵌入算法采用Word2Vec中的Skip-gram[8]模型進行訓練,選擇2019年11月21日至11月26日的數據,最終產生每個事件的向量嵌入式表示。

主要實驗共四個步驟。

(1)首先,對日志數據進行預處理。將發生在同一天同一個目標ID上的事件合并為一段連續事件序列,同時對完全重復的連續日志事件進行合并,即只記錄一條數據。

(2)構建新型安全事件ID。新型安全事件類型用以下五元組來表示:

每個安全事件類型對應唯一ID。

(3)依次遍歷所有事件ID,以每個事件ID為中心事件,選擇其前后固定長度范圍內的事件ID作為模型輸入,利用Skip-gram模型進行訓練,訓練擬合得到中心事件。其中,中心事件往前/后的固定長度范圍被稱作訓練窗口。

(4)最后把輸出層去除,選擇輸入權重矩陣作為最終采用的事件向量集合,同時用Numpy格式存儲。

通過多次實驗,選用以下參數作為最終采納的預訓練向量模型參數:生成向量維度為300,訓練窗口為10,迭代次數為40,采用Negative Sample算法。

3.2.3 結果展示

為了進一步研究生成的事件向量,本文通過計算嵌入式向量之間的相關性并利用Google Projector[9]對事件向量進行可視化處理來深入研究內在規律。

(1)事件向量相關性

通過計算安全事件向量之間的余弦相似度,來量化向量之間的相關性。所謂余弦相似度,就是計算兩個向量在向量空間夾角的余弦值,如果值越大表示兩個向量越相近,如式(1)所示:

表4為通過Skip-gram方法訓練生成日志事件向量后,與事件[166.111.7.8, 10.111.7.157, Web服務器漏洞攻擊,ap*.sc.tsinghua.edu.cn, POST]通過計算向量間的余弦相似度得到的結果。由表可知,和事件“Web服務器漏洞攻擊”相似度最高的前三個事件都擁有同樣的攻擊者、被攻擊對象、被攻擊域名和請求方式。同時,通過對原始數據觀察可以發現,與事件“Web服務器漏洞攻擊”相似度最高的事件“HTTP違背”的攻擊序列中,都存在連續地對不同域名的攻擊嘗試(例如,對www.m*.tsinghua.edu.cn,www.e*.tsinghua.edu.cn,www.c*.tsinghua.edu.cn等域名的連續攻擊)。由此可見,嵌入式事件向量表示反映了一部分事件之間的攻擊規律和關聯性。

(2)向量降維可視化

Google Projector是一個用戶交互式的可視化和高維數據分析的系統,可用于探索數據集中的有價值方向。

本文通過將事件向量和事件標簽分別上傳至Google Projector,生成如圖2所示的投影。

圖2是利用t-SNE[10]降維技術生成的嵌入式投影。t-SNE是一種流行的非線性降維技術,由Hinton等人提出,基于SNE演變而來。SNE采用仿射變換,通過構建一個高維度對象的概率分布,映射數據點到概率分布上,如果兩個對象越相似,被選擇的概率就越高。t-SNE使用對稱版的SNE,簡化梯度公式,同時使用t分布代替高斯分布來表達兩點之間的相似度。

由圖2可知,事件被分為兩個部分。綠色虛線簇主要包含攻擊前期準備事件,包括HTTP方式控制事件、遠程文件包含、違規下載、惡意掃描等;橙色虛線簇包括各類攻擊:SQL注入攻擊、跨站攻擊、命令注入攻擊等。通過對選取的WAF事件向量表示的可視化處理,一方面說明了WAF日志事件主要包括攻擊鏈的兩個階段:前期準備和攻擊執行。在這兩個階段中,前期準備的事件規模相對小,分布也相對集中,Web攻擊執行階段中包含各類不同類型、不同模式的攻擊類別;另一方面也證實了事件向量可以很好地提取事件特征,表示事件間的關系。

(3)小結

通過上述研究,得到兩點結論。

1)清華校園網WAF系統日志事件主要可以分為2個團簇,包括攻擊前期準備階段和攻擊實施階段。同時,攻擊前期準備事件的類型數目小于攻擊實施事件類型數,并且聚集性更大。

2)采用Word2Vec方式可以很好地反映安全事件之間的上下文關聯性和相似性,有利于后續預測算法的構建。

3.3 ALEAP模型應用

基于對WAF數據的基礎數據統計和分析觀察,發現WAF日志數據存在上下文關聯,適合ALEAP模型的使用場景。同時,對于WAF日志數據的預警,可以揭露特定網絡環境中的Web攻擊規律,對網絡管理員的提前防御起到很好的參考作用。因此,將對安全預測模型ALEAP在清華校園網WAF日志數據中的應用做進一步分析。

3.3.1 數據預處理

在3.1.2小節中提到WAF數據的特有規律,因此在ALEAP模型預處理的基礎上,需要針對其數據特征做出以下變種。

在構建新的安全事件類型時,由于在Web攻擊中,被攻擊的域名和HTTP請求方式是一個攻擊手段的重要特征,可以更好地區別不同的攻擊行為。因此,原模型的四元組[subject, object, action, other]中,需要用[domain, request_method]來具體表示other字段,也就是新的安全事件類型用五元組來表示:

最終生成86類新型日志事件。同時,該安全事件類型與3.2.2小節安全事件向量構建實驗中輸入的事件類型保持一致。

3.3.2 實驗結果

本文使用Python 3.6.6實現了所提出的方法,并采用了Skip-gram進行安全事件嵌入向量生成。選擇2019年11月21日至2019年11月26日數據進行訓練,2019年11月27日至2019年11月28日數據進行預測,訓練集和預測集比例大約為4:1。

通過多次對比實驗,本文選擇以下參數作為最佳解決方案:批大小為128,嵌入維數為300,隱藏維數為600,隱藏層數為2,初始學習率為0.001,學習率衰減為0.01,間隔大小為15,Dropout值為0,訓練輪數上限為500,模型最終取得了78.25%的預測準確率。

(1)輸入序列長度對實驗結果的影響

在實驗中,本文主要針對不同的序列長度大小做了對比實驗,結果如圖3所示。

可以看出,當訓練序列長度小于15時,隨著序列長度的增大,預測結果越準確,說明越長的訓練數據可以提供更多的攻擊相關的信息,對模型擬合起到促進作用。當序列長度大于25時,精確度呈下降趨勢,說明當訓練窗口大于25時,引入了不相關的數據。同時隨著訓練序列增長,訓練時長也增大。綜合訓練準確率和訓練代價,本文選擇20為最佳訓練序列長度。

(2)預測結果分析

該模型在WAF數據中取得了78.25%的預測準確率。通過對預測結果的觀察,發現兩點情況。

1)在預測正確時,主要分為兩種情況。第一種是攻擊鏈預測成功。攻擊鏈預測成功示例如表5案例1所示。案例1通過歷史安全日志事件中惡意掃描、服務器信息泄露、遠程文件包含等惡意行為成功預測出將要發生的XSS攻擊,此時可聯系網站開發者對網站進行“查缺補漏”,過濾惡意代碼,對HTML進行充分轉義。

預測正確的另一種情況是攻擊嘗試鏈預測成功,如表5案例2所示。通過對域名a*.tsinghua.edu.cn和zlsh.a*.tsinghua.edu.cn等的HTTP訪問控制事件的嘗試,ALEAP模型成功預測出了將對www.a*.singhua.edu.cn域名的HTTP訪問控制事件的發生。攻擊嘗試鏈路的預測成功能夠有效描繪攻擊鏈路和剖析攻擊意圖,更好地服務于網絡管理者對網絡態勢的直觀了解。

2)在預測錯誤的情況下,有部分錯誤情況雖然預測與實際不符,但是仍存在一定的關聯性。如表5案例3所示,預測事件是對域名www.m*.tsinghua.edu.cn發起的服務器信息泄露事件,而實際發生的事件是針對irb.m*.tsinghua.edu.cn的服務器信息泄漏事件。雖然受害域名預測錯誤,但是攻擊事件類型預測成功,并且兩個域名只有第五級子域名的細微差別。說明該預測模型即使在預測錯誤的情況下,也能在某種程度上提供有效信息。

由上可知,ALEAP模型在WAF日志數據場景中,能夠學到一定的攻擊模式或者攻擊嘗試模式,可以很好地在WAF攻擊場景下進行安全事件預測。說明ALEAP適用于Web攻擊場景。

4 結束語

本文通過ALEAP模型在清華校園網WAF場景下的應用,發現WAF數據本身存在的關聯性和聚集性,同時,ALEAP在該場景下能到78%的預測準確率,體現了ALEAP模型在具有上下文關聯關系的日志預測方面的普適性。

參考文獻

[1] Clincy V, Shahriar H. Web application firewall: Network security models and configuration[C]//2018 IEEE 42nd Annual Computer Software and Applications Conference (COMPSAC): volume 01. 2018: 835-836.

[2] Fan S, Wu S, Wang Z, et al. Aleap: Attention-based lstm with event embedding for attack projection[C]//2019 IEEE 38th International Performance Computing and Communications Conference(IPCCC). IEEE, 2019: 1-8.

[3] Deng L, Yu D, et al. Deep learning: methods and applications[J]. Foundations and Trends? in Signal Processing, 2014, 7(3–4):197-387.

[4] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.

[5] Ghanbari Z, Rahmani Y, Ghaffarian H, et al. Comparative approach to web application firewalls[C]//2015 2nd International Conference on Knowledge-Based Engineering and Innovation(KBEI). IEEE, 2015: 808-812.

[6] Bengio Y, Schwenk H, Senécal J S, et al. Neural probabilistic language models[M/OL].https://doi.org/10.1007/3-540-33486-6_6. Berlin, Heidelberg: Springer Berlin Heidelberg, 2006: 137-186.

[7] Goldberg Y, Levy O. word2vec explained: deriving mikolov et al.s negative-sampling word embedding method[J]. arXiv preprint arXiv:1402.3722, 2014.

[8] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems. 2013: 3111-3119.

[9] Smilkov D, Thorat N, Nicholson C, et al. Embedding projector: Interactive visualization and interpretation of embeddings[J]. arXiv preprint arXiv:1611.05469, 2016.

[10] Maaten L v d, Hinton G. Visualizing data using t-sne[J]. Journal of machine learning research,2008, 9(Nov):2579-2605.

作者簡介:

范舒涵(1995-),女,漢族,福建建甌人,清華大學,在讀碩士;主要研究方向和關注領域:網絡安全、深度學習。

王之梁(1978-),男,漢族,遼寧大連人,清華大學,博士,清華大學網絡科學與網絡空間研究院,副教授;主要研究方向和關注領域:互聯網體系結構與協議、軟件定義網絡、網絡測量與安全。

楊家海(1966-),男,漢族,浙江云和人,清華大學,博士,清華大學網絡科學與網絡空間研究院,教授;主要研究方向和關注領域:互聯網體系結構與協議、網絡管理、網絡測量與安全。

主站蜘蛛池模板: 99久久精品国产麻豆婷婷| 在线观看无码av五月花| 五月激情婷婷综合| 免费高清毛片| 在线一级毛片| 日本久久网站| 国产区福利小视频在线观看尤物| 激情无码字幕综合| 亚洲色精品国产一区二区三区| 国产精品2| 国产精品片在线观看手机版| 2024av在线无码中文最新| 久久成人国产精品免费软件| 91精品视频网站| 在线观看亚洲人成网站| 欧美国产三级| 18禁高潮出水呻吟娇喘蜜芽| 在线欧美一区| 日本午夜影院| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产亚洲欧美在线视频| 在线观看无码a∨| 玩两个丰满老熟女久久网| 嫩草国产在线| 日韩A∨精品日韩精品无码| 日韩无码视频专区| 岛国精品一区免费视频在线观看| 欧美国产综合视频| 亚洲国产欧洲精品路线久久| 丁香亚洲综合五月天婷婷| 国产小视频免费| 毛片在线播放网址| 国产精品三级专区| 久久人妻xunleige无码| 亚洲国产系列| 亚洲精品国产综合99| 全午夜免费一级毛片| 久久99国产综合精品女同| 亚洲中久无码永久在线观看软件| 色视频久久| 五月天久久综合国产一区二区| 在线亚洲小视频| 黄片在线永久| 亚洲一区二区三区国产精华液| 欧美成a人片在线观看| 97在线观看视频免费| 97se亚洲综合不卡| 国产视频入口| 国产情精品嫩草影院88av| 亚洲天堂日韩在线| 亚洲色图欧美激情| 国内自拍久第一页| 久夜色精品国产噜噜| 色妞永久免费视频| 久热re国产手机在线观看| 欧美综合在线观看| 一区二区三区成人| 99久久精品视香蕉蕉| 欧美一道本| 国产欧美网站| 免费看黄片一区二区三区| 亚洲天堂网2014| 国产精品亚洲专区一区| 囯产av无码片毛片一级| 全部免费毛片免费播放| 欧美中文字幕在线播放| 蜜桃视频一区| 一级片一区| 欧美不卡二区| 99久久国产综合精品女同 | 国产亚洲精久久久久久久91| 日韩成人在线一区二区| 国产成年女人特黄特色大片免费| 黄色网址手机国内免费在线观看| 欧美成人精品在线| 国产乱人伦AV在线A| 国产h视频免费观看| 在线观看无码av五月花| 白浆免费视频国产精品视频| 国产人成网线在线播放va| 又黄又湿又爽的视频| 亚洲黄色成人|