999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的威脅情報信息抽取研究

2021-08-06 05:24:16孫天放
現代計算機 2021年16期
關鍵詞:網絡安全方法模型

孫天放

(四川大學網絡空間安全學院,成都610065)

0 引言

近年來,網絡攻擊在數量和復雜度上都呈現了迅速增長的趨勢。信息系統越來越多地暴露于各種安全威脅之下,這些威脅需要網絡安全從業人員的持續關注,為了更有效地促進安全信息共享,2013年,Gartner提出了威脅情報(Threat Intelligence,TI)的概念[1],“威脅情報是基于證據的知識,包括場景、機制、指標、含義和可操作的建議,這些知識是關于現存的、或者即將出現的、針對資產的威脅或危險,可為主體響應相關威脅或危險提供決策信息。”由此可知,威脅情報包含了關于當前或即將到來的網絡安全威脅的各種詳細信息,這可以幫助企業或組織實施針對網絡安全威脅的主動網絡防御。目前,只有少數安全公司提供標準化結構化的威脅情報,安全人員和機構很難獲取大量的威脅信息,CleanMX[2]和PhishTanks[3]等社區雖然在其平臺上發布了充足的威脅情報,但僅包含惡意URL、IP等少量威脅信息,無法應用于網絡安全態勢感知系統或其他防御機制。從開源的互聯網文章或報告中有效抽取威脅情報信息,并將其轉換為標準化、結構化的形式,對網絡安全研究有著非常重要的意義與實際應用價值。威脅情報信息抽取的兩個主要任務是命名實體識別(Named Entity Recognition,NER)和關系抽取(Relationship Extraction,RE)。命名實體識別是許多任務的基礎方法,廣泛應用于信息抽取、語義分析、信息檢索、知識圖譜等多個領域。實體包含通用性實體,如地名、人名,也可以是針對特定領域的專業性實體,如漏洞、攻擊技巧、惡意軟件等網絡安全領域的實體名稱。目前,主流的網絡分析工具都依賴于特征工程識別實體,專業性實體需要針對性的特征進行識別,圖1是一段網絡威脅情報描述,其中標注了威脅情報領域的一些實體。而關系抽取的目的是從非結構化的文本中抽取相關實體的關系,并將這些關系表示為具有“主語,謂語,賓語”的固定形式的三元組。例如,在圖1的威脅情報描述中,可以提取三元組(APT40,make_use_of,AIRBREAK),和相應的關系類型(Group,MakeUseOf,Software)。

圖1 威脅情報中的實體及其關系示例

過去的研究表明,現有的模型無法很好地抽取與網絡安全相關的實體及其關系[4]。雖然傳統的基于統計的信息抽取方法在通用領域可以取得較好的效果,但是該方法嚴重依賴特征工程,給在網絡安全領域的應用帶來了一些局限性。首先,該方法很大程度上依賴于該領域人員的經驗,并且需要漫長的試錯與訓練過程;其次,特征工程的維護與更新需要耗費大量的人力物力,特別是在網絡安全這種高活躍度的領域。近年來,神經網絡得到了廣泛應用,這種模型可以自主學習非線性的特征組合,以避免進行耗時費力的特征工程。其中,遞歸神經網絡(Recurrent Neural Network,RNN)在自然語言處理(Natural Language Processing,NLP)領域取得了良好的效果[5]。而在實踐中,長短時記憶神經網絡(Long Short-Term Memory neural network,LSTM)作為RNN的變體,已經成為使用深度學習方法進行文本處理的重要手段,該模型解決了RNN的長期依賴性學習的問題。

本文的主要貢獻是評估了LSTM模型在威脅情報領域中進行信息抽取任務的能力,并提出了基于神經網絡模型的威脅情報信息抽取方法(Threat Intelligence Information Extraction based on deep learning,TIIE)。在命名實體識別任務中,比較了基于LSTM的模型和基于特征工程的條件隨機場(Conditional Random Fields,CRF)模型在威脅情報領域的表現,在關系抽取任務中,比較了基于最短依賴路徑(Shortest Dependency Path,SDP)的LSTM模型和基于序列和樹結構的LSTM模型的表現。

1 相關研究工作

在網絡安全領域,提取威脅情報實體及其關系的方法多種多樣。Joshi等人[6]提出了從異構數據源中識別實體和相關概念的方法,使用最大熵模型(Maximum Entropy Model,MEM),并在標記好的語料庫中訓練該模型,訓練語料庫經過復雜的人工標注,包含約5萬個標簽,其模型實現的準確率為0.799,F1得分為0.75。為了自動構建訓練語料庫,Bridges等人[7]利用國家漏洞數據庫中的數據結構設計了自動標注文本的算法,用更靈活的特征工程構建工具,創建了一個包含大約750000個標注標簽的語料庫,并使用感知機算法,該算法已經被證明比最大似然估計方法效果更好。與Joshi等人的工作相比,Bridges等人的訓練語料庫更大,其實現的準確率為0.963,F1得分為0.965。但是,他們的語料庫不像Joshi等人的語料庫那么多樣化,這在一定程度上也影響了實驗結果。Mulwad等人[8]使用了一種支持向量機(Support Vector Machine,SVM)分類器將威脅情報信息與不相關的內容進行區分,分類器使用計算機安全分類法來標注網絡安全領域的實體,使用平均精度作為模型性能的衡量標準,最終達到了0.8的平均準確率。Jones等人[9]提出了一個基于bootstrapping算法的識別方法,只需要很少的輸入數據,包括很少的關系樣本及其類型,就可以從文本中提取安全實體及其之間的關系,該模型在其語料庫上的測試精度為0.82。

在最近的研究中,神經網絡開始逐漸替代傳統統計機器學習方法,深度學習解決了傳統機器學習方法的許多缺點[10]。一方面,基于神經網絡模型的方法可以自動學習特征,這大大減少了網絡安全領域中的人工成本和時間成本。此外,在各個領域的研究結果都表明,神經網絡學習的特征在準確性方面優于人工生成的特征。另一方面,RNN已經被證明具有較長的記憶能力,可以處理可變長度的輸入,這給自然語言處理任務的效果帶來了極大改善。LSTM則進一步提高了RNN的性能,并支持在任意遠程依賴之間進行學習,通過適當的大語料庫注釋,可以為傳統機器學習方法提供一個可行的替代方案。

2 威脅情報信息抽取方法

威脅情報信息抽取包括命名實體識別和關系抽取兩個子任務,本文提出的TIIE方法以LSTM神經網絡模型為基礎,包含了基于LSTM-CRF模型的命名實體識別方法和基于LSTM-SDP的關系抽取方法。一方面,本文將Lample等人[11]提出的深度學習模型應用于威脅情報命名實體識別領域。該方法是LSTM、CRF和詞嵌入方法的組合,該方法實驗用的語料庫帶有網絡安全領域的命名實體標注,數據集中每一個單詞都帶有實體類別標簽。對于關系抽取任務,本文根據威脅情報文本特點,優化了Yan Xu等人[12]提出的基于最短依賴路徑的LSTM模型,這種神經結構利用了一個句子中兩個實體之間的最短依賴路徑,保留了關系分類所需的相關信息,并消除了句子中不重要的單詞。

2.1 長短時記憶神經網絡模型

LSTM是一種經典的遞歸神經網絡模型,它能夠檢測和學習輸入數據序列中的模式,其中,數據序列可以是時間序列、自然語言文本,也可以是語音、基因組等。遞歸神經網絡可以將當前輸入(例如,文本中的當前單詞)與上一個輸入(例如,文本中的前一個單詞)中學到的知識結合起來,然而RNN雖然在短序列中表現良好,但當處理的序列變得過長時,它會遇到梯度下降甚至消失的問題,當模型參數數量變多時,訓練RNN的難度顯著提高。

LSTM模型則可以解決長期依賴學習的問題,它引入了內存單元的概念,如圖2所示,它在內存中隨時間保持長期依賴狀態。LSTM結構單元由一個Sigmoid神經網絡層和一個點陣乘法運算組成,LSTM單元內的門(gate)選擇性地讓信息通過。其中,i代表輸入門,f代表忘記門,o代表輸出門,σ代表Sigmoid神經網絡層,W和b分別代表權重和Sigmoid層的常數,C代表神經細胞狀態。LSTM單元的運算過程如下:

圖2 LSTM神經網絡單元結構圖

ft=σ(Wf·[ht-1,xt]+bf)

(1)

it=σ(Wi·[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(wo[ht-1,xt]+bo)

(5)

ht=ot·tanh(Ct)

(6)

2.2 基于LSTM-CRF的命名實體識別方法

本節主要介紹了基于LSTM-CRF模型的命名實體識別方法,該方法的體系結構如圖3所示。

圖3 長短時記憶-條件隨機場模型結構圖

該方法包括三層結構。第一層是底部的輸入層,輸入單詞序列w1,w2,… ,wt,word2vec神經網絡會將每個單詞轉換為對應的向量xt,得到的詞向量序列x1,x2,… ,xn則被送入下一層,即雙向LSTM層。雙向LSTM層對輸入的向量進行訓練,并將輸出傳遞給最后一層,即CRF算法層。在CRF算法層產生神經網絡的最終輸出,預測單詞對應的概率最高的實體類別標簽。

該方法的雙向LSTM層由兩部分組成,正向LSTM從序列起點開始讀取輸入并向后移動,反向LSTM從序列的末尾開始讀取輸入并向前移動。正向LSTM基于當前詞語t計算其左側的文本信息lht,反向LSTM基于當前詞語t計算其右側的文本信息rht,最后,結合左右兩側的文本信息得到輸出結果,即ht=[lht;rht]。多項研究表明,雙向LSTM結構在命名實體識別任務中被證實有效。

2.3 基于LSTM-SDP的關系抽取方法

基于最短依賴路徑的長短時記憶神經網絡模型的體系結構如圖4所示。首先,使用Stanford解析器對句子進行解析,并生成依賴樹。其次,抽取最短依賴路徑作為神經網絡模型的輸入。除了最短依賴路徑信息以外,四種其他類型的信息也被向量化后傳入模型,包括命名實體、實體關系、POS標簽和WordNet上位詞。

圖4 長短時記憶-最短依賴路徑模型結構圖

兩個實體的共同節點將最短依賴路徑分離為左子路徑和右子路徑。這兩條子路徑分別由兩個RNN進行處理。在每個RNN中,LSTM單元用于信息傳遞,從這兩個子路徑傳遞的信息被傳入最大池化層,如圖4b。池化層連接后會傳最上方的隱藏層,最后輸出結果,如圖4a。

3 實驗驗證

本文對所提出方法的有效性進行實驗驗證。本實驗所使用的數據集為SCU-iGroup整理的Attack-Technique-Dataset數據集[13],其中包含55篇網絡安全事件相關的報告。在命名實體識別任務中,訓練LSTM-CRF模型來識別威脅情報領域最常見的7個實體標簽,如表1所示,然后在相同的語料庫中訓練廣泛應用的CRFSuite模型[14]。本文將語料庫分成兩個子集,80%作為訓練集,20%作為測試集,以比較兩種模型的性能。同時,在關系抽取任務中,訓練兩個LSTM模型來抽取威脅情報領域的特定關系,如表2所示。同樣將語料庫分為80%的訓練集和20%的測試集,并分別比較LSTM-SDP和Miwa等人[15]提出的LSTM-STS兩種模型的抽取效果。

表1 威脅情報數據集實體數據統計

表2 威脅情報數據集關系數據統計

本實驗的評估指標為準確率P、召回率R和調和平均數F1,評價指標計算方法如下:

(7)

(8)

(9)

其中,TP表示標注為陽性的樣本中正確的數量,FP表示標注為陰性的樣本中錯誤的數量,FN表示標注為陽性的樣本中錯誤的數量。實驗從語料庫中留出的20%的測試數據來評估方法的有效性,將各個模型的結果按照上述評價指標進行比較,以評價每個模型的性能。

3.1 命名實體識別對比效果

我們對提出的LSTM-CRF方法和應用特征工程的CRF方法進行了評估。從SCU-iGroup整理的Attack-Technique-Dataset威脅情報數據集中選擇7個最常見的網絡安全實體標簽進行分組,分析兩種模型對于同一威脅情報數據集網絡安全領域的相對性能,標注的實體類型包括Vulnerability、Technique、Software、Group、Campaign、Target和Motivation。兩個模型在命名實體識別任務中的表現性能結果如表3所示。

表3 LSTM-CRF與CRF對比結果

從結果可知,根據準確率、召回率和F-1值各方面的性能指標來看,LSTM-CRF方法的結果要優于基于特征工程的CRF方法。每種方法對各個網絡安全命名實體標簽的識別結果如表4所示。

表4 LSTM-CRF與CRF對7種實體類型的抽取對比結果

3.2 關系抽取對比效果

本文對LSTM-SDP和LSTM-STS兩種模型的關系抽取效果進行對比,對比結果如表5所示。

表5 LSTM-SDP和LSTM-STS對比結果

從結果可知,基于最短依賴路徑的LSTM模型在準確率,召回率和F-1值各方面表現都優于基于序列和樹結構的LSTM模型。

4 結語

本文提出了基于神經網絡的威脅情報信息抽取方法,并通過實驗驗證了所提出方法的實現效果。實驗結果表明,與傳統的基于統計的方法相比,TIIE在命名實體識別和關系抽取領域的效果都有了顯著提高。傳統方法需要進行大量的特征工程,耗時費力,且訓練得到的模型只針對特定領域,難以在其他領域復用,而基于深度學習的方法減少了對特征工程的需求,預處理和訓練成本更低,具有一定的應用價值。在將來的研究工作中,可以繼續研究語料庫自動標注算法,并提高神經網絡模型精度,實現威脅情報信息的自動化抽取方法,供網絡安全從業人員使用。

猜你喜歡
網絡安全方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
網絡安全
網絡安全人才培養應“實戰化”
上網時如何注意網絡安全?
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久久久久久久久久国产精品| av一区二区无码在线| 日韩欧美综合在线制服| 日本国产精品| 国产成人一级| 91在线精品麻豆欧美在线| 亚洲视频色图| 欧美中出一区二区| 亚洲第一区欧美国产综合| 九色视频一区| 亚洲高清无码久久久| 无码精油按摩潮喷在线播放| 欧美www在线观看| 久久国产精品国产自线拍| 91精品国产一区自在线拍| 喷潮白浆直流在线播放| 99精品热视频这里只有精品7| 免费不卡在线观看av| 东京热一区二区三区无码视频| 欧美α片免费观看| 欧美亚洲日韩中文| 国产精品专区第一页在线观看| 国产麻豆另类AV| 2022国产无码在线| 国产乱子伦视频在线播放| 亚洲欧美激情小说另类| 亚洲综合九九| 亚洲日韩久久综合中文字幕| 午夜一区二区三区| 国产精品13页| 伊伊人成亚洲综合人网7777| 在线观看亚洲国产| 午夜日本永久乱码免费播放片| 天堂在线视频精品| 国产不卡在线看| 国产一区成人| 青草视频久久| 午夜啪啪福利| 国产成人欧美| 无码福利视频| 欧洲极品无码一区二区三区| 麻豆精品在线视频| 亚洲福利一区二区三区| 蝴蝶伊人久久中文娱乐网| 香蕉久久永久视频| 亚洲日韩国产精品综合在线观看| 日本不卡在线视频| 国产午夜福利在线小视频| 国产不卡国语在线| 亚洲欧洲免费视频| 亚洲天堂高清| 日韩少妇激情一区二区| 欧美午夜网站| 国产麻豆福利av在线播放| 国产又粗又猛又爽视频| 97成人在线视频| 国产精品人成在线播放| 国产麻豆精品久久一二三| 毛片视频网址| 欧美中文字幕无线码视频| 欧美激情伊人| 色天天综合| 亚洲欧美一区二区三区麻豆| 久久中文字幕不卡一二区| 中文字幕日韩视频欧美一区| 99精品影院| 999精品色在线观看| 福利国产在线| 免费观看男人免费桶女人视频| 亚洲欧美成aⅴ人在线观看| 日韩成人在线网站| 乱色熟女综合一区二区| 91青草视频| 亚洲制服中文字幕一区二区| 国产亚洲成AⅤ人片在线观看| 亚洲人成网址| 色男人的天堂久久综合| 欧美在线天堂| 国产午夜无码片在线观看网站| 日韩高清中文字幕| 国产一国产一有一级毛片视频| 国产一区免费在线观看|