基于深度學習的威脅情報信息抽取研究

2021-08-06 05:24:16孫天放

現代計算機 2021年16期

孫天放

(四川大學網絡空間安全學院，成都610065)

0 引言

近年來，網絡攻擊在數量和復雜度上都呈現了迅速增長的趨勢。信息系統越來越多地暴露于各種安全威脅之下，這些威脅需要網絡安全從業人員的持續關注，為了更有效地促進安全信息共享，2013年，Gartner提出了威脅情報(Threat Intelligence，TI)的概念[1]，“威脅情報是基于證據的知識，包括場景、機制、指標、含義和可操作的建議，這些知識是關于現存的、或者即將出現的、針對資產的威脅或危險，可為主體響應相關威脅或危險提供決策信息。”由此可知，威脅情報包含了關于當前或即將到來的網絡安全威脅的各種詳細信息，這可以幫助企業或組織實施針對網絡安全威脅的主動網絡防御。目前，只有少數安全公司提供標準化結構化的威脅情報，安全人員和機構很難獲取大量的威脅信息，CleanMX[2]和PhishTanks[3]等社區雖然在其平臺上發布了充足的威脅情報，但僅包含惡意URL、IP等少量威脅信息，無法應用于網絡安全態勢感知系統或其他防御機制。從開源的互聯網文章或報告中有效抽取威脅情報信息，并將其轉換為標準化、結構化的形式，對網絡安全研究有著非常重要的意義與實際應用價值。威脅情報信息抽取的兩個主要任務是命名實體識別(Named Entity Recognition，NER)和關系抽取(Relationship Extraction，RE)。命名實體識別是許多任務的基礎方法，廣泛應用于信息抽取、語義分析、信息檢索、知識圖譜等多個領域。實體包含通用性實體，如地名、人名，也可以是針對特定領域的專業性實體，如漏洞、攻擊技巧、惡意軟件等網絡安全領域的實體名稱。目前，主流的網絡分析工具都依賴于特征工程識別實體，專業性實體需要針對性的特征進行識別，圖1是一段網絡威脅情報描述，其中標注了威脅情報領域的一些實體。而關系抽取的目的是從非結構化的文本中抽取相關實體的關系，并將這些關系表示為具有“主語，謂語，賓語”的固定形式的三元組。例如，在圖1的威脅情報描述中，可以提取三元組(APT40，make_use_of，AIRBREAK)，和相應的關系類型(Group，MakeUseOf，Software)。

圖1 威脅情報中的實體及其關系示例

過去的研究表明，現有的模型無法很好地抽取與網絡安全相關的實體及其關系[4]。雖然傳統的基于統計的信息抽取方法在通用領域可以取得較好的效果，但是該方法嚴重依賴特征工程，給在網絡安全領域的應用帶來了一些局限性。首先，該方法很大程度上依賴于該領域人員的經驗，并且需要漫長的試錯與訓練過程；其次，特征工程的維護與更新需要耗費大量的人力物力，特別是在網絡安全這種高活躍度的領域。近年來，神經網絡得到了廣泛應用，這種模型可以自主學習非線性的特征組合，以避免進行耗時費力的特征工程。其中，遞歸神經網絡(Recurrent Neural Network，RNN)在自然語言處理(Natural Language Processing，NLP)領域取得了良好的效果[5]。而在實踐中，長短時記憶神經網絡(Long Short-Term Memory neural network，LSTM)作為RNN的變體，已經成為使用深度學習方法進行文本處理的重要手段，該模型解決了RNN的長期依賴性學習的問題。

本文的主要貢獻是評估了LSTM模型在威脅情報領域中進行信息抽取任務的能力，并提出了基于神經網絡模型的威脅情報信息抽取方法(Threat Intelligence Information Extraction based on deep learning，TIIE)。在命名實體識別任務中，比較了基于LSTM的模型和基于特征工程的條件隨機場(Conditional Random Fields，CRF)模型在威脅情報領域的表現，在關系抽取任務中，比較了基于最短依賴路徑(Shortest Dependency Path，SDP)的LSTM模型和基于序列和樹結構的LSTM模型的表現。

1 相關研究工作

在網絡安全領域，提取威脅情報實體及其關系的方法多種多樣。Joshi等人[6]提出了從異構數據源中識別實體和相關概念的方法，使用最大熵模型(Maximum Entropy Model，MEM)，并在標記好的語料庫中訓練該模型，訓練語料庫經過復雜的人工標注，包含約5萬個標簽，其模型實現的準確率為0.799，F1得分為0.75。為了自動構建訓練語料庫，Bridges等人[7]利用國家漏洞數據庫中的數據結構設計了自動標注文本的算法，用更靈活的特征工程構建工具，創建了一個包含大約750000個標注標簽的語料庫，并使用感知機算法，該算法已經被證明比最大似然估計方法效果更好。與Joshi等人的工作相比，Bridges等人的訓練語料庫更大，其實現的準確率為0.963，F1得分為0.965。但是，他們的語料庫不像Joshi等人的語料庫那么多樣化，這在一定程度上也影響了實驗結果。Mulwad等人[8]使用了一種支持向量機(Support Vector Machine，SVM)分類器將威脅情報信息與不相關的內容進行區分，分類器使用計算機安全分類法來標注網絡安全領域的實體，使用平均精度作為模型性能的衡量標準，最終達到了0.8的平均準確率。Jones等人[9]提出了一個基于bootstrapping算法的識別方法，只需要很少的輸入數據，包括很少的關系樣本及其類型，就可以從文本中提取安全實體及其之間的關系，該模型在其語料庫上的測試精度為0.82。

在最近的研究中，神經網絡開始逐漸替代傳統統計機器學習方法，深度學習解決了傳統機器學習方法的許多缺點[10]。一方面，基于神經網絡模型的方法可以自動學習特征，這大大減少了網絡安全領域中的人工成本和時間成本。此外，在各個領域的研究結果都表明，神經網絡學習的特征在準確性方面優于人工生成的特征。另一方面，RNN已經被證明具有較長的記憶能力，可以處理可變長度的輸入，這給自然語言處理任務的效果帶來了極大改善。LSTM則進一步提高了RNN的性能，并支持在任意遠程依賴之間進行學習，通過適當的大語料庫注釋，可以為傳統機器學習方法提供一個可行的替代方案。

2 威脅情報信息抽取方法

威脅情報信息抽取包括命名實體識別和關系抽取兩個子任務，本文提出的TIIE方法以LSTM神經網絡模型為基礎，包含了基于LSTM-CRF模型的命名實體識別方法和基于LSTM-SDP的關系抽取方法。一方面，本文將Lample等人[11]提出的深度學習模型應用于威脅情報命名實體識別領域。該方法是LSTM、CRF和詞嵌入方法的組合，該方法實驗用的語料庫帶有網絡安全領域的命名實體標注，數據集中每一個單詞都帶有實體類別標簽。對于關系抽取任務，本文根據威脅情報文本特點，優化了Yan Xu等人[12]提出的基于最短依賴路徑的LSTM模型，這種神經結構利用了一個句子中兩個實體之間的最短依賴路徑，保留了關系分類所需的相關信息，并消除了句子中不重要的單詞。

2.1 長短時記憶神經網絡模型

LSTM是一種經典的遞歸神經網絡模型，它能夠檢測和學習輸入數據序列中的模式，其中，數據序列可以是時間序列、自然語言文本，也可以是語音、基因組等。遞歸神經網絡可以將當前輸入(例如，文本中的當前單詞)與上一個輸入(例如，文本中的前一個單詞)中學到的知識結合起來，然而RNN雖然在短序列中表現良好，但當處理的序列變得過長時，它會遇到梯度下降甚至消失的問題，當模型參數數量變多時，訓練RNN的難度顯著提高。

LSTM模型則可以解決長期依賴學習的問題，它引入了內存單元的概念，如圖2所示，它在內存中隨時間保持長期依賴狀態。LSTM結構單元由一個Sigmoid神經網絡層和一個點陣乘法運算組成，LSTM單元內的門(gate)選擇性地讓信息通過。其中，i代表輸入門，f代表忘記門，o代表輸出門，σ代表Sigmoid神經網絡層，W和b分別代表權重和Sigmoid層的常數，C代表神經細胞狀態。LSTM單元的運算過程如下：

圖2 LSTM神經網絡單元結構圖

ft=σ(Wf·[ht-1,xt]+bf)

(1)

it=σ(Wi·[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(wo[ht-1,xt]+bo)

(5)

ht=ot·tanh(Ct)

(6)

2.2 基于LSTM-CRF的命名實體識別方法

本節主要介紹了基于LSTM-CRF模型的命名實體識別方法，該方法的體系結構如圖3所示。

圖3 長短時記憶-條件隨機場模型結構圖

該方法包括三層結構。第一層是底部的輸入層，輸入單詞序列w1，w2，… ，wt，word2vec神經網絡會將每個單詞轉換為對應的向量xt，得到的詞向量序列x1，x2，… ，xn則被送入下一層，即雙向LSTM層。雙向LSTM層對輸入的向量進行訓練，并將輸出傳遞給最后一層，即CRF算法層。在CRF算法層產生神經網絡的最終輸出，預測單詞對應的概率最高的實體類別標簽。

該方法的雙向LSTM層由兩部分組成，正向LSTM從序列起點開始讀取輸入并向后移動，反向LSTM從序列的末尾開始讀取輸入并向前移動。正向LSTM基于當前詞語t計算其左側的文本信息lht，反向LSTM基于當前詞語t計算其右側的文本信息rht，最后，結合左右兩側的文本信息得到輸出結果，即ht=[lht;rht]。多項研究表明，雙向LSTM結構在命名實體識別任務中被證實有效。

2.3 基于LSTM-SDP的關系抽取方法

基于最短依賴路徑的長短時記憶神經網絡模型的體系結構如圖4所示。首先，使用Stanford解析器對句子進行解析，并生成依賴樹。其次，抽取最短依賴路徑作為神經網絡模型的輸入。除了最短依賴路徑信息以外，四種其他類型的信息也被向量化后傳入模型，包括命名實體、實體關系、POS標簽和WordNet上位詞。

圖4 長短時記憶-最短依賴路徑模型結構圖

兩個實體的共同節點將最短依賴路徑分離為左子路徑和右子路徑。這兩條子路徑分別由兩個RNN進行處理。在每個RNN中，LSTM單元用于信息傳遞，從這兩個子路徑傳遞的信息被傳入最大池化層，如圖4b。池化層連接后會傳最上方的隱藏層，最后輸出結果，如圖4a。

3 實驗驗證

本文對所提出方法的有效性進行實驗驗證。本實驗所使用的數據集為SCU-iGroup整理的Attack-Technique-Dataset數據集[13]，其中包含55篇網絡安全事件相關的報告。在命名實體識別任務中，訓練LSTM-CRF模型來識別威脅情報領域最常見的7個實體標簽，如表1所示，然后在相同的語料庫中訓練廣泛應用的CRFSuite模型[14]。本文將語料庫分成兩個子集，80%作為訓練集，20%作為測試集，以比較兩種模型的性能。同時，在關系抽取任務中，訓練兩個LSTM模型來抽取威脅情報領域的特定關系，如表2所示。同樣將語料庫分為80%的訓練集和20%的測試集，并分別比較LSTM-SDP和Miwa等人[15]提出的LSTM-STS兩種模型的抽取效果。

表1 威脅情報數據集實體數據統計

表2 威脅情報數據集關系數據統計

本實驗的評估指標為準確率P、召回率R和調和平均數F1，評價指標計算方法如下：

(7)

(8)

(9)

其中，TP表示標注為陽性的樣本中正確的數量，FP表示標注為陰性的樣本中錯誤的數量，FN表示標注為陽性的樣本中錯誤的數量。實驗從語料庫中留出的20%的測試數據來評估方法的有效性，將各個模型的結果按照上述評價指標進行比較，以評價每個模型的性能。

3.1 命名實體識別對比效果

我們對提出的LSTM-CRF方法和應用特征工程的CRF方法進行了評估。從SCU-iGroup整理的Attack-Technique-Dataset威脅情報數據集中選擇7個最常見的網絡安全實體標簽進行分組，分析兩種模型對于同一威脅情報數據集網絡安全領域的相對性能，標注的實體類型包括Vulnerability、Technique、Software、Group、Campaign、Target和Motivation。兩個模型在命名實體識別任務中的表現性能結果如表3所示。

表3 LSTM-CRF與CRF對比結果

從結果可知，根據準確率、召回率和F-1值各方面的性能指標來看，LSTM-CRF方法的結果要優于基于特征工程的CRF方法。每種方法對各個網絡安全命名實體標簽的識別結果如表4所示。

表4 LSTM-CRF與CRF對7種實體類型的抽取對比結果

3.2 關系抽取對比效果

本文對LSTM-SDP和LSTM-STS兩種模型的關系抽取效果進行對比，對比結果如表5所示。

表5 LSTM-SDP和LSTM-STS對比結果

從結果可知，基于最短依賴路徑的LSTM模型在準確率，召回率和F-1值各方面表現都優于基于序列和樹結構的LSTM模型。

4 結語

本文提出了基于神經網絡的威脅情報信息抽取方法，并通過實驗驗證了所提出方法的實現效果。實驗結果表明，與傳統的基于統計的方法相比，TIIE在命名實體識別和關系抽取領域的效果都有了顯著提高。傳統方法需要進行大量的特征工程，耗時費力，且訓練得到的模型只針對特定領域，難以在其他領域復用，而基于深度學習的方法減少了對特征工程的需求，預處理和訓練成本更低，具有一定的應用價值。在將來的研究工作中，可以繼續研究語料庫自動標注算法，并提高神經網絡模型精度，實現威脅情報信息的自動化抽取方法，供網絡安全從業人員使用。