999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息安全領域內實體共指消解技術研究

2020-03-05 10:00:28張晗胡永進郭淵博陳吉成
通信學報 2020年2期
關鍵詞:單詞方法模型

張晗,胡永進,郭淵博,陳吉成

(1.信息工程大學密碼工程學院,河南 鄭州 450001;2.鄭州大學軟件學院,河南 鄭州 450000;3.信息工程大學信息技術研究所,河南 鄭州 450001)

1 引言

實體的共指消解(CR,coreference resolution)旨在解決文檔中對實體的重復引用問題,是自然語言處理(NLP,natural language processing)研究的核心內容[1]。它主要用于提高其他NLP 任務中諸如機器翻譯[2-4]、情感分析[5-7]、關系提取[8-10]以及摘要自動生成[11-12]等任務的性能。目前,這項研究多集中在通用領域,主要原因在于:1)關于通用領域的共指消解技術有豐富的研究經驗[13-25];2)通用領域內的標注語料充足,例如自動內容抽取(ACE,automatic content extraction)語料庫[26]、CoNLL-2012[27]、Parcor 語料庫[28]等。而關于此項工作在信息安全領域的研究,目前并未找到相關的研究文獻。

但是,這并不意味著在信息安全領域內不需要此項工作。例如“As the world’s first cyber ‘super destructive weapon’,Stuxnet has infected more than 45 000 networks around the world.Computer security experts believe the virus is the highest level ‘worm’ever.The new virus uses a variety of advanced technologies,so it is extremely stealthy and destructive.”,在這句話中,“Stuxnet”“the virus”“the new virus”和“it”代表的都是同一個實體“Stunxnet”。通過共指消解,可以獲得“Stunxnet”與“the highest level worm”之間是“is-a”的關系,這將提高從文本中提取實體屬性關系的準確性,從而使信息安全領域內知識圖譜更加完善,而知識圖譜的完善也會使其對威脅的預警更加精確。

常用的共指消解技術有3 種:第一種是基于規則的方法[13-16],第二種是基于統計的方法[17-20],第三種是基于深度學習的方法[21-25]。其中,第一種方法依賴于手工定制的規則,覆蓋面較窄,靈活性較差,不能很好地處理豐富的詞匯信息;第二種方法雖然可以處理豐富的詞匯特征,但是有學者認為從準確性上第二種方法的表現弱于第一種方法[29];第三種方法更適用于包含大規模標注數據的領域,而信息安全領域缺乏大規模的可用于共指消解的標注數據,因此該方法并不適用于信息安全領域。文獻[19]采用將規則與統計相結合的方法來解決共指消解的問題,雖然該文獻提出的方法在通用領域達到了比較理想的效果,但是信息安全領域由于其特殊性與通用實體共指消解有所不同,歸納如下。

1)處理實體類型不同,所以提取候選詞的詞類不同。在通用領域內,進行提取和消解的實體類型為人名、地名、組織名等;信息安全領域內的實體類型多與“產品”“漏洞”“攻擊”相關,因此實體的組合形式通常是以短語的形式出現,例如“Advanced Persistent Threat”。而且,這些實體通常為物體,文本中經常會出現類似于“damage of the virus”形式的短語,其中的“the virus”也是需要提取的待消解詞,因此對于信息安全領域中的文本,待提取詞除了簡單的名詞、代詞、專有名詞之外,還包括名詞短語以及一些名詞短語中包含的嵌套短語。

2)待提取的詞類不同,所以提取方法不同。例如,文獻[19]中提取的候選詞包括文本中所有的普通名詞、專有名詞以及代詞,提取時用到的是諸如同位語、謂語主格以及角色同位語之類的句法模式。而對于信息安全領域中的文本來說,根據句法模式提取出的候選詞并不能滿足需要,因此要用到的提取方法也與文獻[19]不同。

3)對待消解詞進行消解時用到的特征不同。例如,在通用領域對實體類型“人名”進行消解時,可以將性別作為一個重要特征進行考量;而信息安全領域的實體類型多為第三人稱形式表示,沒有性別特征。

4)相較于通用領域,信息安全領域文本中含有大量的術語和專有名詞以及縮寫。雖然通用領域中也有一些關于國家或者地名的縮寫,但是文獻[19]以OntoNotes[30]作為參考并沒有對此類縮寫進行專門處理。

針對以上問題,本文提出了一種混合的方法來解決信息安全領域內的共指消解問題。本文工作主要分為2 個部分:1)從給定文檔中提取出所有的候選詞語(包括名詞性短語、代詞、實體以及嵌套短語)并進行分類;2)對待消解項進行共指消解。本文研究團隊在之前的工作中[31],提出了一種BiLSTM+attention+CRF 模型來進行文檔中的命名實體識別,解決了文檔中存在的同一實體標注不一致的問題,例如Advanced Persistent Threat 和APT。該模型是在經典BiLSTM-CRF 模型的基礎上加入Attention 機制來關注當前實體與文檔中其他所有單詞的相關性,得到該單詞在文檔層面的特征表示,再進行實體的抽取和分類。但是通過實驗發現,該模型對訓練集中沒有出現過的稀有實體以及長度較長的實體識別能力稍弱,因此本文對該模型進行了改進,提出了一種改進之后的模型BiLSTM+dic_attention+CRF。該模型引入了領域詞典匹配機制,將其與文檔層面的注意力機制相結合,作為一種新的基于字典的注意力機制來計算單詞特征。此外,由于要提取的候選詞除了實體之外還包括一些名詞性短語、代詞以及嵌套短語。如果只使用BiLSTM+dic_attention+CRF 模型來提取名詞性短語和嵌套短語,需要浪費大量的人力物力來標注數據,而名詞短語和嵌套短語具有一定的語法規則可以進行歸納總結,因此,本文采用規則+BiLSTM+dic_attention+CRF 模型的方式來進行候選詞的抽取和分類。本文所做貢獻如下。

1)提出一種將規則與深度學習模型(BiLSTM+dic_attention+CRF)相結合的方法來解決信息安全領域內從文本中提取候選詞及分類的問題。

2)提出一種將規則與機器學習相結合的混合型方法來解決信息安全領域內的共指消解問題。

與現有方法相比,本文所提出的方法在信息安全領域的數據集上達到了更好的性能。

2 相關工作

關于共指消解的研究由來已久,早期主要集中在基于規則的方法,包括基于語法的Hobbs 理論[13]、基于對話的Centering 理論[14]和基于語法的RAP 算法[15]。在21 世紀早期,一部分學者認為這種基于規則的方法在表現性能上要優于機器學習的方法[29],但是,基于規則的方法的缺點也非常明顯,它過于依賴人們手工制定規則的能力,規則制定的好壞將直接影響方法的性能,并且基于規則的方法靈活性較差,耗費人力過多。共指消解中關于機器學習的研究主要集中在訓練分類器[1],其中決策樹和隨機森林是最常用的分類器[17-19]。文獻[19]提出了一種將規則與統計分類器相結合的方法來進行共指消解,該方法針對每一種要進行共指消解的類型都訓練了一個統計分類器,通過實驗不僅證明了這種混合型方法優于基于規則的共指消解方法,還證明了隨機森林作為共指消解分類器的優越性。但是該方法僅針對通用領域內的共指消解,因此在選擇特征時也是根據通用領域內的文本數據進行選擇的。隨著深度學習模型在自然語言處理領域的應用,它們也逐漸被應用于共指消解任務[21-25]。文獻[21]提出了第一個關于共指消解的深度學習模型,它通過對2 個單獨的子任務(回指檢測和先行詞排序)進行預訓練,以學習不同的特征表示。該模型也證明了從實體類群中獲取全局特征有利于提高共指消解的性能,但該文獻的前提是實體類群是已經事先分類完成的,而本文的工作是首先從文本中提取相關的候選詞,因此本文將文獻[21]中的實體類群中的全局特征轉換成了文檔中的全局特征。文獻[22]將檢測候選詞與共指消解相結合,它首先使用卷積神經網絡(CNN,convolutional neural network)學習字符的特征,通過LSTM 學習單詞的特征,然后通過Attention 機制學習候選詞的特征表示,并通過一個前饋神經網絡對候選詞對應的先行詞進行排序。該模型所使用的深度神經網絡非常龐大,因此很難維護。

除了這些應用于通用領域的研究之外,生物領域內的共指消解研究也有所發展,主要原因在于,生物領域也具有諸如MEDSTRACT[32]和MEDCo[33]這樣的大型標注語料庫。典型的應用包括文獻[34]中提出的一種基于機器學習和規則的混合方法,它的F1 值為60.9%,是目前生物領域內性能最先進的方法。

針對以上方法中存在的各種問題,本文提出了一種混合型的方法來處理信息安全領域內的共指消解,將從文本中提取待消解項也作為工作的一部分。首先,采用一種規則與深度學習模型相結合的方法來提取文本中的待消解項。其次,采用規則和隨機森林的方法進行共指消解。與深度學習的方法相比,這種方法結構簡單,需要的訓練數據較少。并且本文通過對信息安全領域內文本的研究,挖掘出了適用于信息安全領域共指消解的數據特征并制定出一套規則,可用于信息安全領域的共指消解。

3 基于規則與機器學習的共指消解方法

本文提出了一種將規則與機器學習混合的方法來進行共指消解。該方法的工作分為2 個部分:1)從給定文檔中提取所有的候選詞語(包括名詞性短語、代詞、實體以及嵌套短語)并進行分類;2)對待消解項進行共指消解。方法框架如圖1 所示。

從圖1 中可以看出,該方法分為提取候選詞和共指消解這2 個部分。其中,提取候選詞部分由規則+BiLSTM+dic_ttention+CRF 混合而成,用于提取文本中的待消解詞并進行分類,該部分對應3.1 節的內容。共指消解則主要對分類之后的待消解詞進行共指消解,該部分對應3.2 節的內容。圖1 中,最底層的其他特征代表3.1.2 節中除了單詞特征之外的其他特征;頂層中的其他特征代表3.2.2 節中的名詞短語共指消解除了類型一致性之外的其他特征;D(wi)表示單詞wi在領域詞典中的匹配度;Wd表示單詞匹配度所占的權重;表示單詞wi在文檔層面的特征表示;gi表示單詞wi基于領域詞典的新的文檔層面特征表示。

3.1 提取候選詞語并分類

圖1 方法框架

本文要提取的候選詞包括名詞性短語、代詞、實體以及嵌套短語,可將其分為名詞性短語和嵌套短語的提取以及實體的提取。名詞性短語和嵌套短語的提取采用規則的形式進行提取,實體的提取采用BiLSTM+dic_ttention+CRF 模型進行提取。具體架構如圖1 中的提取候選詞部分所示。

3.1.1 名詞短語和嵌套短語的提取規則

通常情況下,名詞短語是由名詞以及它的修飾語組成,中心詞為名詞。名詞的修飾語與名詞有2種位置關系:一是放在被修飾名詞的前面,叫作前置定語或定語;二是放在被修飾名詞的后面,叫作后置定語。通過對信息安全領域內語料的分析發現,需要進行共指消解的名詞短語通常為前置定語名詞短語,因此這里只考慮第一種位置關系的情況。

一般來說,作為前置定語的詞類有2 種:其一是限定詞,用來限定名詞所指范圍,例如these、three、a、the、my 等;其二是形容詞,用來表示名詞的性質和特征,比如red、close、new、small 等。因此,可以通過如下規則來獲取名詞性短語。

假設U1表示冠詞集合,U2表示形容詞性物主代詞集合,U3表示名詞性物主代詞集合,U4表示指示限定詞集合,U5表示數量詞集合,U6表示基數詞集合,N表示名詞集合,NP 表示名詞短語集合,AD 表示形容詞集合,集合U=U1∪U2∪U3∪U4∪U5∪U6。

1)如果單詞a屬于冠詞、形容詞性物主代詞、名詞性物主代詞、指示限定詞、數詞、量詞、基數詞等集合中的任意一個單詞,單詞b屬于名詞集合,則ab構成名詞性短語。

2)如果單詞c屬于形容詞,單詞b屬于名詞集合,則cb構成名詞短語。

3)acb屬于名詞短語。

可表示為

其中,BEL 表示謂語動詞“屬于”。

除此之外,還要提取嵌套短語。嵌套短語通常存在于所提取出的名詞短語中,通過對嵌套短語的語法分析,制定出如下提取規則。

假設NNP 表示嵌套短語集合,ONP 表示所有格名詞短語集合,P表示介詞集合。

1)嵌套短語來自所有格名詞短語。例如,短語“its methods”中的嵌套短語是代詞“its”“stuxnet’s damage”中的嵌套短語是專有名詞“stuxnet”,可表示為

2)嵌套短語是名詞性短語中的名詞或介詞。例如,名詞性短語“efficiency reduction”中嵌套短語是“efficiency”,可表示為

如果提取出的名詞性短語中包含實體,那么只提取實體部分。

3.1.2 實體提取和分類

1)輸入特征

在圖1 中,除了使用制定的規則來提取名詞短語和嵌套名詞短語之外,還要使用模型BiLSTMdic_attention-CRF 對文本中的實體進行提取和分類。此時,模型的輸入特征包括以下幾個方面。

①單詞特征。單詞特征又被稱為分布式單詞表示,可以從一個大型的未標記語料庫中獲取單詞的語義和句法信息。Word2vec 是最常用的單詞向量訓練工具。為了獲得高質量的單詞向量表示,本文使用文獻[31]中從CVE語料庫中收集的94 534條漏洞記錄描述進行單詞向量訓練。

② 詞性標注特征(PoS,part of speech)。詞性標注特征也被稱為語法標注或詞類消疑,是語料庫語言學中將語料庫內單詞的詞性按其含義和上下文內容進行標記的文本數據處理技術。人們要提取的候選詞,特別是名詞性短語和嵌套短語,都要用到單詞的詞性標注信息,因此,詞性標注需要作為重要的輸入特征。本文使用Stanford CoreNLP 作為詞性標注工具。

③字符特征。字符特征包含實體名稱的結構信息,可以表示實體名稱的特定組成,特別是在信息安全領域。例如,影響Windows 的PE 病毒Backdoor.Win32.Gpigeon.pd 和Backdoor.Win32.Gpigeon2010.pc具有相同的前綴,因此,當模型遇到這些單詞時,人們可以根據它的前綴判斷出它是Windows 的PE病毒的名稱。與傳統手工設計的字符特征不同,人們可以通過訓練得到單詞的字符特征向量。因為英文中的字符個數有限,構造出的字符表遠遠小于詞表,因此本文采用文獻[35]中提到的字符訓練方法,通過PoS 標記來對字符進行訓練,并進行大小寫字符及特殊字符的區分。

2)BiLSTM-dic_attention-CRF 模型

BiLSTM-dic_attention-CRF 模型是在BiLSTMattention-CRF 模型的基礎上添加了領域詞典,將其與原來的文檔層面Attention 機制相結合,作為一種新的基于字典的注意力機制來計算單詞特征,以解決BiLSTM-attention-CRF模型對訓練集中未出現過的稀有實體以及長度較長實體識別稍弱的問題。本文模型中使用到的領域詞典是本文研究團隊在之前的工作[36]中,通過wikipedia 和信息安全領域的UCO(unified cybersecurity ontology)構造出來的。

假設有文檔D={s1,s2,…,sn},其中,si={w1,w2,…,wm}為組成文檔D的第i個句子,wi={c1,c2,…,ck}為句子si的第i個單詞表示,ci是單詞wi的第i個字符特征表示,pi表示單詞wi的詞性特征表示,則可以得到關于單詞wi的新的特征表示hi為

其中,hi作為Attention 層的輸入,Attention 層主要用來計算單詞wi與文本中其他單詞w(jj=1,2,3,…,i-1,i+1,…,mn)的關聯度,該權重值aij可表示為式(3)。

其中,Wa為需要訓練的模型參數。

這里引入了領域詞典匹配機制,將其與Attention 機制相結合,計算出新的基于領域詞典的全局特征表示gi如式(8)所示。

接下來,使用一個tanh 層來獲取單詞wi與文檔中其他單詞相關的特征表示。

3.2 候選詞的共指消解

由于在信息安全領域缺乏大規模的可用于共指消解的標注語料,因此,本文提出一種將規則與機器學習相結合的方法來進行候選詞的共指消解。需要進行共指消解的候選詞包括代詞以及名詞短語(本文提取的實體屬于名詞,也劃分進名詞短語中)。

其中,最難解決的部分是關于代詞的共指消解,它與語句的語法結構有著極大的關系[1],因此這部分工作將采用定制規則的形式完成;關于名詞短語的共指消解,則使用機器學習的方法完成。

3.2.1 代詞的共指消解

通過對收集來的文本進行分析,需要進行共指消解的代詞分為2 種:第一種是關系代詞;第二種是人稱代詞,由于信息安全領域中不存在人物作為實體,因此本文僅對第三人稱代詞進行消解。

1)關系代詞消解

關系代詞的先行詞通常在同一個句子中。對于關系代詞,選擇所有位于它前面的名詞短語作為它的候選先行詞。然后根據句子的句法分析樹,提取關系代詞與候選詞之間的句法分析路徑并選擇最短路徑,將距離最近的名詞短語作為關系代詞的先行詞。舉例說明如下。

例1Sentence:(Autoruns)1revealed that there are (two core files)2(Mrxcls.sys)3and (Mrxnet.sys)4in (the Stunex)5(which)? was (the first malicious code)to damage (the industry control system)in the world。

消解例1 分析結果如表1 所示。通過對例句進行句法分析,提取從關系代詞到各候選詞之間的分析路徑,其中最短的一條為“NP-NP-SBARWHNP”,對應的候選詞為“the Stunex”,則該候選詞即是關系代詞“which”的先行詞。

表1 消解例1 分析結果

2)第三人稱代詞消解

人稱代詞的先行詞最有可能位于同一句或前一句。首先在同一個句子中搜索候選先行詞,如果候選集為空,則從前一個句子中重新提取候選詞并找到可能的先行詞。由于人稱代詞必須指代實體,因此只保留安全領域實體候選詞。如果候選集不為空,則將語法解析樹從人稱代詞節點開始從下往上移動,如果有并列結構(包括并列名詞短語、并列動詞短語和并列從句),則選取第一段子結構中距離最遠的候選詞(按詞距計算)作為人稱代詞的先行詞;否則,從語法解析樹中找到最近的子句或句子,選擇其中距離最遠的候選詞作為先行詞。舉例說明如下。

例2Sentence:(Stuxnet)1searches for (specific programs)2,accesses (industrial control systems)3,((its)?attack object)is the target program development tool。

消解例2 分析結果如表2 所示。“its”的實體候選詞為“Stuxnet”“specific programs”和“industrial control systems”,其中,有2 個并列結構作為候選,分別是“(Stuxnet)1searches for (specific programs)2”和“accesses (industrial control systems)3”,這里,“(Stuxnet)1searches for (specific programs)2”為句子中的第一段并列結構,里面包含了2 個實體候選詞“(Stuxnet)1”和“(specific programs)2”,“(Stuxnet)1”距離“its”最遠,即為先行詞。

表2 消解例2 分析結果

3.2.2 名詞短語的共指消解

首先,介紹進行機器學習時需要使用到的特征向量,每個特征是通過比較2 個待消解項之間相應的屬性得來的,如下所示。

1)所屬類別是否一致。在3.1 節抽取候選詞的同時對其進行了分類,直接比較2 個待消解項的類型是否一致,為二值屬性,一致為真,不一致為假。

2)別名和簡稱是否一致。如果2 個待消解項其中一個是另外一個的別名或者簡稱,則值為真,反之則為假。

3)單復數是否一致。分析2 個待消解項后所跟動詞或者系動詞的形式,判斷單復數是否一致,一致為真,不一致為假。

4)2 個待消解項在文本中的距離。用2 個待消解項在文本中所間隔的句子條數表示。

5)名稱相似性。例如短語“the virus”通常與某個病毒的名稱具有相同的指代,與含有“product”“company”等詞語的短語則不會。

6)同位語。通過句法分析器可以判斷出2 個待消解項中的一個是否為另外一個的同位語,同時獲取這2 個待消解項的同位語成分。

7)中心詞的相似性。通常情況下,認為名詞短語中的中心詞是名詞,本文通過余弦相似度來比較2 個名詞短語的中心詞的相似性。

8)結尾詞的相似性。使用余弦相似度比較2個名詞短語的最后一個單詞的相似性。

接下來,進行構造訓練集。假設文檔中含有一條指代鏈A1-A2-A3-A4,在這條鏈中直接相鄰的指代項對(如A1-A2,A2-A3,A3-A4)生成正訓練樣本。在這樣的指代項對中,第一個名詞短語通常被認為是先行詞,而第二個名詞短語則是后置詞。負訓練樣本的提取如下。例如,有 B1和 B2是出現在 A1和A2之間的其他對象,那么可以得出負訓練樣本為A1-B1,A1-B2,B1-A2,B2-A2。舉例說明如下。

例3Sentence:As the world’s first cyber“super destructive weapon”,has infected more than 45,000 networks around the world.believeisever.uses a variety of advanced technologies,so it is extremely stealthy and destructive。

共指消解的問題事實上就是一個對候選詞進行分類的問題,因此,本文采用隨機森林算法來解決此問題。隨機森林算法是一個包含多棵決策樹的分類器,易于實現,計算開銷也很少。

圖2 舉例說明了使用隨機森林算法進行共指消解的過程。假設此時要對候選詞“the virus”進行消解,算法首先根據該候選詞找出某個范圍內的所有可能的先行詞(一般情況下選擇前后相鄰的2 個句子中的所有名詞短語)。選擇具有最高置信度的指代鏈中的先行詞作為該候選詞的先行詞。通過設置一個最小的置信閾值ti來控制指代鏈過度生成,如果不存在置信度值大于ti的指代鏈,則該候選詞沒有共指先行詞(此狀態可能會在后續消解過程中更改)。其中,ti的值可通過訓練得出。

圖2 共指消解示例

4 實驗及結果分析

本文驗證部分進行了4 個實驗。實驗1 獲取了所提方法在領域詞典匹配度權重dW的最佳取值;實驗2 通過與其他基準模型的比較,驗證了所提方法在信息安全領域語料上進行共指消解的優越性能;實驗3 證明了單個特征對名詞短語共指消解的影響程度;實驗4 驗證了所提方法與其他基準模型相比在候選詞提取時的優越表現,并驗證了領域詞典匹配機制的加入對之前工作[31]在實體提取和分類時的改進。

4.1 數據來源

本文使用的實驗數據來自之前工作[31]所收集的信息安全領域文本,包括 we live security、threatpost 等處的博客文章,CVE(common vulnerabilities and exposures)描述,微軟安全公告以及信息安全類文章摘要,從中摘取了20 篇摘要、45篇博客文章、59 段CVE 描述以及50 篇微軟安全公告,共包含9 123 條句子。在之前的工作中,已經對這些文本中的實體標注了類型,因此這些標注語料可作為BiLSTM+dic_attention+CRF 模型的訓練數據,從中抽取了20 篇安全報告和20 篇博客標注了指代鏈,共獲取指代鏈45 932條,其中正訓練樣本為7.5%。這些指代鏈將作為機器學習的訓練數據。

由于負訓練樣本的數據遠多于正訓練樣本,為了減少訓練時間,本文采取了文獻[19]的負樣本抽取方法,具體步驟如下。

1)使用訓練數據集中所有的正訓練樣本,隨機抽取10%的負訓練樣本,進行分類器的訓練。

2)檢查所有負訓練樣本的分類器置信值(即估計概率),只保留前10%最模糊的負訓練樣本,即與正訓練樣本相比置信值最高的負訓練樣本。本文使用這些信息量更大的負訓練樣本和所有正訓練樣本來訓練最終的分類器。

4.2 實驗設置

設置特征向量的維度為300,BiLSTM 中的神經單元數為1 000,最小批次個數為64,最大迭代次數為100。使用文獻[37]中提到的方法更新模型參數,并設置學習效率為10-3,l2為10-5。為了避免過擬合,本文采用 dropout 技術。BiLSTM 和Attention 層的dropout 值分別為0.3 和0.5。隨機森林中的參數設置主要是對其中單個決策樹的參數設置,最小置信閾值為30%,葉子節點最小樣本數設置為5,最大深度為默認值,決策樹的個數為100。這些參數都是在訓練集合中通過10 倍交叉驗證得出的。

實驗是在2 個NVIDIA GTX 1080Ti GPU 和內存為64 GB 的機器上完成的,模型訓練時間約為1 h。

4.3 實驗結果與分析

實驗1驗證BiLSTM-dic_attention-CRF 模型中領域詞典匹配度權重dW的取值。在實驗1 中,提取的信息安全領域實體包括4 種類型,分別是“product”“vulnerability”“attacker”和“company”,以0.05 的步長將權重值從低到高進行設置,其他參數保持不變,其表現性能如圖3 所示。其中,P代表準確率,R代表召回率,F代表F-Measure。

圖3 Wd取不同值時模型的性能

從圖3 可以看出,Wd=0.25 時模型性能最優,此時F=0.78。

實驗2驗證本文所提方法在信息安全領域共指消解的優越性。使用的4 個基準模型為文獻[19]所提的scaffolding approach、Soon 等[17]方法、Zhang等[23]方法、Wiseman 等[24]方法。將基準模型與本文所提模型一起應用在信息安全領域數據中,實驗結果如表3 所示。

表3 各模型性能

從表3 中可以看出,本文所提模型在信息安全領域數據的表現性能要優于其他4 個模型。通過對錯誤樣本的分析可以看出,Wiseman 等[24]方法的主要核心在于使用RNN 學習實體類群中每一個實體的潛在全局表示,再通過RNN 對這些實體進行共指消解。但是本文模型并沒有給出具體的聚類方式,而是默認實體已經聚類完成。于是,先利用本文所提模型將文本中需要進行共指消解的候選詞提取出來,然后采用最簡單的k-means 聚類法對這些候選詞進行聚類,但是實驗后的結果并不理想。通過分析得出,在對這些實體聚類時,通常會把不具備領域特征的代詞聚在一起,對這些類群學習全局特征表示時,很難學習到領域特征,這無疑會影響后續共指消解的性能。scaffolding approach[19]和Soo 等[17]方法所處理的文本都是通用領域的文本,所制定的特征大都針對“organization”“person”等通用領域內的類型實體,因此在對信息安全領域內數據共指消解時的表現較差。Zhang 等[23]方法通過Biaffine Attention 機制以及優化候選詞提取損失函數進行共指消解,需要大量的標注訓練數據來訓練參數,因此雖然在CoNLL-2012 數據集中取得了優良的表現,但是在標注數據有限的信息安全領域數據集中表現稍弱。

實驗3針對單個特征對模型的影響進行實驗。8 種特征對應的數字編號如表4 所示。

表4 特征對應的數字編號

單個特征值對模型性能的影響如圖4 所示。

從圖4 中可以看出,在所有特征中,同位語特征對共指消解性能的影響最小,主要原因是對同位語的認定比較復雜,對于一些語法結構相對比較復雜的語句,僅依靠句法分析工具判定句子中的同位語準確率并不高。此外,中心詞相似性及別名和簡稱特征對共指消解性能的影響最高,主要原因分析發現如下:1)在信息安全領域的文本中含有很多領域內的專業術語及簡稱,例如,Advanced Persistent Threat 簡稱APT;2)對名詞短語來說,中心詞往往決定了該短語的主要含義。

圖4 單個特征值對模型性能影響

實驗4對文本中候選詞提取的效果也會影響共指消解的效果,因此驗證本文所提的將規則與神經網絡模型(BiLSTM-dic_attention-CRF)相結合進行提取候選詞的方法(簡稱rule-based BiLSTMdic_attention-CRF)的性能。這里使用的基準模型包括實驗2 中的3 個基準模型,以及本文之前工作[31]中的方法,此處用previous work 表示。實驗4 提取的信息安全領域實體包括 4 種類型,分別是“product”“vulnerability”“attacker”和“company”。實驗結果如表5 所示。

表5 各模型提取候選詞的性能表現

從表5 中可以看出,本文所提方法(rule-based BiLSTM-dic_attention-CRF)在信息安全領域數據上的性能優于目前已知的提取候選詞方法,主要原因在于,本文所提方法除了依賴深度學習之外,還通過對信息安全領域中的數據文本進行分析,總結出了一套與之相契合的提取規則,兩者結合在一起才能達到較好的效果。圖5 展示了BiLSTM-dic_ttention-CRF 模型和本文之前的模型(previous work)對例句“Stunex searches for specific programs access industrial controlsystems”的實體提取分類效果。其中,B、I、O 表示的是BIO 標注,如果單詞被標注為B,表示該單詞為某個片段的開頭,同理,I 表示該單詞在片段的中間位置,O 表示不屬于任何類型。

圖5 2 種模型對例句的實體提取分類效果

基于文檔層面特征向量在進行實體提取工作時的優越性已經在本文之前的工作[31]中進行了驗證,此處不再贅述。

通過對rule-based BiLSTM-dic_attention-CRF提取出的錯誤結果進行分析,本文方法依然存在著候選詞提取邊界過長、先行詞中單詞缺失以及候選詞為無用候選詞(即無共指關系)等問題,有待于進一步解決。

5 結束語

本文提出了一種混合方法來解決信息安全領域內的共指消解任務中的2 個問題:1)從給定文檔中提取出所有的候選詞語并進行分類;2)篩選出符合條件的待消解項進行共指消解。本文針對信息安全領域內文本的特點制定出一套規則并與深度學習模型(BiLSTM-dic_attention-CRF)相結合來解決對文本中候選詞語的提取和分類問題,將共指消解分解成代詞的共指消解和名詞短語的共指消解,代詞消解通過規則完成,而名詞短語的共指消解通過機器學習完成。實驗證明,本文所提方法相較于其他基于通用領域構造的模型,在信息安全領域上的應用性能更加優越。

猜你喜歡
單詞方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 丰满的少妇人妻无码区| 波多野结衣一级毛片| 午夜国产在线观看| 国产精品成人啪精品视频| 久久99精品国产麻豆宅宅| 婷婷六月激情综合一区| 国产人成网线在线播放va| 亚洲人成网站日本片| 国产网站免费| 无码内射在线| 在线观看亚洲精品福利片| 高清视频一区| 免费啪啪网址| 免费无遮挡AV| 特级aaaaaaaaa毛片免费视频| 亚洲AV人人澡人人双人| 亚洲 欧美 中文 AⅤ在线视频| 亚洲一区二区三区中文字幕5566| 夜夜拍夜夜爽| 精品国产乱码久久久久久一区二区| 漂亮人妻被中出中文字幕久久| 青草视频久久| 免费国产小视频在线观看| 欧美专区日韩专区| 亚洲欧美国产五月天综合| 日韩天堂视频| 国产黄色片在线看| 日韩不卡免费视频| 国产在线视频导航| 亚洲最黄视频| 国产女同自拍视频| 青青操视频在线| 国产嫖妓91东北老熟女久久一| 亚洲国产欧洲精品路线久久| 视频一区视频二区日韩专区| 国产精彩视频在线观看| 国产精品所毛片视频| 女人一级毛片| a国产精品| 国产欧美精品专区一区二区| 人妻无码中文字幕一区二区三区| 秋霞国产在线| 久久久久夜色精品波多野结衣| 久操中文在线| 久久99蜜桃精品久久久久小说| 91精品国产自产在线老师啪l| 波多野结衣一区二区三区四区| 在线欧美一区| 日韩在线1| 国产女主播一区| 扒开粉嫩的小缝隙喷白浆视频| 2019国产在线| 国产精品浪潮Av| 中文字幕欧美日韩高清| 亚洲人成电影在线播放| 97免费在线观看视频| 亚洲欧美一区二区三区蜜芽| 人人妻人人澡人人爽欧美一区| 亚洲一级无毛片无码在线免费视频| 人与鲁专区| 亚洲日韩在线满18点击进入| 人妻少妇久久久久久97人妻| 亚洲精品国产自在现线最新| 亚洲精品你懂的| 99久久精品免费看国产电影| 国产原创第一页在线观看| 国产精品吹潮在线观看中文| 国产精品成人第一区| 人妻21p大胆| 久久精品无码国产一区二区三区| 无码精品国产VA在线观看DVD | 国产成人高清在线精品| 亚洲无线观看| 午夜视频免费试看| 国产av无码日韩av无码网站| 亚洲最大福利网站| 国产精品福利一区二区久久| 精品成人免费自拍视频| 国产日韩AV高潮在线| a毛片在线| 国产爽妇精品| 亚洲av无码久久无遮挡|