俞海亮,彭冬亮,谷 雨*
(1.杭州電子科技大學 圣光機聯合學院,浙江 杭州 310018;2.杭州電子科技大學 自動化學院,浙江 杭州 310018)
隨著軍事信息化的快速發展,網絡公開的軍事新聞數據越來越多,但是非結構化的軍事武器信息不利于國防工作者提取有效信息,尤其軍事武器實體信息。因此,從非結構化的軍事文本新聞中準確識別出軍事武器實體、屬性、實體之間的關系等信息是至關重要的。軍事武器實體識別就是從海量公開軍事新聞數據中識別出軍事武器實體,是軍事知識本體庫構建的關鍵一步。常見的軍事武器實體包括飛機、艦船、坦克、火炮、槍械和導彈6大類,本文也是基于這6類武器實體構建數據集,實現識別任務,從而構建系統的軍事武器本體知識庫,為軍事武器情報信息檢索提供輔助支持。
傳統的實體識別方法主要以統計學和語言學為基礎,通過詞性分析和依存句法分析等技術人工建立規則模板實現文本的實體識別,主要包含基于規則的方法[1-2]、基于統計的方法[3-4]以及基于統計和規則相結合的方法[5-6]。隨著機器學習尤其是深度學習技術的發展,實體識別實現了重大突破,研究者借助支持向量機(Support Vector Machine,SVM)[7]、隱馬爾科夫模型(Hidden Markov Model,HMM)[8]和條件隨機場模型(Conditional Random Field,CRF)[9-10]將實體識別問題轉化為分類問題或者序列標注任務。
使用深度學習方法,可以利用深度學習模型自動學習詞語本身的向量化信息作為輸入,對輸入特征自動學習能力更強。趙洪等[11]提出了BiLSTM-CRF深度學習模型,該方法的F1值達到了84.52%,相比于以往基于統計學習和淺層機器學習方法效果有所提升。馬建紅等[12]為提高新能源汽車領域實體識別準確率,在使用BiLSTM提取特征基礎上,加入注意力機制(Attention Mechanism)[13],實現對關鍵詞信息的提取。實驗結果表明,加入注意力機制后,實驗精度進一步提高。2020年,吳俊等[14]提出基于BERT嵌入BiLSTM-CRF模型的中文專業實體識別研究,該模型相對于上述2種模型采用BERT字向量嵌入代替詞向量嵌入,該模型對實體提取的F1值為92.96%。
上述方法在輸入特征層面,都只考慮了字符特征或者詞典特征等單一特征,或者只是將二者進行了一個簡單拼接。然而實際情況是,對于某一特征在嵌入層以及在命名實體識別任務中的語義理解上的重要程度是不一樣的。因此為區別不同特征的重要性,本文提出了一種新的軍事武器實體識別方法,采用雙層自注意力機制與BiLSTM-CRF模型結合的方法識別候選實體,然后參考軍事武器實體構詞特點加入校驗機制,對候選實體過濾,從而得到最終實體。為驗證本文提出模型的性能,在自建的軍事武器實體識別數據集上,進行了消融實驗,實驗結果驗證了本文提出方法的有效性。論文主要創新點包括以下2個方面:
① 為了區別字符不同輸入特征對實體識別效果的影響,本文使用多頭自注意力對字符特征、位置特征以及標簽特征進行加權融合,從而獲得更優的字符嵌入。
② 針對具有軍事背景的武器實體識別任務,結合武器實體構詞特點,加入正則匹配模板,對模型識別的武器實體進行過濾,進一步降低了誤識別率。
注意力機制最早在計算機視覺領域被提出,它指出注意力機制可以對傳統的視覺搜索方法進行優化,通過調整視覺對網絡的處理,減少了需要處理的樣本數據并且增加了樣本的特征匹配[15-16]。
注意力機制的本質來自于人類視覺注意力機制,人類往往根據需求會著重關注于特定的一部分,而不是全部。在自然語言處理任務中,希望通過注意力機制能夠學習到對文本語義理解起關鍵作用的詞或者字符。
傳統的注意力機制廣泛應用于Encoder-Decoder框架中,輸入和輸出內容是不一樣的。比如對于機器翻譯任務來說,輸入是英文句子,輸出目標是對應中文句子,注意力機制發生在輸出目標元素和輸入元素之間,將查詢矩陣和鍵矩陣進行相似度計算得到權重。然后通過softmax函數對權重進行歸一化,最后將權重和相應的鍵值加權求和得到注意力表示,采用的是加權求和的方式。而自注意力機制只需要考慮輸入句子內部之間的信息,不需要考慮外部信息。然后通過計算每個詞和句子內部所有詞的注意力函數,所以可以更好地捕獲詞語在長距離文本依賴中的語義關系。
在軍事武器實體識別任務中,高質量的軍事新聞文本語料相對較少,而且軍事武器實體構成多為多種類型字符組合,如中英文混合以及與數字字符組合,給識別任務造成了一定的困難。因此,使用自注意力機制可以動態學習字符的關鍵特征,而且使用多頭自注意力機制也可以提取字符的重要語義特征,從而更準確地識別所有軍事武器實體。
軍事武器實體識別任務通常被當作序列標注任務來處理,模型整體結構如圖1所示。模型主要包括Embedding層、MHA-BiLSTM-MHA層以及CRF層。為了區分不同輸入特征在實體識別任務中的重要程度,本文在BiLSTM層之前加入多頭自注意力機制[17],使用多頭自注意力機制給予輸入特征不同的權重系數。BiLSTM層用于學習句子序列的時序信息,并且對文本進行特征提取,后面一層多頭自注意力層用于獲取文本序列的關鍵字符信息以及字符之間的依賴信息,最后通過CRF層獲得最終的標簽序列。

圖1 模型整體結構Fig.1 Overall structure of the model
軍事武器實體和其他命名實體有很大不同,它具有很強的軍事背景,構成較為復雜,通常由多種類型字符組合而成,例如“殲-20”“天燕1號”等。因此直接使用jieba等分詞器對原始新聞文本分詞,效果較差,分詞結果不符合軍事武器實體特點,從而導致生成的詞向量嵌入不具有武器實體語義特征。因此加入自定義敘詞表,將常見軍事武器實體加入自定義詞典中,然后對新聞文本進行分詞。
2.1.1 字符特征
字符特征表征字符的語義信息,本文首先在中文維基百科數據集中加入從新浪軍事網站爬取的大規模中文軍事數據,經過自定義軍事領域詞典進行分詞以及去除常見停用詞處理之后,使用word2vec訓練得到詞向量表Vw=[vw1,vw2,…,vwn],vwi表示經過訓練之后生成的每個字符的向量。
然后對于分詞后的軍事武器新聞文本數據在詞向量表中查找其對應的詞向量,對于沒有在詞向量表中找到的字符集合,隨機生成其向量,于是對于輸入序列得到其字符嵌入表示為Vc=[vc1,vc2,…,vcn],其中,vci表示第i個字符的嵌入向量。
2.1.2 位置特征
字符特征僅表征了字符本身的語義信息,對于文本理解實體的依賴關系沒有效果。位置特征則解決了該問題,例如對于新聞文本序列“武直-10兩側武器短翼可掛載反坦克導彈以及空對空導彈”,通過表示字符之間的位置特征,可以學習實體之間的依賴關系,以便于準確識別“武直-10”“反坦克導彈”“空對空導彈”所有武器實體,而且不會有所遺漏。
首先基于新聞文本中出現的所有字符集合構建詞典集合,然后通過前序詞典匹配以及后序詞典匹配方法,標記每個字符距離最近標簽實體的相對位置。然后通過向量化方式將其映射為低維向量,于是對于輸入文本序列可以得到其位置嵌入表示為Vp=[vp1,vp2,…,vpn],其中,vpi表示第i個字符的位置向量。
2.1.3 標簽特征
除了考慮字符特征和位置特征,也考慮了標簽特征。通過學習字符的標簽特征,可以將字符與標簽建立聯系,有助于對字符標簽的預測。本文采用BIO數據標注格式,對于分詞后的字符,得到其對應的“B-Gun”“I-Gun”“O”等標簽特征。
為了便于將標簽特征轉化為向量形式,將所有字符對應的標簽信息隨機初始化為一個向量,然后通過此向量代替對應的標簽信息,于是對于每一個輸入文本序列中的字符,都可以通過查找映射表得到該標簽的向量表示,從而對于每一段輸入文本序列都可以得到其標簽嵌入,表示為Vb=[vb1,vb2,…,vbn],其中,vbi表示第i個字符的標簽向量。
經過Embedding層,得到3種嵌入向量表示,傳統方法通常對3種向量做拼接得到最終BiLSTM層的輸入向量。該方法將所有特征默認看成是同等重要的,然而對于不同的文本序列,不同特征在語義理解上所產生的效果不同,因此有必要動態生成3種特征的權重,本文中采用多頭自注意力機制,生成3種特征的權重系數。
將輸入序列表示為S={x1,x2,…,xn},n為輸入文本序列的字符個數,使用多頭自注意力機制,對字符特征Vc、位置特征Vp和標簽特征Vb生成不同的權重系數,分別表示它們對文本語義理解的重要程度,于是最終的嵌入向量可以表示為:
V=α·Vc⊕β·Vp⊕γ·Vb,
(1)
式中,·表示乘積運算符;⊕表示向量拼接運算符。
2.2.1 BiLSTM神經網絡模型
本文采用了BiLSTM對輸入向量進行特征提取。BiLSTM網絡不止有前向傳播而且也包含反向傳播,因此可以學習到句子的前后時序信息,有助于文本的語義理解。BiLSTM網絡主要由LSTM網絡構成,LSTM單元結構如圖2所示。

圖2 LSTM單元結構Fig.2 Structure of LSTM unit
LSTM結構由3個門控單元組成,分別是輸入門、遺忘門和輸出門,計算公式為:
ft=σ(Wf·[ht-1,xt]+bf),
(2)
it=σ(Wi·[ht-1,xt]+bi),
(3)
(4)
(5)
ot=σ(Wo·[ht-1,xt]+bo),
(6)
ht=ot*tanh(Ct),
(7)
式中,ft,it,ot分別代表遺忘門、輸入門、輸出門;x,h表示輸入層、隱藏層;W,b代表權重矩陣和偏置向量;*為點積。BiLSTM模型通過對輸入文本特征提取,得到句子級別特征,最終輸出每個字符對應標簽類別的概矩陣記為矩陣P=[p1,p2,…,pn],其中,pi表示該字符對應各標簽類別的分數。
2.2.2 多頭自注意力機制
使用多頭自注意力機制可以學習文本序列中更為重要的信息,本文中2次使用多頭自注意力機制,分別是對特征嵌入,使用多頭自注意力機制得到3種特征輸入的權重系數,以及在BiLSTM特征提取過程中,使用多頭自注意力機制提取關鍵字符的語義信息。單個字符注意力計算公式為:
(8)

(9)
Q,K,V首先經過一個線性變換,然后輸入到放縮點積Attention,注意這里要做h次,也就是所謂的多頭,本文中h為8,頭之間參數不共享,即每次線性變換的參數W是不一樣的。然后將8次的放縮點積Attention結果進行拼接,再進行一次線性變換得到的值作為多頭Attention的結果。
經過MHA-BiLSTM-MHA層得到每個字符屬于哪一類標簽的概率矩陣P,也就是狀態分數矩陣同時也是CRF的發射概率矩陣,定義pij表示i字符對應標簽j的概率。對于預測序列y={y1,y2,…,yn},它的概率計算為:
(10)
式中,矩陣A是狀態轉移矩陣;Aij表示從標簽i轉移到標簽j的概率;y0,yn是預測句子開始和結束的標志。在訓練過程中標記序列的似然函數為:
(11)
通過式(11)可以計算出所有可能的標記輸出序列,最終通過式(12)輸出概率最大的一組標記序列,即為最優的標注結果:
(12)
盡管使用上述模型對軍事武器實體識別已有不錯的效果,但還是會存在一定的誤識別。所以對經過模型識別之后的武器實體進行二次過濾是很有必要的。對爬取的大量軍事武器新聞文本分析,發現軍事武器實體構詞有如下特點:軍事武器實體多為名詞或名詞短語組成,軍事武器實體命名規則單一,一般由4個部分中的幾個組合而成,分別是“武器系列”“型號字符串”“特定漢字”“武器系列”[18]。
參考以上軍事武器實體命名規則,如AK-47突擊步槍,由武器系列(英文字符AK),型號(數字47),武器類型(突擊步槍)組成,根據不同的軍事武器實體類型構建對應的正則表達式模板,部分規則匹配模板如表1所示。

表1 部分武器實體正則匹配模板Tab.1 Some weapon entity regular matching templates
結合軍事武器實體命名規則,按以下步驟對軍事武器實體進行過濾。先過濾掉非名詞和名詞短語的候選實體,然后利用正則匹配模板對候選實體進行下一步過濾,最后對刪除的候選實體進行人工校驗避免因模板不夠全面而導致的誤刪的情況,最終得到實體。對候選實體的校驗規則流程如圖3所示。

圖3 候選實體過濾流程Fig.3 Candidate entity filtering flowchart
利用網絡爬蟲技術以“武器”“坦克”“導彈”“航空母艦”等為關鍵詞爬取網絡公開軍事新聞數據,本文從新浪軍事網站(URL:https:∥mil.news.sina.com.cn/roll/index.d.html)爬取公開軍事新聞數據、原始數據為非結構化文本數據,然后對數據進行專題數據篩選,去除與軍事武器無關的軍事新聞數據,得到最終需要標注的數據。
通過閱讀現有的軍事武器實體庫,學習軍事武器專業實體,然后對以上數據采用BIO數據標注格式完成對語料的標注。B表示實體起始字符,I表示實體內部字符,O表示當前字符不再是實體,圖4給出了軍事武器實體標注示例。

圖4 軍事武器實體標注示例Fig.4 Examples of military weapon entity labeling
標注完成后,將標注后的數據集按照7∶2∶1分別劃分為訓練集、驗證集以及測試集。訓練集用于對模型的訓練,驗證集對學習過后的模型進行驗證,調整模型相應參數、優化模型,測試集最終評判模型的優劣。數據集統計信息如表2所示。

表2 數據集統計Tab.2 Statistics of datasets
本實驗的服務器環境配置如表3所示。

表3 實驗環境配置Tab.3 Configuration of experimental environment
本實驗的實驗參數設置如表4所示。

表4 實驗參數設置Tab.4 Settings of experimental parameters
為檢驗本文提出模型在軍事武器實體識別領域的具體效果,以BiLSTM-MHA-CRF為基準模型,作為本文提出的MHA-BiLSTM-MHA-CRF模型的實驗對比,模型的具體識別結果如表5所示。從實驗結果中可以看出,對于文本語義簡單的新聞文本,2種模型均能準確識別出所有武器實體,而對于存在干擾實體或者武器實體間距很小的新聞文本中,BiLSTM-MHA-CRF模型則會出現錯誤識別的情況,例如將“渦扇-10發動機”識別為飛機實體、“鷹擊62和鷹擊83空對艦導彈”識別為一個導彈實體。但MHA-BiLSTM-MHA-CRF模型依然能夠準確識別出所有實體,由此推斷出雙層自注意力相比于單層自注意力在實體識別方面更具有優勢。
為具體評判本文提出方法的性能,采用2階段對比實驗,驗證本文提出方法的優越性,首先采用不同模型在字符嵌入作為輸入特征上做實驗對比得到實驗結果,然后從一階段實驗結果中選取最佳模型作為基準模型與本文提出的雙層多頭自注意力機制模型分別在字符特征與融合特征方面做實驗對比,由此驗證本文提出方法的優勢。
采用精確率(Precision,P),召回率(Recall,R)和F1值(F1-score,F1)作為評價指標,得到一階段實驗結果如表6所示。

表6 基準模型實驗結果對比Tab.6 Comparison of benchmark model experiment results
從表6中的實驗1,2,4可知:CRF與HMM和BiLSTM相比,CRF表現出更好的性能,由此可以推斷出CRF在序列標注等任務上有較大的優勢;表6中的實驗3,5分別利用CNN網絡和BiLSTM網絡提取特征,然后使用CRF模型生成實體標注序列,發現CNN網絡和BiLSTM網絡相比,在提取文本序列特征時,CNN效果較差。而BiLSTM-CRF模型在使用BiLSTM網絡提取特征之后相比于CRF模型在精度、召回率和F1值上均有提升,說明BiLSTM在序列標注任務上提取特征是有效的,可以增強CRF模型的實體識別效果。
從表6中的實驗7可知:BiLSTM-MHA-CRF模型確實優于其他模型,因此將BiLSTM-MHA-CRF作為基準模型,與本文提出的MHA-BiLSTM-MHA-CRF模型進行實驗對比,論證雙層自注意力在輸入特征融合方面的優越性,實驗結果如表7所示。

表7 本文提出方法實驗結果對比Tab.7 Comparison of experimental results of the proposed method
從以上實驗結果可以看出,當使用字符、位置、標簽3種特征拼接作為BiLSTM-MHA-CRF模型輸入時,在精確率、召回率以及F1值方面均比僅使用字符特征嵌入有所提升。然后通過BiLSTM-MHA-CRF與MHA-BiLSTM-MHA-CRF模型對比,發現在字符特征嵌入對比實驗中,2種模型實驗在精確率等評價指標上很接近,但是在使用字符、位置和標簽3種特征融合時,MHA-BiLSTM-MHA-CRF相比于BiLSTM-MHA-CRF在精確率、召回率以及F1值上分別提升了0.92%,0.9%,0.82%,由此可以看出,在BiLSTM層之前使用多頭自注意力機制確實可以對輸入特征向量進行有效的加權融合,可以在不同新聞文本實體識別過程中動態地賦予關鍵特征更高的權重,使得識別效果達到更優。最后,通過結合軍事武器實體構成特點,加入校驗機制對武器實體進一步過濾,可以進一步完善實體識別效果。
本文提出了一種結合雙層多頭自注意力機制和BiLSTM-CRF模型的軍事武器實體識別方法,實驗結果表明通過雙層多頭自注意力機制,不僅可以在BiLSTM層之后找到關鍵字符信息,而且能夠在BiLSTM層之前對輸入的不同特征進行有效的加權融合,生成最終輸入的特征嵌入,使得實體識別效果更好,同時對于軍事武器實體,利用正則匹配構建規則模板對武器實體過濾也具有不錯的效果。