999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Bi-LSTM+CRF模型的航母情報實體識別方法應用

2023-01-30 04:08:10許山山史涯晴
計算機時代 2023年1期
關(guān)鍵詞:實驗模型

許山山,史涯晴

(陸軍工程大學指揮控制工程學院,江蘇 南京 210007)

0 引言

互聯(lián)網(wǎng)快速發(fā)展,信息量劇增,開源情報分析面臨巨大挑戰(zhàn)和困難。自然語言處理的基礎(chǔ)任務之一是命名實體識別NER(Named Entity Recognition),從航母編隊信息中識別實體是基礎(chǔ)環(huán)節(jié),也是較難的環(huán)節(jié)。首先,航母情報信息的結(jié)構(gòu)化數(shù)據(jù)不多,來自百科和新聞網(wǎng)站的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)不能直接利用;其次,航母編隊可利用的已標注的數(shù)據(jù)集幾乎沒有。另外,航母編隊信息中包含軍事領(lǐng)域的專業(yè)名詞和表述,如艦艇領(lǐng)導者信息、艦艇指揮機構(gòu)信息、航母戰(zhàn)斗群的任務記錄、航母艦載機信息等,直接將通用領(lǐng)域?qū)嶓w識別方法應用到艦船情報分析領(lǐng)域效果不佳。為了解決上述問題,本文構(gòu)建了航母編隊實體識別語料庫,采用基于Bi-LSTM+CRF 實體識別算法,實現(xiàn)航母編隊情報信息的實體識別,輔助情報分析人員進一步挖掘和分析相關(guān)情報信息奠定基礎(chǔ)。

1 航母信息實體識別

命名實體的研究主要分為三大類。①基于詞典和規(guī)則的方法[1]。如果獲取的樣本數(shù)據(jù)較少,利用這種方法能夠提高精度和執(zhí)行效率,但是該方法過度依賴詞典規(guī)模及詞典覆蓋率,同時需要耗費巨大時間和精力生成規(guī)則[2]。②基于機器學習算法的方法[3-4]。常用的算法模型有條件隨機場CRF(Conditional Random Field)和支持向量機SVM(Support Vector Machine)等。③基于深度學習策略的方法[5-6]。通過大量數(shù)據(jù)支持,利用神經(jīng)網(wǎng)絡訓練,生成基于向量嵌入的特征表示,進而實現(xiàn)特定領(lǐng)域的實體識別。

1.1 模型框架

Bi-LSTM+CRF 模型方法綜合應用特征模板和神經(jīng)網(wǎng)絡,其中,Bi-LSTM 是常見的的循環(huán)神經(jīng)網(wǎng)絡,能夠解決中文“詞”在中文句子中的遠距離依賴問題;CRF(Conditional Random Field)是指條件隨機場模型,是一種鑒別式機率模型,可以利用之前標注過的標簽。該模型由三部分組成:輸入層、編碼層和預測層[7],如圖1所示。輸入層作用是對中文字符或詞語進行編碼,將文本向量化表示。編碼層作用是提取文本序列的抽象特征,尤其是字符或詞語的上下文聯(lián)系。雙向LSTM 包括前向LSTM 和反向LSTM,比單向LSTM 挖掘文本序列的整體隱含特征更加全面。預測層作用是處理編碼層的輸出,結(jié)合上下文向量的特征,輸出最終識別結(jié)果。

圖1 Bi-LSTM+CRF模型

1.2 Bi-LSTM結(jié)構(gòu)

LSTM 是一種基于RNN 的被廣泛使用模型,可以有效地解決順序標記問題[8]。LSTM 網(wǎng)絡引入門的策略解決反向傳播過程中的梯度消失等問題。圖2 是Bi-LSTM 的細胞單元結(jié)構(gòu)示意圖[7]。在時刻t,xt是輸入向量,它是一個輸入字符的嵌入,ht-1是前一時刻的隱藏狀態(tài),神經(jīng)元權(quán)重W和偏差b是可訓練參數(shù),Γf、Γu、Γo分別表示t時刻的遺忘門、記憶門、輸出門。表示t時刻的單元狀態(tài)、其中σ(x)=、tanh=。LSTM 細胞單元計算存儲單元Ct和ht的過程如下:遺忘門決定應該丟棄多少先前的信息,0 表示全部丟棄,1 表示全部保留;記憶門決定應該向單元存儲器中添加多少信息,使用tanh函數(shù)可以更新臨時單元的狀態(tài)信息;t時刻的每個隱藏狀態(tài)Ct和ht都由輸出門決定。圖2中每個門結(jié)構(gòu)的作用及數(shù)學表達式如表1所示。

圖2 Bi-LSTM細胞單元結(jié)構(gòu)

表1 Bi-LSTM細胞單元結(jié)構(gòu)數(shù)學表達式及門結(jié)構(gòu)功能

1.3 CRF結(jié)構(gòu)

由于不同文本屬于各個標簽結(jié)果的概率值計算相互獨立,CRF 解決局部標簽和上下文信息不會被歸一化函數(shù)計算的問題,通過融合相關(guān)標簽數(shù)據(jù),將附近標簽的相關(guān)性納入計算范圍,實現(xiàn)較為準確的標注。

CRF 可以看作是一個線性鏈,給定一個詞序列,如下:

CRF 標記在w中的每個符號,并輸出相應的標記序列,如下:

定義一組K 個特征函數(shù)f(ti-1,ti,w,i),K 是特征函數(shù)的個數(shù),如下:

i 是一個符號在句子w中的位置,yi是當前符號的標簽,yi-1是前一個符號的標簽,如果滿足特征函數(shù)的條件,則輸出為1,否則為0。利用特征函數(shù)對候選序列進行評分,最終得分是所有特征函數(shù)給出的得分之和:

根據(jù)得分,選擇最可能的序列作為輸出序列,即最大概率序列。借助于歸一化因子Z,獲得每個候選序列的概率。因此,條件概率P(t|w)計算如下:

通過學習,獲得最佳的權(quán)重λ,得到最佳的CRF,而CRF作為模型的輸出層,生成文本的序列標注結(jié)果。

2 實驗數(shù)據(jù)

2.1 數(shù)據(jù)集

針對航母實體識別分析研究,本文使用的航母編隊的專項領(lǐng)域BIO 標注集的原始數(shù)據(jù)來自百度百科[9],軍事特定領(lǐng)域文本標注數(shù)據(jù)集中命名實體的類型共有四種:人名PER(Person)、地名LOC(Location)、機構(gòu)名ORG(Organization)和裝備EQU(Equipment),非命名實體組成部分記為O。利用BIO 三元集的標注方法進行標注,B-PER:人名(開頭),I-PER:人名(非開頭),B-LOC:地點(開頭),I-LOC地點(非開頭),BORG:組織機構(gòu)(開頭),I-ORG:組織機構(gòu)(非開頭),B-EQU:裝備(開頭),I-EQU:裝備(非開頭)。本文通過改造通用領(lǐng)域BIO 標注集,構(gòu)建的航母編隊專項領(lǐng)域BIO 標注集的數(shù)據(jù)規(guī)模,通用領(lǐng)域Train_data 數(shù)據(jù)集2220533 字符,Test_data 數(shù)據(jù)集177231 字符,航母編隊專項領(lǐng)域數(shù)據(jù)集Train_data 和Test_data 數(shù)據(jù)集108969字符。

2.2 實驗評價標注與參數(shù)設置

對于航母實體識別模型的識別效果,本文采用命名實體識別的通用測試指標正確率、召回率和F1值,定義如下:

Bi-LSTM+CRF訓練模型的重要參數(shù),如表2所示。

表2 訓練模型重要參數(shù)表

3 實驗

3.1 實驗設計

為了驗證Bi-LSTM-CRF 方法對航母信息實體的識別能力,本文進行兩類實驗:實驗類型Ⅰ:Bi-LSTM+CRF 識別效果檢測;實驗類型Ⅱ:通用數(shù)據(jù)集和專用數(shù)據(jù)集實體識別對比。

3.2 實驗結(jié)果分析

3.2.1 實驗一:Bi-LSTM-CRF識別效果檢測

圖3所示為模型訓練的總體情況,圖4至圖7分別所示EQU、LOC、ORG 及PER 四個類別的實體識別正確率(precision)、召回率(recall)和F1 值隨迭代次數(shù)(epoch)變化的曲線。根據(jù)曲線圖可以看出,在經(jīng)過32 輪(epoch)迭代之后,正確率(precision)、召回率(recall)和F1 值都相對穩(wěn)定在90%左右。對武器裝備類(EQU)實體的識別效果最好,達到95%以上;對人名(PER)實體的識別效果最差,僅85%左右。

圖3 ALL結(jié)果圖

圖4 EQU結(jié)果

圖5 LOC結(jié)果

圖6 ORG結(jié)果

圖7 PER結(jié)果

3.2.2 實驗二:通用數(shù)據(jù)集和專用數(shù)據(jù)集實體識別對比

為了驗證Bi-LSTM+CRF 模型對航母情報的實體識別效果,本文訓練了兩個Bi-LSTM+CRF 模型。模型Ⅰ的訓練數(shù)據(jù)為通用領(lǐng)域的BIO 標注集,在此基礎(chǔ)上通過改造,形成模型Ⅱ的通用領(lǐng)域的BIO 標注集+航母編隊的專項領(lǐng)域BIO標注集。這兩個模型識別出的實體數(shù)和識別正確的實體數(shù),模型Ⅰ標注實體總數(shù)9977,返回實體總數(shù)9879,識別正確總數(shù)6665,模型Ⅱ標注實體總數(shù)9977,返回實體總數(shù)9760,識別正確總數(shù)9090。這兩個模型對于總體和分類別的實體識別正確率(precision)、召回率(recall)、F1 值和返回的實體數(shù)(found)的結(jié)果如表3所示。

表3 不同模型針對不同類別實體識別結(jié)果

通過表3 中數(shù)據(jù)對比,可得出以下結(jié)論:①在模型Ⅱ中,非實體被識別為實體和實體名稱識別不全的數(shù)量比模型Ⅰ有所減少;②在模型Ⅱ中,將實體類別識別錯誤的數(shù)量比模型Ⅰ少;③在模型Ⅱ中,沒有識別出B 標簽的情況比模型Ⅰ少;④在模型Ⅱ中,正確識別的實體數(shù)目明顯多于模型Ⅰ識別出的數(shù)目,特別是與航母密切相關(guān)的武器裝備類(EQU)實體。綜合以上實驗分析和結(jié)論,Bi-LSTM+CRF 航母實體識別模型的性能達到了預期目標。

4 結(jié)束語

基于改造的BIO 標注集,構(gòu)建了航母情報信息中文實體識別語料庫,通過BI-LSTM+CRF 模型算法訓練出航母實體識別模型,實現(xiàn)了對航母情報信息的有效實體識別。實驗證明,Bi-LSTM+CRF 航母實體識別模型的性能可以達到預期目標,本研究有效提高了航母編隊情報信息領(lǐng)域命名實體識別的效率和正確率。在未來的研究中,將考慮實體間的關(guān)系抽取,為進一步實現(xiàn)提高航母情報分析能力和效率奠定堅實基礎(chǔ)。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产凹凸一区在线观看视频| 美女黄网十八禁免费看| 欧美精品v日韩精品v国产精品| 毛片一级在线| 免费观看成人久久网免费观看| 欧美国产日产一区二区| 国产午夜人做人免费视频| 天天躁夜夜躁狠狠躁图片| 五月婷婷丁香色| 亚洲一区二区三区香蕉| 国产成人综合久久精品下载| 欧美精品在线视频观看| 午夜国产小视频| 三级视频中文字幕| 国产福利影院在线观看| 真人免费一级毛片一区二区| 国产一区二区三区视频| 麻豆精品久久久久久久99蜜桃| 夜夜爽免费视频| 在线视频亚洲欧美| 国产小视频在线高清播放| 国产精品乱偷免费视频| 91亚洲影院| 国产精品一区二区国产主播| 久久精品国产91久久综合麻豆自制| 亚洲成a∧人片在线观看无码| 69视频国产| 亚洲丝袜中文字幕| 亚洲国产精品日韩av专区| lhav亚洲精品| 伊人福利视频| 97视频免费在线观看| 国产一级在线观看www色 | 黄色a一级视频| 五月天在线网站| 91年精品国产福利线观看久久| 婷婷综合色| 内射人妻无套中出无码| 亚洲av日韩av制服丝袜| 免费看av在线网站网址| 亚洲狼网站狼狼鲁亚洲下载| 亚洲精品第一页不卡| 国产精品久久久久鬼色| 色国产视频| 欧美精品导航| 国产精品v欧美| 欧美激情成人网| 欧美精品成人一区二区视频一| 精品久久综合1区2区3区激情| 欧美日本不卡| 国产中文一区二区苍井空| 亚洲乱伦视频| 99精品福利视频| 亚洲天堂免费| 亚州AV秘 一区二区三区| 波多野结衣二区| 亚洲国产午夜精华无码福利| 国产成人凹凸视频在线| 国产一区亚洲一区| 国产综合无码一区二区色蜜蜜| 国产精品成人免费综合| 亚洲品质国产精品无码| 成人在线亚洲| 高清国产在线| 成人免费午间影院在线观看| 国产欧美性爱网| 亚洲Av激情网五月天| 91精品国产一区自在线拍| 天天干伊人| 国产麻豆另类AV| 岛国精品一区免费视频在线观看| 91网址在线播放| 九九久久精品国产av片囯产区| 免费毛片全部不收费的| 日韩无码精品人妻| 精品久久久久无码| 亚洲一级毛片在线播放| 日韩无码视频专区| 午夜毛片福利| 精品1区2区3区| 国产福利在线免费观看| 天堂成人在线|