999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度神經網絡的武器名稱識別①

2018-02-07 02:42:04于銘華
計算機系統應用 2018年1期
關鍵詞:深度模型

游 飛,張 激,邱 定,于銘華

1(華東計算技術研究所 系統平臺部,上海 201808)2(華東計算技術研究所 總師辦,上海 201808)

科學技術的進步推進著軍事武器裝備的快速更迭,同時信息處理技術的快速發展,我軍的高度信息化時代正式到來.在日常軍事訓練和行動中,產生了大量的以電子文本形式存在的信息.如何高效自動化地處理這些海量的文本成為急需解決的問題.

命名實體識別 (Named Entity Recognition,NER)已經成為許多自然語言處理應用的重要步驟,例如問答系統、信息提取和機器翻譯[1],是自然語言處理中的一項重要的基礎工作.然而命名實體識別的效果受限于特定的領域和語言,這就需要為不同領域不同語言量身定制一套識別系統.

命名實體識別最初是在第六屆MUC會議作為一個子任務提出的[2].命名實體識別的主要任務是識別文本中出現的專有名稱和數量短語,并對其加以歸類.早期的命名實體基于字典和規則的方法識別,字典和規則的編寫需要語言專家的參與,且不能完全覆蓋所有的實體.之后,人們開始提出基于將統計的方法,統計的方法能夠有效的捕捉到命名實體的位置或特征現象,接著用維特比(Viterbi)算法求解最佳的狀態序列.基于統計方法的優點是不需要豐富的語言學知識、可移植性較好,缺點是需要大量的人工進行語料的標注.基于統計方法主要的有:Bikel等人[3]最早將隱馬爾科夫(Hidden Markov Model,HMM)方法用于命名實體識別.Ratnaparkhi等人[4]提出最大熵 (Maximum Entropy,EM)模型用于語言分類的問題.

中文的命名實體的研究緊跟其后,始于上世紀90年代初.由于語言的特性,中文的命名實體識別的難度較難,效果較差.命名實體識別任務中涉及到分詞和詞法分析等任務,英文中詞的邊界明顯,詞性特性特征顯著,而中文中存在一詞多義,詞邊界模糊等現象.國內的孫茂松等[5]較早地對中文人名進行識別.俞鴻魁等[6]基于層疊隱馬爾科夫模型進行中文命名實體識別,達到較高的識別準確率.姜文志等[7]基于條件隨機場(Conditional Random Field,CRF)和規則的方法對軍事命名實體進行了識別.

最近,由于深度學習能夠從大量的無標記的語料中學習特征,利用深度學習模型解決命名實體識別已經成為的趨勢[8].深度學習屬于機器學習領域,它能夠通過構造深度神經網絡 (Deep Neural Networks,DNN)模型學習高層的特征[9].Dr.Ronan Collobert等人[10]基于深度神經模型處理詞性標注、命名實體識別等問題,并取得了當時最好水平.

在軍事信息處理領域,軍事專有名詞的識別是非常重要的一項工作.目前許多軍事信息處理系統的實體基于字典、規則或統計的方法.本文主要研究詞的向量的表示和詞向量模型的訓練,借鑒已有的深度神經網絡模型,在訓練集上訓練模型,觀察不同參數下的測試結果.

1 深度神經網絡模型

深度神經網絡從狹義上講是一個具有多層感知機模型,近些年深度神經網絡模型被應用在自然語言處理的許多任務中并取得了顯著的效果,如:詞性標注、命名實體識別、語塊識別等.本文基于深度神經網絡構建出武器名稱識別的模型.模型的結構如圖1所示.底層是神經網絡的輸入層,即連續化的詞向量窗口.由于模型的輸入是固定的格式,本文將固定維度的詞向量和詞性向量作為輸入,通過中間隱層的非線性變換,學習到高層的特征,即詞的上下文的特征,本文將詞對應實體識別的四種狀態,作為網絡模型的輸出.最后通過再結合訓練集的狀態轉移概率求得句子的最佳標注序列.

圖1 深度神經網絡模型

1.1 詞向量模型

將每個詞語表示成一個低維的實數向量,那么任意兩個詞語之間的距離可以用歐式距離表示.這種特征表示可以解決機器學習中維數災難和局部泛化等問題[10].與傳統的基于統計記錄上下特征的方法相比,它可以更好的捕捉到數據之間的固有聯系,而且不需要進行人工標注.

在基于基于詞向量特征的命名實體識別任務中,常把訓練集的單詞W,表示為一個固定維度的列向量,作為深度神經的輸入.該向量可以很好的表示句子信息和語義相似度.理想狀態下,DNN的輸入為若干詞語的存儲矩陣是一個詞語向量的維度,而W是領域詞語字典的大小.在命名實體識別任務中,當前的句子能夠很好的體現的詞語之間的關聯,而句子之間的詞語關聯較弱.因為DNN模型的輸入是固定的格式,本文大小為W的窗口作為輸入,窗口中間是當前詞為Mi,則它前后的(k-1/2)個詞語代表它的上下文,即為詞序對于位于句前和句尾的當前詞,本文動窗口的前部或尾部做隨機填充處理,考慮到詞性在特定語言中有普遍的規律,本文選用參考北大計算所詞性標注集簡表,選用常用的詞性14個,并將其他詞性視為統一詞性,將窗口中每個詞映射到15維的詞性向量中,并將詞性向量與詞向量拼接,即把這W個詞語的特征向量作為模型的輸入.

1.2 隱藏層

兩層隱藏層進行非線性變換,變換后的窗口向量為:

1.3 輸出層

對于軍事武器名稱識別任務,在給定電子文本中,利用當前詞語的上下文環境,識別該詞是否為武器名稱,故設計輸出層的節點個數為4,對應詞語的四個狀態標注值:集合中四種狀態的含義為:B代表該詞語為武器名稱的第一個詞,I代表武器名稱的中間詞,E代表武器名稱的尾部詞,O代表該詞語不是武器名稱.

輸出層的輸入來自上層隱藏層的輸出,該輸入為一個h3維的向量z,輸出層的非線性變換為為該層的變換矩陣,b4該層的偏置矩陣,h4為輸出層神經單元的個數.變換后得到一個沒有歸一化的h4維向量,本文用Softmax函數對其進行歸一化處理,zi表示輸出向量的第i個值:

1.4 標注推斷

命名實體識別的輸出是一個狀態序列標記的問題.對于句子的一種標記序列為在已知上下文得分和狀態轉移得分的情況下,計算最高得分的標記路徑的問題可以通過維特比(Viterbi)算法求解.算法的遞推關系如下.

正式啟動并全面推進漢江流域加快實施最嚴格水資源管理制度試點。分解落實漢江“三條紅線”、及時完善了漢江水量分配成果、提出了多種保護區劃分方案等,進一步完善了漢江流域用水總量、用水效率控制指標體系。組織完成了漢江、嘉陵江、岷江、沱江、赤水河水量分配方案,啟動了金沙江、烏江、牛欄江河流水量分配方案工作。加強水功能區管理,積極推進水功能區監測、評估、考核與管理體系建設。編制完成了《南水北調中線一期工程水量調度方案》,完成了沙沱、魯地拉、瀑布溝等10個工程蓄水計劃和調度方案審查,加強了節水型社會建設。

初始化:

遞推關系:

2 參數訓練

式中λ為學習率,取其值為0.02.為下降的梯度,參數的估計采用最大似然估計的方法,即:

為了避免在訓練過程中出現參數過擬合的發生,在模型的每層激活函數加入dropout正則化,dropout的參數設置為0.2.

3 實驗結果和分析

3.1 實驗設置

在詞的向量表示部分,本文采用開源工具包word2 vec,該工具實現了Mikolov等人提出的連續詞袋(constant bag of words)模型[11,12]的向量表示.該模型的訓練語料來自搜狐實驗室全網中文新聞數據(SogouCA)2012年6月至7月的語(http://www.Sogou.com/labs/resource/ca.php),大小共計 711MB.使用北京大學計算語言學研究所的云分詞服務對該語料進行分詞后,利用word2vec學習詞語的向量表示,詞向量的維度為100維至400維,步長為60維.

由于目前沒有較權威開放的中文軍事語料[13],本文爬取環球軍事網、中華網等軍事網站文章共7500篇,對武器名稱進行標注后作為實驗語料,隨機抽取其中80%(6000篇文章)作為訓練集,剩下的20%(1500篇文章)作為測試數據.本實驗設置3組實驗.

實驗一.利用詞向量表示模型,對訓練集進行詞的向量表示,設置詞性向量維數為15,將其與詞向量拼接作為深度神經網絡模型的輸入.標注推斷僅考慮詞的上下文得分.構建并訓練4層神經網絡模型,各層神經單元個數為 250,150,100,4.在詞向量的維度訓練上,設置維度在100至400之間,步長為60,觀測試驗結果.

實驗二.利用詞向量表示模型,對訓練集進行詞的向量表示.設置詞性向量維數為15,將其與詞向量拼接作為深度神經網絡模型的輸入.標注推斷僅考慮詞的上下文得分.構建并訓練5層神經網絡模型,各層神經單元個數為 250,200,150,100,4.設置詞向量的維度為280,觀測試驗結果.

實驗三.利用詞向量表示模型,對訓練集進行詞的向量表示.設置詞性向量維數為15,將其與詞向量拼接作為深度神經網絡模型的輸入.標注推斷結合詞的上下文得分和狀態轉移得分.構建并訓練5層神經網絡模型,各層神經單元個數為 250,200,150,100,4.設置詞向量的維度為280,觀測試驗結果.

3.2 實驗結果

本實驗以F-1值作為實驗評判標準準確F-1值表示如下:

對三組實驗結果做如下分析.

圖2表示詞向量維數的增加,F-1值的變化情況.在維度為100至400之間,F-1值緩慢上升.在維度為 280 時達到最大,為 0.9021,在 340 維度時,有所下降.這說明詞向量的維度不是越大越好,它存在局部最優值,這可能與文本長度和文本詞語分布有關.

圖2 不同緯度下 F-1 值的分布

在詞向量表示的最優維度(280維)的情況下,表1是三組不同實驗情況下的F-1值.試驗二的F-1值為0.9076,較實驗一(280維)的識別效果提升了0.609%,說明增加一層隱層捕獲了更多的特征信息.實驗三的F-1值為0.9102,較實驗二的識別效果提升了0.396%,說明融合狀態的轉移得分,可以提升命名實體的性能.

表1 三組試驗結果 F-1 值

4 總結

我國擁有漫長的國界線和海岸線,提升軍事信息智能處理能力具有重要的戰略意義.命名實體識別作為自然語言處理的重要一環,是軍事信息化建設上的基礎,如智能問答、信息提取、輿情分析等.本文針對軍事文本中常出現的幾類武器名詞,提出了基于詞向量特征利用深度神經網絡模型,再融合詞性和狀態轉移得分的特征,在測試數據集上達到0.9102的識別精準度.

由于實驗基于移動窗口來代表詞語的前后文,移動窗口不能捕獲詞語在句子中的特征.下一步待改進的是如何捕獲基于語義的特征,以及如何減少深層網絡的訓練時間.

1 McCallum A,Li W. Early results for named entity recognition with conditional random fields,feature induction and web-enhanced lexicons. Proceedings of the Seventh Conference on Natural Language Learning at Hlt-Naacl.Edmonton,Canada.2003.188–191.

2 Grishman R,Sundheim B. Message understanding conference-6:A brief history. Proceedings of the 16th Conference on Computational Linguistics. Copenhagen,Denmark.1996.466–471.

3 Bikel DM,Schwartz R,Weischedel RM.An algorithm that learns what’s in a name.Machine Learning,1999,34(1-3):211–231.

4 Ratnaparkhi A.A simple introduction to maximum entropy models for natural language processing. IRCS Technical Reports.Pennsylvania:University of Pennsylvania,1997.

5 孫茂松,黃昌寧,高海燕,等.中文姓名的自動辨識.中文信息學報,1995,9(2):16–27.

6 俞鴻魁,張華平,劉群,等.基于層疊隱馬爾可夫模型的中文命名實體識別.通信學報,2006,27(2):87–94.

7 姜文志,顧佼佼,叢林虎.CRF與規則相結合的軍事命名實體識別研究.指揮控制與仿真,2011,33(4):13–15.

8 Collobert R,Weston J,Bottou L,et al.Natural language processing (Almost)from scratch.The Journal of Machine Learning Research,2011,12(1):2493–2537.

9 Hinton GE,Salakhutdinov RR.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504–507.[doi:10.1126/science.1127647]

10 Mansur M,Pei W,Chang B.Feature-based neural language model and chinese word segmentation.Proceedings of the 6th International Joint Conference on Natural Language Processing.Nagoya,Japan,2013:1271–1277.

11 Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space. Computer Science,2013.

12 Mikolov T,Sutskever I,Chen K,et al. Distributed representations of words and phrases and their compositionality.Advances in Neural Information Processing Systems,2013,(26):3111–3119.

13 馮蘊天,張宏軍,郝文寧.面向軍事文本的命名實體識別.計算機科學,2015,42(7):15–18.[doi:10.11896/j.issn.1002-137X.2015.07.004]

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲精品日产精品乱码不卡| 美女高潮全身流白浆福利区| 性视频一区| 久久99精品久久久久纯品| 999精品免费视频| 日韩国产 在线| 亚洲欧洲日韩国产综合在线二区| 72种姿势欧美久久久大黄蕉| 国产色爱av资源综合区| 日韩AV无码一区| 亚洲国产天堂久久综合226114| 乱码国产乱码精品精在线播放| 激情无码视频在线看| 强奷白丝美女在线观看 | 三上悠亚一区二区| jizz在线免费播放| 亚洲激情区| 亚洲伊人久久精品影院| 亚洲日韩精品无码专区97| 18禁不卡免费网站| 国产成人高清精品免费| 日本午夜三级| 国产成人综合日韩精品无码首页| 日韩欧美在线观看| 亚洲国产高清精品线久久| 五月天香蕉视频国产亚| 国产高潮流白浆视频| 国产精品男人的天堂| 国产在线小视频| 国产精品极品美女自在线网站| 草草影院国产第一页| 国产欧美日韩综合在线第一| 国产免费福利网站| 亚洲乱伦视频| 国产极品美女在线| 最新亚洲人成无码网站欣赏网| 伊人AV天堂| 亚洲va在线观看| 国内精品九九久久久精品| 91亚洲视频下载| 五月综合色婷婷| AV不卡在线永久免费观看| 乱码国产乱码精品精在线播放 | 国产打屁股免费区网站| 福利视频一区| 欧美性精品| 国产极品粉嫩小泬免费看| 一级毛片中文字幕| 亚洲国产欧美国产综合久久| 免费一级毛片在线观看| 无码中文AⅤ在线观看| 日韩精品毛片人妻AV不卡| 欧美成人精品在线| 国产精品妖精视频| 国产精品55夜色66夜色| 美女无遮挡被啪啪到高潮免费| 高清无码不卡视频| 永久成人无码激情视频免费| 日韩精品一区二区三区免费在线观看| 在线观看无码av五月花| 青青久久91| 国产精品极品美女自在线网站| 欧美日韩免费观看| 国产精品尤物铁牛tv | 毛片一区二区在线看| 国产精品99r8在线观看| 欧美国产菊爆免费观看| 色婷婷丁香| V一区无码内射国产| 欧美一级爱操视频| 91色在线视频| 亚洲性日韩精品一区二区| 99免费视频观看| 久久精品娱乐亚洲领先| 亚洲人成网站观看在线观看| 日本亚洲最大的色成网站www| 久久a毛片| 中国国产高清免费AV片| 亚洲国产日韩在线观看| 在线国产毛片| 亚洲AⅤ无码日韩AV无码网站| 成人福利在线免费观看|