999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種適用于中文NER的自適應混合編碼模型*

2020-01-18 06:21:28劉凱洋
深圳職業技術學院學報 2020年1期
關鍵詞:信息模型

劉凱洋

一種適用于中文NER的自適應混合編碼模型*

劉凱洋

(深圳職業技術學院 人工智能學院,廣東 深圳 518055)

由于具有特征自學習性特性,LSTM被越來越多地應用在自然語言處理(NLP)中的命名實體識別(NER)領域,并取得較優的性能.本文提出一種新穎的詞語-字符自適應混合編碼算法,在已有的字符和詞語信息的基礎上,突破詞語信息的局部性限制,基于語料庫進行詞語全局特征的提取與選擇,并將此全局特征與局部特征(字符信息)進行疊加,幫助WC-LSTM捕獲更多的文本特征.實際數據實驗結果表明,與最新的WC-LSTM相比較,本文提出的自適應編碼可以較為明顯地提升LSTM在NER上的性能.

NLP;NER;LSTM;深度學習

1 問題概述

作為自然語言處理(NLP)中一個重要的領域,命名實體識別(Named Entity Recognition,NER)受到越來越多的關注.NER問題可以轉換為標簽序列標注問題,從而利用已有的序列標注和預測方法,包括樸素貝葉斯方法、隱馬爾科夫鏈、神經網絡等.最新的研究表明,針對常見的英語NER問題,通過利用字符與單詞混合編碼,LSTM-CRF模型能夠取得較優的性能[1-4].與英文NER問題相比較,中文NER問題具有一些不同特性,導致LSTM-CRF模型的性能下降較為明顯.以“李朝陽先生訪問了北京大學”為例,因為中文中不存在明顯的詞語界限,如果采取先分詞的方法,則存在歧義性.例如,“李朝陽”可能會被切分為“李”、“朝陽”,因為朝陽在漢語中是一個常用的詞語,表示早晨的太陽或者北京的一個區.如果仍然采用英文NER中的詞語切分-序列標注方法,則詞語切分步驟中引入的歧義性會影響后續的序列標注步驟,可能引起錯誤傳遞問題從而導致性能下降.例如,如果“李朝陽”被切分為“李”、“朝陽”,則有可能被標注為李-O,朝陽-O或朝陽-Loc,但是正確的標注應該是李朝陽-Per.“北京大學”也存在同樣的問題,如有可能切分為“北京”和“大學”,而不是作為一個整體對待.

最新的中文NER模型同時考慮字符信息和詞語信息(混合模型)[1,5-7].這些模型在基于字符LSTM的基礎上,將詞語信息作為額外的輸入,從而提升模型性能.Lattice LSTM存在的主要問題在于其輸入數據長度可變,并在極端情況下會退化成為基于字符的LSTM.文獻[5]提出基于詞語-字符的混合編碼策略,分別是Shortest Word First、Longest Word First、Average和Self-Attention,從而改進了Lattice LSTM的上述問題,但只考慮了詞語集合的局部信息,沒有考慮詞語在語料庫中的全局信息.

本文提出一種自適應的混合編碼方式,通過對全局信息進行考慮,從而挑選出重要的詞語,提升中文NER性能.自適應的混合編碼建立在如下的直覺感覺:給定一個詞語集合中,在訓練集中出現概率高的詞語具有更多的信息量,在測試集出現的概率也更高.因此,我們更多的考慮這些相對出現概率高的詞語信息,從而實現既考慮局部信息(字符信息),同時也包含全局信息(重要詞語).通過對實際語料庫進行實驗表明,與目前最優文獻[1]的局部編碼方式相比,本文提出的自適應混合編碼能取得較好的中文NER性能.

2 問題定義與自適應混合編碼

與文獻[5]相同,本文提出模型基于文獻[1]的算法,因此先引入Lattice LSTM模型定義.

2.1 BiLSTM定義

2.2 Lattice LSTM及混合編碼

如圖1中(a)和(b)所示,與BiLSTM相比較,Lattice LSTM增加了一個捕捉詞語信息的神經元(圖1(b)中標注為“w”神經元),從而提升模型性能.圖1(b)同時也展示了Lattice LSTM的潛在問題,即神經元的輸入數量可能不一致,如最后一個和字符“學”對應的神經元有3個輸入,其原因在于匹配的詞語數量有差異.

為解決上述的Lattice LSTM問題,文獻[1]提出一種基于詞語-字符混合編碼的模型WC-LSTM,對于每個字符神經元,增加一個固定的詞語信息輸入,解決了Lattice LSTM的神經元輸入數量不一致的問題及神經網絡退化問題,其對應的模型如圖2所示.

圖1 BiLSTM與Lattice LSTM模型對比

圖2 基于混合編碼的WC-LSTM示例

2.3 自適應合編碼

圖2所示的WC-LSTM的主要改進之處是為每個字符神經元增加了一個記錄詞語信息的輸入.匹配一個字符的詞語可能有多個,我們以最后一個字符“學”為例,其匹配的詞語集合包括“大學”、“北京大學”,因此模型需要采用一定的策略,實現從匹配的詞語集合中挑選一個或者多個詞語,并生成固定長度的詞語向量.

為解決上述問題,我們提出一種自適應編碼,并用如下的例子解釋其主要創新點:以“北”字為例,匹配的詞語集合包括{“東北”,“華北”,“山東北”}等.其中,“東北”與“山東北”兩個詞語在不同的語境中可能有不同的含義,例如“我們到達了山東北”,這句話可以理解為“我們到達了 山東北”(山東的北部),也可以理解為“我們到達了山 東北”(山的東北面).選擇哪個詞語取決于語境和語料庫特征.如果語料庫中更多的是有關山東的語句,則我們期望“山東北”出現的概率比“東北”出現的概率要高;反之,則“東北”出現的概率要比“山東北”出現的要高.因此,我們提出的自適應的含義在于可以依據語料庫的全局統計特征而傾向于選擇最合適的詞語.

自適應編碼的正式定義如下:

定義兩個集合:

基于以上的自適應編碼定義,一個基于自適應混合編碼LSTM定義如下:

我們在LSTM后添加一個CRF層,并使用Viterbi算法用來對CRF的輸出進行解碼,具體算法見文獻[1].

3 實驗結果與分析

在2個真實語料庫對比本文提出的自適應混合編碼LSTM和WC-LSTM[1]:Weibo NER[8]及MSRA[9],其對應的統計信息見表1.

由于Weibo語料庫記錄數較少,因此我們采取70/15/15的方式分配訓練/調試/測試數據集,而MSRA的比例為80/10/10.MSRA是中文新聞語料庫,而Weibo語料庫記錄了微博網站上的社交媒體數據.

表2展示本文提出的自適應LSTM與WC-LSTM[1]的性能對比,可以看到基于自適應編碼的模型在各指標上均要優于WC-LSTM[1],本文提出的自適應編碼實現了更高的準確率,同時召回率下降幅度較小,從而達到了較高的F1.

表3展示了幾種模型在Weibo語料庫上的性能對比.

對比表2和表3的數據,我們發現自適應編碼在Weibo語料庫上的性能提升較為明顯,準確率、召回率及F1都達到了目前的最優.通過對語料庫及模型、實驗結果進行分析可見,Weibo語料庫中的數據為社交媒體數據,熱點話題、熱點區域、特點人物名字等出現概率較高.這些熱點話題、熱點區域、熱點人物詞語長短不一,WC-LSTM[1]無法充分利用這些信息.本文提出的自適應編碼對詞語長度不敏感,只對詞語出現概率敏感,因此能夠更多地選擇這些詞語作為輔助的輸入信息碼,提升模型的性能.

表1 實驗數據集統計信息

表2 MSRA語料庫實驗結果對比

表3 Weibo NER語料庫實驗結果對比

[1] Zhang Y, Yang J. Chinese NER Using Lattice LSTM [C]/Proceedings of the 56thAnnual Meeting of the Association for Computational Linguistics, 2018:1554-1564.

[2] Hammerton J. Named Entity Recognition with Long Short-term Memory [J]., 2003(4):172-175.

[3] Huang Z, Xu W, and Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J]. arXiv: 1508.01991. 2015.

[4] Lample G, Balltesteros M, Subramanian S, et al. Neural Architectures for Named Entity Recognition [C]/ NAACL-HLT, 2016:260-270.

[5] Liu W, Xu T, Xu Q, et al. An Encoding Strategy Based Word-Character LSTM for Chinese NER [C]/ Proceedings of NAACL-HLT, 2019:2379-2389.

[6] Chen X, Qiu X, Zhu C, et al. Long Short-term Memory Neural Networks for Chinese Word Segmentation [C]/Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015:1197-1206.

[7] Peng N, Dredze M. Improving Named Entity Recogni- tion for Chinese Social Media with Word Segmentation Representational Learning [C]/Proceedings of ACL, 2016.

[8] Peng N, Dredze M. Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings [C]/ EMNLP, 2015:548-554.

[9] Levow G. The Third International Chinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition [C]/Proceedings of the Fifth Workshop on Chinese Language Processing, 2006:108-117.

An Adaptive Hybrid Coding Model for Chinese NER

LIU Kaiyang

()

As self-learning has its own distinctive features, LSTM has recently been widely employed to solve the Named Entity Recognition (NER) problem in Natural Language Processing (NLP), and has achieved good performance. In this paper, we propose an adaptive encoding strategy, to further improve the performance of LSTM on NER. Compared with the latest encoding strategy, our approach derives global feature of words by scanning through the entire corpus, gains insight into how to select an effective word efficiently. Besides, we enhance the ability of a LSTM to capture useful features of samples by feeding the combined information of globally selected words and character to it. Experiments on various real corpora have shown that an adaptive encoding strategy based on LSTM can significantly outperformother state-of-the-arts models.

NLP; NER; LSTM; deep learning

2019-09-02

深圳職業技術學院校級重點資助項目(6018-22K200019991)

劉凱洋,男,湖南人,博士,副教授.研究方向:大數據技術、自然語言處理、神經網絡、深度學習.

TP318

A

1672-0318(2020)01-0003-05

10.13899/j.cnki.szptxb.2020.01.001

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲性影院| 国产精品嫩草影院av| 国产成人高清精品免费5388| 大陆国产精品视频| 色婷婷天天综合在线| 色135综合网| 欧美亚洲国产一区| 老司机午夜精品网站在线观看| 色天天综合| 亚洲精品第五页| 无遮挡国产高潮视频免费观看| 欧美国产另类| 毛片网站在线看| 91口爆吞精国产对白第三集| av大片在线无码免费| 免费在线色| 亚洲国产在一区二区三区| 重口调教一区二区视频| 精品剧情v国产在线观看| 国产激情无码一区二区免费| 夜夜拍夜夜爽| 亚洲女同一区二区| 99久久婷婷国产综合精| 亚洲第一国产综合| 亚洲Av激情网五月天| 国产主播在线观看| 欧美性精品| 日韩成人在线视频| 一本一道波多野结衣一区二区| 欧美精品综合视频一区二区| 色综合久久久久8天国| 欧美日韩精品综合在线一区| 亚洲视频免费在线看| 国产精品香蕉| 亚洲高清日韩heyzo| 国内精品视频| 欧美成人免费午夜全| 国产精品无码AV片在线观看播放| 久久亚洲国产视频| 国产在线观看成人91| 国产chinese男男gay视频网| 国产区在线观看视频| 国产精品思思热在线| 色婷婷成人| 黄色网址免费在线| 永久免费无码日韩视频| 一级黄色网站在线免费看| 亚洲av无码专区久久蜜芽| 欧美精品成人一区二区在线观看| 人妻一区二区三区无码精品一区| 国产一级小视频| 91在线无码精品秘九色APP| 午夜限制老子影院888| 欧美伦理一区| 亚洲成A人V欧美综合天堂| 91网红精品在线观看| 一本综合久久| 2021国产在线视频| 亚洲欧美日韩综合二区三区| 久久公开视频| 在线看AV天堂| 欧美国产精品拍自| 99精品久久精品| 亚洲成人黄色在线观看| 国产JIZzJIzz视频全部免费| 亚洲二区视频| 久久精品一品道久久精品| 中文字幕首页系列人妻| 国产精品制服| 夜夜操国产| 亚洲视频四区| 亚洲码在线中文在线观看| 一区二区三区四区精品视频| 91久久偷偷做嫩草影院免费看| 国产好痛疼轻点好爽的视频| av在线无码浏览| 国产第一页免费浮力影院| 婷婷在线网站| 色精品视频| 成人国产免费| 色呦呦手机在线精品| 亚洲精品视频免费观看|