劉凱洋
一種適用于中文NER的自適應混合編碼模型*
劉凱洋
(深圳職業技術學院 人工智能學院,廣東 深圳 518055)
由于具有特征自學習性特性,LSTM被越來越多地應用在自然語言處理(NLP)中的命名實體識別(NER)領域,并取得較優的性能.本文提出一種新穎的詞語-字符自適應混合編碼算法,在已有的字符和詞語信息的基礎上,突破詞語信息的局部性限制,基于語料庫進行詞語全局特征的提取與選擇,并將此全局特征與局部特征(字符信息)進行疊加,幫助WC-LSTM捕獲更多的文本特征.實際數據實驗結果表明,與最新的WC-LSTM相比較,本文提出的自適應編碼可以較為明顯地提升LSTM在NER上的性能.
NLP;NER;LSTM;深度學習
作為自然語言處理(NLP)中一個重要的領域,命名實體識別(Named Entity Recognition,NER)受到越來越多的關注.NER問題可以轉換為標簽序列標注問題,從而利用已有的序列標注和預測方法,包括樸素貝葉斯方法、隱馬爾科夫鏈、神經網絡等.最新的研究表明,針對常見的英語NER問題,通過利用字符與單詞混合編碼,LSTM-CRF模型能夠取得較優的性能[1-4].與英文NER問題相比較,中文NER問題具有一些不同特性,導致LSTM-CRF模型的性能下降較為明顯.以“李朝陽先生訪問了北京大學”為例,因為中文中不存在明顯的詞語界限,如果采取先分詞的方法,則存在歧義性.例如,“李朝陽”可能會被切分為“李”、“朝陽”,因為朝陽在漢語中是一個常用的詞語,表示早晨的太陽或者北京的一個區.如果仍然采用英文NER中的詞語切分-序列標注方法,則詞語切分步驟中引入的歧義性會影響后續的序列標注步驟,可能引起錯誤傳遞問題從而導致性能下降.例如,如果“李朝陽”被切分為“李”、“朝陽”,則有可能被標注為李-O,朝陽-O或朝陽-Loc,但是正確的標注應該是李朝陽-Per.“北京大學”也存在同樣的問題,如有可能切分為“北京”和“大學”,而不是作為一個整體對待.
最新的中文NER模型同時考慮字符信息和詞語信息(混合模型)[1,5-7].這些模型在基于字符LSTM的基礎上,將詞語信息作為額外的輸入,從而提升模型性能.Lattice LSTM存在的主要問題在于其輸入數據長度可變,并在極端情況下會退化成為基于字符的LSTM.文獻[5]提出基于詞語-字符的混合編碼策略,分別是Shortest Word First、Longest Word First、Average和Self-Attention,從而改進了Lattice LSTM的上述問題,但只考慮了詞語集合的局部信息,沒有考慮詞語在語料庫中的全局信息.
本文提出一種自適應的混合編碼方式,通過對全局信息進行考慮,從而挑選出重要的詞語,提升中文NER性能.自適應的混合編碼建立在如下的直覺感覺:給定一個詞語集合中,在訓練集中出現概率高的詞語具有更多的信息量,在測試集出現的概率也更高.因此,我們更多的考慮這些相對出現概率高的詞語信息,從而實現既考慮局部信息(字符信息),同時也包含全局信息(重要詞語).通過對實際語料庫進行實驗表明,與目前最優文獻[1]的局部編碼方式相比,本文提出的自適應混合編碼能取得較好的中文NER性能.
與文獻[5]相同,本文提出模型基于文獻[1]的算法,因此先引入Lattice LSTM模型定義.








如圖1中(a)和(b)所示,與BiLSTM相比較,Lattice LSTM增加了一個捕捉詞語信息的神經元(圖1(b)中標注為“w”神經元),從而提升模型性能.圖1(b)同時也展示了Lattice LSTM的潛在問題,即神經元的輸入數量可能不一致,如最后一個和字符“學”對應的神經元有3個輸入,其原因在于匹配的詞語數量有差異.
為解決上述的Lattice LSTM問題,文獻[1]提出一種基于詞語-字符混合編碼的模型WC-LSTM,對于每個字符神經元,增加一個固定的詞語信息輸入,解決了Lattice LSTM的神經元輸入數量不一致的問題及神經網絡退化問題,其對應的模型如圖2所示.

圖1 BiLSTM與Lattice LSTM模型對比

圖2 基于混合編碼的WC-LSTM示例
圖2所示的WC-LSTM的主要改進之處是為每個字符神經元增加了一個記錄詞語信息的輸入.匹配一個字符的詞語可能有多個,我們以最后一個字符“學”為例,其匹配的詞語集合包括“大學”、“北京大學”,因此模型需要采用一定的策略,實現從匹配的詞語集合中挑選一個或者多個詞語,并生成固定長度的詞語向量.
為解決上述問題,我們提出一種自適應編碼,并用如下的例子解釋其主要創新點:以“北”字為例,匹配的詞語集合包括{“東北”,“華北”,“山東北”}等.其中,“東北”與“山東北”兩個詞語在不同的語境中可能有不同的含義,例如“我們到達了山東北”,這句話可以理解為“我們到達了 山東北”(山東的北部),也可以理解為“我們到達了山 東北”(山的東北面).選擇哪個詞語取決于語境和語料庫特征.如果語料庫中更多的是有關山東的語句,則我們期望“山東北”出現的概率比“東北”出現的概率要高;反之,則“東北”出現的概率要比“山東北”出現的要高.因此,我們提出的自適應的含義在于可以依據語料庫的全局統計特征而傾向于選擇最合適的詞語.
自適應編碼的正式定義如下:


定義兩個集合:





基于以上的自適應編碼定義,一個基于自適應混合編碼LSTM定義如下:




我們在LSTM后添加一個CRF層,并使用Viterbi算法用來對CRF的輸出進行解碼,具體算法見文獻[1].
在2個真實語料庫對比本文提出的自適應混合編碼LSTM和WC-LSTM[1]:Weibo NER[8]及MSRA[9],其對應的統計信息見表1.
由于Weibo語料庫記錄數較少,因此我們采取70/15/15的方式分配訓練/調試/測試數據集,而MSRA的比例為80/10/10.MSRA是中文新聞語料庫,而Weibo語料庫記錄了微博網站上的社交媒體數據.


表2展示本文提出的自適應LSTM與WC-LSTM[1]的性能對比,可以看到基于自適應編碼的模型在各指標上均要優于WC-LSTM[1],本文提出的自適應編碼實現了更高的準確率,同時召回率下降幅度較小,從而達到了較高的F1.
表3展示了幾種模型在Weibo語料庫上的性能對比.
對比表2和表3的數據,我們發現自適應編碼在Weibo語料庫上的性能提升較為明顯,準確率、召回率及F1都達到了目前的最優.通過對語料庫及模型、實驗結果進行分析可見,Weibo語料庫中的數據為社交媒體數據,熱點話題、熱點區域、特點人物名字等出現概率較高.這些熱點話題、熱點區域、熱點人物詞語長短不一,WC-LSTM[1]無法充分利用這些信息.本文提出的自適應編碼對詞語長度不敏感,只對詞語出現概率敏感,因此能夠更多地選擇這些詞語作為輔助的輸入信息碼,提升模型的性能.

表1 實驗數據集統計信息

表2 MSRA語料庫實驗結果對比

表3 Weibo NER語料庫實驗結果對比
[1] Zhang Y, Yang J. Chinese NER Using Lattice LSTM [C]/Proceedings of the 56thAnnual Meeting of the Association for Computational Linguistics, 2018:1554-1564.
[2] Hammerton J. Named Entity Recognition with Long Short-term Memory [J]., 2003(4):172-175.
[3] Huang Z, Xu W, and Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J]. arXiv: 1508.01991. 2015.
[4] Lample G, Balltesteros M, Subramanian S, et al. Neural Architectures for Named Entity Recognition [C]/ NAACL-HLT, 2016:260-270.
[5] Liu W, Xu T, Xu Q, et al. An Encoding Strategy Based Word-Character LSTM for Chinese NER [C]/ Proceedings of NAACL-HLT, 2019:2379-2389.
[6] Chen X, Qiu X, Zhu C, et al. Long Short-term Memory Neural Networks for Chinese Word Segmentation [C]/Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015:1197-1206.
[7] Peng N, Dredze M. Improving Named Entity Recogni- tion for Chinese Social Media with Word Segmentation Representational Learning [C]/Proceedings of ACL, 2016.
[8] Peng N, Dredze M. Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings [C]/ EMNLP, 2015:548-554.
[9] Levow G. The Third International Chinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition [C]/Proceedings of the Fifth Workshop on Chinese Language Processing, 2006:108-117.
An Adaptive Hybrid Coding Model for Chinese NER
LIU Kaiyang
()
As self-learning has its own distinctive features, LSTM has recently been widely employed to solve the Named Entity Recognition (NER) problem in Natural Language Processing (NLP), and has achieved good performance. In this paper, we propose an adaptive encoding strategy, to further improve the performance of LSTM on NER. Compared with the latest encoding strategy, our approach derives global feature of words by scanning through the entire corpus, gains insight into how to select an effective word efficiently. Besides, we enhance the ability of a LSTM to capture useful features of samples by feeding the combined information of globally selected words and character to it. Experiments on various real corpora have shown that an adaptive encoding strategy based on LSTM can significantly outperformother state-of-the-arts models.
NLP; NER; LSTM; deep learning
2019-09-02
深圳職業技術學院校級重點資助項目(6018-22K200019991)
劉凱洋,男,湖南人,博士,副教授.研究方向:大數據技術、自然語言處理、神經網絡、深度學習.
TP318
A
1672-0318(2020)01-0003-05
10.13899/j.cnki.szptxb.2020.01.001