中文命名實體識別方法研究

2019-05-24 14:12:46劉璟

電腦知識與技術 2019年9期

劉璟

摘要：針對命名實體識別不具備良好的領域自適應性，大多研究對象是某個領域的命名實體識別，本文分析了當下流行的條件隨機場模型、隱馬爾科夫模型和最大熵模型的優劣對比，最后采用條件隨機場與規則相結合，以詞特征、詞性特征作為特征模板訓練模型結合規則提取命名實體，實驗結果表明本文的方法能有效提高命名實體識別的準確率。

關鍵詞：中文實體識別；條件隨機場；自然語言處理

中圖分類號：TP393 文獻標識碼：A

文章編號：1009-3044（2019）09-0179-02

Abstract：Named entity recognition does not have good domain adaptability，Most of the research object is a field named entity recognition.This paper analyses the advantages and disadvantages of the current popular Conditional Random Field model， Hidden Markov model and Maximum Entropy model.Finally， Conditional Random Fields and rules are combined to extract named entities by using word features and part-of-speech features as feature template training models. The experimental results show that the proposed method can effectively improve the accuracy of named entity recognition.

Key words：Chinese Name Entity Recognition， Conditional Random Field， Natural Language Processing

引言

命名實體識別主要是人名、地名、機構名或某領域的專有名詞的識別。命名實體識別是信息提取、句法分析、問答系統等應用領域的重要基礎工具，在自然語言處理技術中占有重要位置。

命名實體識別現在主要有兩種方法，一種是基于規則的方法，一種是基于統計的方法。文獻[1]使用條件隨機場進行內蒙古地名識別，引入詞匯特征、指示詞特征、特征詞特征和詞性特征；文獻[2]將詞表示方法作為CRF和SVM的特征進行監督學習；文獻[3][4]使用條件隨機場提取網絡文本的命名實體，文獻[5]提出詞邊界識別命名實體?；谝巹t的命名實體識別覆蓋不全，可移植性差，對不同領域專有名詞的識別正確率低。機器學習方法比較依賴訓練語料的好壞，需要選擇好的特征才能得到高的正確率。本文選取詞特征、詞性特征作為特征模板，采用條件隨機場與規則相結合提取命名實體。

1 條件隨機場

1.1 條件隨機場

2 統計模型比較和條件隨機場的優勢

隱馬爾科夫模型（hidden Markov model，HMM）[8][9]：隱馬爾科夫模型是關于時序的概率模型，描述由一個隱藏的馬爾科夫鏈生成不可觀測的狀態隨機序列，再由各個狀態序列生成觀測隨機序列的過程。隱馬爾科夫模型有三個重要因素分別是初始狀態、狀態的轉移和預測序列的概率分布，在隱馬爾科夫模型中觀察序列的元素是獨立的。其模型特點決定了隱馬爾科夫模型無法融合復雜的特征，不適用于復雜、交互性強的數據。最大熵模型（Maximum Entropy Model）：是一種分類模型，用戶可以自己定義特征模板，但是特征之間無法建立關系且計算代價大，數據稀疏。條件隨機場模型：條件隨機場模型：可用于標注問題，在語音識別、NLP、生物信息和模式識別等領域被實踐證明是有效的算法。條件隨機場可以使用復雜的自定義特征，可以建立特征之間的聯系，對比前面兩個模型，它可以更有效利用上下文信息，性能更優，提取命名實體更加準確。

3 條件隨機場命名實體識別

3.1 基本特征模板

當前詞是否為一個命名實體和前一個詞和后一個詞是有很大的關系。

通過實驗發現詞性和當前詞是否為命名實體有很大關系，名詞極大可能是命名實體，動詞不可能是命名實體。所以我們定義了詞性模板。

3.2 統計與規則結合

條件隨機場提取的命名實體結果會受到分詞結果的影響，通過前面訓練一個效率高、通用性強的模型，將提取的命名實體結果通過規則進行一遍校正能更大提高命名實體識別的準確率。在本地構建常用命名實體詞典，詞典中包含常用姓、常見人名、常見地名、常見組織名等。

4 實驗結果分析

本文采用正確率P、召回率R和F值作為評價指標來驗證方法對中文命名實體抽取的有效性。采用人民日報的語料庫，選取較好的語料作為訓練集，得到實驗結果如下：

5 結論及下一步工作

本文提出一種條件隨機場和規則相結合的命名實體識別方法，定義了詞特征和詞性特征模板，結合規則對命名實體進行校正，取得較好的結果。但是條件隨機場的特征不夠豐富，沒有對其他特征進行深入的分析和研究，后續將通過實驗分析命名實體識別的特征選擇。

參考文獻：

[1]吳金星，麗麗，楊振新. CRF和詞典相結合的蒙古地名識別研究[J]. 計算機工程與科學， 2016， 38（5）： 1047-1051.

[2]李麗雙，何紅磊，劉珊珊，等. 基于詞表示方法的生物醫學命名實體識別[J]. 小型微型計算機系統， 2016， 37（2）：302-305.

[3]朱顥東，楊立志，丁溫雪. 基于主題標簽和CRF的中文微博命名實體識別[J]. 華中師范大學學報（自然科學版），2018，52（3）： 317-319.

[4]鄭秋生，劉守喜. 基于CRF的互聯網文本命名實體識別研究[J]. 中原工程學報， 2016，27（1）：71-73.

[5]姚霖，劉軼，李鑫鑫.詞邊界字向量的中文命名實體識別[J]. 智能系統學報[J]. 2016，11（1）：38-40.

[6]Lafferty J， Mccallum A， Pereira F， et al. Probabilistic Models for Segmenting and Labeling Sequence Data[J]. Proc.international Conf.on Machine Learning， 2002， 53（2）： 282-289.

[7]Sha F， Pereira F. Shallow Parsing with Conditional Random Fields[C]. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics

[8]Rabiner L， Juang B. An Introduction to Hidden Markov Models[J]. IEEE Assp Magazine，1986（3）： 4-16.

[9]Rabiner L. A Tutorial on Hidden Markov Models and Selected Applications in Speech

【通聯編輯：唐一東】

電腦知識與技術2019年9期

電腦知識與技術的其它文章: 基于SPOC+翻轉課堂的教學有效性研究; 如何打造互聯網內容生產訓練平臺; 個性化智能推薦算法在外賣軟件上的應用; 基于B/S架構的高校物資供應系統設計與開發; 物聯網的智慧校園建設與發展研究; 土特產在線平臺的設計與實現