基于半監督學習與CRF的應急預案命名實體識別

2020-05-28 09:36:21劉彤魏靜倪維健陳思源

軟件導刊 2020年3期

劉彤　魏靜　倪維健　陳思源

摘要：傳統基于統計的命名實體識別方法存在需要大量人工標注的缺陷，導致識別準確率較低。為了提升識別效果，提出一種基于條件隨機場的半監督學習方法（S-CRF）對命名實體進行識別。該方法將實體識別看作序列標注問題，對少量數據進行人工標注并構建實體集，通過K-means聚類算法選取有代表性的未標注數據文本進行自動標注，采用條件隨機場對語料進行訓練測試。選取中文應急預案文檔進行實驗，該方法在各個標簽上的識別效果分別達到93.52%、93.04%、95.81%。實驗結果表明，該方法優于傳統規則方法，能有效提高應急預案命名實體的識別效果。

關鍵詞：應急預案;命名實體識別;條件隨機場;半監督學習

DOI：10. 11907/rjdk. 192096

中圖分類號：TP301 ? 文獻標識碼：A??????????????? 文章編號：1672-7800（2020）003-0035-04

Entity Identification Based on Semi-supervised Learning and CRF

LIU Tong， WEI Jing， NI Wei-jian， CHEN Si-yuan

（College of Computer Science and Engineering，Shandong University of Science and Technology，Qingdao 266590，China）

Abstract：The traditional statistical-based named entity recognition method requires large number of manual labeling defects， resulting in low recognition accuracy. In order to improve the recognition effect， we propose a method of conditional random field semi-supervised learning method （S-CRF） to identify and extract named entities. This method regards the entity recognition as the sequence labeling problem， manually label small amounts of data and constructed entity set. The K-means clustering algorithm is used to select representative unlabeled data texts for automatic labeling， and the conditional random field is used to sequence the corpus. The Chinese emergency plan document was selected for experiment. The accuracy of the B， M， and O labels reached 93.52%， 93.04% and 95.81%， respectively. The experimental results show that the method is superior to the traditional rules method and can effectively improve the identification effect of named entity of the contingency plan.

Key Words： emergency plan; named entity identification; conditional random field; semi-supervised learning

0 引言

現代社會中出現的各種突發事件通常具有規模大、復雜度高等特征，各級政府和單位需要設置合理的機構應對突發事件。因此，各省都制定了多種類型且精準的應急預案體系。自然語言作為一個應急預案文檔的主要組成成分，其包含命名實體和非命名實體，其中命名實體是指人名、地名、機構名等專有名詞及其它名稱實體（時間、日期等）[1]。命名實體識別是指對這些詞進行識別、整理歸類與分析。命名實體識別是NLP處理領域的問題，在機器翻譯和信息檢索抽取等方面應用廣泛，能否正確識別命名實體決定著信息抽取效率[1]。目前，國內外針對命名實體識別的研究方法主要有傳統識別方法和神經網絡方法，對諸多領域的命名實體識別研究已較為成熟，并且取得了較好效果，但對中文應急預案文本方面的研究較少。因此，對中文應急預案文本進行命名實體識別，提取出其中的組織機構名，對于后續組織間關系效率研究具有一定的實際意義。

本文選擇中文應急預案文本為實例展開研究，采用提出的基于半監督學習與傳統規則的條件隨機場（CRF）方法提取組織機構，將中文命名實體識別任務分為兩步：首先通過NLPIR漢語系統進行分詞，在分詞基礎上人工標注命名實體，獲得少量標注數據;其次考慮到機構名在文本中出現的頻率與上下文語境不同，導致識別出的組織機構名不準確，因此在提取的基礎上用命名實體詞表對未標注文本進行自動標注，并采用條件隨機場模型（CRF）進行訓練測試。實驗結果表明，本文方法引入自動標注后，對機構名識別的準確率高于傳統基于條件隨機場的方法，可有效提升識別效果。

1 相關工作

1995年11月，第六屆 MUC會議（MUC-6，the Sixth Message Understanding Conferences）上首次提出命名實體識別任務。命名實體識別主要是對文中的地名、人名、機構名等進行識別，目前用于命名實體識別的方法主要有基于規則的方法、基于統計機器學習的方法與基于深度學習的方法。如Collins等[2]提出DL-CoTrain 方法，該方法首先定義規則集Decision List，然后通過對該集合進行無監督訓練獲得更多規則，其對人名、地名與機構名的分類準確率均達到91%; Cucerzan等[3]基于知識數據庫與手動注釋語料庫成本，提出用Bootstrapping 自動進行規則生成的方法;朱顥東等[1]提出一種將規則與統計相結合的中文微博命名實體識別方法，該方法首先利用微博主題標簽對數據進行篩選，選擇適當的特征模板，然后利用CRF進行實體識別，有效提高了實體識別效果;孫靜等[4]首先利用詞典對文本進行詞性標注，獲得初始標注語料，然后利用CRFs進行反復訓練，使最終識別準確率提高了1.88%～2.26%;鄔倫等[5]將地名構成與使用特征融入到條件隨機場方法中，通過引入語言學知識，將地名識別問題轉化為序列標注問題，使地名識別召回率、準確率和F值分別達到92.69%、96.37%和94.67%，有效提高了識別效果;彭嘉毅等[6]提出一種基于字符特征、雙向長短時記憶網絡（Bi-LSTM）與條件隨機場（CRF）的信息安全領域命名實體識別方法，該方法無需人工提取特征，而是利用CRF對神經網絡模型標注的序列進行約束，有效提高了識別準確率。基于以上分析，命名實體識別方法已應用十分廣泛，因此本文考慮到應急預案組織機構名種類繁雜，以及上下文語義和機構名全稱與簡稱，提出一種基于條件隨機場的半監督學習方法（S-CRF）對機構名進行識別與提取。

2 條件隨機場模型介紹

JohnLafferty 等在2001年首次提出一種判別式概率—條件隨機場模型（Conditional Random Fields，CRF），該模型已被應用于實體識別、信息抽取等相關領域。

在應急預案命名實體識別任務中，設[P（y|x）]為線性條件隨機場模型，則在給定觀察序列x={x1，x2，…，xi}和預測序列y={y1，y2， …，yi}條件下定義為以下形式：

式（1）中，[tk]、[sl]為自定義特征模板函數，[λk]、[ul]為學習得到的參數，即特征權值。式（2）中的Z（x）為歸一化函數，使所有可能序列標注和為1。本文采用開源條件隨機場工具包CRF++0.58，在尋找特征后可以自動生成特征函數。

3 命名實體識別

本文將從應急預案中抽取組織機構的過程抽象化為序列標注問題，即對文本中的組織機構附以相應標簽，根據標簽提取出各個組織機構。序列標注問題采用傳統條件隨機場（Conditional Random Fields，CRF）監督屬性實體識別方法。

3.1 文本序列標注

本文采用常用的BMO三標注法對組織機構進行標注，B表示當前組織機構的開始;M表示當前組織機構的延續和結束;O表示任意非實體。圖1為一個文本標注實例，各標簽具體含義如表1所示。

3.2 基于半監督學習的CRF模型

對于傳統監督學習，訓練數據模型需要大量已標注數據，由于文本數量大且類型繁多，人工標注時間成本有限，因此需要從眾多未標注文本中選擇代表性的文本進行自動標注。如王新建等[7]采用隨機選取的方法獲取所需的自動標注文本集，但隨機選取的方法容易使選出的樣本不具有代表性，使得最終的準確率較低。因此，本文在已有研究基礎上采用K-means聚類算法對未標注文本進行劃分。該算法思想是先采用K-means聚類算法對未標注文本進行聚類，將其分成不同類型的集合，最后從不同類型集合中選取有代表性的文本進行自動標注，獲得自動標注文本集。該算法流程如圖2所示。

基于以上算法對不同類型文本中經常出現的組織機構進行自動標注，以圖1所示的文本標注為例，“市應急委員會辦公室”和“市信息辦”是在各市區常設的組織機構，在很多應急預案文本中都會出現。已標注實體在一定程度上能反映未標注文本中出現的實體信息，但由于實體所在文本位置中的上下文語義不同，可能導致無法識別，從而使最終準確率較低。基于以上分析，對文本進行自動預標注步驟如下：

Step 1：構建實體詞表。根據人工標注結果構建實體詞表。

Step 2：對應急預案文本進行預處理。

Step 3：自動預標注。利用構建的實體詞表對未標注文本進行處理，如果文本中的實體出現在實體詞表中，則直接被標注為相應實體標簽。

Step 4：重復Step 3，直到所有未標注文本全部自動標注完畢。

3.3 特征模板選取

特征模板是對自然語言文本結構與規律的表示，對組織機構進行標注后，需要設計合理的特征模板以生成訓練語料庫。每個應急預案中組織機構名存在的語義環境不同，因此在定義條件隨機場特征模板時，要考慮上下文特征與詞性特征。上下文特征是指將當前詞位置前n個詞與后n個詞融合的信息，詞性特征是指將實體詞所在當前位置前后詞詞性融合的信息。文本標注實例如表2所示。

根據表2的文本標注實例，考慮到上下文語義和詞性特征，設置特征模板如下：

# Unigram

U00：%x[-2，0]

U01：%x[-1，0]

U02：%x[0，0]

U03：%x[1，0]

U05：%x[-1，0]/%x[0，0]

U07：%x[0，0]/%x[1，0]

U08：%x[-1，1]/%x[0，1]/%x[1，1]

U09：%x[0，1]/%x[1，1]/%x[2，1]

U10： %x[-1，1]/%x[0，1]

U11： %x[0，1]/%x[1，1]

U12： %x[-1，1]

U13： %x[0，1]

…

4 實驗部分

4.1 實驗數據

本文選擇中文應急預案文本為實例展開研究，爬取各省人民政府網站中的應急預案文本共902篇作為實驗數據。針對各省不同類型的預案選取50篇文檔，對文本實體進行人工標注，采用K-means聚類算法[9]進行聚類后，選取100篇有代表性的未標注文本進行自動標注，并賦予相應標簽，然后用條件隨機場模型進行訓練測試，并從標注文檔中隨機選取20篇文檔作為測試數據用于模型評價。

4.2 應急預案文檔規范化

中文應急預案文本命名實體識別的困難之處主要是預案類型多，包含的實體名比較繁雜，實體所在位置前后語義也會對識別造成干擾。因此，對文本作進一步規范化處理是十分必要的，如去除文本中的干擾符號。由于文本的多樣化，其包含許多標點符號和其它語言文本（如：市、縣（市、區）抗震救災指揮部等構成），這些標點符號在實體識別過程中會造成一定干擾，因此可以直接刪除。

4.3 對比實驗

為了驗證本文方法的有效性，分別對本文提出的實體識別方法（S-CRF）、傳統條件隨機場模型（CRF）與基于規則（RULL）的方法進行對比分析。

（1） S-CRF方法：人工標注50篇文檔與自動標注100篇文檔構成訓練實體模型。

（2）傳統條件隨機場模型（CRF）：人工隨機標注50篇文檔進行CRF模型訓練。

（3）基于規則（RULL）的方法：通過制定相應規則對機構名進行識別。

實驗中采用準確率（Precision）、召回率（Re-call）與F值評價識別效果，各方法識別結果分別如表3-表5所示。

從表中可以看出，在只利用條件隨機場模型與基于規則進行命名實體識別的情況下，準確率、召回率和F值都較低，而在加入自動標注和條件隨機場模型識別的情況下，準確率和召回率都得到了提升。上述3個實驗結果表明，本文提出的實體識別方法（S-CRF）能夠提高識別效果。

5 結語

本文提出采用基于條件隨機場的半監督學習方法（S-CRF）提取中文應急預案組織機構名，將該任務視為序列標注問題，利用少量標注文本對未標注文本進行自動標注，并將其應用于中文應急預案組織機構識別中，對收集的數據進行規范化處理。綜合考慮組織機構詞性特征和上下文語義特征，為條件隨機場構建合適的特征模板和訓練語料，采用自動標注彌補了傳統命名實體識別需要大量人工標注數據的缺陷。通過對比實驗表明，該方法能有效提高應急預案命名實體識別效果。然而，本文研究還有待完善，下一步研究工作應根據實際應用進一步優化識別算法，將多模型融合與本文提出方法結合應用到命名實體識別中，從而提高識別準確率，同時還可將該方法應用到人名、地名識別中。

參考文獻：

[1]朱顥東，楊立志，丁溫雪，等.? 基于主題標簽和 CRF的中文微博命名實體識別[J]. 華中師范大學學報（自然科學版），2018，52（3）：316-321.

[2]COLLINS M， SINGER Y. Unsupervised models for named entity classification[C]. Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora， 1999： 100-110.

[3]CUCERZAN S，YAROWSKY D. Language independent named entity recognition combining morphological and contextual evidence[C]. Proceedings of the 1999 Joint SIGDAT Conference on EMNLP and VLC， 1999： 90-99.

[4]孫靜，李軍輝，周國棟. 基于條件隨機場的無監督中文詞性標注[J]. 計算機應用與軟件，2011，28（4）：21-23，46.

[5]鄔倫，劉磊，李浩然，等. 基于條件隨機場的中文地名識別方法[J]. 武漢大學學報（信息科學版），2017， 42（2）：150-156.

[6]彭嘉毅，方勇，黃城，等. 基于深度主動學習的信息安全領域命名實體識別研究[J]. 四川大學學報（自然科學版），2019，56（3）：457-462.

[7]王新建，羅光舂，秦科，等. —種基于SVM和主動學習的圖像檢索方法[J]. 計算機應用研究，2016（12）：3836-3838，3846.

[8]姚明海，陳志浩.? 基于深度主動學習的磁片表面缺陷檢測[J].? 計算機測量與控制， 2018（9）：29-33.

[9]CSDN. K-means[EB/OL]. https：//blog.csdn.net/zengxiantao1994/article/details/73441922.

[10]孫鎮，王惠臨. 命名實體識別研究進展綜述[J]. 數據分析與知識發現，2010，26（6）：42-47.

[11]CHADI H，SHADY E. Arabic named entity recognition via deep co-learning[J]. Artificial Intelligence Review，2019，52 （1）：197-215.

[12]閆海磊，施水才. 一種面向時政新聞的命名實體識別方法[J]. 北京信息科技大學學報，2018，33（6）：23-43.

[13]房輝，湯文兵，桂海霞，等. 基于眾包標注的中文微博命名實體識別[J]. 計算機應用與軟件，2019，36（3）：255-270.

[14]張海楠，伍大勇，劉悅，等. 基于深度神經網絡的中文命名實體識別[J]. 中文信息學報，2017，31（4）： 28-35.

[15]楊飄，董文永. 基于BERT嵌入的中文命名實體識別方法[J]. 計算機工程：1-7[2019-11-02]. https：//doi.org/10.19678/j.issn. 1000-3428.0054272.

[16]張應成，楊洋，蔣瑞，等. 基于BiLSTM-CRF的商情實體識別模型[J]. 計算機工程，2019，45（5）：308-314.

[17]武惠，呂立，于碧輝. 基于遷移學習和 BiLSTM-CRF 的中文命名實體識別[J]. 小型微型計算機系統，2019，40（6）：1142-1147.

[18]陳鵬. 基于多核融合的中文領域實體關系抽取研究[D]. 昆明：昆明理工大學，2014.

[19]唐釗. 條件隨機場模型在中文人名識別中的研究與實現[J]. 現代計算機，2012，14（7）：3-7.

（責任編輯：黃健）

收稿日期：2019-08-02

基金項目：國家自然科學基金項目（71704096，61602278）;青島市社科規劃項目（QDSKL1801122）

作者簡介：劉彤（1982-），女，博士，山東科技大學計算機科學與工程學院副教授、碩士生導師，研究方向為數據挖掘、人工智能;魏靜（1991-），女，山東科技大學計算機科學與工程學院碩士研究生，研究方向為智能信息處理、信息挖掘;倪維健（1981-），男，博士，山東科技大學計算機科學與工程學院副教授、碩士生導師，研究方向為文本挖掘、過程挖掘;陳思源（1993-），女，山東科技大學計算機科學與工程學院碩士研究生，研究方向為智能信息處理。本文通訊作者：倪維健。

軟件導刊2020年3期

軟件導刊的其它文章: 基于神經元網絡PID整定的電液位置伺服系統; 基于Android的“社交+自適應推薦”閱讀APP設計與實現; 大數據實體識別相關技術研究; 融合情感符號的自注意力BLSTM情感分析; 基于改進HOG算法的AGV小車避障研究; 基于深度學習的個性化教育測量綜述