基于規則的維吾爾語命名實體識別研究

2015-09-19 09:47:13于光磊徐毅馬明達俞珍珍米克然阿依·艾爾肯

中國科技縱橫 2015年15期

于光磊徐毅馬明達俞珍珍米克然阿依·艾爾肯

【摘要】命名實體（Named Entity， NE）是指文本中承載著人名、地名、組織機構名等重要信息的詞語。命名實體識別（Named Entity Recognition， NER）是指在正確理解文本意義的基礎上，對文本中的命名實體進行識別，并按照其類型進行歸類。本次主要是基于對維吾爾語中的人名、地名進行研究，通過此次的研究，能夠使更多的人了解到維吾爾語，同時對了解維吾爾族人民的文化也起到積極的作用。維吾爾族語言中的人名、地名等都有相關的特征詞，通過特征詞能夠迅速而有效的找出文本中的人名、地名等信息，所以此次研究的方法主要依據基于規則的方法。

【關鍵詞】命名實體命名實體識別特征詞

1 引言

從研究范圍方面來說，早期的命名實體識別研究主要集中在西方國家，以研究英文為主。1995年后學者開始了對中文、德文、日文等語言的研究。中國在中文命名實體識別研究上取得了較好成績，并且展開了對少數民族語言如維語、蒙語等語言的命名實體的研究。

本次的研究目的在于通過該軟件對我國少數名族中的維語能夠起到一個推動的作用，使更多的人能夠了解維語，同時在閱讀維語文章中能夠快速找到該文章的人名，地名，組織機構等重要信息，對閱讀者起到一個非常重要的幫助。

2系統的設計與實現

2.1系統設計功能及實現原理

命名實體識別過程中，通過信息檢索，在一篇文章中能夠快速找到有用的信息。此次研究，主要針對數字，人名，地名等信息，由此，該系統的設計功能主要分為以下七大模塊：

（1）分詞功能：通過分詞功能，把讀取的文本數據進行分詞，方便取詞和查找人名地名時進行詞與詞之間的比對。

（2）數字識別：通過程序的控制，對數字進行直接的判斷，從而找出文本信息中出現的數字以及數字出現的位置；

（3）人名識別：在維語命名中，人們習慣把名字命名為具有一定寓意的詞語。因此，在人名中，我們提前建立一個人名數據詞庫，通過查找那些具有一定寓意的詞語，把它們總結起來進行錄入，然后通過分詞功能把文章中的每個詞語進行讀取和比對，再加上句子的語法構成結構，從而判斷該詞是否屬于人名，如果文章中出現過的人名不在數據庫中，那么我們需要手動錄入該詞，使該詞保存到數據庫中，以便在下次使用中出現該詞語時會自動識別為人名。

（4）地名識別：地名識別的方法類似于人名的識別方法，不同的是，地名的詞語組成種類比較多，可分為以下四種：①單個詞語組成地名；②由地名首詞語+規則詞共同組成地名；③由地名首詞語+中間詞+規則詞共同組成地名；④多個連續地名組成一個特定地名；

通過程序的判斷，得出該詞屬于哪一種地名構成的結構，從而得出一個較為完整和準確的地名。

（5）詞語添加：在使用的期間，用戶會發現有的人名或是地名在數據庫中沒有存在，那么為了下次使用時能夠判斷該詞屬于人名或是地名，我們需要手動的進行錄入，因此該軟件系統具有添加信息的功能。

（6）文本讀取：在如此多的文本格式中，需要對多種文本格式的支持，例如.txt，.doc等；

（7）編輯功能：編輯為文本提供常見的文本編輯功能，例如字號、顏色的設置、查找、選擇、導入/導出等功能。

2.2系統技術支持

后臺技術：通過Java語言的控制與判斷，實現對文本的讀取，同時找出文本中的所要的信息，包括數字、人名、地名等。

前臺技術：通過Java中的Swing組件與AWT組件，完成對前臺可視化的編輯，從而有一個更好的用戶體驗。

數據庫技術：MySql數據庫是一個小型的，用戶數量最多、最廣的數據庫，因此，此系統通過MySql數據庫進行數據存儲，同時還能夠方便、快捷的對數據進行操作。

3系統識別結果與分析

對系統的識別性能評估，我們用：準確率（P），召回率（R），綜合指標（F）值3個評測指標，其識別結果如表1，表2所示。

通過數據可以看出，我們這次完成的軟件系統對維語識別的正確率是很高的，但是還有好多的沒有識別出來，原因是數據庫中所存儲的人名、地名有限，我們不能完完整整的把所有數據都保存在數據庫中，只能通過后期的不斷應用，不斷的添加數據，完善自己的數據。對于這些問題，我們今后會對其改進，使正確率更高，更能有效地幫助人們在閱讀維語文章中找到有用的信息。

4 結語

通過此次實驗研究，我們不但完成了軟件系統的功能實現，還對維吾爾語的語言特點以及人名、地名構成規則進行了深入研究，總結出維語人名、地名中的規則。與此同時，我們還建立了維語人名詞典庫和地名詞典庫，通過詞典庫中的信息，能夠在使用軟件時，快速而有效地找出文本中存在的人名、地名。

參考文獻：

[1] 劉群.機器翻譯研究新進展[J].當代語言學，2009，02：147-158+190.

[2] 鄧尚民，孫玉偉.信息抽取系統的研究現狀[J].現代圖書情報術，2006

[3] 張小衡，王玲玲.中文機構名稱的識別與分析[J].中文信息學報，1997

[4] Dimitra Farmakiotou， Vangelis Karkaletsis， et al. Rule-based named entity recognition for Greek financial texts[C]//Proc. of the Workshop on Computational lexicography and Multimedia Dictionaries （COMLEX 2000）. 2000： 75-78.

中國科技縱橫2015年15期

中國科技縱橫的其它文章: 大學生人際消費情況調查*
——以川北醫學院為例; 葉絲段煙絲結構變化研究; 大學生參加社團活動心理預期和實際收獲對比調查*
——以川北醫學院為例; 動態可重構處理器專利技術綜述; 玫瑰線的曲率積分是定值; 熒光分光光度法研究可卡因與牛血清白蛋白之間的相互作用*