陳皓宇 洪嘉偉 陳致然



摘要:未登錄詞是影響命名實體識別效果的重要因素,現有分詞工具在處理未登錄詞時不僅識別效果欠佳,且存在識別時間較長等問題。為提高分詞效果,在現有分詞器基礎上結合未登錄詞識別模型,提出了一種基于改進雙數組Trie的混合信息未登錄詞動態識別模型MIDAT,將雙數組Trie擴展為字符雙數組與概率雙數組,利用字符雙數組存儲字符串詞段信息,概率雙數組存儲字符串節點間的成詞概率信息,通過不斷識別未登錄詞,動態更新兩個雙數組Trie。實驗結果表明,在相同的數據集下,結合MIDAT的分詞器后對于未登錄詞的分詞效果要優于結巴等常用分詞器,同時在時間效率上相比傳統的未登錄詞識別模型提升約8倍。
關鍵詞: 未登錄詞; 雙數組Trie; 互信息; 信息熵 ; N-gram
中圖分類號:TP18? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)26-0001-05
開放科學(資源服務)標識碼(OSID):
Dynamic Recognition Model of Unknown Words Based on Mixed Information Double Array Trie
CHEN Hao-yu,HONG Jia-wei,CHEN Zhi-ran
(Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China)
Abstract:Unknown words are an important factor affecting the recognition effect of named entities. When existing word segmentation tools deal with unknown words which not only have poor recognition results, but also have problems such as longer recognition time. In order to improve the effect of word segmentation,combined the unregistered word recognition model on the basis of the existing word segmenter, and proposes a dynamic unregistered word recognition model MIDAT based on the improved double array trie. On the basis of expanding the double array trie into a character double array and a probability double array, the character double array is used to store the word segment information of the string, and the probability double array is used to store the word formation probability information between the string nodes. Through continuous identification of unknown words , dynamically update the two double array trie. The experimental results show that under the same data set, the word segmentation effect of the word segmenter combined with MIDAT is better than that of common word segmenters such as stuttering. At the same time, the time efficiency is improved by about 8 times compared with the traditional unknown word recognition model.
Key words:unknown words ;double array trie ;mutual information ; nformation entropy ; N-gram
隨著互聯網的快速發展,網絡新聞媒體中的熱點話題與重大新聞層出不窮,其中蘊含著豐富的未登錄詞[1],然而現有的分詞器并不能有效地識別出這些詞,分詞后容易產生字符串碎片,而大量的未登錄詞和字符串碎片會導致命名實體識別[2]的準確率降低,因此在自然語言處理任務中,如何有效識別出未登錄詞便成為一個熱點和難點問題。
其根本體現在下述兩個方面,一方面現有的未登錄詞發現算法效果不太理想,算法在實體識別過程中存在一定的偏差。另一方面,由于文本數據中存在大量的重復前綴,使得原有識別算法的時間復雜度非常高,進行識別需要花費大量時間。故本文在改進雙數組Trie的基礎上提出了一種基于改進混合雙數組、互信息和信息熵的混合信息雙數組未登錄詞識別模型MIDAT。
1 相關工作
目前未登錄詞識別[3]的研究方法大致有兩類:基于規則的方法和基于統計學的方法。基于規則的方法是通過字符串詞段間的結構與構詞原理,結合詞性與語義信息[4]來進行匹配,對文本語料中的未登錄詞進行識別[5]。這種方法精確率較高,但是針對性較強,適用的領域較為單一,適用度受限,并且維護十分困難。而基于統計的方法,通過使用統計模型對語料中的各種信息[6]進行未登錄詞識別,這種方法靈活性較高,具有較好的普適性,但需提前對統計模型進行大量的訓練,準確率也有待提高。