999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

混合信息雙數組的未登錄詞動態識別模型

2021-10-18 00:59:22陳皓宇洪嘉偉陳致然
電腦知識與技術 2021年26期

陳皓宇 洪嘉偉 陳致然

摘要:未登錄詞是影響命名實體識別效果的重要因素,現有分詞工具在處理未登錄詞時不僅識別效果欠佳,且存在識別時間較長等問題。為提高分詞效果,在現有分詞器基礎上結合未登錄詞識別模型,提出了一種基于改進雙數組Trie的混合信息未登錄詞動態識別模型MIDAT,將雙數組Trie擴展為字符雙數組與概率雙數組,利用字符雙數組存儲字符串詞段信息,概率雙數組存儲字符串節點間的成詞概率信息,通過不斷識別未登錄詞,動態更新兩個雙數組Trie。實驗結果表明,在相同的數據集下,結合MIDAT的分詞器后對于未登錄詞的分詞效果要優于結巴等常用分詞器,同時在時間效率上相比傳統的未登錄詞識別模型提升約8倍。

關鍵詞: 未登錄詞; 雙數組Trie; 互信息; 信息熵 ; N-gram

中圖分類號:TP18? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)26-0001-05

開放科學(資源服務)標識碼(OSID):

Dynamic Recognition Model of Unknown Words Based on Mixed Information Double Array Trie

CHEN Hao-yu,HONG Jia-wei,CHEN Zhi-ran

(Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China)

Abstract:Unknown words are an important factor affecting the recognition effect of named entities. When existing word segmentation tools deal with unknown words which not only have poor recognition results, but also have problems such as longer recognition time. In order to improve the effect of word segmentation,combined the unregistered word recognition model on the basis of the existing word segmenter, and proposes a dynamic unregistered word recognition model MIDAT based on the improved double array trie. On the basis of expanding the double array trie into a character double array and a probability double array, the character double array is used to store the word segment information of the string, and the probability double array is used to store the word formation probability information between the string nodes. Through continuous identification of unknown words , dynamically update the two double array trie. The experimental results show that under the same data set, the word segmentation effect of the word segmenter combined with MIDAT is better than that of common word segmenters such as stuttering. At the same time, the time efficiency is improved by about 8 times compared with the traditional unknown word recognition model.

Key words:unknown words ;double array trie ;mutual information ; nformation entropy ; N-gram

隨著互聯網的快速發展,網絡新聞媒體中的熱點話題與重大新聞層出不窮,其中蘊含著豐富的未登錄詞[1],然而現有的分詞器并不能有效地識別出這些詞,分詞后容易產生字符串碎片,而大量的未登錄詞和字符串碎片會導致命名實體識別[2]的準確率降低,因此在自然語言處理任務中,如何有效識別出未登錄詞便成為一個熱點和難點問題。

其根本體現在下述兩個方面,一方面現有的未登錄詞發現算法效果不太理想,算法在實體識別過程中存在一定的偏差。另一方面,由于文本數據中存在大量的重復前綴,使得原有識別算法的時間復雜度非常高,進行識別需要花費大量時間。故本文在改進雙數組Trie的基礎上提出了一種基于改進混合雙數組、互信息和信息熵的混合信息雙數組未登錄詞識別模型MIDAT。

1 相關工作

目前未登錄詞識別[3]的研究方法大致有兩類:基于規則的方法和基于統計學的方法。基于規則的方法是通過字符串詞段間的結構與構詞原理,結合詞性與語義信息[4]來進行匹配,對文本語料中的未登錄詞進行識別[5]。這種方法精確率較高,但是針對性較強,適用的領域較為單一,適用度受限,并且維護十分困難。而基于統計的方法,通過使用統計模型對語料中的各種信息[6]進行未登錄詞識別,這種方法靈活性較高,具有較好的普適性,但需提前對統計模型進行大量的訓練,準確率也有待提高。

主站蜘蛛池模板: 97在线免费| 国产拍在线| 97国产成人无码精品久久久| 大陆国产精品视频| 蜜桃臀无码内射一区二区三区 | 国产96在线 | 國產尤物AV尤物在線觀看| 欧美福利在线观看| 97在线国产视频| 网友自拍视频精品区| 婷婷六月综合| 国产精品99在线观看| 视频在线观看一区二区| 免费亚洲成人| 免费在线不卡视频| 专干老肥熟女视频网站| 宅男噜噜噜66国产在线观看| 亚洲欧美在线综合图区| 无码久看视频| 手机成人午夜在线视频| 国产成人做受免费视频| 午夜不卡福利| 亚洲精品成人7777在线观看| 久久综合一个色综合网| 五月天丁香婷婷综合久久| 午夜精品久久久久久久无码软件| 国产精品19p| 国产精品性| 欧美午夜网| 91香蕉视频下载网站| 天天摸天天操免费播放小视频| 园内精品自拍视频在线播放| 国产精品成人久久| 色婷婷成人网| 一本大道香蕉高清久久| 中文字幕欧美日韩高清| 国产成人三级| 99re免费视频| 午夜在线不卡| 免费一级大毛片a一观看不卡| 99久久精品免费看国产免费软件| 日韩亚洲高清一区二区| 国产又粗又猛又爽视频| 美女潮喷出白浆在线观看视频| 2021国产乱人伦在线播放| 秘书高跟黑色丝袜国产91在线| 自偷自拍三级全三级视频| 88av在线看| 免费A∨中文乱码专区| 亚洲av成人无码网站在线观看| 国产精品亚洲综合久久小说| 日本亚洲欧美在线| 青青草国产一区二区三区| 91小视频在线观看| 日韩小视频网站hq| 青青草国产免费国产| 欧美午夜在线播放| 伊人AV天堂| 精品国产自| AV在线麻免费观看网站| 国产区在线看| 亚洲天堂啪啪| 1024国产在线| 国产精品第| 国产精品熟女亚洲AV麻豆| 乱码国产乱码精品精在线播放 | 国产福利一区在线| 精品久久香蕉国产线看观看gif | 国产精品无码一二三视频| 成·人免费午夜无码视频在线观看 | 亚洲男人的天堂久久香蕉| 日韩成人在线一区二区| 丁香婷婷综合激情| 日韩福利视频导航| 91免费在线看| 久久无码高潮喷水| 国产成人一二三| 亚洲AⅤ永久无码精品毛片| 欧美激情伊人| 波多野结衣爽到高潮漏水大喷| 2021国产精品自拍| 日韩黄色大片免费看|