999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文短文本實體識別和鏈接探討

2021-01-04 01:47:55
科學與信息化 2021年1期
關鍵詞:文本系統

蘇州大學計算機科學與技術學院 江蘇 蘇州 215000

引言

自進入信息時代以來,互聯網技術蓬勃發展,需要處理的文本信息逐漸增多,為了進一步強化對文本內容的理解,需要相關研究人員結合命名實體進行深入探索。而所謂命名實體,主要指以人名、地名為主的名稱,或以時間、日期為主的表達式等一系列具有明確語義信息文本、字詞或短語。通過對文本中的實體進行識別,能夠為人們進一步了解文本奠定基礎,為機器更加深入的處理文本實體和含義提供保障[1]。

1 中文命名實體識別的相關介紹

中文命名實體識別是研究和處理自然語言的關鍵方向,也是分詞系統、實體連接系統以及文本摘要系統中不可或缺的組成部分。近年來,隨著網絡進程的不斷深入,網絡文本與日俱增,在一定程度上增加了文本信息處理的工作量,使得人們對文本自動化處理產生了迫切需求。

以上提到,命名實體是指具有明確語義的專有名詞,其中包括稱呼、表達式以及數量詞語等。在研究特定的命名實體過程中,需要結合實際場景確定其具體含義。

1.1 人名識別

人名作為明明實體中的重要組成之一,是一個較為特殊的類別,相對于其他專有名詞而言,在識別方面具有一定難度。中文人名在識別中存在的難點具體可以體現在以下幾個方面:第一,外國人名在識別過程中可以將首字母大寫作為標志,而中文人名識別則沒有。第二,人名具有不可列舉特征。當前,只有極少部分的中文人名或昵稱可以在字典中找到,而大部分人名都需要專門識別。第三,中文姓名具有多樣化特征,格式無法統一,并且其中涉及大量音譯外國人名,在一定程度上增加了識別難度。第四,中文人名具有結構復雜特征,其中包括人名本身是一個詞語詞或其中一部分是一個詞語,在識別過程中容易產生歧義。例如:黎明、汪洋等本身成詞的人名,或王國維等部分成詞的人名。

1.2 組織機構識別

組織機構名稱也是出現頻率較為頻繁,并且對文本含義起到重要影響的專有名詞之一。在中文短文本實體識別中,組織機構名稱識別難度較大。具體來說,由于組織機構名稱長短不一,并且存在嵌套或者縮寫等情況。因此,在組織名稱較長的文本識別過程中,可以通過先局部、在合并的方式進行識別,而后結合中文短文本中的前后關系,提取組織機構名稱的識別方法。

1.3 地名識別

地名識別相對于人名識別和組織機構識別而言相對簡單。地名一般具有顯著特征,并且絕大多數地名都被收錄到字典中,并且與其他專有名詞相比,新增地名的可能性相對較低。

2 中文命名實體連接的相關介紹

在研究命名實體識別過程中,雖然通過標記專有名詞,能夠進一步解專有名詞在文本中的類型及相關位置,但是無法為人們深入掌握名詞提供依據,對于中文短文本識別而言,理解和解釋專有名詞,才是識別命名實體的重要內容。

通過實體連接,可以用某個百科全書或知識庫文章中的條目,對專有名詞進行標記。由此可見,實體連接具備簡潔性和抽象性特征,通過給定一組查詢名詞或者相關背景,能夠使人們從已有知識庫中找到與文本識別向匹配的實體項,從而對專有名詞做出標記[2]。如果知識庫中沒有與文本相對應的實體向,則返回NIL。在此過程中需要注意,實體連接雖然是一種較為便捷的專有名詞解釋方法,但是更加適用于被復雜任務的自然語言處理系統。

另外,并非百科全書就一定具有全面性,其中也并非收錄所有實體。例如:在謀篇中文短文本中出現“李白”這一人名后,大多數人都會自然而然聯想到唐代詩人李白,在知識庫中雖然有唐代詩人李白的相關條目,但是文本中所指的“李白”,也可能知識普通人群中的一員,此時,需要將這一專有名詞標記為NIL,表示知識庫中沒有對這一實體進行描述的內容。

3 中文短文本實體識別和鏈接之間的關聯性

想要進一步解決實體識別與實體鏈接問題,研究人員廣泛應用了管道體系。具體來說,研究人員利用一個命名實體識別系統,對專用名詞的具體位置和類型進行標示。而后用實體鏈接系統深入研究專有名詞的位置和類型,從而對專用名詞在中文短文本中的意義進行揭示。與其他管道體系弊端相同,這種方式也存在一定的不足之處,即在實體識別系統中存在的錯誤,會持續傳遞到實體鏈接系統中[3]。具體體現在以下三點:第一,一旦實體識別存在錯誤,并且傳遞到練習系統,則導致錯誤無法恢復和彌補。第二,中文短文本實體識別,無法利用實體連接系統中使用的相關信息。第三,實體識別系統與實體鏈接系統產生的輸出不一致。也就是說,實體鏈接系統標記的專有名詞與實體識別系統給出的類別標記不一致。

曾有專業研究人員明確提出,在中文短文本處理過程中,將系統的F1精度設置到0.64~0.67之間。如果實體識別結果正確,此時實體連接系統精度也相對較高。本文在此基礎上提出一種新型模型,用于命名實體識別處理和鏈接任務中[4]。另外,如果中文短文本具有短小、缺乏完整性、句法結構異常等缺陷,首先需要考慮知識庫中的信息,并對實體進行深入分析。

4 結束語

綜上所述,自然語言處理具有一定困難性和挑戰性,其主要原因在于自然語言表達具有多言行特點。簡單來說就是同一實體存在多種表達方式,并且多種表達方式的意思又具有一致性。因此,本文結合中文短文本實體識別和實體連接的相關介紹進行分析,通過對實體識別的位置和類型進行標示,利用實體連接在知識庫中找到相應條目,從而確定文本實體的含義,為人和機器進一步掌握詞義奠定基礎。

猜你喜歡
文本系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
基于PowerPC+FPGA顯示系統
在808DA上文本顯示的改善
半沸制皂系統(下)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲欧美日本国产专区一区| 99精品福利视频| 亚洲国产天堂久久综合226114| 精品国产乱码久久久久久一区二区| 久久这里只有精品国产99| 国产黄在线观看| 女同久久精品国产99国| 国产午夜小视频| 久久毛片免费基地| 69视频国产| 高潮爽到爆的喷水女主播视频 | 99视频在线观看免费| 久久99精品久久久久久不卡| 国产主播在线一区| 日韩AV无码免费一二三区| 国产成人综合日韩精品无码不卡| 久久无码av一区二区三区| 国产免费久久精品99re丫丫一| 国国产a国产片免费麻豆| 日本高清免费不卡视频| 欧美国产在线看| 日韩欧美中文字幕在线精品| 国产亚洲日韩av在线| 国产91色在线| 欧美日韩资源| 97超碰精品成人国产| 亚洲无码精彩视频在线观看| 中文字幕日韩久久综合影院| 精品偷拍一区二区| 国产精品任我爽爆在线播放6080| 国产美女精品在线| 国产情侣一区二区三区| 无码久看视频| 久久婷婷国产综合尤物精品| 欧美天天干| 尤物国产在线| 国产SUV精品一区二区| 午夜天堂视频| 91色在线观看| 99人妻碰碰碰久久久久禁片| 伦精品一区二区三区视频| 国产噜噜噜| 国产无人区一区二区三区| 久久精品电影| 无码国产伊人| 久久精品这里只有国产中文精品| 天天躁日日躁狠狠躁中文字幕| 国产日产欧美精品| 国产精品极品美女自在线| 欧美性猛交一区二区三区| 少妇精品网站| 国产精品免费露脸视频| 免费在线视频a| 欧美a在线| 亚洲天堂免费在线视频| 日韩AV无码免费一二三区| 视频一本大道香蕉久在线播放| 亚洲资源在线视频| 欧美亚洲另类在线观看| 国产呦视频免费视频在线观看| 97狠狠操| 香港一级毛片免费看| 欧美一级在线| 午夜不卡视频| 日韩视频福利| 草草影院国产第一页| 日本91视频| 中文字幕一区二区人妻电影| 2020国产免费久久精品99| 午夜视频www| 欧美色视频日本| 中国毛片网| 亚洲精品福利视频| 天天综合天天综合| 国产乱人伦偷精品视频AAA| 色综合成人| 亚洲成a人片| 国产99在线| 天堂在线视频精品| 亚洲AV无码乱码在线观看裸奔| 亚洲国模精品一区| 国产成人亚洲精品无码电影|