999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互信息的識別中文地名未登錄詞技術研究

2011-10-25 10:17:56付海辰
唐山師范學院學報 2011年2期
關鍵詞:文本

付海辰

(唐山學院 計算機科學與技術系,河北 唐山 063000)

在大規模真實文本處理中,有一些詞依靠分詞詞典是無法識別出來的,這些詞被稱為未登錄詞,以中文人名、地名、機構名為三種主要形式。未登錄詞的識別,是中文文本自動分詞中遇到的除歧義識別外的另一難題。

在現在正蓬勃發展的信息檢索和數據挖掘研究領域中,未登錄詞的識別具有十分重要的意義:識別未登錄詞可以提高分詞和抽詞的精度,擴充依據詞典提取的關鍵詞集合,從而更加準確的對信息資源進行描述、分析與理解[1]。

1 未登錄詞識別的困難

產生未登錄詞的原因主要有兩點:機器可讀詞典中詞條的選擇和詞條的數量;機器可讀詞典與待處理文本中的詞條匹配關系,包括機器可讀詞典對待處理文本中詞匯的覆蓋率[2]。漢語語言豐富靈活,漢語詞種類繁多,構詞法樣式不一,都給未登錄詞的識別造成了很大的困難。另外,一些未登錄詞與詞典中已經存在的詞相互交叉結合,也使得未登錄詞識別的正確率不高。例如,在句子“小梅花光了她所有的積蓄”中,“小梅”是一個中文人名,應該被作為一個詞切分出來,但是實際切分時因為詞典中不存在這個詞,所以無法得到正確的切分,且由于詞典中收錄了“梅花”一詞,因此此句將被切分為“小/梅花/光/了/她/所有/的/錢”。

未登錄詞的出現是中文文本不可避免的問題,其直接影響了中文文本處理的正確率,所以目前未登錄詞的識別是一個迫切需要解決的問題。

中文人名、地名、機構名是三種最主要的未登錄詞形式,它們的識別都有相當重要的意義,本文主要側重于中文地名的識別。

2 中文地名的的未登錄詞識別

2.1 中文地名特點

中文地名的識別困難不僅在于中文地名的多樣性和任意性,而且在很多情況下,其又可以作為句子的其他成分參與句子的構造和活動。雖然中文地名在文章中的出現頻率不是很高,但絕不可以忽略,否則在分詞系統中會出現不可預料的錯誤。中文地名主要有如下特點:

(1)中文地名數量大,且用詞分散、自由,到目前為止,還沒有完整的地名庫可供使用,隨著社會的發展,生疏地名也在不斷增加,較難完善。

(2)地名長度無嚴格限制,短的如“京”,長的如“新疆維吾爾自治區”;且地名結尾經常有地名特征詞出現。

(3)可作單字詞的漢字在地名中經常出現,如“西/直/門”,給地名識別帶來困難,容易造成只識別出單字,而未識別出地名的錯誤。

(4)多個地名一起出現,難以一一正確劃分,如“河北省/唐山市/建設北路/鶴祥園/106樓”。

這些中文地名的特點,都給地名的識別和切分帶來了困難。在無法窮舉所有地名的條件下,引入互信息這一概念,有助于克服以上地名識別困難。

2.2 基于互信息的地名識別方法

目前,國內關于中文地名的研究主要有基于交換的地名識別方法,得到地名上下文的規律,對規律再進行篩選。本文提出了一種基于互信息的中文地名識別方法,提出中文地名的上下文互信息概念,引入互信息對其進行描述,并通過引入調整閥值進行矯正,有效地提高了中文地名識別的效果,保證了較高的召回率,有助于中文自動分詞系統中未登錄詞識別的提高。

互信息一般反映的是字與字之間的靜態結合,因為它計算的就是相鄰字出現的頻率,根據這個頻率與字單獨出現頻率進行比較,計算出互信息來判斷什么時候組成詞語。互信息的概念最早見于信息論,其中互信息被作為一種衡量兩個信號之間相互依賴的尺度[3]。在信息論中,這種二元互信息可以表示為兩個信號發生概率的函數。具體在自然語言處理領域中,就是把句子中詞或詞序列作為一系列可能有關聯的隨機事件,然后用互信息對它們進行分析與研究。對有序漢字串AB中漢字AB之間的互信息I(A,B)定義如下:

互信息體現了漢字之間結合關系的緊密程度,當緊密程度高于某一閥值時,便認為此字組可能構成了一個詞。其中,P (A,B)為漢字串 AB聯合出現的概率,P(A)為漢字串 A的出現概率,P(B)為漢字串B的出現概率,它們在漢字字符串中出現的次數分別計為n(A),n(B),n(AB),n是詞頻總數,則有如下公式:

互信息反映了漢字串AB間相關的程度。

如果 I( A,B) ≥0,即 P (A,B)≥ P(A)P(B),則AB間是正相關的,隨著I(A,B)增加,相關度增加,如果I(A,B)大于給定的一個閥值,這時可以認為AB是一個詞;

如果 I( A,B) ≈0,即 P (A,B)≈ P(A)P(B),則AB間是不相關的;

如果I(A,B)<0,即 P(A <B)< P (A)P(B),則AB間是互斥的,這時AB間基本不會結合成詞。

在漢字處理中,互信息描述的是兩個字或者詞之間的關聯程度大小。定義y∈Y,其中y為某一具體的地名,Y為文本中所有地名的集合;x∈X,x為上下文信息,X為由x組成的集合。

由于地名識別中,判斷一個句中是否含有地名,常常需要用到地名的左右指界詞,根據上述定義,I(x,y)表示上下文信息x與地名y的互信息,它的大小描述了x與y的關聯程度,此時的地名左右指界詞即為上下文信息x,指界詞與地名的共現頻率即為互信息I(x,y)。例如,兩個句子中分別有“到達”和“扣留”兩個詞,判定“到達”的后同現詞(出現在單詞右邊的詞)是地名的概率要大于“扣留”的后同現詞是地名的概率。引入互信息可以準確的描述上下文信息x與地名y的關聯程度。

2.3 基于互信息的地名識別方法

2.3.1 地名的上下文互信息

中國地名的自動識別策略是:在對文本分詞的基礎上進行常見地名匹配后,利用概率估值公式在文本中初步篩選出候選地名,然后根據互信息方法計算出地名的上下文信息,再通過規則對候選地名進一步確定,直至得到真正的地名。本文的互信息地名識別方法也是建立在已利用現有的地名識別資源,初步選出了侯選地名的基礎之上。識別原理如圖1所示。

在信息論中,互信息 I( x,y)= I(y,x),兩者是對稱的;而在互信息的地名識別中,互信息 I( x,y)≠ I(y,x),因為在自然語言中,一個句子里漢字的排列順序是不能改變的。設地名與前同現詞的互信息為上文互信息,用Il表示;地名與后同現詞的互信息為下文互信息,用Ir表示。則定義如下:

其中,place為一個侯選地名;Li、Rj分別為侯選地名place的前同現詞和后同現詞(i,j分別是自然數,i≥1,j≥1;P (place)為真實地名集合在實際語料詞語中的概率(place為實際語料中的真實地名集合);P (Li, place) 、P( place,Rj)分別為真實地名集合與前同現詞的同現概率、真實地名集合與后同現詞的同現概率。地名的前同現詞與后同現詞使用概率是不同的,因此它們與地名的互信息Il和Ir的分布不同。

圖1 中國地名自動識別原理圖

例如,我們經常遇到的地名前同現詞有“到達”、“開赴”、“靠近”等,后同現詞有“省”、“市”、“街”等。根據地名的上下文信息,將其互信息定義如下:

其中,E是互信息 Il(Li, place)與 Ir(place,Rj)的均值,D為互信息 Il(Li, place)與 Ir(place,Rj)之間的方差。當給定上下文環境時, Icon(Li,place, Rj)的數值可定量的描述place是真實地名的可能性。

2.3.2 調整閥值確定

為了對地名識別召回率進行調整,將上下文互信息的調整閥值定義為:

其中,

定義概率估值 P (place)的計算公式如下:

n=2時,

n>2時,

其中,

公式中,對每個中國地名用字c, Nsampleplace表示在真實語料中出現的中國地名個數。Ps(c)、Pm(c)、Pe(c)分別是漢字c作地名首字、中間字和尾字的概率;Nps(c)、Npm(c)、Npe(c)分別是漢字 c在中國地名樣本庫中作地名首字、中間字、尾字的總次數;Nts(c)、Ntm(c)、Nte(c)分別是漢字 c在真實文本中作地名首字、中間字、尾字的總次數;Nt(c)是漢字c在真實文本中出現的總次數,Nc(c)是漢字c在中國地名樣本庫中出現的總次數。

2.3.3 地名識別過程

中國地名的自動識別過程可以描述為:首先參照地名用字表進行常見地名匹配,產生初步的候選地名字串,結合從真實文本中統計得到的詞頻信息進一步確定候選地名的起止位置;其次計算候選地名的概率估值,并計算地名的互信息,結合上下文互信息進行閥值篩選;最后利用規則對通過閥值篩選的候選地名進行調整,產生正確的地名結果。具體步驟如下:

(1)產生侯選地名字串。在分詞過程中,如果字串

滿足以下條件,則認為place為侯選地名字串。

(Ps( C1)>thor C1為非詞字)

and

and

其中th、tm、tl分別是地名首中尾字對應的頻數閥值,隨著地名用字庫容量的改變,各閥值也不斷變化,但選擇閥值應保證覆蓋樣本庫中99%的地名。

(2)計算侯選地名的概率估值 P (place),并根據概率估值進行初步調整,去掉部分概率過低的侯選地名。

圖2 地名識別過程流程圖

對于侯選地名

place =C1…Cn=1Cn(n≥2),

利用概率估值 P (place)計算公式(5)、(6),可得到侯選地名的概率估值。當侯選地名的概率估值 P (place)越大,認為是真實地名的概率越大,調整閥值的取值越小;侯選地名的概率估值越小,認為是真實地名的概率越小,調整閥值的取值越大。

(3)根據地名的前同現頻率 P (Li, place)和后同現頻率P(place,Rj)計算侯選地名的互信息 Icon(Li,place, Rj),利用公式(3)。當給定上下文環境時,互信息的數值可定量描述place是真實地名的可能性。

(4)根據侯選地名上下文互信息的調整閥值公式(4)進行調整校正,以協調識別結果的召回率。

(5)生成有地名切分標志的分詞結果,輸出文本。

識別過程如圖2所示。

3 結論

中國地名是漢語真實文本中最常出現的未登錄詞類型之一,僅次于人名的出現頻率。近年來,在對中國人名識別取得很大研究成果的基礎上,地名識別的研究也漸增多。本文提出的基于互信息的地名識別方法,提出中文地名的上下文互信息概念,引入互信息對其進行定量的描述,本方法達到了較好的中文地名識別效果。

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 国产精品成人不卡在线观看| 67194亚洲无码| 狠狠做深爱婷婷综合一区| 国产三级毛片| 亚洲毛片一级带毛片基地| 欧美精品亚洲二区| 日韩AV无码免费一二三区| 免费人成又黄又爽的视频网站| 亚洲欧美日韩成人在线| 亚洲网综合| 久久精品日日躁夜夜躁欧美| 思思热在线视频精品| 久草青青在线视频| 中文字幕在线看视频一区二区三区| 亚洲毛片网站| 草草影院国产第一页| swag国产精品| 久久人妻xunleige无码| 国产熟女一级毛片| 少妇精品在线| 久久黄色毛片| 十八禁美女裸体网站| 亚洲精品视频免费| 久久久久人妻精品一区三寸蜜桃| 国产91小视频在线观看| 亚洲a级在线观看| 久久伊人操| 亚洲天堂视频在线观看| 亚洲综合激情另类专区| 青青青国产视频手机| 亚洲一区二区无码视频| 99热这里只有精品国产99| 亚洲欧洲日本在线| 99国产精品国产高清一区二区| 99在线视频免费| 日本精品影院| 蜜臀AV在线播放| 无码在线激情片| 91久久偷偷做嫩草影院电| 久久伊人色| 久久6免费视频| 成人夜夜嗨| 精品小视频在线观看| 亚洲精品777| 中文字幕调教一区二区视频| 久久精品视频亚洲| 国产97区一区二区三区无码| 欧美在线中文字幕| 99手机在线视频| 久久综合成人| 免费国产不卡午夜福在线观看| 精品欧美日韩国产日漫一区不卡| 久久国产av麻豆| 亚洲精品自拍区在线观看| 亚洲日韩精品伊甸| 女高中生自慰污污网站| 97超级碰碰碰碰精品| 最新日韩AV网址在线观看| 日韩a级片视频| 日本欧美视频在线观看| 国产噜噜噜视频在线观看| 亚洲成人免费看| 国产伦片中文免费观看| 欧美在线国产| www.狠狠| 亚洲一级毛片| 精品国产91爱| 精品国产欧美精品v| 国产精品久久久久久影院| 亚洲第一区精品日韩在线播放| 国产丝袜啪啪| 波多野结衣久久精品| 久久五月视频| 国产在线自乱拍播放| 国产美女在线观看| 国产在线视频二区| 美女内射视频WWW网站午夜| 午夜福利视频一区| 欧美色视频日本| 不卡国产视频第一页| 无码免费视频| 欧美性精品不卡在线观看|