付海辰
(唐山學院 計算機科學與技術系,河北 唐山 063000)
在大規模真實文本處理中,有一些詞依靠分詞詞典是無法識別出來的,這些詞被稱為未登錄詞,以中文人名、地名、機構名為三種主要形式。未登錄詞的識別,是中文文本自動分詞中遇到的除歧義識別外的另一難題。
在現在正蓬勃發展的信息檢索和數據挖掘研究領域中,未登錄詞的識別具有十分重要的意義:識別未登錄詞可以提高分詞和抽詞的精度,擴充依據詞典提取的關鍵詞集合,從而更加準確的對信息資源進行描述、分析與理解[1]。
產生未登錄詞的原因主要有兩點:機器可讀詞典中詞條的選擇和詞條的數量;機器可讀詞典與待處理文本中的詞條匹配關系,包括機器可讀詞典對待處理文本中詞匯的覆蓋率[2]。漢語語言豐富靈活,漢語詞種類繁多,構詞法樣式不一,都給未登錄詞的識別造成了很大的困難。另外,一些未登錄詞與詞典中已經存在的詞相互交叉結合,也使得未登錄詞識別的正確率不高。例如,在句子“小梅花光了她所有的積蓄”中,“小梅”是一個中文人名,應該被作為一個詞切分出來,但是實際切分時因為詞典中不存在這個詞,所以無法得到正確的切分,且由于詞典中收錄了“梅花”一詞,因此此句將被切分為“小/梅花/光/了/她/所有/的/錢”。
未登錄詞的出現是中文文本不可避免的問題,其直接影響了中文文本處理的正確率,所以目前未登錄詞的識別是一個迫切需要解決的問題。
中文人名、地名、機構名是三種最主要的未登錄詞形式,它們的識別都有相當重要的意義,本文主要側重于中文地名的識別。
中文地名的識別困難不僅在于中文地名的多樣性和任意性,而且在很多情況下,其又可以作為句子的其他成分參與句子的構造和活動。雖然中文地名在文章中的出現頻率不是很高,但絕不可以忽略,否則在分詞系統中會出現不可預料的錯誤。中文地名主要有如下特點:
(1)中文地名數量大,且用詞分散、自由,到目前為止,還沒有完整的地名庫可供使用,隨著社會的發展,生疏地名也在不斷增加,較難完善。
(2)地名長度無嚴格限制,短的如“京”,長的如“新疆維吾爾自治區”;且地名結尾經常有地名特征詞出現。
(3)可作單字詞的漢字在地名中經常出現,如“西/直/門”,給地名識別帶來困難,容易造成只識別出單字,而未識別出地名的錯誤。
(4)多個地名一起出現,難以一一正確劃分,如“河北省/唐山市/建設北路/鶴祥園/106樓”。
這些中文地名的特點,都給地名的識別和切分帶來了困難。在無法窮舉所有地名的條件下,引入互信息這一概念,有助于克服以上地名識別困難。
目前,國內關于中文地名的研究主要有基于交換的地名識別方法,得到地名上下文的規律,對規律再進行篩選。本文提出了一種基于互信息的中文地名識別方法,提出中文地名的上下文互信息概念,引入互信息對其進行描述,并通過引入調整閥值進行矯正,有效地提高了中文地名識別的效果,保證了較高的召回率,有助于中文自動分詞系統中未登錄詞識別的提高。
互信息一般反映的是字與字之間的靜態結合,因為它計算的就是相鄰字出現的頻率,根據這個頻率與字單獨出現頻率進行比較,計算出互信息來判斷什么時候組成詞語。互信息的概念最早見于信息論,其中互信息被作為一種衡量兩個信號之間相互依賴的尺度[3]。在信息論中,這種二元互信息可以表示為兩個信號發生概率的函數。具體在自然語言處理領域中,就是把句子中詞或詞序列作為一系列可能有關聯的隨機事件,然后用互信息對它們進行分析與研究。對有序漢字串AB中漢字AB之間的互信息I(A,B)定義如下:

互信息體現了漢字之間結合關系的緊密程度,當緊密程度高于某一閥值時,便認為此字組可能構成了一個詞。其中,P (A,B)為漢字串 AB聯合出現的概率,P(A)為漢字串 A的出現概率,P(B)為漢字串B的出現概率,它們在漢字字符串中出現的次數分別計為n(A),n(B),n(AB),n是詞頻總數,則有如下公式:

互信息反映了漢字串AB間相關的程度。
如果 I( A,B) ≥0,即 P (A,B)≥ P(A)P(B),則AB間是正相關的,隨著I(A,B)增加,相關度增加,如果I(A,B)大于給定的一個閥值,這時可以認為AB是一個詞;
如果 I( A,B) ≈0,即 P (A,B)≈ P(A)P(B),則AB間是不相關的;
如果I(A,B)<0,即 P(A <B)< P (A)P(B),則AB間是互斥的,這時AB間基本不會結合成詞。
在漢字處理中,互信息描述的是兩個字或者詞之間的關聯程度大小。定義y∈Y,其中y為某一具體的地名,Y為文本中所有地名的集合;x∈X,x為上下文信息,X為由x組成的集合。
由于地名識別中,判斷一個句中是否含有地名,常常需要用到地名的左右指界詞,根據上述定義,I(x,y)表示上下文信息x與地名y的互信息,它的大小描述了x與y的關聯程度,此時的地名左右指界詞即為上下文信息x,指界詞與地名的共現頻率即為互信息I(x,y)。例如,兩個句子中分別有“到達”和“扣留”兩個詞,判定“到達”的后同現詞(出現在單詞右邊的詞)是地名的概率要大于“扣留”的后同現詞是地名的概率。引入互信息可以準確的描述上下文信息x與地名y的關聯程度。
2.3.1 地名的上下文互信息
中國地名的自動識別策略是:在對文本分詞的基礎上進行常見地名匹配后,利用概率估值公式在文本中初步篩選出候選地名,然后根據互信息方法計算出地名的上下文信息,再通過規則對候選地名進一步確定,直至得到真正的地名。本文的互信息地名識別方法也是建立在已利用現有的地名識別資源,初步選出了侯選地名的基礎之上。識別原理如圖1所示。
在信息論中,互信息 I( x,y)= I(y,x),兩者是對稱的;而在互信息的地名識別中,互信息 I( x,y)≠ I(y,x),因為在自然語言中,一個句子里漢字的排列順序是不能改變的。設地名與前同現詞的互信息為上文互信息,用Il表示;地名與后同現詞的互信息為下文互信息,用Ir表示。則定義如下:

其中,place為一個侯選地名;Li、Rj分別為侯選地名place的前同現詞和后同現詞(i,j分別是自然數,i≥1,j≥1;P (place)為真實地名集合在實際語料詞語中的概率(place為實際語料中的真實地名集合);P (Li, place) 、P( place,Rj)分別為真實地名集合與前同現詞的同現概率、真實地名集合與后同現詞的同現概率。地名的前同現詞與后同現詞使用概率是不同的,因此它們與地名的互信息Il和Ir的分布不同。

圖1 中國地名自動識別原理圖
例如,我們經常遇到的地名前同現詞有“到達”、“開赴”、“靠近”等,后同現詞有“省”、“市”、“街”等。根據地名的上下文信息,將其互信息定義如下:

其中,E是互信息 Il(Li, place)與 Ir(place,Rj)的均值,D為互信息 Il(Li, place)與 Ir(place,Rj)之間的方差。當給定上下文環境時, Icon(Li,place, Rj)的數值可定量的描述place是真實地名的可能性。
2.3.2 調整閥值確定
為了對地名識別召回率進行調整,將上下文互信息的調整閥值定義為:

其中,

定義概率估值 P (place)的計算公式如下:
n=2時,

n>2時,

其中,

公式中,對每個中國地名用字c, Nsampleplace表示在真實語料中出現的中國地名個數。Ps(c)、Pm(c)、Pe(c)分別是漢字c作地名首字、中間字和尾字的概率;Nps(c)、Npm(c)、Npe(c)分別是漢字 c在中國地名樣本庫中作地名首字、中間字、尾字的總次數;Nts(c)、Ntm(c)、Nte(c)分別是漢字 c在真實文本中作地名首字、中間字、尾字的總次數;Nt(c)是漢字c在真實文本中出現的總次數,Nc(c)是漢字c在中國地名樣本庫中出現的總次數。
2.3.3 地名識別過程
中國地名的自動識別過程可以描述為:首先參照地名用字表進行常見地名匹配,產生初步的候選地名字串,結合從真實文本中統計得到的詞頻信息進一步確定候選地名的起止位置;其次計算候選地名的概率估值,并計算地名的互信息,結合上下文互信息進行閥值篩選;最后利用規則對通過閥值篩選的候選地名進行調整,產生正確的地名結果。具體步驟如下:
(1)產生侯選地名字串。在分詞過程中,如果字串

滿足以下條件,則認為place為侯選地名字串。
(Ps( C1)>thor C1為非詞字)
and

and

其中th、tm、tl分別是地名首中尾字對應的頻數閥值,隨著地名用字庫容量的改變,各閥值也不斷變化,但選擇閥值應保證覆蓋樣本庫中99%的地名。
(2)計算侯選地名的概率估值 P (place),并根據概率估值進行初步調整,去掉部分概率過低的侯選地名。

圖2 地名識別過程流程圖
對于侯選地名
place =C1…Cn=1Cn(n≥2),
利用概率估值 P (place)計算公式(5)、(6),可得到侯選地名的概率估值。當侯選地名的概率估值 P (place)越大,認為是真實地名的概率越大,調整閥值的取值越小;侯選地名的概率估值越小,認為是真實地名的概率越小,調整閥值的取值越大。
(3)根據地名的前同現頻率 P (Li, place)和后同現頻率P(place,Rj)計算侯選地名的互信息 Icon(Li,place, Rj),利用公式(3)。當給定上下文環境時,互信息的數值可定量描述place是真實地名的可能性。
(4)根據侯選地名上下文互信息的調整閥值公式(4)進行調整校正,以協調識別結果的召回率。
(5)生成有地名切分標志的分詞結果,輸出文本。
識別過程如圖2所示。
中國地名是漢語真實文本中最常出現的未登錄詞類型之一,僅次于人名的出現頻率。近年來,在對中國人名識別取得很大研究成果的基礎上,地名識別的研究也漸增多。本文提出的基于互信息的地名識別方法,提出中文地名的上下文互信息概念,引入互信息對其進行定量的描述,本方法達到了較好的中文地名識別效果。