
摘 要:基于互聯網信息平臺下,對如何快速準確的進行中文分詞進行研究。主要對基于WEB環境下的中文分詞建立模型,快速中文分詞,自動中文分詞進行全面的闡述。
關鍵詞:分詞算法;最短匹配
1 分詞算法的分詞實現
1.1 基礎想法
通過自定義或已有詞典的自動查詢,將字符中所以字符以詞語的形式進行分割,形成若干個小的詞語搜索項。然后再采用層和相鄰法來獲取到最后的切分詞項結果。相鄰法其實就是最短路徑法,以最少的詞在一定的長度內,運算匹配次數最少,也可以說是為指定路徑長度的條件下,經過的詞項頂點數很多。中文分詞算法正是基于這樣的思路。下面我將系統的介紹中文分詞算法的原理方法。
1.2 基于模法
設字符串為總長度為S,字符串中單個字符為B。S=B1 B2 ……Bn。其中需要進行切分的字符串中B,B下面的數字(1,2, ….n)是單個的字符,n≥1。去處所有無意義單字如:的,嗎,吧等等,對整個字符串建立字符索引項。所有字符項組成一個類的集合,根據字典字符相似度和最少路徑法進行快速循環匹配。中文分詞流程如下圖:
2 快速中文分詞
2.1 分詞快速查找法
在分詞快速查找法中分為字頻相似字典快速查找和內存二進制簇節點查找。其中,分詞相似快速查找是將錄入字符串分解成詞或短語。再根據詞或短詞的相似程度對比字典快速分類的方法。內存二進制簇方法是直接針對物理計算機內存的二進制碼和簇的結構進行于或運算比對進行分類的方法。
2.2 相鄰相匹配法
相鄰相匹法又稱最小路徑法。設未知字符串為S=B1 B2 ……Bn。(n為字符個數),根據B1可以計算出相對的索引值L,以B1詞為簇中首個關鍵指針,Pwci為指示未知字符串中的距離指針,Pwci→Pwin,第二次重新指向字符串S再次比對分類。如果有某個字符(Bn)為字符串(S)的前綴,那么字符串(S)就可以被匹配。這樣經過循環得到最后的分詞結果。
3 中文自動分詞中的黃金分詞三法
3.1 中文字符串匹配法
這是基于中文的字符串匹配的一種方法。這種方法又叫做機械式分詞法,其原則是按照一定的算法將等待分析的漢字串與一個\"非常大的\"機器詞典中的詞條進行有規律的匹配,如果在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照計算機掃描方法的區別,可以把字符串匹配的方式分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標注過程相結合的方法,又可以分為單純分詞方法和分詞與標注相結合的一體化法。
3.2 基于理解的分詞方法
這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想理念就是在分詞的同時進行句法和語義分析,利用句法信息和語義信息來處理計算機理解的歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。
3.3 基于統計的分詞方法
從形式表面上看,名子是比較穩定的字和詞語之間的組合,所以在上下文中,相鄰的字或詞語同時在一段或一篇文章中出現的次數越多,就越有可能構成一個詞。因此字、詞以及語句相鄰共同出現的頻率或概率能夠較好地反映成詞或句的可信度??梢詫φZ句語料中相鄰共現的各個字或詞的組合的頻度進行統計計算,計算它們的互助出現信息。定義兩個字或詞的相互出現信息,計算兩個漢字Q、Z的相鄰共現的概率。相互出現信息體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個數值時,便可認為此單個漢字的組合可能構成了一個詞組。這種方法只需對語句語料中的單個漢字的組合的頻度進行統計計算,根本不需要用到切分詞典,所以又叫做無詞典分詞法或統計取詞方法。但是這種方法也有一定的弊端和局限性,會經常的抽出一些共同出現頻度較高、但是并不是中文詞的常用字組,例如:“等等”、“之一”、“有的”、“其他的”、“我的”、“許多的”等等,并且對常用詞的識別精度不是很好,時空開銷比較大。
[參考文獻]
[1]趙曾貽,陳天娥,朱蘭.一種基于語詞的分詞方法[J].蘇州大學學報, 2002,18(3):44-48.