999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談基于WEB下的中文分詞算法

2013-01-01 00:00:00姚峰
無線互聯科技 2013年4期

摘 要:基于互聯網信息平臺下,對如何快速準確的進行中文分詞進行研究。主要對基于WEB環境下的中文分詞建立模型,快速中文分詞,自動中文分詞進行全面的闡述。

關鍵詞:分詞算法;最短匹配

1 分詞算法的分詞實現

1.1 基礎想法

通過自定義或已有詞典的自動查詢,將字符中所以字符以詞語的形式進行分割,形成若干個小的詞語搜索項。然后再采用層和相鄰法來獲取到最后的切分詞項結果。相鄰法其實就是最短路徑法,以最少的詞在一定的長度內,運算匹配次數最少,也可以說是為指定路徑長度的條件下,經過的詞項頂點數很多。中文分詞算法正是基于這樣的思路。下面我將系統的介紹中文分詞算法的原理方法。

1.2 基于模法

設字符串為總長度為S,字符串中單個字符為B。S=B1 B2 ……Bn。其中需要進行切分的字符串中B,B下面的數字(1,2, ….n)是單個的字符,n≥1。去處所有無意義單字如:的,嗎,吧等等,對整個字符串建立字符索引項。所有字符項組成一個類的集合,根據字典字符相似度和最少路徑法進行快速循環匹配。中文分詞流程如下圖:

2 快速中文分詞

2.1 分詞快速查找法

在分詞快速查找法中分為字頻相似字典快速查找和內存二進制簇節點查找。其中,分詞相似快速查找是將錄入字符串分解成詞或短語。再根據詞或短詞的相似程度對比字典快速分類的方法。內存二進制簇方法是直接針對物理計算機內存的二進制碼和簇的結構進行于或運算比對進行分類的方法。

2.2 相鄰相匹配法

相鄰相匹法又稱最小路徑法。設未知字符串為S=B1 B2 ……Bn。(n為字符個數),根據B1可以計算出相對的索引值L,以B1詞為簇中首個關鍵指針,Pwci為指示未知字符串中的距離指針,Pwci→Pwin,第二次重新指向字符串S再次比對分類。如果有某個字符(Bn)為字符串(S)的前綴,那么字符串(S)就可以被匹配。這樣經過循環得到最后的分詞結果。

3 中文自動分詞中的黃金分詞三法

3.1 中文字符串匹配法

這是基于中文的字符串匹配的一種方法。這種方法又叫做機械式分詞法,其原則是按照一定的算法將等待分析的漢字串與一個\"非常大的\"機器詞典中的詞條進行有規律的匹配,如果在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照計算機掃描方法的區別,可以把字符串匹配的方式分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標注過程相結合的方法,又可以分為單純分詞方法和分詞與標注相結合的一體化法。

3.2 基于理解的分詞方法

這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想理念就是在分詞的同時進行句法和語義分析,利用句法信息和語義信息來處理計算機理解的歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。

3.3 基于統計的分詞方法

從形式表面上看,名子是比較穩定的字和詞語之間的組合,所以在上下文中,相鄰的字或詞語同時在一段或一篇文章中出現的次數越多,就越有可能構成一個詞。因此字、詞以及語句相鄰共同出現的頻率或概率能夠較好地反映成詞或句的可信度??梢詫φZ句語料中相鄰共現的各個字或詞的組合的頻度進行統計計算,計算它們的互助出現信息。定義兩個字或詞的相互出現信息,計算兩個漢字Q、Z的相鄰共現的概率。相互出現信息體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個數值時,便可認為此單個漢字的組合可能構成了一個詞組。這種方法只需對語句語料中的單個漢字的組合的頻度進行統計計算,根本不需要用到切分詞典,所以又叫做無詞典分詞法或統計取詞方法。但是這種方法也有一定的弊端和局限性,會經常的抽出一些共同出現頻度較高、但是并不是中文詞的常用字組,例如:“等等”、“之一”、“有的”、“其他的”、“我的”、“許多的”等等,并且對常用詞的識別精度不是很好,時空開銷比較大。

[參考文獻]

[1]趙曾貽,陳天娥,朱蘭.一種基于語詞的分詞方法[J].蘇州大學學報, 2002,18(3):44-48.

主站蜘蛛池模板: 亚洲永久色| 韩日免费小视频| 久久无码高潮喷水| 亚洲经典在线中文字幕| 国产亚洲美日韩AV中文字幕无码成人 | 免费全部高H视频无码无遮掩| 精品国产香蕉伊思人在线| 中日无码在线观看| 欧美a级在线| 91青青草视频| 国产95在线 | 在线看免费无码av天堂的| 国产成本人片免费a∨短片| 99久久国产综合精品2023| 国产aⅴ无码专区亚洲av综合网| 日韩在线视频网| 伊人色在线视频| 欧美日韩高清| 亚洲国产精品不卡在线| 澳门av无码| 午夜激情婷婷| 亚洲成人免费在线| 好紧好深好大乳无码中文字幕| 国产精品一区二区在线播放| 国产一区二区在线视频观看| 亚洲高清中文字幕| 久久毛片网| 日韩欧美中文字幕在线韩免费| 午夜久久影院| 99草精品视频| h网址在线观看| 欧美自慰一级看片免费| 国产成人精品18| 国产视频a| 亚洲乱伦视频| 国产成人精品第一区二区| 国产理论一区| 成年人国产网站| 青青操视频免费观看| 欧美一区日韩一区中文字幕页| 国产午夜精品一区二区三区软件| 一边摸一边做爽的视频17国产| 六月婷婷激情综合| 亚洲美女一级毛片| 久久夜色精品国产嚕嚕亚洲av| 在线观看无码a∨| 18禁不卡免费网站| 国产三级毛片| 日本免费a视频| 黄色网页在线观看| 无码日韩精品91超碰| 国产视频一二三区| 久久午夜夜伦鲁鲁片不卡| 天堂亚洲网| 真人高潮娇喘嗯啊在线观看| 国产精品白浆无码流出在线看| 色婷婷色丁香| 精品久久久久久成人AV| 在线观看精品国产入口| 亚洲精品手机在线| 国产成人精品2021欧美日韩| 亚洲女同一区二区| 一级在线毛片| 成人国产精品2021| 国产女人爽到高潮的免费视频| 国产一级毛片高清完整视频版| WWW丫丫国产成人精品| a亚洲视频| 国产三级成人| 综合网天天| 色爽网免费视频| 午夜一级做a爰片久久毛片| 在线网站18禁| 国产精品女人呻吟在线观看| 亚洲侵犯无码网址在线观看| 日本日韩欧美| 在线国产综合一区二区三区| 国产亚洲一区二区三区在线| 亚洲精品在线观看91| 在线观看91精品国产剧情免费| 国产精品美人久久久久久AV| 欧美日韩导航|