999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于雙詞典機制的中文分詞系統設計

2013-07-19 08:44:12
機械工程與自動化 2013年1期

李 玲

(中北大學 電子與計算機科學技術學院,山西 太原 030051)

1 中文分詞及分詞算法概述

對于中文來說,中文字符串可逐步細化為段、句、詞、字。字、句和段能通過明顯的標點符號分界符來簡單劃界,也易于讓機器“看”,只有詞需要用分詞算法來劃分,即中文分詞?,F有的分詞算法可分為3大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法[1]?;谧址ヅ涞姆衷~方法是按照一定策略將待分析漢字串與詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。該方法需要確定三個要素:詞典、掃描方向、匹配原則[2]?;谧址ヅ涞姆衷~方法原理簡單,實現相對容易,并能達到較高的準確度,是最常用的分詞策略,缺陷是容易產生歧義切分。詞典是字符串匹配的分詞方法中很重要的基礎部分,因此該方法又稱為基于詞典的分詞方法。

2 雙詞典設計

目前有三種典型的中文自動分詞詞典機制,分別是基于整詞二分的詞典機制、基于TRIE索引樹的分詞詞典機制和基于逐字二分的分詞詞典機制[3]。整詞二分法是一種廣為使用的分詞詞典機制[4]。本設計采用一種雙詞典機制,它由改進的整詞二分法標準詞典、輔助的臨時詞典和臨時高頻詞表三部分組合而成。

2.1 標準詞典

2.1.1 首字散列表

詞條首字用散列表來存儲。國家標準規定,漢字編碼中漢字的區位碼值從16區開始到87區,每區94位,標識6 763個漢字。即每個漢字都有唯一的區位碼。漢字的機內碼通過編程很易獲取,又有機內碼與區位碼換算公式如下:

機內碼高位=區碼+0xA0,

機內碼低位=位碼+0xA0。

若區位碼表示為十六進制數,其中區碼為區位碼的前兩位,位碼為區位碼的后兩位。據此特點,可用散列表方式來存儲詞條首字,實現首字的迅速定位。根據機內碼與區位碼及數組特點,設散列函數為(ch1-0xB0)*94+ch2-0xA1,其中ch1為機內碼高位,ch2為機內碼低位。首字結點設計見表1。

表1 首字結點結構表

2.1.2 詞索引表

根據統計,漢語詞語中二字詞占大多數,有3萬多,其次是三字詞和四字詞,都是3千多,五字詞及以后則很少。所以二、三、四字詞的查詢效率直接影響分詞速度。為提高查詢效率,本詞索引表結點具體設計見表2。

表2 詞索引表結點結構表

若要匹配的詞為二字詞,從“二字詞起始位置”到“三字詞起始位置”間進行查詢。以此類推。

2.1.3 標準詞典正文

標準詞典正文為線性表結構,存儲每個詞條中除首字外的字串,以及通過語料庫學習后統計出的該詞條的總詞頻。字串與總詞頻間用“/”間隔,字串間用空格作為間隔。

對同一首字的詞條,首先按詞條的字數順序排列,同長度詞條則按次字的區位碼排序,以此類推。首字已在首字散列表中確認,故不需要再存儲。例如:首字為“中”的標準詞典詞索引表及部分正文如圖1所示。其中,各字的區位碼見表3。

2.2 臨時詞典

在人們用語言進行交際活動時,語言成分的使用呈現一定的規律性,因此可以采用統計方法對其進行研究統計,這就是互信息原理。從形式上看,詞是穩定的字的組合。因此在上下文中,相鄰字出現的次數越多,就越可能構成一個詞。因此字與字相鄰共現的頻率能夠較好地反映成詞的可信度[5]?;诖苏摂?,本設計中增加一個臨時詞典,用于存儲待分析文本中出現的二字詞、三字詞、四字詞及其在本文的詞頻,以便處理分詞歧義。我們所用的絕大部分詞都是四字以下詞,所以不考慮四字以上出現的新詞。

臨時詞典結構類似標準詞典,仍使用首字散列方式設計,但不再需要詞索引表,直接是詞典正文,首字結點結構見表4。該首字散列表格式類似標準詞典格式,區別在于最后一個數據項,此處為指向以該字為首的詞典正文第一位。臨時詞典的詞典正文結構見表5。

圖1 “中”詞索引表結點結構及詞典正文結構圖

表3 字區位碼表

表4 臨時詞典首字結點結構表

表5 臨時詞典的詞典正文結構表

比如以“諾”為首的字,其詞典正文為“2基102/3基亞102/4基亞手27/”。說明待分析文本中以“諾”為首的詞有“諾基”、“諾基亞”、“諾基亞手”三個詞?!爸Z基”詞長為2,詞頻為102;其他以此類推。

2.3 標準詞典更新

掃描臨時詞典,若某詞的出現頻率極高,詞密度極大,且未被標準詞典收錄,則將該詞增入標準詞典及用于構造標準詞典的原始數據中,總詞頻為該詞在本文本中詞頻。詞密度公式為:

其中:wrddt為詞密度;wordlen為詞長度;f為詞頻;txtlen為待劃分文本長度。

通過統計,本設計將詞密度臨界值設置為0.5%。若某詞的詞密度≥0.5%。則將其加入標準詞典中。

2.4 臨時高頻詞表

為提高分詞正確率,加入一個臨時高頻詞表。將臨時詞典中詞密度≥0.1%的詞存入一個高頻詞表中,以便分詞時使用。高頻詞表為線性表。

3 掃描方式、匹配原則及歧義處理

3.1 掃描方式和匹配原則

本設計使用基于詞典機制的分詞算法,它的核心思想是切分出單字串,然后和詞庫進行比對,如果是一個詞就記錄下來,否則通過增加或者減少一個單字,繼續比較,直到還剩下一個單字則終止,如果該單字串無法切分,則作為未登錄處理。按照掃描方向不同,該方法分為正向匹配和逆向匹配。本設計同時使用正向最大匹配算法和逆向最大匹配算法即雙向最大匹配算法進行分詞。

3.2 歧義處理

3.2.1 匹配法無關歧義處理

漢語句子中,連續的三個單字概率非常小。因此,對于一個字串,若分詞結果中存在連續的三個或三個以上單字,意味著可能出現分詞錯誤。這時,對這些連續單字組成的詞,查詢臨時高頻詞表。若存在,將其劃分為詞。

3.2.2 匹配法相關歧義處理

對于一個字串,若正向最大匹配法與逆向最大匹配法分析的結果不同,說明出現歧義,在此使用臨時詞典機制與標準詞典協同對其處理。首先,獲取兩種匹配法分詞結果不同處的詞語(為說明方便,用A、B兩字符模糊代表兩種匹配法);然后根據分詞結果不同處的詞語的特點按下述方式處理:①分別查詢“分詞結果不同處的詞語”是否存在于臨時高頻詞表中,若存在,則將含有高頻詞的分詞結果作為最終分詞結果,歧義處理結束,若不存在,轉下一步處理;②對“分詞結果不同處的詞語”查詢臨時詞典,若A匹配法中分詞結果不同處的某詞的詞頻較B匹配法中所有分詞結果不同處的詞頻都呈量級差別,則取A匹配法的分詞方式為最終結果,歧義處理結束,否則,轉下一步處理;③對“分詞結果不同處的詞語”查詢標準詞典,若A匹配法中所有不同詞的詞頻和大于B匹配法中所有不同詞的詞頻和,則取A匹配法的分詞方式為最終結果,歧義處理結束。

4 實驗結果及分析

以上述理論為基礎,在VC++6.0開發環境下,實現了一個中文分詞系統。這里應用3個txt文檔作為測試數據,分別采用本雙詞典機制中文分詞系統和普通詞典機制的中文分詞系統對3個txt文檔進行分詞,分詞結果統計見表6。

表6 分詞結果統計表

由分詞結果統計可見,本雙詞典機制中文分詞系統準確率較高,但花費時間要多一些。準確率較高說明雙詞典機制在處理歧義上起到了一定的作用,是合理有效的一種方法,這是我們可繼續深入研究的一個切入點。時間花費多與分詞過程中雙向最大匹配算法的使用有很大關系,因此,在不影響準確率的前提下,如何通過改雙向最大匹配算法為逆向最大匹配算法從而提高本分詞算法的時間性能將是后續要探討的課題。

[1]付年鈞,彭昌水,王慰.中文分詞技術及其實現[J].軟件導刊,2011,10(1):18-21.

[2]奉國和,鄭偉.國內中文自動分詞技術研究綜述[J].圖書情報工作,2011,55(2):43-47.

[3]柴寶杰.中文自動分詞若干技術的研究[D].秦皇島:燕山大學,2007:56-57.

[4]費洪曉,胡海苗,鞏燕玲.基于Hash結構的機械統計分詞系統研究[J].計算機工程與應用,2006,42(5):163-165.

[5]朱曉娟,陳特放.詞頻統計中中文分詞技術的研究[J].儀器儀表用戶,2007(3):78-79.

主站蜘蛛池模板: 国产一区免费在线观看| 亚洲第一成人在线| 岛国精品一区免费视频在线观看| 高清无码手机在线观看| 国产一区二区三区免费观看| 色视频国产| 亚洲国产综合第一精品小说| 中文字幕波多野不卡一区| 免费高清毛片| 99热这里只有精品在线观看| 国产视频一区二区在线观看| 亚洲精品卡2卡3卡4卡5卡区| 国产玖玖视频| 色婷婷在线播放| 国产日韩欧美中文| 中国成人在线视频| 伊人久久大香线蕉综合影视| 高潮毛片免费观看| 狠狠综合久久久久综| 中文国产成人精品久久| 九色视频线上播放| 亚洲国产清纯| 国产AV无码专区亚洲精品网站| 日韩欧美国产另类| 久久国产精品夜色| 亚洲第一在线播放| 人妻丰满熟妇αv无码| 无码在线激情片| 伊人91在线| 五月激情综合网| 精品无码专区亚洲| 欧美成人国产| 精品一区二区三区无码视频无码| 久久综合亚洲鲁鲁九月天| 黄色成年视频| lhav亚洲精品| 久久大香香蕉国产免费网站| 在线毛片免费| 亚洲免费福利视频| 成人av专区精品无码国产| h网站在线播放| 国产成人一二三| 亚洲人成亚洲精品| 国产美女精品一区二区| 99伊人精品| 国产高潮流白浆视频| 国国产a国产片免费麻豆| 国产美女无遮挡免费视频网站| 精品91视频| 免费毛片网站在线观看| 99爱在线| 欧美成人免费一区在线播放| 最新日本中文字幕| 日韩区欧美国产区在线观看| 一区二区三区在线不卡免费| 亚洲人成色在线观看| 日韩经典精品无码一区二区| 成人无码一区二区三区视频在线观看| 亚洲av无码牛牛影视在线二区| 日韩在线播放欧美字幕| 激情无码视频在线看| 亚洲中文久久精品无玛| 精品国产成人高清在线| 亚洲一区二区三区麻豆| 国产精品福利导航| 婷婷六月综合网| 亚洲国产天堂在线观看| 毛片免费视频| 国产精品私拍在线爆乳| 国产精品成人不卡在线观看 | 成人在线亚洲| 国产人人射| 国产精品制服| 亚洲高清中文字幕在线看不卡| 国产在线视频自拍| 久久99久久无码毛片一区二区| 中文字幕免费在线视频| 波多野结衣第一页| 国产欧美视频在线| 国产精品浪潮Av| 日韩精品高清自在线| 欧美色图第一页|