999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析中文分詞方法

2016-02-16 23:32:12沈靜
漳州職業技術學院學報 2016年3期
關鍵詞:文本方法

沈靜

?

淺析中文分詞方法

沈靜

(漳州職業技術學院計算機工程系,福建漳州363000)

中文分詞是中文文本挖掘和信息處理的基礎環節,而中文文本挖掘首先面臨的是中文的分詞問題。中文分詞的方法主要有基于字符串匹配的分詞方法、基于統計的分詞方法和基于理解的分詞方法三種,第一種分詞方法簡單、快捷,但對詞典的完備性要求很高;第二種充分利用文本信息,但完備性較差;第三種還處于理論研究階段。本文對現有的三種中文分詞方法進行了研究和對比。

中文分詞; 文本挖掘; 歧義切分

1 概述

中文分詞就是由計算機在中文文本的詞與詞之間加上分界符。從表面來看它相比句法分析、語義分析等階段的難度要小,但卻是中文信息處理過程中最基礎、關鍵的步驟。

中文信息處理涵蓋了字、詞、短語、句子、篇章等多層面的信息加工處理任務。中文文本最小的組合單位是字,而最小的信息單位卻是詞,但中文文本中詞與詞之間沒有天然的分界符,所以在中文信息處理中,首要的任務就是“詞處理”,即中文分詞。

1.1中文分詞的意義

中文分詞是中文信息處理的基礎,也是智能化中文信息處理中的關鍵步驟。中文信息處理是一門用計算機對中文(包括口語和書面語)進行轉換、傳輸、存儲、分析等加工的科學[1]。中文信息處理涉及字、詞和句三個層面的處理,每個處理階段都緊扣上一階段。從語言構成上來講,字是最小的構成單位,而詞才是有意義的基本語言單位。字處理簡單,技術已經比較成熟,但是詞處理還有待進一步發展。所以在中文信息處理中,只有先確定了詞,才能進一步到短語劃分、概念抽取及主題分析等后續階段。中文不同于西文,詞與詞之間沒有明顯的間隔(空格),而中文的語法約束又不規范,且變化多樣,這都決定了中文分詞的困難性。

中文分詞在中文信息處理中具有重大的意義,它直接影響到中文信息處理及其相關領域的長遠發展。英文文本跨越了分詞階段,在詞的利用上更直接、完善,因而在詞相關的應用領域(如信息檢索、機器翻譯、中文校對系統、語音輸出、主題分析等)發展中都比中文快,也展示了奪目的應用前景。中文信息處理要想趕超英文在信息領域的發展,就必須先通過分詞這道難關。

1.2中文分詞的發展與應用

目前,中文信息處理技術落后于西文處理技術,除了因為它起步稍晚,最主要還是因為它還未完全攻克分詞這道難關。中文異于西文的行文特點使得許多西文的處理方法不能直接應用于中文處理,而漢語本身的復雜性,以及對“詞”的不標準定義更加劇了中文分詞的困難性。

作為中文信息處理的核心和漢語自然語言理解的基礎,中文分詞技術在很多現實應用領域(漢字輸入法、中文信息檢索、信息過濾、自動摘要、自動分類及自動摘要,知識管理、中文文本的自動校對、機器翻譯、內容數據挖掘、漢字識別與漢語語音識別的后處理、自動分類、漢語語音合成,中外文對譯、以句子為單位的漢字鍵盤輸入、漢字簡繁體轉換等)中都占據著很重要的地位[2-5]。要快速發展國內計算機信息處理技術,還要引進國外先進的計算機信息處理技術,都急需解決中文分詞的問題。

2 現有中文分詞方法比較

已經研究出來的中文分詞方法主要有三大類:基于字符串匹配的分詞方法、基于統計的分詞方法和基于理解的分詞方法[6]。

2.1基于字符串匹配的分詞方法

基于字符串匹配的分詞方法,也稱為基于詞典的分詞法,這種分詞方法都依賴分詞詞典,根據詞典構建方式的不同,又分為機械分詞法和特征詞庫法兩種。

(1)機械分詞方法

機械分詞法利用一個具有充足詞量的詞典,把待切分文本按照一定的算法與詞典中的詞條進行匹配,當有字符串與詞典中的某個詞條匹配成功時,就把它當做詞標記出來。

機械分詞的算法有多種。按照匹配字符串的長度來分,有最長匹配算法和最短匹配算法;按照匹配的方向來分,有正向匹配法和逆向匹配法;按照是否對詞性做標注來分,有單純分詞法和分詞與標注一體化法。但無論按哪種標準來分類,分詞的準確性都高度依賴詞典的完備性。

機械分詞法的特點是:算法簡單、易于實現、但分詞的準確性高度依賴于詞典的完備性,無法識別未登錄詞匯;當詞典越來越完備時,還要采取措施提高分詞效率;最關鍵的是,無論采取何種匹配算法,都存在歧義切分的問題。

(2)特征詞庫法

特征詞庫法主要用于分詞的預處理階段,先建立一個包含各種具有切分特征的詞的特征詞庫,然后根據特征詞庫中的詞條把待切分文本切分成若干個盡量短的字符串,最后再用機械匹配算法對每個字符短串進行進一步的細分。

特征詞庫法基于充分的漢語語言知識:漢語中存在數量有限的形態標志,如連詞、虛詞、詞綴(包括前綴和后綴)和重疊詞等,它們在中文文本中使用的頻率較高,可以利用事先建立好的特征詞庫把它們先切分出來。特征詞的選取需要深入研究漢語的構詞法則和構形法則等,對于那些不合常規法則的特例,也要全面地考慮和預計,采用有效方法加以處理。

機械分詞法和特征詞庫法都依賴詞典的完備性,且只注重了詞的組成形式,忽略了相鄰詞的詞性和詞義必須符合的約束關系(即語法和邏輯),這些約束關系都影響著分詞的正確性,也需要在分詞思想中加以考慮。同時,都需要解決未登錄詞匯的識別和歧義切分問題。

2.2 基于統計的分詞方法

基于統計的分詞法又稱為統計取詞法,它不依賴外部詞典,這種分詞方法認為:詞從本質上來講是若干個字的組合,但又不像排列組合那樣具有任意性,只有那些組合在一起有使用意義的才能稱之為詞,某種字符串出現的頻率越高,那么它是詞的可能性也就越大。所以,在正式分詞之前,先計算出語料庫中所有可能是詞的字符串,并構成一個詞典;然后再選擇某種機械分詞算法利用前面構建好的詞典進行分詞。這種分詞方法的分詞過程和基于字符串匹配的分詞方法一致,關鍵在于詞典的構建思路不同。例如曾田日、王晉國[7]就提出并實現了基于統計的云搜索分詞算法。

由于不依賴傳統的詞典,基于統計的分詞方法相較于基于詞典的分詞方法,對未登錄詞匯的識別率得到很大提高,但這也要求未登錄詞在語料庫中出現的頻率超過一定的閾值。當前,常用的基于統計的分詞實現方法有互信息模型、N元統計模型、隱馬爾科夫模型、最大熵模型等。

2.3 基于理解的分詞方法

基于理解的分詞方法是一種理想化的分詞方法,它像人工智能的一樣,希望機器能模擬人對句子的理解思路來分詞。相應地,需要先人工定義句子的語法并輸入計算機;然后,計算機判斷待切分語句的句型并模擬人對句子的理解方式進行切詞。在這種分詞方法中,需要同時啟動句法分析、語義分析和分詞處理三個功能模塊,前兩個模塊所得的信息可以幫助處理分詞模塊中的歧義切分。相應地,這類系統包括三個基本部分:

(1)分詞系統,進行詞語的切分;

(2)句法語義系統,對待處理語句進行語法、語義分析;

(3)總控部分,協調分詞系統利用句法語義分析系統生成的句法和語義信息,來處理分詞中的切分歧義。

要模擬人腦的分詞過程,首先要把各種漢語語言基礎知識編譯成機器可以直接讀取的形式,機器像人腦一樣存儲了大量的語言基礎知識后,再以機器學習的方式進一步上升到理解、分詞的階段。實際上,漢語語言的復雜性使得語義、語法等很難完全規律化,而機器學習也尚未發展到應用階段,因此,這種理想中完美的方法的實現還需要時間。

3 基于字符串匹配的機械分詞法

在現有的三類中文分詞方法中,基于字符串匹配的分詞法中的機械分詞法目前的發展最成熟、使用也最廣泛。百度和google搜索引擎的實現都以該方法為基礎。

目前最成熟,應用最廣泛的幾種機械分詞算法有:正向最大匹配法、逆向最大匹配法和最少切分法。

(1)正向最大匹配法[8],先準備一個完備的詞典(可以直接導出某種輸入法的詞庫),把詞典中的詞條按照一定規則(如長度、首字符的音序等)進行排列;分詞時,將待切分文本按正向順序(即從左到右的順序),與詞庫中的詞條進行匹配。如果有長度為M字符串與詞典中的詞條匹配成功,就把該詞切分出來,然后后移M個字符串繼續進行匹配;否則,從待切分字符串的下一個字的位置繼續進行匹配,直到匹配成功。

(2)逆向最大匹配法,它的基本思路與正向最大匹配算法相同,只是把待處理文本的處理方向改為反向(即從右到左),這種逆向掃描的方法較之正向匹配法可以一定程度的提高分詞的準確率。梁南元對正向最大匹配法和逆向最大匹配法進行了分詞結果統計,數據表明:正向最大匹配法的錯誤率為1/169;逆向最大匹配法的錯誤率為1/245[9]。

(3)最少切分法,這種方法認為,在處理一個句子時切分的詞最少時,分詞準確度比較高。但相應地,分詞的精度也會下降。該方法一般都用于分詞的預處理階段,例如,利用特征詞庫把文本預切成漢字短串,再使用其他分詞方法進行更細致的切分。

4 結語

在中文文本挖掘與信息處理中,我們首先遇到的就是中文的分詞問題,目前主要有三大類中文分詞方法:基于字符串匹配的分詞方法、基于統計的分詞方法和基于理解的分詞方法。其中,基于字符串匹配的分詞方法最成熟,使用最廣泛,分詞算法研究成果也最多,如:正向最大匹配法、逆向最大匹配法、最少切分法等,在此基礎上,很多學者還提出了改進算法以提高分詞效率,解決分詞歧義和未登錄詞的識別問題;基于統計的分詞方法利用待處理信息本身生成詞典,進而完成分詞;而基于理解的分詞方法是最人性化的分詞方法,但目前還處于研究階段。

在互聯網發展迅猛的今天,中文分詞發揮著越來越重要的角色,但其算法復雜,實現困難,今后的研究將繼續朝著分詞速度和精度的提高,未登錄詞的識別和歧義切分方向發展。

參考文獻:

[1] 劉遷, 賈惠波. 中文信息處理中自動分詞技術的研究與展望[J]. 計算機工程與應用, 2006(3): 175-182.

[2] Wu Z. M., Tseng G. Chinese text segmentation for text retrieval: achievements and problems[J]. Journal of the American Society for Information Science, 1993, 44(9): 532-542.

[3] Wu Z. M., Tseng G. ACTS: An automatic Chinese text segmentation system for full text retrieval[J]. Journal of the American Society for Information Science, 1995, 46(1): 83-96.

[4] Nie J. Y., Brisebois M. On Chinese word segmentation and word-based text retrieval[J]. Proceedings of International Conference on Chinese Computing, 1996: 405-412.

[5] Sun M. S., Lin F. Z. Linguistic processing for Chinese OCR&TTS[J]. Proceedings of the 2nd International Conference of Virtual Systems and Multimedia, 1996: 27-42.

[6] 郭偉, 于中華. 基于延遲決策和斜率的新詞識別方法[J]. 四川大學學報: 自然科學版, 2007, 44(3): 519.

[7] 曾田日,王晉國. 基于統計的云搜索中文分詞算法[J]. 西北大學學報, 2015(4): 568-572.

[8] 吳旭東. 正向最大匹配分詞算法的分析與改進[J]. 科技傳播, 2011(20): 164-165.

[9] 梁南元. 書面漢語自動分詞綜述[J]. 計算機應用與軟件, 1987(3): 44-50.

(責任編輯季平)

Chinese word segmentation method research

SHEN Jing

(Zhangzhou Institute of Technology, Zhangzhou 363000, China)

Chinese word segmentation is the foundation of Chinese text mining and information processing, and also the first problem faced in text mining. Chinese word segmentation methods mainly include word segmentation method based on string matching, word segmentation method based on statistics and word segmentation method based on the understanding, the first word segmentation method is simple, fast, but the dictionary completeness asked too much; The second make full use of text information, but poorer completeness; The third is still in the theoretical research stage. In this paper, the existing three methods were studied and compared in detail.

Chinese word segmentation; text mining; ambiguity segmentation

TP391.1

A

1673-1417(2016)03-0045-04 doi:10.13908/j.cnki.issn1673-1417.2016.03.0009

2016-05-15

沈靜(1982—),女,陜西漢中人,講師,碩士,研究方向:數據挖掘、信息安全。

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學習方法
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 午夜无码一区二区三区在线app| 国产一区在线视频观看| 91www在线观看| 亚洲欧美成aⅴ人在线观看| 浮力影院国产第一页| 幺女国产一级毛片| 精品免费在线视频| 日韩精品成人网页视频在线| 亚洲天堂2014| 色婷婷亚洲十月十月色天| 香蕉99国内自产自拍视频| 国产精品19p| 国产一区二区影院| 亚洲国产一区在线观看| 国产一级毛片yw| 国产精品视频白浆免费视频| 狂欢视频在线观看不卡| 国产三级毛片| 中文字幕精品一区二区三区视频| 无码日韩人妻精品久久蜜桃| 国产精品一区二区在线播放| 青青极品在线| 色屁屁一区二区三区视频国产| 成人午夜免费观看| 欧洲精品视频在线观看| 亚洲美女一区二区三区| 99草精品视频| 久久国产亚洲欧美日韩精品| 亚洲av无码专区久久蜜芽| 亚洲欧美成人影院| 精品亚洲国产成人AV| 久久这里只有精品23| 国产免费一级精品视频| 国产亚洲视频播放9000| 久久综合干| 在线看片中文字幕| 久99久热只有精品国产15| 白浆视频在线观看| 国产黑丝一区| 成人午夜视频在线| 中字无码精油按摩中出视频| 99久久精品免费观看国产| 国产欧美日韩一区二区视频在线| 亚洲第一区欧美国产综合| 中国一级特黄大片在线观看| 亚洲AV无码一区二区三区牲色| 丝袜国产一区| 99视频在线看| 亚洲六月丁香六月婷婷蜜芽| 亚洲精品图区| 亚洲啪啪网| 色偷偷综合网| 五月丁香伊人啪啪手机免费观看| 男人的天堂久久精品激情| 亚洲成人在线免费观看| 欧美色亚洲| 日本成人一区| 免费一级无码在线网站| 国产人在线成免费视频| 亚瑟天堂久久一区二区影院| 超清无码一区二区三区| 青草精品视频| 国产福利大秀91| 免费A∨中文乱码专区| 国内熟女少妇一线天| 国内自拍久第一页| 久久这里只有精品66| 四虎国产永久在线观看| 小说区 亚洲 自拍 另类| 91精品国产福利| 国内精品免费| 亚洲香蕉在线| 亚洲综合国产一区二区三区| 欧美精品色视频| 日韩乱码免费一区二区三区| 免费无码一区二区| 国产精品欧美在线观看| 日韩欧美网址| 久久永久精品免费视频| 九色在线观看视频| 亚洲国产清纯| 中文成人在线|