999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文信息處理中自動分詞技術(shù)的研究與展望

2015-05-30 15:14:38郭淑妮
科技創(chuàng)新與應(yīng)用 2015年25期
關(guān)鍵詞:研究

摘 要:當(dāng)前人們在工作和學(xué)習(xí)中需使用中文信息處理技術(shù)獲取自己需要的資源,基于人們需求不斷增加,必須提升人們搜索資源的效率,提升中文信息處理相關(guān)技術(shù),讓中文信息處理與時俱進,滿足人們實際需求。中文信息處理包含多種關(guān)鍵技術(shù),為提高信息處理能力必須多種技術(shù)同時發(fā)揮作用。中文信息處理自動分詞技術(shù)是信息處理技術(shù)瓶頸,文章就文信息處理自動分詞技術(shù)展開研究。

關(guān)鍵詞:中文信息處理技術(shù);自動分詞技術(shù);研究

21實際是電子信息時代,計算機在人們生活中占據(jù)重要地位。中文是我國第一語言,中文信息化處理在計算機中應(yīng)用能夠有效滿足人們對信息的需求。中文信息處理主要對中文進行轉(zhuǎn)換、傳輸、存貯、分析等加工目前我國雖然在中文信息處理方面取得一定進步,但某些關(guān)鍵技術(shù)仍舊有待完善,自動分詞技術(shù)就是其中之一。

1 自動分詞技術(shù)的研究現(xiàn)狀及面臨的困難

隨著人們對中文信息處理技術(shù)要求不斷提升,中文信息處理自動分詞技術(shù)已經(jīng)成為影響信息處理的關(guān)鍵技術(shù)之一。因此,必須對自動分詞技術(shù)深入研究,分析其現(xiàn)狀及存在的問題。

自動分詞技術(shù)研究目前已經(jīng)取得一定成效,一些比較實用的自動分詞技術(shù)已經(jīng)被應(yīng)用,這些分詞技術(shù)在精確度以及分詞速度上已經(jīng)能夠滿足人們一些基本需求,但在一些特殊需求上仍需要進一步提升精確度和分詞速度,當(dāng)前自動分詞技術(shù)面臨的問題主要有以下三點:

(1)中文一些詞語概念難以界定,很多詞語具有多重意思;(2)未登錄詞的識別;(3)歧義切分字段的處理。

我國上世紀(jì)90年代制定的《現(xiàn)代漢語分詞規(guī)范》中明確規(guī)定了一些分詞原則,與分析相關(guān)操作可根據(jù)該規(guī)范展開。進行分詞前需制定標(biāo)準(zhǔn)化、實例化的分詞詞表,并在實踐中不斷進行修改完善,該詞表制作存在一定難度。

我國詞典雖然處于不斷完善過程中,但其必然存在最大容量,而中文內(nèi)涵是無限的。因此,必然有一些詞匯沒有被收錄到詞典中,尤其是一些新產(chǎn)生的詞匯在詞典更新前往往無法從詞典中搜索到。因此,必須建立標(biāo)準(zhǔn)化分詞詞表并不斷進行完善,持續(xù)改進。

漢語難以實現(xiàn)自動分詞功能,究其原因是漢語語義多樣性引起的,不同中文從不同角度理解便可得出不同結(jié)論,且傳統(tǒng)中文信息傳遞主要以書寫為主。因此,無論如何分詞都難以消除中文分詞歧義。中文信息處理中自動分詞技術(shù)已經(jīng)成為自動分詞技術(shù)實際運用的最大障礙,相關(guān)專家學(xué)者必須針對該問題結(jié)合當(dāng)前先進算法提升自動分詞技術(shù),解決歧義切分字段的處理。

2 歧義字段的定義及分類

中文句子經(jīng)常會出現(xiàn)多種切分出現(xiàn)多種語義的狀況。中文處理信息技術(shù)匯總將這種狀況稱之為歧義字段,一般可將其分為交集型歧義字段、覆蓋型歧義字段、多義型或組合型。

交集型歧義字段:舉例來說,假設(shè)A、B、C分別代表字串,該字串由一個或多個子串組成,即其中A、B、C可自由分割,此時若出現(xiàn)字段中A、B、C均為分詞表中對應(yīng)的詞,則將其稱之為交集型歧義字段。例如對于“美國會”這一交集型歧義字段,可將其且分為“美/國會”以及“美國/會”兩種結(jié)果。調(diào)查表明,中文信息處理中交集型歧義字段在歧義字段中占據(jù)比例約為85%,解決交集型歧義字段問題是中文信息處理重中之重。

覆蓋型歧義字段:若A、B代表一個或多個子串組成的字段,將其分段為A、B、AB等均為分詞表中的詞。此時AB則被稱為覆蓋型歧義字段,例如“把手”可分為“把/手”,均可獨立作為分詞,“十/分”也是覆蓋型歧義字段。一般情況下覆蓋型歧義字段在中文信息處理中遇到幾率不高,一旦出現(xiàn)便會造成中文信息處理故障,因此需慎重對待。

3 中文自動分詞算法分類

3.1 基于機械匹配的中文自動分詞算法

機械匹配算法基本思想是先建立詞庫,將所有可能出現(xiàn)的詞納入其中,如需處理給定漢字串S,則按照某種特定分詞原則將其與詞庫中某些分詞相匹配。如果S中分割的子串本身是詞則繼續(xù)對其進行分割,直至最后剩余部分為空;如果S中分割的子串本身不是詞則取S子串進行匹配。機械匹配算法僅依靠分詞進行匹配,因此在系統(tǒng)實現(xiàn)上以及操作上較為簡單,針對某些基本中文信息處理有一定成效,目前已經(jīng)得到廣泛應(yīng)用。

根據(jù)每次匹配時優(yōu)先考慮長詞還是短詞可將機械匹配算法分為最大匹配法和最小瓶匹配法;根據(jù)分割匹配漢字串是是正向還是反向又可將其分為正向匹配法和反向匹配法。

3.2 基于統(tǒng)計語言模型的中文自動分詞算法

隨著網(wǎng)絡(luò)時代到來,越來越多學(xué)者都認識到網(wǎng)絡(luò)電子文本是重要自動分詞資源,利用相關(guān)手段在電子資源庫中直接獲取需要的知識在未來必將成為自動分詞重要組成部分,基于統(tǒng)計語言模型的中文自動算法在這樣的環(huán)境下誕生了。

基于統(tǒng)計語言模型分詞算法基本思想是對分詞在中文漢字相鄰位置出現(xiàn)概率的可信度進行統(tǒng)計,將相關(guān)統(tǒng)計信息作為分析依據(jù)。

4 自動分詞技術(shù)展望——人工智能技術(shù)的中文自動分詞方法

人工智能技術(shù)就是利用智能系統(tǒng)具備的神經(jīng)網(wǎng)路以及專家系統(tǒng)進行中文信息處理自動分詞功能,以實現(xiàn)中文信息處理自動化。該種算法的主要思想是利用智能系統(tǒng)模仿進行語言識別。

神經(jīng)網(wǎng)絡(luò)分詞算法是模擬人腦進行分詞處理以及數(shù)值據(jù)算的一種智能算法,該算法主要將知識隱式方法輸入神經(jīng)網(wǎng)絡(luò)并存儲,通過系統(tǒng)自學(xué)及訓(xùn)練修改的方式達到有效分詞效果。專家系統(tǒng)分詞算法主要指從模擬人腦出發(fā)將知識分詞看做推理過程,將漢字串按照語法、語義、句法等從結(jié)構(gòu)上分離開來。

5 結(jié)束語

中文信息處理技術(shù)在過去一段時間獲得長足發(fā)展,已經(jīng)能夠滿足人們對中文信息處理基本需求,從長遠角度來看為更進一步促進中文信息發(fā)展必須度仍舊存在的問題進行深入分析探討,中文信息處理自動分詞技術(shù)是其中關(guān)鍵一環(huán)。因此,必須對其展開深入研究,使其適應(yīng)時代發(fā)展需求。

參考文獻

[1]賈惠波.中文信息處理中自動分詞技術(shù)的研究與展望[J].計算機工程與應(yīng)用,2012(5):56-59.

[2]梁南元.書面漢語自動分詞系統(tǒng)[J].語言文字應(yīng)用.2011(3):98.

作者簡介:郭淑妮(1981,12-),女,山東威海人,碩士研究生,內(nèi)蒙古民族大學(xué)計算機科學(xué)與技術(shù)學(xué)院,研究方向:中文信息處理,語音識別。

猜你喜歡
研究
FMS與YBT相關(guān)性的實證研究
2020年國內(nèi)翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設(shè)計中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
關(guān)于遼朝“一國兩制”研究的回顧與思考
EMA伺服控制系統(tǒng)研究
基于聲、光、磁、觸摸多功能控制的研究
電子制作(2018年11期)2018-08-04 03:26:04
新版C-NCAP側(cè)面碰撞假人損傷研究
關(guān)于反傾銷會計研究的思考
焊接膜層脫落的攻關(guān)研究
電子制作(2017年23期)2017-02-02 07:17:19
主站蜘蛛池模板: 一级黄色网站在线免费看| 青青草原国产免费av观看| 在线国产资源| 久久国产V一级毛多内射| 国产人妖视频一区在线观看| 精品福利网| 欧美一区中文字幕| 亚卅精品无码久久毛片乌克兰| 看国产毛片| 国产精品熟女亚洲AV麻豆| 日本爱爱精品一区二区| 99视频精品在线观看| 欧美激情视频二区| 欧美日韩一区二区三区在线视频| jizz在线免费播放| 97se亚洲综合在线| 色综合热无码热国产| 第一区免费在线观看| 国产无码制服丝袜| 五月丁香伊人啪啪手机免费观看| 国产精品99一区不卡| 国产主播在线一区| 国产尤物在线播放| 久久精品嫩草研究院| 国产精品妖精视频| 免费激情网址| 美女啪啪无遮挡| 免费a在线观看播放| 亚洲色成人www在线观看| 无码乱人伦一区二区亚洲一| 久久久精品久久久久三级| 成人亚洲天堂| 91色综合综合热五月激情| 成人一区专区在线观看| 国模视频一区二区| 欧美丝袜高跟鞋一区二区| 国产精品2| 四虎综合网| 亚洲天堂在线视频| av天堂最新版在线| 热思思久久免费视频| 国产香蕉在线| 欧美第二区| 国产微拍精品| 亚洲国产精品日韩av专区| 国产欧美日韩一区二区视频在线| 精品亚洲欧美中文字幕在线看| 丁香婷婷激情综合激情| 91日本在线观看亚洲精品| 国产精品免费露脸视频| 91视频99| 中文字幕欧美日韩高清| 2021精品国产自在现线看| 国产精品第5页| 四虎永久免费在线| 国产精品男人的天堂| 久久99国产乱子伦精品免| 亚洲天堂首页| 国产97视频在线| 国产精品99久久久久久董美香| 免费a在线观看播放| 玖玖精品在线| 91精品啪在线观看国产| 91视频首页| 欧美精品色视频| 第九色区aⅴ天堂久久香| 99久久99视频| 欧美一区国产| 亚洲成人网在线播放| 欧美性猛交xxxx乱大交极品| 国产精品99r8在线观看| 亚洲IV视频免费在线光看| 久久久久夜色精品波多野结衣| 福利一区在线| av大片在线无码免费| aa级毛片毛片免费观看久| 91蜜芽尤物福利在线观看| 国产精品一区二区国产主播| 国产a网站| 久久男人资源站| 丁香综合在线| 亚洲精品国产日韩无码AV永久免费网|