999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文分詞算法在搜索引擎應(yīng)用中的研究

2019-01-28 04:09:18王洪浩
中小企業(yè)管理與科技 2019年3期
關(guān)鍵詞:搜索引擎人工智能方法

王洪浩

(山東哲遠(yuǎn)信息科技有限公司,山東 東營 257200)

1 引言

中文分詞作為機(jī)器翻譯、文本分類、主題詞提取、信息檢索的基礎(chǔ)環(huán)解鎖,在近些年來技術(shù)的發(fā)展以及中文相關(guān)算法中也逐漸受到人們的重視。在搜索引擎技術(shù)的逐漸應(yīng)用推廣過程中通過將搜索引擎和中文信息處理相應(yīng)技術(shù)結(jié)合在一起,從而進(jìn)一步推動全文搜索和中文分詞技術(shù)的研究,有越來越多優(yōu)秀的中文分詞算法出現(xiàn),并應(yīng)用到搜索引擎中,更好地實現(xiàn)關(guān)鍵字準(zhǔn)確搜索[1]。

2 中文分詞技術(shù)

在對中文分詞技術(shù)進(jìn)行分析過程中,目前可以從應(yīng)用上將其分為基于字符串匹配的分詞技術(shù)、基于統(tǒng)計的分詞技術(shù)、基于人工智能的分詞技術(shù)三大類。

2.1 基于字符串的匹配技術(shù)

分詞技術(shù)中有基于字符串的匹配分詞技術(shù),此類技術(shù)又可以稱為機(jī)械分詞計算法或基于詞庫的分詞算法,通過預(yù)測一個充分大的機(jī)器詞和等待切分的漢字串進(jìn)行匹配。通過不同的掃描方向?qū)⑵浞譃槟嫦颉⒄颉㈦p向匹配三種[2]。同時,也可以通過不同的長度優(yōu)先匹配可以分為最大匹配和最小匹配。按照是否與詞性標(biāo)注過程相結(jié)合分為單純分詞和分詞與標(biāo)注相結(jié)合的一體化分詞方法。在分詞串點支持之下匹配分詞效率非常高,算法相對較簡單,但存在一定的問題就是準(zhǔn)確性相對較差,很難排除機(jī)器機(jī)械切分所帶來的歧義。其中字符串匹配主要有正向最大匹配分詞算法、反向最大分子匹配分詞算法、雙向匹配分詞算法三種不同類型。第一種正向最大匹配分詞算法,該算法數(shù)據(jù)結(jié)構(gòu)簡單,算法簡單,無需任何示范句法以及語義知識,例如,在詞庫中使用max表示最大詞條長度,STR是等待切分的四漢字串。通過等待切分的漢字串前max這個漢字作為匹配時段與words中的對應(yīng)詞條進(jìn)行匹配,如果其中有該詞組就匹配成功,詞組被分離出來,反之就去掉相應(yīng)匹配字段最后一個字,將余下字符串思維與另一個匹配字段進(jìn)行匹配。第二種,反向最大匹配分詞算法基本原理和正向最大匹配分詞算法基本相同。但是兩種處理方法不同,一個從最頂端另外一個是從漢字串的尾端開始處理,相比較最大正向匹配法來說,此種方法能夠更好地實現(xiàn)對交際型的歧義字段的處理,簡單、快速切分,歧義準(zhǔn)確率有明顯提升,但無法完全排除歧義現(xiàn)象。第三種,雙向匹配分詞算法,此算法就是將以上兩種算法結(jié)合起來構(gòu)成雙向匹配算法,能夠進(jìn)一步提升千分準(zhǔn)確率,還能夠有效消除部分歧義現(xiàn)象。但由于需要進(jìn)行正向和逆向兩相反方向的掃描,因此具備一定的復(fù)雜性。同時,分詞詞庫還需要能夠同時支持這兩種順序檢索,總體來說算法相比以上兩種要復(fù)雜的多。

2.2 基于統(tǒng)計的分詞方法

基于統(tǒng)計的分詞算法又稱為無詞庫分詞,認(rèn)為詞組作為最穩(wěn)定的組合,相鄰漢字在文本中同時出現(xiàn)次數(shù)越多,就越有可能構(gòu)成一個詞[3]。同時可以將自相鄰貢獻(xiàn)的頻率作為詞組可信度,對語料中相鄰貢獻(xiàn)字的組合頻度進(jìn)行統(tǒng)計,并對互現(xiàn)信息進(jìn)行計算,同時通過頻度方式來對詞的頻率進(jìn)行判斷,達(dá)到識別新詞,但總的來說效率無法提升,十分有效,時空開銷相對較大,識別精度相對較差,無法達(dá)到有效識別。其中,在對漢字間的緊密程度進(jìn)行統(tǒng)計的模型主要有互信息、T測試兩種方式。

2.3 基于人工智能的分詞方法

在人工智能基礎(chǔ)之上所采取的分詞方法,此算法就是在分詞的同時通過句法、語義,對于其中所經(jīng)常出現(xiàn)的歧義切分現(xiàn)象可以通過句法信息、語義信息兩方面來解決。在當(dāng)前的人工智能研究領(lǐng)域中兩個研究熱點所在就是專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)系統(tǒng),通過這兩者能夠更好地保證分詞的智能性,是未來一段時間內(nèi)分詞研究的主要趨勢和熱點所在[4]。但此種方法實現(xiàn)的基礎(chǔ)是大量的語言知識和信息,在擁有大量信息的同時也以擁有了知識本身所帶來的復(fù)雜性和靈活性,很難能夠直接讀取各種語言知識和信息組織,此種方法至今為止還停留在試驗階段,沒有正式投入使用,這也和人工智能技術(shù)不夠成熟、技術(shù)成本相對較高等因素相關(guān)。

3 面向搜索引擎的中文分詞關(guān)鍵技術(shù)

在搜索引擎處理用戶查詢需求以及處理文檔的過程中中文分詞是其中的基礎(chǔ)所在,對于整個搜索引擎信息檢索準(zhǔn)確度產(chǎn)生影響的兩大關(guān)鍵因素主要是未登錄詞識別、歧義消解,兩大問題將會嚴(yán)重影響搜索引擎準(zhǔn)確性和順利性,在網(wǎng)絡(luò)環(huán)境中搜索引擎中推廣和應(yīng)用中文分詞方法必須要解決未登錄詞識別、歧義消解兩大問題。但我國對未登錄詞問題研究的時間相對較短,認(rèn)識上還存在不穩(wěn)定性,還無法尋找有效方法解決此問題,還有非常長一段路要走。而對于歧義切分問題來說,現(xiàn)階段的研究主要集中在交集型歧義字段的研究上。

4 結(jié)語

本文通過搜索引擎中常見中文分詞算法進(jìn)行分析,并對面向搜索引擎中文分詞關(guān)鍵技術(shù)中兩大問題進(jìn)行分析,尋找更為有效方法來提升分詞準(zhǔn)確性。

猜你喜歡
搜索引擎人工智能方法
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
主站蜘蛛池模板: 欧美成人一区午夜福利在线| 国产婬乱a一级毛片多女| 亚洲成人动漫在线| 青青操国产视频| 熟妇丰满人妻| 超碰色了色| AV在线天堂进入| 激情爆乳一区二区| 亚洲欧美另类日本| 国产无码制服丝袜| 欧洲欧美人成免费全部视频 | 欧美人人干| 亚洲三级视频在线观看| AV无码一区二区三区四区| 日本在线亚洲| 中文字幕不卡免费高清视频| 99视频精品全国免费品| 2021国产精品自拍| 天天摸夜夜操| 亚洲免费人成影院| 国产精品女主播| 在线欧美日韩国产| 国产97公开成人免费视频| 国产一区二区精品福利| 永久在线精品免费视频观看| 第九色区aⅴ天堂久久香| 日本欧美精品| 欧美精品亚洲精品日韩专区va| 亚洲成人一区二区| 精品自拍视频在线观看| 青青草久久伊人| 人妻精品久久无码区| AV天堂资源福利在线观看| 狠狠v日韩v欧美v| 日本精品视频| 91视频日本| 国产97色在线| 欧美色视频网站| 国产在线第二页| 国产交换配偶在线视频| 欧洲一区二区三区无码| 亚洲最新在线| 亚洲bt欧美bt精品| 国模极品一区二区三区| 亚洲天堂区| 四虎永久在线| 亚洲成人免费看| 男人天堂亚洲天堂| 精品国产免费第一区二区三区日韩| 国产精品手机视频| 色135综合网| 亚洲无码91视频| 成人在线不卡| 国产毛片久久国产| 色欲综合久久中文字幕网| 亚欧成人无码AV在线播放| 免费高清毛片| 97国产精品视频自在拍| 国产精品久线在线观看| 日韩毛片在线视频| 亚洲a级在线观看| 青青操国产| 亚洲精品无码抽插日韩| 999福利激情视频| 国产爽爽视频| 青青青国产视频| 中文字幕免费播放| 人妻无码中文字幕第一区| 国产97视频在线观看| 国产凹凸一区在线观看视频| 国产日产欧美精品| 国产一级无码不卡视频| 日本91在线| 亚洲综合久久成人AV| 国产精品欧美亚洲韩国日本不卡| 黄色免费在线网址| 国产嫖妓91东北老熟女久久一| 国产精品林美惠子在线观看| 波多野结衣一区二区三区四区视频 | 国产va视频| 国产精品亚洲欧美日韩久久| 国产成人免费|