王洪浩
(山東哲遠(yuǎn)信息科技有限公司,山東 東營 257200)
中文分詞作為機(jī)器翻譯、文本分類、主題詞提取、信息檢索的基礎(chǔ)環(huán)解鎖,在近些年來技術(shù)的發(fā)展以及中文相關(guān)算法中也逐漸受到人們的重視。在搜索引擎技術(shù)的逐漸應(yīng)用推廣過程中通過將搜索引擎和中文信息處理相應(yīng)技術(shù)結(jié)合在一起,從而進(jìn)一步推動全文搜索和中文分詞技術(shù)的研究,有越來越多優(yōu)秀的中文分詞算法出現(xiàn),并應(yīng)用到搜索引擎中,更好地實現(xiàn)關(guān)鍵字準(zhǔn)確搜索[1]。
在對中文分詞技術(shù)進(jìn)行分析過程中,目前可以從應(yīng)用上將其分為基于字符串匹配的分詞技術(shù)、基于統(tǒng)計的分詞技術(shù)、基于人工智能的分詞技術(shù)三大類。
分詞技術(shù)中有基于字符串的匹配分詞技術(shù),此類技術(shù)又可以稱為機(jī)械分詞計算法或基于詞庫的分詞算法,通過預(yù)測一個充分大的機(jī)器詞和等待切分的漢字串進(jìn)行匹配。通過不同的掃描方向?qū)⑵浞譃槟嫦颉⒄颉㈦p向匹配三種[2]。同時,也可以通過不同的長度優(yōu)先匹配可以分為最大匹配和最小匹配。按照是否與詞性標(biāo)注過程相結(jié)合分為單純分詞和分詞與標(biāo)注相結(jié)合的一體化分詞方法。在分詞串點支持之下匹配分詞效率非常高,算法相對較簡單,但存在一定的問題就是準(zhǔn)確性相對較差,很難排除機(jī)器機(jī)械切分所帶來的歧義。其中字符串匹配主要有正向最大匹配分詞算法、反向最大分子匹配分詞算法、雙向匹配分詞算法三種不同類型。第一種正向最大匹配分詞算法,該算法數(shù)據(jù)結(jié)構(gòu)簡單,算法簡單,無需任何示范句法以及語義知識,例如,在詞庫中使用max表示最大詞條長度,STR是等待切分的四漢字串。通過等待切分的漢字串前max這個漢字作為匹配時段與words中的對應(yīng)詞條進(jìn)行匹配,如果其中有該詞組就匹配成功,詞組被分離出來,反之就去掉相應(yīng)匹配字段最后一個字,將余下字符串思維與另一個匹配字段進(jìn)行匹配。第二種,反向最大匹配分詞算法基本原理和正向最大匹配分詞算法基本相同。但是兩種處理方法不同,一個從最頂端另外一個是從漢字串的尾端開始處理,相比較最大正向匹配法來說,此種方法能夠更好地實現(xiàn)對交際型的歧義字段的處理,簡單、快速切分,歧義準(zhǔn)確率有明顯提升,但無法完全排除歧義現(xiàn)象。第三種,雙向匹配分詞算法,此算法就是將以上兩種算法結(jié)合起來構(gòu)成雙向匹配算法,能夠進(jìn)一步提升千分準(zhǔn)確率,還能夠有效消除部分歧義現(xiàn)象。但由于需要進(jìn)行正向和逆向兩相反方向的掃描,因此具備一定的復(fù)雜性。同時,分詞詞庫還需要能夠同時支持這兩種順序檢索,總體來說算法相比以上兩種要復(fù)雜的多。
基于統(tǒng)計的分詞算法又稱為無詞庫分詞,認(rèn)為詞組作為最穩(wěn)定的組合,相鄰漢字在文本中同時出現(xiàn)次數(shù)越多,就越有可能構(gòu)成一個詞[3]。同時可以將自相鄰貢獻(xiàn)的頻率作為詞組可信度,對語料中相鄰貢獻(xiàn)字的組合頻度進(jìn)行統(tǒng)計,并對互現(xiàn)信息進(jìn)行計算,同時通過頻度方式來對詞的頻率進(jìn)行判斷,達(dá)到識別新詞,但總的來說效率無法提升,十分有效,時空開銷相對較大,識別精度相對較差,無法達(dá)到有效識別。其中,在對漢字間的緊密程度進(jìn)行統(tǒng)計的模型主要有互信息、T測試兩種方式。
在人工智能基礎(chǔ)之上所采取的分詞方法,此算法就是在分詞的同時通過句法、語義,對于其中所經(jīng)常出現(xiàn)的歧義切分現(xiàn)象可以通過句法信息、語義信息兩方面來解決。在當(dāng)前的人工智能研究領(lǐng)域中兩個研究熱點所在就是專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)系統(tǒng),通過這兩者能夠更好地保證分詞的智能性,是未來一段時間內(nèi)分詞研究的主要趨勢和熱點所在[4]。但此種方法實現(xiàn)的基礎(chǔ)是大量的語言知識和信息,在擁有大量信息的同時也以擁有了知識本身所帶來的復(fù)雜性和靈活性,很難能夠直接讀取各種語言知識和信息組織,此種方法至今為止還停留在試驗階段,沒有正式投入使用,這也和人工智能技術(shù)不夠成熟、技術(shù)成本相對較高等因素相關(guān)。
在搜索引擎處理用戶查詢需求以及處理文檔的過程中中文分詞是其中的基礎(chǔ)所在,對于整個搜索引擎信息檢索準(zhǔn)確度產(chǎn)生影響的兩大關(guān)鍵因素主要是未登錄詞識別、歧義消解,兩大問題將會嚴(yán)重影響搜索引擎準(zhǔn)確性和順利性,在網(wǎng)絡(luò)環(huán)境中搜索引擎中推廣和應(yīng)用中文分詞方法必須要解決未登錄詞識別、歧義消解兩大問題。但我國對未登錄詞問題研究的時間相對較短,認(rèn)識上還存在不穩(wěn)定性,還無法尋找有效方法解決此問題,還有非常長一段路要走。而對于歧義切分問題來說,現(xiàn)階段的研究主要集中在交集型歧義字段的研究上。
本文通過搜索引擎中常見中文分詞算法進(jìn)行分析,并對面向搜索引擎中文分詞關(guān)鍵技術(shù)中兩大問題進(jìn)行分析,尋找更為有效方法來提升分詞準(zhǔn)確性。