王洪浩
【摘 要】在對漢字信息進行處理的過程中,漢字詞匯本身的構成具備一定的特殊性,無法實現像英文一樣根據空格來分隔單詞。因此,對于一整段漢字進行切分形成獨立詞語是中文信息處理上難點所在。論文主要對中文分詞算法以及相應的中文分詞技術進行分析和研究,幫助更多人了解到中文分詞算法在搜索引擎中的應用。
【Abstract】In the process of processing Chinese characters' information, the formation of Chinese character vocabulary itself has certain particularity, so it is difficult to separate words according to spaces as in English. Therefore, the fragmentation of a whole Chinese character into independent words is the difficulty of Chinese information processing. The paper mainly analyzes and studies the Chinese word segmentation algorithm and the corresponding Chinese word segmentation technology, so as to help more people understand the application of Chinese word segmentation algorithm in search engine.
【關鍵詞】中文分詞算法;搜索引擎;中文分詞技術
【Keywords】Chinese word segmentation algorithm; search engine; Chinese word segmentation technology
【中圖分類號】U44? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2019)01-0103-02
1 引言
中文分詞作為機器翻譯、文本分類、主題詞提取、信息檢索的基礎環解鎖,在近些年來技術的發展以及中文相關算法中也逐漸受到人們的重視。在搜索引擎技術的逐漸應用推廣過程中通過將搜索引擎和中文信息處理相應技術結合在一起,從而進一步推動全文搜索和中文分詞技術的研究,有越來越多優秀的中文分詞算法出現,并應用到搜索引擎中,更好地實現關鍵字準確搜索[1]。
2 中文分詞技術
在對中文分詞技術進行分析過程中,目前可以從應用上將其分為基于字符串匹配的分詞技術、基于統計的分詞技術、基于人工智能的分詞技術三大類。
2.1 基于字符串的匹配技術
分詞技術中有基于字符串的匹配分詞技術,此類技術又可以稱為機械分詞計算法或基于詞庫的分詞算法,通過預測一個充分大的機器詞和等待切分的漢字串進行匹配。通過不同的掃描方向將其分為逆向、正向、雙向匹配三種[2]。同時,也可以通過不同的長度優先匹配可以分為最大匹配和最小匹配。按照是否與詞性標注過程相結合分為單純分詞和分詞與標注相結合的一體化分詞方法。在分詞串點支持之下匹配分詞效率非常高,算法相對較簡單,但存在一定的問題就是準確性相對較差,很難排除機器機械切分所帶來的歧義。其中字符串匹配主要有正向最大匹配分詞算法、反向最大分子匹配分詞算法、雙向匹配分詞算法三種不同類型。第一種正向最大匹配分詞算法,該算法數據結構簡單,算法簡單,無需任何示范句法以及語義知識,例如,在詞庫中使用max表示最大詞條長度,STR是等待切分的四漢字串。通過等待切分的漢字串前max這個漢字作為匹配時段與words中的對應詞條進行匹配,如果其中有該詞組就匹配成功,詞組被分離出來,反之就去掉相應匹配字段最后一個字,將余下字符串思維與另一個匹配字段進行匹配。第二種,反向最大匹配分詞算法基本原理和正向最大匹配分詞算法基本相同。但是兩種處理方法不同,一個從最頂端另外一個是從漢字串的尾端開始處理,相比較最大正向匹配法來說,此種方法能夠更好地實現對交際型的歧義字段的處理,簡單、快速切分,歧義準確率有明顯提升,但無法完全排除歧義現象。第三種,雙向匹配分詞算法,此算法就是將以上兩種算法結合起來構成雙向匹配算法,能夠進一步提升千分準確率,還能夠有效消除部分歧義現象。但由于需要進行正向和逆向兩相反方向的掃描,因此具備一定的復雜性。同時,分詞詞庫還需要能夠同時支持這兩種順序檢索,總體來說算法相比以上兩種要復雜的多。
2.2 基于統計的分詞方法
基于統計的分詞算法又稱為無詞庫分詞,認為詞組作為最穩定的組合,相鄰漢字在文本中同時出現次數越多,就越有可能構成一個詞[3]。同時可以將自相鄰貢獻的頻率作為詞組可信度,對語料中相鄰貢獻字的組合頻度進行統計,并對互現信息進行計算,同時通過頻度方式來對詞的頻率進行判斷,達到識別新詞,但總的來說效率無法提升,十分有效,時空開銷相對較大,識別精度相對較差,無法達到有效識別。其中,在對漢字間的緊密程度進行統計的模型主要有互信息、T測試兩種方式。
2.3 基于人工智能的分詞方法
在人工智能基礎之上所采取的分詞方法,此算法就是在分詞的同時通過句法、語義,對于其中所經常出現的歧義切分現象可以通過句法信息、語義信息兩方面來解決。在當前的人工智能研究領域中兩個研究熱點所在就是專家系統和神經網絡系統,通過這兩者能夠更好地保證分詞的智能性,是未來一段時間內分詞研究的主要趨勢和熱點所在[4]。但此種方法實現的基礎是大量的語言知識和信息,在擁有大量信息的同時也以擁有了知識本身所帶來的復雜性和靈活性,很難能夠直接讀取各種語言知識和信息組織,此種方法至今為止還停留在試驗階段,沒有正式投入使用,這也和人工智能技術不夠成熟、技術成本相對較高等因素相關。
3 面向搜索引擎的中文分詞關鍵技術
在搜索引擎處理用戶查詢需求以及處理文檔的過程中中文分詞是其中的基礎所在,對于整個搜索引擎信息檢索準確度產生影響的兩大關鍵因素主要是未登錄詞識別、歧義消解,兩大問題將會嚴重影響搜索引擎準確性和順利性,在網絡環境中搜索引擎中推廣和應用中文分詞方法必須要解決未登錄詞識別、歧義消解兩大問題。但我國對未登錄詞問題研究的時間相對較短,認識上還存在不穩定性,還無法尋找有效方法解決此問題,還有非常長一段路要走。而對于歧義切分問題來說,現階段的研究主要集中在交集型歧義字段的研究上。
4 結語
本文通過搜索引擎中常見中文分詞算法進行分析,并對面向搜索引擎中文分詞關鍵技術中兩大問題進行分析,尋找更為有效方法來提升分詞準確性。
【參考文獻】
【1】申兵一, 鞏青歌. 中文分詞技術在搜索引擎中的應用研究[J]. 計算機與網絡, 2010, 36(1):60-63.
【2】董妍汝. 中文分詞技術在搜索引擎中的應用[J]. 辦公自動化, 2010(4):44-45.
【3】劉紅芝. 中文分詞技術的研究[J]. 電腦開發與應用, 2010, 23(3):1-3.
【4】周宏宇, 張政. 中文分詞技術綜述[J]. 安陽師范學院學報, 2010(2):54-56.