李文華

摘要:中文分詞算法在搜索引擎應用中有著廣泛的應用空間,且能夠增加信息檢索的準確性,故而值得予以推廣。在此之上,本文簡要分析了中文分詞算法的作用與中文分詞算法在搜索引擎中的難點,并分別從基于字符串匹配分詞、基于N元語法分詞、基于搜索統計技術等方面,論述了中文分詞算法在搜索引擎應用中的運用策略,以此提高大眾對中文分詞算法的認知水平。
關鍵詞:中文分詞算法;搜索引擎;字符串
中圖分類號: TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)06-0181-02
中文分詞算法是通過將中文重劃為詞序列的形式,以此展現文本含義。若將其運用于搜索引擎應用中,可進一步增加搜索結果的準確性與搜索速度,進而滿足大眾對信息的迫切需求。同時,還需結合中文分詞算法的不同類別為其創造適合的運用條件,以便在搜索引擎應用中發揮出重大效用,便于快速精準的查找關鍵詞,并給出可靠的搜索結果,最終促使中文資源實現最大化利用。
1 中文分詞算法的作用
在大數據時代,網絡信息的豐富性造成大眾在信息篩選中極易受到一定阻力。而中文分詞算法作為一種分詞技術,它能夠快速幫助用戶查找到關鍵信息,以便在搜索時間上起到促進作用。好比在百度網站中,它的搜索引擎模塊中可借助中文分詞算法依靠“詞匯”的形式予以搜索,從而增加信息檢索準確性與時效性。其中具體指的“中文分詞”是以詞匯重新切分的方式為計算機搜索引擎提供可用信息,以便快速給出有效數據。相比英文分詞模式中的“空格分詞”,中文分詞僅在段落、語句中適用,并在搜索引擎無法準確識別詞匯含義時,依靠中文分詞算法將其轉化為“詞序列”,由此確保詞序列在后期能夠經過科學分析匹配適合的信息,最終為大眾帶來有用信息,準確完成信息檢索任務。
2 中文分詞算法在搜索引擎應用中的難點
中文分詞算法在實際應用環節,還存在一些待突破的難點,由此造成中文分詞算法無法在搜索引擎應用中展現出最優化特征。通常情況下,結合中文分詞算法的具體作用可將其難點歸納為下述三點:
其一,高精度與高速度。由于現今數據量較為龐大,如若在搜索引擎應用中未能準確識別詞義,并給出錯誤或準確性較低的信息,很容易影響用戶的搜索體驗。因此,在研究中文分詞算法時需要進一步提升其精度與速度,使其能夠在分詞上展現出顯著優勢,以此滿足大數據時代的信息檢索需求。從當前實際研發結果來看,中文分詞技術在其發展階段依然取得了些許成就,但隨著詞匯句意的多樣性,在分詞速度與準確度上仍有待提高,進而借助中文分詞算法增加搜索引擎應用的實用性,使其為更多用戶提供優質信息檢索服務,最終確保每一次搜索都能獲得理想化結果。
其二,歧義詞義,日常大眾交流時,也會因詞義出現歧義現象而影響表達效果。而在搜索引擎應用中也會受歧義詞義的干擾降低搜索精度,造成檢索后的結果與最初要求不匹配。因此,在研究中文分詞算法時最為重要的是還應當采取有效措施適當杜絕歧義問題。其中歧義是指計算機設備中的搜索引擎無法準確詞義。一般而言,歧義可包含交叉歧義與組合歧義兩種類型。
其中前者相比之下易于處理。好比在“他可愛吃蛋糕了”中,可將“可愛”作為一個組合詞予以搜索,造成檢索結果與句意不符,而在搜索時,用戶的檢索要求是按照“他-可-愛-吃蛋糕”的分詞形式進行搜索。由于計算機搜索引擎未具備人體思維,故而只能利用詞匯的聯合性加以切分。
后者是在詞句中出現名詞、動詞錯誤認知等現象引起詞義,好比在“她把手弄壞了”中,“把”實則為“動詞”,然而在具體分詞時,由于“把手”又可當成“名詞”,故而在檢索時會根據名詞的形式進行查找,最終降低檢索準確性。
其三,新詞識別,隨著許多新詞的出現,如“鍵盤俠”“導姐”等,造成計算機在語義識別時對尚未登錄在搜索引擎詞典中的詞匯出現錯誤識別現象,尤其是許多網絡熱詞、新增人名、地名的出現,若未能及時更新詞典,也會引起搜索錯誤。同時,在詞匯判斷時也會產生操作難度[1]。
好比在“楊虎誠心誠意賣菜”中,對于“楊虎誠”是否可將其當成人名進行搜索,這些都對搜索引擎帶來難度。尤其在新詞增速不斷提高的情況下,針對新詞識別準確度的判斷是搜索引擎應用效果的關鍵評價要素。因此,在搜索引擎應用中運用中文分詞算法時應結合具體難點提出可行性整改建議,以此擴大搜索引擎的應用范圍,促使中文分詞算法展現出真正優勢。
3 中文分詞算法在搜索引擎應用中的運用策略
3.1 基于字符串匹配分詞
在搜索引擎應用中運用中文分詞算法時,其中最為重要的方式是基于字符串匹配分詞,從而根據字符串的匹配程度提取關鍵詞,進而搜索有效信息。其中字符串匹配分詞是通過與詞庫中存儲的數據進行對比,之后秉承著一定匹配原則給出識別結果,并將其作為搜索引擎的檢索依據查找相關信息。雖然此種方法操作簡單,但其準確度與辨別歧義語義的能力有限。為了進一步強化字符串匹配分詞方法的實用性,還可在其中增添一些匹配標準,以便增加字符串匹配的準確性,也能促使搜索引擎具有較為廣泛的應用空間。
常見的改進方法包括“最長匹配”“最小匹配”“逆向匹配”“正向匹配”“雙向匹配”等。本文主要以后三種匹配形式加以討論。其中逆向匹配與最長匹配有著相似之處,即提取詞句最長“連詞”,且處理方向由句尾出發,將其轉化為有效字符串予以匹配,此種方式照比其他字符串匹配方法準確性更高一些。而正向匹配是從句頭進行匹配,先行將其拆解為多個漢字串,并結合詞庫中的分詞標準將語句進行“斷句”處理,若存在匹配詞匯可將其提取出來用于計算機信息識別渠道,若不存在匹配詞匯,則將其剔除出去,將剩余漢字串進行邏輯整合,以此作為檢索依據查找信息。雙向匹配屬于一種“聯合匹配”模式,它能有效消除歧義語義影響,增加字符串匹配結果的準確性。因此,應盡量推廣雙向匹配算法作為搜索引擎分詞依據[2]。
此外,在借助基于字符串分詞階段,為了避免歧義的出現還可采用下述方法對搜索引擎應用中可能存在的歧義進行處理,確保過濾后的詞義與用戶搜索目標相一致。
比如在“人民的生活水平提高”中,總體上具有下述多種匹配形式:人民的-生活水平-提高、人民-的-生活-水平-提高等,在分詞時可借助計算平均詞長的方式確定匹配結果。平均詞長具體以詞組總字數與總詞匯量的商值作為依據。比如在“人民的-生活水平-提高”中,其平均詞長為“9/3”,而“人民-的-生活-水平-提高”為“9/5”,以最大值為分詞結果,從而將其納入搜索引擎系統中查找相關信息。雖然從上述內容中發現此種算法的確有著一定優勢,但對于新詞的識別率仍有待改進,并且還需要其他分詞算法予以輔助,最終可增加中文分詞算法的實用性,使其在搜索引擎應用中展現價值。
3.2 基于N元語法分詞
在搜索引擎應用中運用中文分詞算法時,還可采用基于N元語法的分詞形式實現中文字符的有效劃分。它主要以一種“模型”思維,對檢索詞匯進行延展,進而在搜索引擎中實現精準識別。在此種方法下,同與上述分詞算法同樣具有詞典,并按照一定的匹配原則對搜索詞匯進行匹配,并設計“N元分詞圖”,之后借助動態設計的理念針對中文詞匯進行“分解”,其整個分詞流程如(圖1)所示。同時,還可依靠“二元模型”的形式,對詞句中涉及的“分子”進行整合處理,然后得出可靠的關鍵詞,將其用于計算機系統識別。從多種中文分詞算法切分準確率結果中可發現,在不同領域中,其準確率不一致,如(表1)所示,N元語法統計在各個學科信息檢索中普遍具有較高的準確率,故而值得在中文搜索引擎中予以推廣,促使中文分詞算法發揮出真正的分詞效用,避免歧義的產生。
此外,還可利用“一元語法”針對中文詞匯進行切分,為了確保此種分詞方法適用于搜索引擎應用過程中,還應適當重調最短路徑與N元語法分詞圖中的節點數值,以便在適合的節點中合理確定“候選詞匯”,以便在分詞期間增加詞匯統計的準確度。從以往研究經驗中,還可采用“詞性標注法”對語句中固有詞性進行標注,包括上文中提到的“把手”中“把”為動詞,在標注過詞性后,也能提高搜索引擎中關于中文信息檢索的可靠性[3]。
3.3 基于搜索統計技術
1)頻率統計
中文分詞算法是指將語句中的詞匯切分出來,進而將其轉化為“關鍵詞”用于搜索引擎中,從而獲取有效信息。其中基于搜索統計技術實現中文分詞,是以“無詞庫”形式針對中文語句進行詞匯劃分。由于中文句意較為豐富,故而在統計詞匯時,還可運用“詞匯出現頻率”作為劃分基準。所謂詞匯頻率是指字與字之間結合次數,在其頻率越高時,則代表詞匯結合的可能性更大。
比如在對“中國人”“中國心”等詞匯進行劃分時,若此詞匯出現在語句中,可根據它的出現頻率判斷是否將其作為關聯詞匯用于信息檢索中。相比之下,運用頻率統計的形式實現中文分詞可適當提高詞匯檢索的速度與準確率。好比在“中華人民共和國萬歲”中,由于與“中華人民”出現頻率略高,可將其作為首次檢索目標用于搜索引擎中,之后再對“共和國”“萬歲”詞匯的常規頻率進行確定,以便在頻率統計過程中有針對性地為搜索引擎提供重要檢索依據[4]。
2)智能統計
在搜索引擎應用中運用中文分詞算法時,還可依靠智能技術實施智能統計,它是以一種“模擬人體思維”的方式實現中文句意的深層次理解。與以往分詞方法相比更具智能化,并且可有效避免歧義問題。我國漢字文化博大精深,尤其在新時代背景下,許多新詞的出現造成搜索引擎在實踐操作中面臨著較大挑戰,需隨時根據信息變化予以更新。然而,此種智能統計的方式可對中文復雜性與綜合性特征起到協調作用,以便在搜索引擎應用中為用戶提供優質檢索服務,使其快速從檢索結果中找到相關信息。在人工智能技術日益發展階段,智能統計已成為當前中文分詞算法的主流發展趨勢。但由于它需要以“中文理解”的視角開展中文分詞工作。因此,無論從成熟度還是可操作性上都有待改進。
比如在“大哥大是團隊領導者”中,以往常出現的詞匯為“大哥”,而對于“大哥大”詞匯相比之下出現頻率較少。對此,若能依靠智能統計形式,可結合句子的含義判斷出大哥大屬于單獨的詞匯,由此增加檢索精度。
4 結論
綜上所述,中文分詞算法在搜索引擎應用中有著重要作用,故而應結合具體要求拓寬其運用渠道,以此為我國搜索引擎研究工作給予指引。同時,還應從基于字符串匹配分詞、基于N元語法分詞、基于搜索統計技術等方面著手,以便中文分詞算法展現出顯著優勢,使其在提高搜索速度基礎上增加信息檢索準確性,以便大眾在中文分詞算法協助下快速獲取信息。
參考文獻:
[1] 王洪浩.中文分詞算法在搜索引擎應用中的研究[J].中小企業管理與科技(下旬刊),2019(1):103-104.
[2] 鄭國興.面向航天領域的中文分詞算法研究與實現[D].西安:西安電子科技大學,2019.
[3] 劉桂梅.應用中文分詞技術的網絡推廣管理系統的設計與實現[J].電子商務,2019(9):56-58.
[4] 楊貴軍,徐雪,鳳麗洲.基于最大匹配算法的似然導向中文分詞方法[J].統計與信息論壇,2019,34(3):18-23.
【通聯編輯:李雅琪】