基于Python的中文分詞技術探究

2021-01-08 02:16:42史國舉

無線互聯科技 2021年23期

摘要：中文分詞屬于自然語言處理技術子集，對中文分詞技術的研究由來已久，文章基于Python結巴分詞，從概述、分類、方法、挑戰、應用及現狀等對中文分詞技術進行探究，旨在拋磚引玉，以供借鑒。

關鍵詞：分詞;中文分詞;Jieba;自然語言處理

1 中文分詞技術的概述

在漢語語言學界，“詞”這一概念一直是個纏繞不清、不可逾越的問題。“詞是什么”（詞的抽象定義）和“什么是詞”（詞的具體界定），這兩個基本問題迄今為止還沒有得到一個權威、明確的表述，很難找到能引起大眾共鳴的詞表。眾所周知，相對于以英文為代表的拉丁語系語言，英文使用空格作為自然的分隔符，而中文由于繼承了古代漢語的傳統，詞與詞之間并無分隔[1]。而在現代漢語中則以雙字或多字占多數，一個字再也不等同于一個詞，如果把字作為分詞的最小單位，它的粒度太小，不能表達完整的意思，而句子的粒度太大，承載的信息太多，很難重復使用。通俗地說，中文分詞就是由機器在中文文本中的詞和詞之間自動添加分界線，是中文信息處理的基礎，是自然語言處理（NLP）的子集，其實質就是劃界。

2 中文分詞技術的分類

經過近30年的探究，中文分詞從提出到現在，已經提出了很多方法，如規則分詞、統計分詞和混合分詞。但至今還沒有推出一套很好的中文分詞系統。規則分詞是最早出現的一種分詞方法，主要通過人工建立詞庫，按照一定的方式進行匹配切分，操作簡單，效率高，但是難以處理新詞。在統計機器學習技術興起的今天，只有把統計機器學習應用到分詞任務中，形成統計分詞，才能更好地應付諸如新單詞發現等特殊情況。但在實際應用中，單純的統計分詞也存在著缺陷，即對語料質量的過分依賴，因而更多地采用二者結合，即混合分詞。

3 ? 中文分析技術的方法

研究表明，現有的分詞方法主要有3種類型。

3.1? 基于字符串匹配的分詞方法

字符串匹配的分詞方法（又稱為“機械分詞法”），就是用待分析的漢字符串與一個“足夠大”的機器詞典來匹配，如果在詞典中發現了某個字符串，就會匹配成功。常見的有正向最大匹配法、反向最大匹配法、最小分割法、雙向最大匹配法等。

3.2? 基于理解的分詞方法

其基本思想是在分詞時進行句法、語義分析，并利用句法和語義信息處理歧義。其基本結構分為3個部分：分詞子系統、語義子系統和總控部分。分詞子系統在總控部分的協調下，可以獲取與詞、句等相關的句法和語義信息，從而對分詞歧義進行判斷，即模擬人對句子的理解過程，這種分詞方法需要許多語言知識和信息，鑒于漢語知識的廣泛性和復雜性，難以將各種語言信息組織成機器可直接讀取的形式，因此目前基于理解的分詞系統還處在試驗階段。

3.3? 基于統計的分詞方法

在分析了大量已分詞文本的基礎上，利用統計機器學習模型學習詞匯切分的規則（機器訓練）[2]，從而得到未知文本的切分。比如最大概率分詞方法、最大熵分詞方法等。隨著大規模語料庫的建立以及統計機器學習方法的研究和發展，基于統計的中文分詞方法逐漸成了主流方法[3]。

4 中文分詞技術的挑戰

隨著時代的發展，中文分詞技術應運而生，它在很大程度上滿足了人們對自然語言處理的需求，解決了人類與計算機通信的一些障礙。但是，中文分詞技術在分詞規范、歧義切分、新詞識別等方面也存在諸多困難。

4.1? 分詞規范

在中文語言中，詞的概念不清楚是最大的難題。詞語的組合和界定十分模糊，這是一項復雜而龐大的工作。雖然現在已出現了一些標準，但在實際操作中難以運用，所以目前還沒有合理的可操作的理論和標準，導致中文分詞出現了很大的困難。

4.2? 歧義切分

在文本中的字符串，如果基于句子的字面意思進行理解，最終產生多種不同的理解方法。據調查，中文的歧義字段占中文總字數的比例略少于1%，其中詞法歧義字段為84%，句法歧義字段為11%，語義歧義字段為3.5%，而語用歧義字段僅為1.5%。從以上數據可以看出，中文分詞是有望能夠實現的，但對于詞的切分難度還是很大。歧義切分現象是分詞中不可避免的現象，是自動分詞中一個比較棘手的問題，處理歧義切分字段的能力將嚴重影響中文分詞的準確性。

4.3? 新詞識別

新詞的識別就是對未登錄詞的識別，所謂未登錄詞是指系統詞典中沒有收錄的詞。例如人名、地名、公司名等專屬名詞以及各類術語、縮略詞等，無法把這些詞全部收錄到詞典中去，但這些詞經常會在局部文本中大量出現，所以這些詞語讓機器去識別困難是非常大的，識別這些新詞也是分詞的一個重要任務和評價分詞的重要指標。

5 結巴中文分詞的技術

Python的結巴分詞，其分詞功能強大且安裝方便，可以進行簡單分詞、并行分詞、命令行分詞[4]，當然它的功能也不止于此，目前還支持停用詞、關鍵詞提取、詞性標注、詞位置查詢等，其算法是基于隱馬爾可夫模型。下面以自然語言處理（NLP）分詞的經典語句：“結婚的和尚未結婚的”為例，來分析結巴分詞的3種模式分詞。

精確模式：嘗試最精確地切割句子，適合文本分析。其精確模式分詞結果為：結婚/的/和/尚未/結婚/的。

完整模式：在句子中掃描所有可能變成成詞的詞語，速度很快，但無法解決歧義。其完整模式分詞結果為：結婚/的/和尚/尚未/未結/結婚/的。

搜索引擎模式：在精確模式的基礎上，再對長詞進行切分，提高召回率，適合用于搜索引擎分詞。其搜索引擎分詞結果為：結婚/的/和/尚未/結婚/的。

6 中文分詞的應用

中文處理技術與西文處理技術相比，還存在著較大的差距，很多西文處理方法無法被中文直接采用，主要原因在于中文需要分詞這一工序。中文分詞技術屬于自然語言處理技術的子集，中文分詞是其他中文信息處理的根基，因此，對中文分詞技術在機器翻譯、智能問答、文摘生成、輿情分析、知識圖譜等應用方面的探究是一個漫長的過程[5]。

6.1? 機器翻譯

計算機能把一種語言翻譯成另一種語言，如百度在線翻譯，能把漢語翻譯成英語、日語、韓語、德語等其他國家語言。

6.2? 智能問答

計算機能夠正確回答輸入的問題。在電商網站中，智能問答具有非常現實的價值，比如代替人工擔任客服，有許多基本而重復的問題，其實都不需要人工客服，通過智能問答系統可以過濾掉大量的重復問題，讓人工座席更好地為顧客服務。

6.3? 文摘生成

計算機能夠準確歸納、總結并產生文本摘要。通過使用機器學習技術，計算機可以自動地從文獻中提取摘要信息，從而全面、準確地反映文獻的中心內容。這種技術可以幫助人們節省大量的時間，并且更加高效。

6.4? 輿論分析

計算機能夠判斷和識別當下輿論的導向，可以幫助分析當前的熱點話題，分析傳播途徑和發展趨勢，對于不良的輿論導向能夠進行有效的控制。

6.5? 知識圖譜

知識點相互連接而成的語義網絡，是表示知識發展過程與結構關系的一系列不同的圖形，用可視化技術描述知識資源及其載體，并對知識進行挖掘、分析、構造、繪制和展示，將其聯系起來。

7 國內自然語言研究的現狀

從20世紀90年代開始，國內自然語言研究進入了快速發展的時期，一系列系統開始大規模商業化，自然語言的研究內容和應用領域也在不斷創新。當前對自然語言的研究主要包括基礎研究和應用研究，其中語音和文本是其中的兩個重點。基礎研究主要涉及計算機、語言學、數學等學科，與之相關的技術有消歧義、語法形式化等。應用研究主要集中在應用自然語言處理的領域，如資料檢索、文本分類、機器翻譯等。在國內，由于對于機器翻譯這一基本理論的研究起步較早，是任何應用的理論基礎，因此，語法、句法、語義分析等方面的基礎研究一直是研究的重點，而近年來隨著網絡技術的發展，對智能檢索的研究也逐漸升溫。今后，數據科學與語言科學融合成為必然趨勢，神經語言學、語料庫語言學、數據語言學、語言智能等在人工智能領域將成為關注的焦點。

8 結語

本文從中文分詞技術的概述、分類、方法、挑戰、應用及現狀等方面進行探究，并在Python環境下實現中文分詞。盡管中文漢字博大精深，但隨著科技的發展和人工智能化的發展，對中文分詞技術的探究不斷深入，相信今后一定能開發出高質量、多功能的中文分詞算法，推動自然語言理解系統的廣泛應用。

[參考文獻]

[1]曾小芹.基于Python的中文結巴分詞技術實現[J].信息與電腦，2019（18）：38-42.

[2]祝永志.基于Python的中文結巴分詞技術實現[J].通信技術，2019（7）：1615-1619.

[3]孫鐵利.中文分詞技術的研究現狀與困難[J].信息技術，2019（7）：187-192.

[4]白寧超.Python數據預處理技術與實踐[M].北京：清華大學出版社，2019.

[5]涂銘.Python自然語言處理實戰：核心技術與算法[M].北京：機械工業出版，2018.

（編輯王雪芬）

A probe into Chinese word segmentation technology based on Python

Shi Guoju

（Bijie Radio and Television University， Bijie 551700， China）

Abstract：Chinese word segmentation belongs to the subset of natural language processing technology. The research on Chinese word segmentation technology has a long history. Based on Python stuttering segmentation， this paper explores Chinese word segmentation technology from the overview， classification， method， challenge， application and status quo， aiming to throw a brick to attract jade for reference.

Key words：word segmentation; Chinese word segmentation; Jieba;? natural language processing

作者簡介：史國舉（1985— ），男，貴州畢節人，講師，本科;研究方向：大數據分析。

無線互聯科技2021年23期

無線互聯科技的其它文章: 大數據視角下高校智慧校園信息化建設創新研究; 高職院校信息技術教育實踐存在的問題和解決策略研究; 職校網絡安全技能競賽人才培養機制的創新應用; 智能化時代背景下高校線上學習模式實踐存在的問題及解決策略研究; 后疫情時代下地方高校在線教學問題與對策研究; 數字經濟下基于區塊鏈技術的高職院校人才培養模式探究