摘 要:中文分詞屬于自然語言處理技術子集,對中文分詞技術的研究由來已久,文章基于Python結巴分詞,從概述、分類、方法、挑戰、應用及現狀等對中文分詞技術進行探究,旨在拋磚引玉,以供借鑒。
關鍵詞:分詞;中文分詞;Jieba;自然語言處理
1 中文分詞技術的概述
在漢語語言學界,“詞”這一概念一直是個纏繞不清、不可逾越的問題。“詞是什么”(詞的抽象定義)和“什么是詞”(詞的具體界定),這兩個基本問題迄今為止還沒有得到一個權威、明確的表述,很難找到能引起大眾共鳴的詞表。眾所周知,相對于以英文為代表的拉丁語系語言,英文使用空格作為自然的分隔符,而中文由于繼承了古代漢語的傳統,詞與詞之間并無分隔[1]。而在現代漢語中則以雙字或多字占多數,一個字再也不等同于一個詞,如果把字作為分詞的最小單位,它的粒度太小,不能表達完整的意思,而句子的粒度太大,承載的信息太多,很難重復使用。通俗地說,中文分詞就是由機器在中文文本中的詞和詞之間自動添加分界線,是中文信息處理的基礎,是自然語言處理(NLP)的子集,其實質就是劃界。
2 中文分詞技術的分類
經過近30年的探究,中文分詞從提出到現在,已經提出了很多方法,如規則分詞、統計分詞和混合分詞。但至今還沒有推出一套很好的中文分詞系統。規則分詞是最早出現的一種分詞方法,主要通過人工建立詞庫,按照一定的方式進行匹配切分,操作簡單,效率高,但是難以處理新詞。在統計機器學習技術興起的今天,只有把統計機器學習應用到分詞任務中,形成統計分詞,才能更好地應付諸如新單詞發現等特殊情況。但在實際應用中,單純的統計分詞也存在著缺陷,即對語料質量的過分依賴,因而更多地采用二者結合,即混合分詞。
3 ? 中文分析技術的方法
研究表明,現有的分詞方法主要有3種類型。
3.1? 基于字符串匹配的分詞方法
字符串匹配的分詞方法(又稱為“機械分詞法”),就是用待分析的漢字符串與一個“足夠大”的機器詞典來匹配,如果在詞典中發現了某個字符串,就會匹配成功。常見的有正向最大匹配法、反向最大匹配法、最小分割法、雙向最大匹配法等。
3.2? 基于理解的分詞方法
其基本思想是在分詞時進行句法、語義分析,并利用句法和語義信息處理歧義。其基本結構分為3個部分:分詞子系統、語義子系統和總控部分。分詞子系統在總控部分的協調下,可以獲取與詞、句等相關的句法和語義信息,從而對分詞歧義進行判斷,即模擬人對句子的理解過程,這種分詞方法需要許多語言知識和信息,鑒于漢語知識的廣泛性和復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。
3.3? 基于統計的分詞方法
在分析了大量已分詞文本的基礎上,利用統計機器學習模型學習詞匯切分的規則(機器訓練)[2],從而得到未知文本的切分。比如最大概率分詞方法、最大熵分詞方法等。隨著大規模語料庫的建立以及統計機器學習方法的研究和發展,基于統計的中文分詞方法逐漸成了主流方法[3]。
4 中文分詞技術的挑戰
隨著時代的發展,中文分詞技術應運而生,它在很大程度上滿足了人們對自然語言處理的需求,解決了人類與計算機通信的一些障礙。但是,中文分詞技術在分詞規范、歧義切分、新詞識別等方面也存在諸多困難。
4.1? 分詞規范
在中文語言中,詞的概念不清楚是最大的難題。詞語的組合和界定十分模糊,這是一項復雜而龐大的工作。雖然現在已出現了一些標準,但在實際操作中難以運用,所以目前還沒有合理的可操作的理論和標準,導致中文分詞出現了很大的困難。
4.2? 歧義切分
在文本中的字符串,如果基于句子的字面意思進行理解,最終產生多種不同的理解方法。據調查,中文的歧義字段占中文總字數的比例略少于1%,其中詞法歧義字段為84%,句法歧義字段為11%,語義歧義字段為3.5%,而語用歧義字段僅為1.5%。從以上數據可以看出,中文分詞是有望能夠實現的,但對于詞的切分難度還是很大。歧義切分現象是分詞中不可避免的現象,是自動分詞中一個比較棘手的問題,處理歧義切分字段的能力將嚴重影響中文分詞的準確性。
4.3? 新詞識別
新詞的識別就是對未登錄詞的識別,所謂未登錄詞是指系統詞典中沒有收錄的詞。例如人名、地名、公司名等專屬名詞以及各類術語、縮略詞等,無法把這些詞全部收錄到詞典中去,但這些詞經常會在局部文本中大量出現,所以這些詞語讓機器去識別困難是非常大的,識別這些新詞也是分詞的一個重要任務和評價分詞的重要指標。
5 結巴中文分詞的技術
Python的結巴分詞,其分詞功能強大且安裝方便,可以進行簡單分詞、并行分詞、命令行分詞[4],當然它的功能也不止于此,目前還支持停用詞、關鍵詞提取、詞性標注、詞位置查詢等,其算法是基于隱馬爾可夫模型。下面以自然語言處理(NLP)分詞的經典語句:“結婚的和尚未結婚的”為例,來分析結巴分詞的3種模式分詞。
精確模式:嘗試最精確地切割句子,適合文本分析。其精確模式分詞結果為:結婚/的/和/尚未/結婚/的。
完整模式:在句子中掃描所有可能變成成詞的詞語,速度很快,但無法解決歧義。其完整模式分詞結果為:結婚/的/和尚/尚未/未結/結婚/的。
搜索引擎模式:在精確模式的基礎上,再對長詞進行切分,提高召回率,適合用于搜索引擎分詞。其搜索引擎分詞結果為:結婚/的/和/尚未/結婚/的。
6 中文分詞的應用
中文處理技術與西文處理技術相比,還存在著較大的差距,很多西文處理方法無法被中文直接采用,主要原因在于中文需要分詞這一工序。中文分詞技術屬于自然語言處理技術的子集,中文分詞是其他中文信息處理的根基,因此,對中文分詞技術在機器翻譯、智能問答、文摘生成、輿情分析、知識圖譜等應用方面的探究是一個漫長的過程[5]。
6.1? 機器翻譯
計算機能把一種語言翻譯成另一種語言,如百度在線翻譯,能把漢語翻譯成英語、日語、韓語、德語等其他國家語言。
6.2? 智能問答
計算機能夠正確回答輸入的問題。在電商網站中,智能問答具有非常現實的價值,比如代替人工擔任客服,有許多基本而重復的問題,其實都不需要人工客服,通過智能問答系統可以過濾掉大量的重復問題,讓人工座席更好地為顧客服務。
6.3? 文摘生成
計算機能夠準確歸納、總結并產生文本摘要。通過使用機器學習技術,計算機可以自動地從文獻中提取摘要信息,從而全面、準確地反映文獻的中心內容。這種技術可以幫助人們節省大量的時間,并且更加高效。
6.4? 輿論分析
計算機能夠判斷和識別當下輿論的導向,可以幫助分析當前的熱點話題,分析傳播途徑和發展趨勢,對于不良的輿論導向能夠進行有效的控制。
6.5? 知識圖譜
知識點相互連接而成的語義網絡,是表示知識發展過程與結構關系的一系列不同的圖形,用可視化技術描述知識資源及其載體,并對知識進行挖掘、分析、構造、繪制和展示,將其聯系起來。
7 國內自然語言研究的現狀
從20世紀90年代開始,國內自然語言研究進入了快速發展的時期,一系列系統開始大規模商業化,自然語言的研究內容和應用領域也在不斷創新。當前對自然語言的研究主要包括基礎研究和應用研究,其中語音和文本是其中的兩個重點。基礎研究主要涉及計算機、語言學、數學等學科,與之相關的技術有消歧義、語法形式化等。應用研究主要集中在應用自然語言處理的領域,如資料檢索、文本分類、機器翻譯等。在國內,由于對于機器翻譯這一基本理論的研究起步較早,是任何應用的理論基礎,因此,語法、句法、語義分析等方面的基礎研究一直是研究的重點,而近年來隨著網絡技術的發展,對智能檢索的研究也逐漸升溫。今后,數據科學與語言科學融合成為必然趨勢,神經語言學、語料庫語言學、數據語言學、語言智能等在人工智能領域將成為關注的焦點。
8 結語
本文從中文分詞技術的概述、分類、方法、挑戰、應用及現狀等方面進行探究,并在Python環境下實現中文分詞。盡管中文漢字博大精深,但隨著科技的發展和人工智能化的發展,對中文分詞技術的探究不斷深入,相信今后一定能開發出高質量、多功能的中文分詞算法,推動自然語言理解系統的廣泛應用。
[參考文獻]
[1]曾小芹.基于Python的中文結巴分詞技術實現[J].信息與電腦,2019(18):38-42.
[2]祝永志.基于Python的中文結巴分詞技術實現[J].通信技術,2019(7):1615-1619.
[3]孫鐵利.中文分詞技術的研究現狀與困難[J].信息技術,2019(7):187-192.
[4]白寧超.Python數據預處理技術與實踐[M].北京:清華大學出版社,2019.
[5]涂銘.Python自然語言處理實戰:核心技術與算法[M].北京:機械工業出版,2018.
(編輯 王雪芬)
A probe into Chinese word segmentation technology based on Python
Shi Guoju
(Bijie Radio and Television University, Bijie 551700, China)
Abstract:Chinese word segmentation belongs to the subset of natural language processing technology. The research on Chinese word segmentation technology has a long history. Based on Python stuttering segmentation, this paper explores Chinese word segmentation technology from the overview, classification, method, challenge, application and status quo, aiming to throw a brick to attract jade for reference.
Key words:word segmentation; Chinese word segmentation; Jieba;? natural language processing
作者簡介:史國舉(1985— ),男,貴州畢節人,講師,本科;研究方向:大數據分析。