999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的中文分詞技術探究

2021-01-08 02:16:42史國舉
無線互聯科技 2021年23期

摘 要:中文分詞屬于自然語言處理技術子集,對中文分詞技術的研究由來已久,文章基于Python結巴分詞,從概述、分類、方法、挑戰、應用及現狀等對中文分詞技術進行探究,旨在拋磚引玉,以供借鑒。

關鍵詞:分詞;中文分詞;Jieba;自然語言處理

1 中文分詞技術的概述

在漢語語言學界,“詞”這一概念一直是個纏繞不清、不可逾越的問題。“詞是什么”(詞的抽象定義)和“什么是詞”(詞的具體界定),這兩個基本問題迄今為止還沒有得到一個權威、明確的表述,很難找到能引起大眾共鳴的詞表。眾所周知,相對于以英文為代表的拉丁語系語言,英文使用空格作為自然的分隔符,而中文由于繼承了古代漢語的傳統,詞與詞之間并無分隔[1]。而在現代漢語中則以雙字或多字占多數,一個字再也不等同于一個詞,如果把字作為分詞的最小單位,它的粒度太小,不能表達完整的意思,而句子的粒度太大,承載的信息太多,很難重復使用。通俗地說,中文分詞就是由機器在中文文本中的詞和詞之間自動添加分界線,是中文信息處理的基礎,是自然語言處理(NLP)的子集,其實質就是劃界。

2 中文分詞技術的分類

經過近30年的探究,中文分詞從提出到現在,已經提出了很多方法,如規則分詞、統計分詞和混合分詞。但至今還沒有推出一套很好的中文分詞系統。規則分詞是最早出現的一種分詞方法,主要通過人工建立詞庫,按照一定的方式進行匹配切分,操作簡單,效率高,但是難以處理新詞。在統計機器學習技術興起的今天,只有把統計機器學習應用到分詞任務中,形成統計分詞,才能更好地應付諸如新單詞發現等特殊情況。但在實際應用中,單純的統計分詞也存在著缺陷,即對語料質量的過分依賴,因而更多地采用二者結合,即混合分詞。

3 ? 中文分析技術的方法

研究表明,現有的分詞方法主要有3種類型。

3.1? 基于字符串匹配的分詞方法

字符串匹配的分詞方法(又稱為“機械分詞法”),就是用待分析的漢字符串與一個“足夠大”的機器詞典來匹配,如果在詞典中發現了某個字符串,就會匹配成功。常見的有正向最大匹配法、反向最大匹配法、最小分割法、雙向最大匹配法等。

3.2? 基于理解的分詞方法

其基本思想是在分詞時進行句法、語義分析,并利用句法和語義信息處理歧義。其基本結構分為3個部分:分詞子系統、語義子系統和總控部分。分詞子系統在總控部分的協調下,可以獲取與詞、句等相關的句法和語義信息,從而對分詞歧義進行判斷,即模擬人對句子的理解過程,這種分詞方法需要許多語言知識和信息,鑒于漢語知識的廣泛性和復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。

3.3? 基于統計的分詞方法

在分析了大量已分詞文本的基礎上,利用統計機器學習模型學習詞匯切分的規則(機器訓練)[2],從而得到未知文本的切分。比如最大概率分詞方法、最大熵分詞方法等。隨著大規模語料庫的建立以及統計機器學習方法的研究和發展,基于統計的中文分詞方法逐漸成了主流方法[3]。

4 中文分詞技術的挑戰

隨著時代的發展,中文分詞技術應運而生,它在很大程度上滿足了人們對自然語言處理的需求,解決了人類與計算機通信的一些障礙。但是,中文分詞技術在分詞規范、歧義切分、新詞識別等方面也存在諸多困難。

4.1? 分詞規范

在中文語言中,詞的概念不清楚是最大的難題。詞語的組合和界定十分模糊,這是一項復雜而龐大的工作。雖然現在已出現了一些標準,但在實際操作中難以運用,所以目前還沒有合理的可操作的理論和標準,導致中文分詞出現了很大的困難。

4.2? 歧義切分

在文本中的字符串,如果基于句子的字面意思進行理解,最終產生多種不同的理解方法。據調查,中文的歧義字段占中文總字數的比例略少于1%,其中詞法歧義字段為84%,句法歧義字段為11%,語義歧義字段為3.5%,而語用歧義字段僅為1.5%。從以上數據可以看出,中文分詞是有望能夠實現的,但對于詞的切分難度還是很大。歧義切分現象是分詞中不可避免的現象,是自動分詞中一個比較棘手的問題,處理歧義切分字段的能力將嚴重影響中文分詞的準確性。

4.3? 新詞識別

新詞的識別就是對未登錄詞的識別,所謂未登錄詞是指系統詞典中沒有收錄的詞。例如人名、地名、公司名等專屬名詞以及各類術語、縮略詞等,無法把這些詞全部收錄到詞典中去,但這些詞經常會在局部文本中大量出現,所以這些詞語讓機器去識別困難是非常大的,識別這些新詞也是分詞的一個重要任務和評價分詞的重要指標。

5 結巴中文分詞的技術

Python的結巴分詞,其分詞功能強大且安裝方便,可以進行簡單分詞、并行分詞、命令行分詞[4],當然它的功能也不止于此,目前還支持停用詞、關鍵詞提取、詞性標注、詞位置查詢等,其算法是基于隱馬爾可夫模型。下面以自然語言處理(NLP)分詞的經典語句:“結婚的和尚未結婚的”為例,來分析結巴分詞的3種模式分詞。

精確模式:嘗試最精確地切割句子,適合文本分析。其精確模式分詞結果為:結婚/的/和/尚未/結婚/的。

完整模式:在句子中掃描所有可能變成成詞的詞語,速度很快,但無法解決歧義。其完整模式分詞結果為:結婚/的/和尚/尚未/未結/結婚/的。

搜索引擎模式:在精確模式的基礎上,再對長詞進行切分,提高召回率,適合用于搜索引擎分詞。其搜索引擎分詞結果為:結婚/的/和/尚未/結婚/的。

6 中文分詞的應用

中文處理技術與西文處理技術相比,還存在著較大的差距,很多西文處理方法無法被中文直接采用,主要原因在于中文需要分詞這一工序。中文分詞技術屬于自然語言處理技術的子集,中文分詞是其他中文信息處理的根基,因此,對中文分詞技術在機器翻譯、智能問答、文摘生成、輿情分析、知識圖譜等應用方面的探究是一個漫長的過程[5]。

6.1? 機器翻譯

計算機能把一種語言翻譯成另一種語言,如百度在線翻譯,能把漢語翻譯成英語、日語、韓語、德語等其他國家語言。

6.2? 智能問答

計算機能夠正確回答輸入的問題。在電商網站中,智能問答具有非常現實的價值,比如代替人工擔任客服,有許多基本而重復的問題,其實都不需要人工客服,通過智能問答系統可以過濾掉大量的重復問題,讓人工座席更好地為顧客服務。

6.3? 文摘生成

計算機能夠準確歸納、總結并產生文本摘要。通過使用機器學習技術,計算機可以自動地從文獻中提取摘要信息,從而全面、準確地反映文獻的中心內容。這種技術可以幫助人們節省大量的時間,并且更加高效。

6.4? 輿論分析

計算機能夠判斷和識別當下輿論的導向,可以幫助分析當前的熱點話題,分析傳播途徑和發展趨勢,對于不良的輿論導向能夠進行有效的控制。

6.5? 知識圖譜

知識點相互連接而成的語義網絡,是表示知識發展過程與結構關系的一系列不同的圖形,用可視化技術描述知識資源及其載體,并對知識進行挖掘、分析、構造、繪制和展示,將其聯系起來。

7 國內自然語言研究的現狀

從20世紀90年代開始,國內自然語言研究進入了快速發展的時期,一系列系統開始大規模商業化,自然語言的研究內容和應用領域也在不斷創新。當前對自然語言的研究主要包括基礎研究和應用研究,其中語音和文本是其中的兩個重點。基礎研究主要涉及計算機、語言學、數學等學科,與之相關的技術有消歧義、語法形式化等。應用研究主要集中在應用自然語言處理的領域,如資料檢索、文本分類、機器翻譯等。在國內,由于對于機器翻譯這一基本理論的研究起步較早,是任何應用的理論基礎,因此,語法、句法、語義分析等方面的基礎研究一直是研究的重點,而近年來隨著網絡技術的發展,對智能檢索的研究也逐漸升溫。今后,數據科學與語言科學融合成為必然趨勢,神經語言學、語料庫語言學、數據語言學、語言智能等在人工智能領域將成為關注的焦點。

8 結語

本文從中文分詞技術的概述、分類、方法、挑戰、應用及現狀等方面進行探究,并在Python環境下實現中文分詞。盡管中文漢字博大精深,但隨著科技的發展和人工智能化的發展,對中文分詞技術的探究不斷深入,相信今后一定能開發出高質量、多功能的中文分詞算法,推動自然語言理解系統的廣泛應用。

[參考文獻]

[1]曾小芹.基于Python的中文結巴分詞技術實現[J].信息與電腦,2019(18):38-42.

[2]祝永志.基于Python的中文結巴分詞技術實現[J].通信技術,2019(7):1615-1619.

[3]孫鐵利.中文分詞技術的研究現狀與困難[J].信息技術,2019(7):187-192.

[4]白寧超.Python數據預處理技術與實踐[M].北京:清華大學出版社,2019.

[5]涂銘.Python自然語言處理實戰:核心技術與算法[M].北京:機械工業出版,2018.

(編輯 王雪芬)

A probe into Chinese word segmentation technology based on Python

Shi Guoju

(Bijie Radio and Television University, Bijie 551700, China)

Abstract:Chinese word segmentation belongs to the subset of natural language processing technology. The research on Chinese word segmentation technology has a long history. Based on Python stuttering segmentation, this paper explores Chinese word segmentation technology from the overview, classification, method, challenge, application and status quo, aiming to throw a brick to attract jade for reference.

Key words:word segmentation; Chinese word segmentation; Jieba;? natural language processing

作者簡介:史國舉(1985— ),男,貴州畢節人,講師,本科;研究方向:大數據分析。

主站蜘蛛池模板: 99视频免费观看| 五月婷婷精品| 免费国产小视频在线观看| 最新国产网站| 97人人做人人爽香蕉精品| 精品无码专区亚洲| 国产一二三区视频| 在线观看国产精品一区| 波多野结衣中文字幕一区| 热久久这里是精品6免费观看| 国产主播在线一区| 国产chinese男男gay视频网| 制服丝袜在线视频香蕉| 欧美精品一区二区三区中文字幕| 久久人人爽人人爽人人片aV东京热| 亚洲福利视频一区二区| 亚洲精品卡2卡3卡4卡5卡区| 幺女国产一级毛片| 久久频这里精品99香蕉久网址| 国产男人天堂| 亚洲中文字幕无码mv| 亚洲妓女综合网995久久| 伊人AV天堂| 一级爆乳无码av| 国产高清又黄又嫩的免费视频网站| 夜精品a一区二区三区| 亚洲免费三区| 无码一区二区三区视频在线播放| 午夜三级在线| 亚洲三级a| 久久精品国产免费观看频道| 四虎成人精品在永久免费| 久久a级片| 中文字幕66页| 精品欧美一区二区三区在线| 亚洲一级色| 日韩av高清无码一区二区三区| 一区二区三区四区在线| 亚洲大尺度在线| 中文天堂在线视频| 免费一级全黄少妇性色生活片| 日韩a级毛片| 天天综合亚洲| 亚洲精品成人片在线观看| 男女性午夜福利网站| 国产原创演绎剧情有字幕的| 国产在线麻豆波多野结衣| 在线观看国产精品日本不卡网| 波多野结衣一区二区三区四区| 亚洲第一极品精品无码| 青青青国产视频手机| 国产成人精品午夜视频'| 成人在线观看一区| 久青草国产高清在线视频| 日韩欧美国产综合| 欧美第一页在线| 91久久偷偷做嫩草影院电| 五月婷婷激情四射| 在线免费看片a| 国产一级无码不卡视频| 国产后式a一视频| 国产精品自拍合集| 久久国产精品77777| 亚洲精品日产精品乱码不卡| 9999在线视频| 亚洲天堂精品视频| 97在线免费视频| 又黄又湿又爽的视频| 欧美精品导航| 欧美97欧美综合色伦图| 青青草国产一区二区三区| 亚洲天堂久久| 91美女视频在线观看| AV在线麻免费观看网站| 久久99蜜桃精品久久久久小说| 亚洲第一极品精品无码| 久久精品国产精品一区二区| 高清国产在线| 中文字幕久久波多野结衣| 天天色综合4| 婷婷综合色| 日韩国产一区二区三区无码|