999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文分詞方法及常用國內(nèi)分詞工具

2024-12-31 00:00:00種惠芳
三角洲 2024年14期
關(guān)鍵詞:深度語言功能

為使機器能夠更充分地理解輸入語句,必須首先對輸入語句進行分詞。與英文等其他具有天然分隔標(biāo)識符的西方語言相比,中文缺少此類符號,為此研究中文分詞方法及常用分詞工具,對中文自然語言處理具有非常重要的意義。中文分詞是將輸入計算機中的連續(xù)中文字序列按照某種規(guī)則進行分割,切分為具有相對獨立意義中文詞序列的過程。中文分詞在眾多涉及漢語的自然語言處理領(lǐng)域(如模式識別、機器翻譯等)都起著非常重要的作用,分詞可以將復(fù)雜非結(jié)構(gòu)化語言學(xué)問題轉(zhuǎn)化為結(jié)構(gòu)化數(shù)學(xué)計算問題,提高問題建模能力。與英語等其他語言相比,中文無明顯分詞特征,切分準(zhǔn)則不統(tǒng)一;中文存在大量一詞多義語言現(xiàn)象,容易出現(xiàn)歧義;未登錄詞等其他語言分詞需要考慮的語言現(xiàn)象時中文分詞也需考慮,為此中文分詞成為眾多從事自然語言處理研究學(xué)者的研究內(nèi)容。在中國知網(wǎng)上以“分詞”為檢索詞,以“主題”為檢索字段進行文獻檢索,截至2023年8月,共檢索到中文文獻2.04萬篇,文獻類別情況如表1所示。

從發(fā)展歷程角度看,中文分詞方法可劃分為基于詞典匹配的分詞方法、基于統(tǒng)計的分詞方法和基于深度學(xué)習(xí)的分詞方法。在中國知網(wǎng)上以“中文分詞方法”主題詞進行檢索,并對檢索結(jié)果按次要主題“分詞方法”“字符串匹配”“基于統(tǒng)計”“神經(jīng)網(wǎng)絡(luò)”進行文獻趨勢對比分析,可見自2017年以來,深度學(xué)習(xí)方法逐步代替匹配與統(tǒng)計兩類方法成為分詞方法研究的主流,如圖1所示。

基于詞典匹配的分詞方法主要是通過各種算法將文本與詞典進行匹配,從而實現(xiàn)對輸入內(nèi)容的劃分,匹配算法的設(shè)計和詞典的構(gòu)建直接影響分詞的效能與性能,該階段分詞方法主要研究詞典的構(gòu)建和匹配算法的設(shè)計。

基于詞典匹配的分詞方法簡單,分詞速度快,但分詞準(zhǔn)確率與詞典質(zhì)量密切相關(guān),也難以處理未登錄詞及一詞多義等語言現(xiàn)象。

基于統(tǒng)計的分詞方法建立在統(tǒng)計指標(biāo)和統(tǒng)計模型基礎(chǔ)之上,通過計算詞與詞之間的組合出現(xiàn)概率來確定是否進行分詞,其核心思想是:按照上下文順序,相鄰兩字的頻數(shù)統(tǒng)計次數(shù)越大,則其成為一個詞語的概率越大。

基于統(tǒng)計的分詞方法建立在詞頻數(shù)學(xué)計算基礎(chǔ)之上,不考慮詞意,一定程度上可以解決基于詞典匹配的分詞方法中未登錄詞及一詞多義問題,但該方法需要基于大規(guī)模訓(xùn)練語料來實現(xiàn)。隨著互聯(lián)網(wǎng)語料規(guī)模的不斷增大、深度神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和計算機算力的不斷提升,基于統(tǒng)計的分詞方法正逐漸被深度學(xué)習(xí)分詞方法取代。

2006年,Hinton等人提出了深度學(xué)習(xí)概念,強調(diào)深度學(xué)習(xí)模型學(xué)習(xí)得到的特征數(shù)據(jù)對原數(shù)據(jù)有更本質(zhì)的代表性。2012年,AlexNet在ImageNet圖像分類比賽中以碾壓第二名的成績激起了人們對深度學(xué)習(xí)研究的熱潮,如何使用深度學(xué)習(xí)方法提高中文分詞效果也成為眾多學(xué)者積極研究的熱點。在中國知網(wǎng)以“深度學(xué)習(xí)”和“中文分詞”為主題詞進行檢索,共獲得414篇檢索結(jié)果,其中最早關(guān)于深度學(xué)習(xí)的中文分詞文獻出現(xiàn)在2015年。

基于深度學(xué)習(xí)的分詞方法與基于統(tǒng)計的分詞方法相比,無需人工進行特征選擇,且特征學(xué)習(xí)深度不受限。典型深度學(xué)習(xí)分詞方法以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),目前越來越多的深度學(xué)習(xí)模型被應(yīng)用于中文分詞中,如林德萍將預(yù)訓(xùn)練模型BERT引入中文分詞的過程實現(xiàn)了對新聞文本的高效分詞。

常用國內(nèi)中文分詞工具及簡要分析

jieba(中文名為“結(jié)巴”)是優(yōu)秀的中文分詞第三方庫,可以進行簡單分詞、并行分詞、命令行分詞,支持精確模式、全模式、搜索引擎模式和Paddle模式四種分詞模式,支持繁體分詞和自定義詞典,除分詞功能外,還支持關(guān)鍵詞提取、詞性標(biāo)注、詞位置查詢等功能,支持C++、JAVA、Python語言。精準(zhǔn)模式試圖將句子進行最精確的切開(分詞后的概率連乘最大),適合文本分析,已被分出的詞語將不會再次被其他詞語占有;全模式將句子中所有可能成詞的詞語都掃描出來(如果單字被詞語包含,不掃描出單字),速度快,但可能存在歧義;搜索引擎模式在精確模式的基礎(chǔ)上,對長詞(字數(shù)gt;2)再次切分,提高召回率,適用于搜索引擎分詞;Paddle模式使用Paddle(飛槳)深度學(xué)習(xí)框架以加速分詞,jieba 0.40及以上版本支持Paddle模式,相對于前三種傳統(tǒng)分詞算法,Paddle模式采用了基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,可以獲得更高的分詞準(zhǔn)確度和更快的分詞速度。

目前,jieba不提供可視化應(yīng)用程序接口,用戶需在編程環(huán)境中調(diào)用來實現(xiàn),代碼示例如下。

import jieba

s1=”我用手一把把門把手把住了”

word=jieba.lcut(s1)

print(word)

HanLP是一個提供分詞、詞性標(biāo)注、關(guān)鍵詞提取、自動摘要、依存句法分析、命名實體識別、短語提取、拼音轉(zhuǎn)換、簡繁轉(zhuǎn)換等功能的自然語言處理工具包,支持包括簡繁中英日俄法德在內(nèi)的104種語言分詞功能,采用全球范圍內(nèi)已知最大的億字級別中文分詞詞庫,支持CRF模型分詞、索引分詞、N-最短路徑分詞、NLP分詞、極速詞典分詞、標(biāo)準(zhǔn)分詞、深度學(xué)習(xí)分詞、自定義詞典分詞等,各種分詞方式及其特點如表2所示。

HanLP官網(wǎng)提供了不同分詞方法的相應(yīng)接口及功能演示窗口(如圖2所示),用戶也可以像使用jieba庫一樣通過編程環(huán)境調(diào)用HanLP模塊來使用,HanLP支持C++、JAVA、Python語言的使用。

from pyhanlp import *

print(HanLP.segment(‘我用手一把把門把手把住了’))

THULAC是清華大學(xué)自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包,具有中文分詞和詞性標(biāo)注功能。THULAC工具分詞準(zhǔn)確率高、速度較快,曾在Windows測試環(huán)境下利用第二屆國際漢語分詞測評發(fā)布的國際中文分詞測評標(biāo)準(zhǔn)對國內(nèi)不同分詞軟件進行了速度和準(zhǔn)確率測試,測試結(jié)果顯示其綜合性能排名靠前。THULAC支持C++、JAVA、Python語言的使用,在其官網(wǎng)上提供了網(wǎng)頁版在線平臺演示功能(如圖3所示)。

FoolNLTK是一款采用BiLSTM算法實現(xiàn)的開源深度學(xué)習(xí)中文分詞工具包,可提供分詞、詞性標(biāo)注、實體識別功能,也支持用戶自定義字典以加強分詞效果。FoolNLTK需在編程環(huán)境下安裝并調(diào)用工具包來進行分詞,示例如下。

import fool

print(print(fool.cut(‘我用手一把把門把手把住了’)))

SnowNLP是一個處理中文文本內(nèi)容的python類庫,其主要功能包括分詞、詞性標(biāo)注、情感分析、漢字轉(zhuǎn)拼音、繁體轉(zhuǎn)簡體、關(guān)鍵詞提取,以及文本摘要等,其分詞功能采用了基于字符的生成模型方法。SnowNLP需在編程環(huán)境下安裝工具包后調(diào)用該工具進行分詞。

import snownlp

print(snownlp.SnowNLP(u’我用手一把把門把手把住了’).words)

LTP是由哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心開發(fā)的一款集中文詞法分析(分詞、詞性標(biāo)注、命名實體識別)、句法分析(依存句法分析)和語義分析(語義角色標(biāo)注、語義依存分析)六大功能為一體的自然語言處理工具集,其最新4.0版本基于多任務(wù)學(xué)習(xí)框架進行統(tǒng)一學(xué)習(xí),使全部六項任務(wù)可以共享語義信息,達到了知識遷移的效果,既有效提升了系統(tǒng)的運行效率,又極大縮小了模型的占用空間,采用了基于預(yù)訓(xùn)練模型進行統(tǒng)一的表示,有效提升了各項任務(wù)的準(zhǔn)確率,基于教師退火模型蒸餾出單一的多任務(wù)模型,進一步提高了系統(tǒng)的準(zhǔn)確率,基于PyTorch框架開發(fā),提供了原生的Python調(diào)用接口,通過pip包管理系統(tǒng)一鍵安裝,極大提高了系統(tǒng)的易用性。該工具官網(wǎng)上提供了詳細的說明文檔,并提供在線演示功能,用戶可以便捷使用。

from ltp import LTP

ltp = LTP()

words = ltp.pipeline([‘我用手一把把門把手把住了’],tasks=[“cws”],return_dict=False)

除了上述六個分詞工具,還存在如NLPIR、CoreNLP、NLTK等中文分詞工具,表3集中展示了上述六個中文分詞工具的關(guān)鍵特點。

中文分詞技術(shù)正在由以傳統(tǒng)字符匹配方法和統(tǒng)計方法為主的分詞方法向由深度學(xué)習(xí)方法為主的階段過渡,新的深度學(xué)習(xí)方法也不斷被應(yīng)用于分詞任務(wù)中。隨著語料數(shù)據(jù)的不斷增加和計力的增強,中文自然語言處理過程中是否需要單純的分詞階段是相關(guān)研究人員探討的問題,也將是筆者下一階段研究的內(nèi)容。此外,筆者認為,數(shù)據(jù)科學(xué)和語言科學(xué)如何更好地融合以發(fā)揮彼此優(yōu)勢也是值得探討的課題。

(作者單位:國防科技大學(xué))

猜你喜歡
深度語言功能
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
深度理解一元一次方程
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
深度觀察
深度觀察
深度觀察
讓語言描寫搖曳多姿
關(guān)于非首都功能疏解的幾點思考
累積動態(tài)分析下的同聲傳譯語言壓縮
我有我語言
主站蜘蛛池模板: 中文精品久久久久国产网址| 久草视频福利在线观看| 天天躁夜夜躁狠狠躁躁88| 亚洲欧美日韩动漫| www.精品视频| 色播五月婷婷| 51国产偷自视频区视频手机观看| 毛片a级毛片免费观看免下载| 国产成人永久免费视频| 99精品热视频这里只有精品7| 粗大猛烈进出高潮视频无码| 国产成在线观看免费视频| 国产亚洲现在一区二区中文| 91成人在线免费观看| 玖玖精品视频在线观看| 2020极品精品国产| 538精品在线观看| 最新亚洲av女人的天堂| 成人中文在线| 国产精品嫩草影院视频| 91在线一9|永久视频在线| 亚洲制服丝袜第一页| 国产性精品| 亚洲AV永久无码精品古装片| 国产性精品| 国产精品天干天干在线观看| 国产性爱网站| 婷婷午夜天| 国产性爱网站| 亚洲精品桃花岛av在线| 成人午夜网址| 曰韩免费无码AV一区二区| 无码精品国产dvd在线观看9久| 欧美国产三级| 国产午夜福利片在线观看| 欧美成人精品一区二区| 99在线观看精品视频| 色香蕉网站| 午夜人性色福利无码视频在线观看| 日韩成人午夜| 人人爽人人爽人人片| 国产亚洲精久久久久久无码AV| 亚洲综合经典在线一区二区| 就去吻亚洲精品国产欧美| 亚洲色图在线观看| 亚洲码一区二区三区| 久久国产精品波多野结衣| 亚洲成人一区在线| 精品无码一区二区三区在线视频| 无码又爽又刺激的高潮视频| 精品在线免费播放| 国产亚洲精品在天天在线麻豆 | 99在线观看免费视频| 亚洲国产精品久久久久秋霞影院| AV天堂资源福利在线观看| 精品国产Av电影无码久久久| 人妻丰满熟妇啪啪| 国产91视频免费观看| 国产喷水视频| 国产18在线播放| 精品免费在线视频| 国产精品区视频中文字幕| 丁香五月婷婷激情基地| 国产特一级毛片| 国产91麻豆免费观看| 国产成人av大片在线播放| 国产99在线观看| 东京热一区二区三区无码视频| 四虎永久在线| 亚洲第一成人在线| 亚洲精品欧美重口| 无套av在线| 日韩毛片免费视频| 亚洲娇小与黑人巨大交| 成人国产免费| 亚洲欧洲AV一区二区三区| 91探花国产综合在线精品| 亚洲色图欧美视频| 精品久久久久无码| 999精品在线视频| 久草热视频在线| 久久99热这里只有精品免费看|