999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于jieba中文分詞的中文文本語料預處理模塊實現(xiàn)

2020-07-04 02:14:28石鳳貴
電腦知識與技術(shù) 2020年14期

石鳳貴

摘要:文本預處理是文本分析理解的基礎(chǔ),預處理結(jié)果可以直接影響到文本分析的準確率。中文文本語句結(jié)構(gòu)復雜,詞語之間沒有明顯的分隔標記,需要進行分詞來理解語句。分詞是文本預處理的基礎(chǔ),詞的切分準確性影響文本預處理結(jié)果。本文分詞采用jieba中文分詞工具,實現(xiàn)了文本預處理模塊。

關(guān)鍵詞:文本分詞;文本預處理;去停用詞

中圖分類號:TP181 文獻標識碼:A

文章編號:1009-3044(2020)14-0248-04

分詞是自然語言處理中處理文本的基礎(chǔ)和前提,中文結(jié)構(gòu)復雜,詞之間沒有明顯的分隔標記。目前,出現(xiàn)了許多不錯的中文分詞工具,如jieba、LTP、SnowNLP、THULAC等。iieba中文分詞是一款廣泛使用的分詞工具,基于Python的第三方分詞庫。

1文本預處理

文本處理之前,需要對語料文本進行一些預處理,包括中文分詞、去停用詞、關(guān)鍵詞提取等。詞是構(gòu)成語句的基本單元,分析語句前需要先分詞,將文本中詞切分出來作為特征值。對于英文而言,分詞相對比較簡單,因為英文語句中詞與詞之間有明顯的分隔符。中文語句結(jié)構(gòu)復雜,詞語之間沒有分隔符,而且同一個詞在不同的語句和不同的文本中意義不同,下文將重點闡述。

文本中含有標點符號、介詞、語氣詞等,這些詞對理解文本沒有實際意義,應(yīng)從分詞結(jié)果中去除,這些詞稱之為停用詞。去停用詞可有節(jié)省存儲空間,減少停用詞對理解語句造成的噪音,降低文本維度。去停用詞是根據(jù)停用詞表進行過濾,因此去停用詞之前需要人工構(gòu)建停用詞表,然后將分詞表去掃描停用詞表,在停用詞表中詞需要過濾掉。去停用詞可以有效提高語句的理解和文本的處理效率、準確率。本文結(jié)合常見停用詞構(gòu)建停用詞表。

2jieba中文分詞

2.1分詞

分詞是自然語言處理的第一步,也是比較重要的一步。分詞是將由字符序列構(gòu)成的句子按照一定的規(guī)則重新組合成詞的集合,中文分詞就是指將句子中漢字序列切分成詞集合。相對于英文而言,中文分詞要復雜得多。中文分詞時如何界定“詞”、如何消除歧義、如何識別未登錄詞?這個是我們面臨的問題。中文分詞算法主要基于字符串匹配算法、基于理解算法和基于統(tǒng)計分詞算法。

2.2.jieba分詞工具

jieba中文分詞工具是一款廣泛使用、分詞效果較好的分詞器,開源分詞工具,基于前綴詞典實現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(DAGl,采用了動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合,對于未登錄詞,采用了基于漢字成詞能力的HMM模型(Hidden Markov Model,隱馬爾可夫模型),使用了Viterbi算法。jieba支持自定義專業(yè)詞典和未登錄詞血。

2)自定義詞典

jieba分詞工具基于前綴詞典dict.txt,應(yīng)用中不能切分的未登錄新詞需要修改或增加詞典,同時用戶也可以自定義詞典。開發(fā)者可以指定自定義的詞典,切分jieba詞典中未登陸詞。雖然jieba有新詞識別能力,但是自行添加新詞可以保證更高的正確率。自定義詞典格式和dict.txt一樣,一個詞占一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,詞頻省略時使用自動計算能保證分出該詞的詞頻。

3文本預處理模塊

3.1函數(shù)功能結(jié)構(gòu)

按照軟件開發(fā)“高內(nèi)聚、低耦合”原則,將實現(xiàn)文本預處理功能劃分為多個函數(shù),實現(xiàn)代碼復用。函數(shù)及其功能表1所示。

結(jié)果如4所示。

4.3加載提取的關(guān)鍵詞

加載提取的關(guān)鍵詞,可以用于后續(xù)的模型訓練。

textPre.loadSegmentDataset(“predata/keywords.txt”)

輸出結(jié)果:

[‘服務(wù)客房套房白板分鐘宴會廳飯店樓層話筒乘車喜來登餐廳會議室hotel 12 24 10新聞投影儀豪華使館區(qū)商務(wù)退房首都機場提供無線行政公里宴會英文/n,

‘服務(wù)餐廳hotel 405個人電腦套間洗衣客房健身接口菜肴點心豪華室內(nèi)提供桑拿浴本網(wǎng)頁貴賓廳希爾頓酒店生猛海鮮北京烤鴨壁球干洗自助餐標準間http www bjta gov cn\n,

‘大廈hotel京瑞東三環(huán)南路娛樂商務(wù)京城首都圖書館北京經(jīng)濟技術(shù)開發(fā)區(qū)古玩城龍?zhí)逗鄣驴绝喌阧ttp BrrccBr bjtagov cn asp id 24 hotehlame薈聚之星令I(lǐng)SO9000商駐他求南接北指市嘗/n,

'瀑布黃果樹景區(qū)景點犀牛天星橋風景區(qū)瀑布群名勝區(qū)石頭寨著名風景布依族壯闊雄奇迷離旅游水簾洞石林彩虹公里溶洞游人落差水上天星第一奇特內(nèi)有峽谷\n1

[賓館

‘賓館

‘旅游

‘旅游

‘旅游

‘旅游

5結(jié)束語

本文介紹了廣泛使用的中文分詞工具jieba,jieba是一個強大的分詞庫,實現(xiàn)原理比較完善,有三種分詞模式,可以通過參數(shù)設(shè)置使用HMM。文本預處理是文本分析理解的基礎(chǔ),直接關(guān)系到后續(xù)文本分析的準確性,文中詳細闡述了文本預處理模塊的實現(xiàn),給出了模塊實現(xiàn)的詳細代碼。

主站蜘蛛池模板: 精品一区国产精品| 97人人做人人爽香蕉精品| 亚洲 欧美 偷自乱 图片| 中国丰满人妻无码束缚啪啪| 丁香婷婷激情综合激情| 国产精品偷伦在线观看| 无码中文AⅤ在线观看| 亚洲侵犯无码网址在线观看| 无码日韩人妻精品久久蜜桃| 国产成人一二三| 国产亚洲精品97AA片在线播放| 免费看a毛片| 永久成人无码激情视频免费| 欧美成人在线免费| 亚洲精品片911| 精品无码国产自产野外拍在线| 无码aⅴ精品一区二区三区| 婷婷开心中文字幕| 99久久精品视香蕉蕉| 97综合久久| 国产91视频观看| 成年午夜精品久久精品| 青草视频久久| 国产激情影院| 亚洲Av激情网五月天| 欧美一区二区自偷自拍视频| 久久五月天国产自| 99热这里只有精品2| 亚洲最新网址| 91久久偷偷做嫩草影院精品| 国产在线精彩视频论坛| 狼友av永久网站免费观看| 欧美精品啪啪一区二区三区| 99re免费视频| 色偷偷一区二区三区| 中文字幕人妻av一区二区| 91精品国产无线乱码在线| 欧美成人午夜视频免看| 伊人久久福利中文字幕| 无码视频国产精品一区二区| 高清不卡一区二区三区香蕉| 亚洲日本中文字幕乱码中文 | 国模粉嫩小泬视频在线观看| 亚洲精品国产综合99久久夜夜嗨| 国产最爽的乱婬视频国语对白 | 中文字幕av无码不卡免费| 日本亚洲成高清一区二区三区| 欧美啪啪网| 亚洲日韩精品无码专区97| 四虎国产精品永久一区| 亚洲第一成年人网站| 亚洲av片在线免费观看| 热久久综合这里只有精品电影| 91精品视频在线播放| 国产精品久久精品| 9丨情侣偷在线精品国产| 国产中文在线亚洲精品官网| 亚洲成人一区二区三区| 国产视频入口| 国内精品一区二区在线观看| 日韩一区二区三免费高清| 亚洲欧美激情小说另类| 亚洲成人高清在线观看| 亚洲首页在线观看| 二级特黄绝大片免费视频大片| 国产美女精品在线| 女人18一级毛片免费观看 | 国产一区二区福利| 天天视频在线91频| 欧美日韩国产在线人| 在线永久免费观看的毛片| 国产资源免费观看| 一级成人a毛片免费播放| 无码精油按摩潮喷在线播放| 在线观看国产精品第一区免费| 亚洲男人天堂久久| 蜜臀AV在线播放| 色哟哟国产成人精品| 少妇精品网站| 精品亚洲麻豆1区2区3区| 亚洲精品无码久久毛片波多野吉| 亚洲欧美不卡中文字幕|