999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本的詞云分析方法

2022-09-23 13:26:20云太真
電腦報 2022年36期
關鍵詞:詞匯文本

云太真

對中文文本進行詞頻分析,進而生成詞云,是一種常見的文本分析方法。詞云分析有助于快速掌握文章主要內容,抓住重點,深入理解文章內涵,并以圖形化的方式進行展示。本文以國家發展改革委和國家能源局今年5月發布的《關于促進新時代新能源高質量發展的實施方案》一文為例,使用Python語言及其擴展包,對其進行詞頻分析,生成詞云。

一、整理和讀取文件

首先是整理文件,從網上可以找到此文件的文本,復制整理為TXT格式,去掉無關內容,去掉注解和說明。我們分析的是文本正文,對其他內容不做研究。

接著,我們利用Python語言的文件操作,將文件讀入到字符串中,如下:

article=open(‘E:/關于促進新時代新能源高質量發展的實施方案.txt).read()

這條語句在執行的時候會報告錯誤。經查,發現最近Windows10操作系統下的記事本程序進行了更新。使用記事本程序保存TXT文本的時候,它會默認保存為utf-8編碼格式。這說明微軟不再把ANSI編碼作為默認的編碼格式。因此代碼在打開文件的時候,需要指定編碼格式如下:

該語句執行后,article是一個包含文件所有內容的字符串。

二、分詞和詞頻統計

接下來,我們需要將這個連續的文本分割為詞匯,這樣才能進行詞頻分析。需要說明的是,漢語詞匯的分割是一個難題。首先來說,漢語的基本單位是字,字組成詞,詞和詞之間沒有明顯的標識。這一點不像英文文本,英語文本的詞是基本單位,詞和詞之間有空格分開,漢語文本的詞之間是連續的。其次,漢語的詞和詞也能組成詞、成語、歇后語等,這些語言現象的存在對詞匯的分割產生了很多困難。另外,不同學科的文本中往往還存在一些專業詞匯和術語,進行詞匯分割和識別需要對這些專業詞匯和術語進行處理。

為解決中文分詞的問題,不少研究者提出了一些有用的算法。在Python語言領域,有些研究者或機構發布了對應的擴展包給大家使用,有些適用于通用的社會科學文本,有些適用于某些專業領域的文本。這里我們使用最常用的結巴分詞擴展包,使用之前我們要先安裝。具體方法是:在聯網情況下,在操作系統的命令行下運行指令:

pip? install? jieba

然后在程序中首先導入jieba分詞包,即:

import jieba

接下來,我們這樣使用jieba分詞包。這條語句,將把文本字符串article分割為若干詞匯,并按順序,將詞匯作為列表的元素返回,article_words是一個列表。你可以試試觀察一下該列表的內容。

article_words=jieba.lcut(article)

分詞的目的是對文本中的詞匯進行頻度統計,這可以使用Python的字典類型,該字典的鍵就是文本中的詞,值就是該詞出現的頻度。針對前面的分詞列表,進行如下循環:如果是新詞,加入字典,頻度設置為1;如果字典中已經有了,就將頻度加1。代碼如圖:

三、停詞問題

我們接下來需要處理虛詞和標點符號問題。所謂虛詞,就是一些語氣詞和語法助詞,例如“啊”“的”“得”“地”等,這些虛詞和標點符號的出現頻度很高,但在語義分析中沒有意義,一般來說需要除去。除去這些內容的主要辦法是使用停詞文件和停詞列表。

停詞文件是一個事先準備好的TXT文本文件,里面是一些常見的語氣詞、助詞和各種標點符號,每個詞一行。停詞文件可以從網上找到,是別人整理好的,自己在使用中也可以根據經驗加入自己的“停詞”,也就是需要過濾掉的詞。程序讀取停詞文件,存放在停詞列表中。具體代碼如下:

stop_words=open(‘stop.txt,encodi

ng=“utf-8”).read().splitlines()

這里的splitlines()函數可以把讀取到的文件按行存儲到列表中,每行是一個元素。

接下來,我們使用停詞列表,把前面列表中的停詞刪除。

另外,中文文本中,一些出現頻度比較低的詞可能也沒有太大意義,也可以酌情去掉:

代碼這樣寫的主要原因是字典不能在循環的時候刪除元素。注意具體出現頻度多低的詞可以去掉,需要根據文本長度和詞的數量來斟酌,也可以先生成詞云圖觀察后再做調整。

四、詞云圖的生成

詞云圖的生成通常調用第三方庫wordcloud。這個庫在使用之前也需要安裝。具體方法是在操作系統的命令行下輸入如下指令:

pip install wordcloud

然后在程序中先導入wordcloud再使用,即:

import wordcloud

然后,利用模塊中的Wordcloud()方法生成實例化對象,該方法的常用參數如下:background_color表示顏色,默認為黑色;width和height表示生成的詞云圖的寬和高,單位是像素;font_path表示字體文件的路徑;max_font_size表示最大字號;max_words表示最多容納的詞匯。這些參數都有默認值,不是必需的,但對中文詞云分析來說,font_path參數是必須設置的,否則無法顯示漢字。這里我們進行如下設置:

接下來,需要把前面處理好的詞頻字典對象交給詞云對象:

w.generate_from_frequencies(words_freq)

最后,詞云對象就可以導出生成詞云圖了,這是一個.png格式的圖片文件,需要指定路徑和文件名。

w.to_file(‘e:/新能源.png)

程序就這樣完成了。運行結果如下圖:

注意詞云實例化參數中的max_font_size決定了這個詞云圖中最大號詞的字號,font_path指向的是Windows系統中的黑體字,如果想使用其他字體,需要指向對應的字體文件。整理后完整代碼如圖。

猜你喜歡
詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 一边摸一边做爽的视频17国产| 曰AV在线无码| 伊人久久精品无码麻豆精品| 国产乱子精品一区二区在线观看| 91国内外精品自在线播放| 亚洲国产成人精品无码区性色| 97影院午夜在线观看视频| 无码人中文字幕| 亚洲天堂网站在线| 午夜国产在线观看| 小说 亚洲 无码 精品| 欧美国产中文| 亚洲最黄视频| 伊人久久大香线蕉成人综合网| 国产精品手机视频| 亚洲一级无毛片无码在线免费视频| 三上悠亚精品二区在线观看| 国产在线无码一区二区三区| 22sihu国产精品视频影视资讯| 欧美日一级片| 国产AV无码专区亚洲A∨毛片| 亚洲精品制服丝袜二区| 亚洲熟女中文字幕男人总站| 综合色88| 在线免费观看a视频| 国产最爽的乱婬视频国语对白 | 日韩123欧美字幕| 国产白浆在线观看| 欧美97色| 国产自无码视频在线观看| 秋霞一区二区三区| 国产主播在线观看| 国产亚洲欧美在线中文bt天堂| 蜜桃视频一区| 在线日本国产成人免费的| 亚洲欧洲日韩久久狠狠爱| 国产真实乱子伦视频播放| 欧美午夜小视频| 99re免费视频| 亚洲综合久久成人AV| 91精品国产一区| 综合色区亚洲熟妇在线| 久久久精品无码一二三区| 天天躁夜夜躁狠狠躁图片| 精品国产免费人成在线观看| 国产精品专区第一页在线观看| 特级做a爰片毛片免费69| 99久久精品美女高潮喷水| 日韩精品一区二区深田咏美 | 免费看美女自慰的网站| 国产91成人| 日韩第八页| 国产精品分类视频分类一区| 国产91在线|中文| 国产在线拍偷自揄观看视频网站| 国产尤物jk自慰制服喷水| 青青草国产在线视频| 国产哺乳奶水91在线播放| 久久伊人操| 亚洲成人网在线观看| 国产专区综合另类日韩一区| 日韩麻豆小视频| 亚洲h视频在线| 女同国产精品一区二区| 日韩视频精品在线| 亚洲精品中文字幕无乱码| 色首页AV在线| 国产精品视频白浆免费视频| 亚洲欧美一区在线| 国产福利小视频高清在线观看| 国产午夜一级淫片| 丝袜无码一区二区三区| 国产亚洲欧美日本一二三本道| 亚洲国产高清精品线久久| 欧美一级黄片一区2区| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲成肉网| 国产成人一区免费观看| 午夜福利网址| 国产杨幂丝袜av在线播放| 在线免费看黄的网站| 精品国产香蕉伊思人在线|