999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的詞云生成及優化研究

2021-09-27 00:53:24汪言
電腦知識與技術 2021年19期
關鍵詞:規劃文本

汪言

摘要:在大數據時代,利用相關技術手段對大數據進行獲取與解讀就顯得十分重要。“詞云”技術,由于能夠將文本中的“關鍵詞”圖像化,正受到人們越來越多人的關注。該文以《中共中央關于制定國民經濟和社會發展第十四個五年規劃和二〇三五年遠景目標的建議》全文文本為例,對基于Python的詞云文本分析技術進行了優化,以期為快速解讀文本內容提供方便。

關鍵詞:Python;中文分詞;詞云;優化;十四五規劃

中圖分類號:TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)19-0023-06

Research on Generation and Optimization of Word Cloud Based on Python—Take the Text of the 14th Five-year Plan as an Example

WANG Yan

(Hubei University, Wuhan 430062,China)

Abstract: In the era of big data, it is very important to obtain and interpret big data by using relevant technical means. "Word cloud" technology, due to its ability to visualize the "Keywords" in the text, is attracting more and more attention. This paper takes the full text of Proposal of the Central Committee of the Communist Party of China on Formulating the 14th Five-Year Plan for National Economic and Social Development and the Long-term Goals for the year of 2035 as an example, and optimizes the text analysis technology of word cloud based on python, so as to provide convenience for quick interpretation of the text content.

Key words: Python; Chinese word segmentation; word cloud; optimization; 14th five-year plan

1 引言

“詞云”,是近幾年來出現的用于文本挖掘的可視化技術,其將文本中大量的不重要的信息過濾,并對出現頻率較高的“關鍵詞”予以字體大小和顏色等視覺形式的差異來直觀反映詞語的重要程度,文字的字體越大,表明其越重要,可以幫助閱讀者迅速把握文本的主要內容。簡言之,“詞云”,是一種將大量文本信息或網絡大數據迅速生成幫助閱讀者把握文本關鍵內容的輔助性可視化工具,其生成的詞云圖中的詞語字形、字號、顏色以及圖片背景可以根據使用者的實際需求進行修改和保存。此外,借助mask、stopwords、scale等參數的設置,可以對生成的詞云圖進行優化設計,比如:背景圖設計、刪減詞語、增加輪廓線等等。

“詞云”,由于其能夠快速、直觀地抓取文本的主要內容,方便人們對文本內容的解讀,正受到人們越來越多的關注。然而,由于對“詞云”技術的掌握和應用需要掌握一定的編程知識和技巧,導致大眾對此“望洋興嘆”。因此,本文寫作目的在于幫助一般讀者從無到有掌握“詞云”文本分析技術。具體而言,即借助《中共中央關于制定國民經濟和社會發展第十四個五年規劃和二〇三五年遠景目標的建議》文本,嘗試對基于Python的詞云文本分析技術進行應用和優化。一方面,解讀“詞云”原理。另一方面,則為一般讀者應用“詞云”理論和技術進行文本分析和解讀提供一般流程。

2 詞云理論

“詞云”(Word Cloud)一詞,由美國學者Rich Gordon于2006年提出,又稱文字云圖(詞云圖),屬于當前文本挖掘可視化主流技術之一。“詞云”制作基本思想為:基于單詞庫(或詞典)將整個文本切分成不同單詞片段, 同時對同一單詞在文本中的出現次數進行統計;而后根據詞頻大小,將單詞按不同字體大小和顏色通過圖像呈現出來;詞頻越高,單詞的呈現方式越凸顯。基于中文的“詞云”制作基本原理如圖1所示。從圖1可知,信息收集工作是詞云制作的出發點,研究者可根據具體需要選擇文本。文本預處理一般可以將輸入文本存為txt或Word文檔類型,將輸出文本以表格或圖形方式存儲和呈現。中文分詞、單詞庫(或詞典)以及關鍵詞提取是詞云圖制作核心。

2.1中文分詞

分詞是自然語言處理(NLP)中文本處理的前提和基礎步驟,由于詞是語句中的基本單位,故需要在分析語句前將文本中的連貫的句子切分成不連續的詞。相比于英文,中文語句由于句式結構復雜、沒有間隔符,一個詞語在不同的語句或文本中意義千差萬別,地名、人名、省略語以及網絡詞、流行詞、俗語等不確定性詞匯的存在等特點加大了分詞的難度。中文分詞技術面臨的困難主要表現在:對詞的界定、歧義消除以及未登錄詞識別三個方面。目前,中文分詞有基于詞典、基于統計和基于理解三種算法。

Jieba庫是一種應用廣泛且效果較為理想的中文分詞工具,需要通過pip指令安裝,主要支持三種分詞模式——精確模式、全模式和搜索引擎模式。

1精確分詞模式:默認模式,對語句進行精確切分,適合文本分析,無冗余,常用格式:Jieba.cut(sentence, cut_all=False)

猜你喜歡
規劃文本
發揮人大在五年規劃編制中的積極作用
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
十三五規劃
華東科技(2016年10期)2016-11-11 06:17:41
迎接“十三五”規劃
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 手机精品福利在线观看| av一区二区三区高清久久| 亚洲91精品视频| 国产精品30p| 欧美日韩精品一区二区视频| 九九免费观看全部免费视频| 亚洲最猛黑人xxxx黑人猛交| 国产精品熟女亚洲AV麻豆| 91探花在线观看国产最新| 国产午夜无码专区喷水| 97超级碰碰碰碰精品| 91久久大香线蕉| 免费可以看的无遮挡av无码 | 国产超碰在线观看| 71pao成人国产永久免费视频| 日韩精品高清自在线| Jizz国产色系免费| 国产精品99久久久久久董美香| 中文字幕在线看视频一区二区三区| 青青操视频在线| 视频二区亚洲精品| 欧美日韩免费观看| 国内嫩模私拍精品视频| yy6080理论大片一级久久| 国产精品无码翘臀在线看纯欲| 毛片最新网址| 亚洲视频免费播放| 国产成人久久综合777777麻豆| 欧美一区二区三区国产精品| 亚洲永久精品ww47国产| 亚洲人成日本在线观看| jizz国产在线| 无码'专区第一页| 综合亚洲网| 国产精品女人呻吟在线观看| 无码在线激情片| 日本AⅤ精品一区二区三区日| 亚洲成人免费看| 亚洲婷婷在线视频| 真实国产乱子伦高清| 国产精品偷伦视频免费观看国产| 亚洲第一成网站| 伊人欧美在线| 国产极品美女在线播放 | 综合色88| 毛片视频网| 伊人久热这里只有精品视频99| 国产凹凸视频在线观看| 91精品伊人久久大香线蕉| 亚洲成人播放| 成人福利在线观看| 青青草国产一区二区三区| 国产精品va免费视频| 动漫精品中文字幕无码| 国产男人天堂| 午夜不卡福利| 91娇喘视频| 伊人久久青草青青综合| 4虎影视国产在线观看精品| 女人18毛片久久| 色爽网免费视频| 欧美一级夜夜爽www| 毛片免费观看视频| 久久a毛片| 国产成人精品日本亚洲77美色| 四虎影视无码永久免费观看| 热这里只有精品国产热门精品| 亚洲第一黄片大全| 高清精品美女在线播放| AV老司机AV天堂| 美女被操91视频| 思思热在线视频精品| 国内精品一区二区在线观看| 精品无码一区二区在线观看| 88国产经典欧美一区二区三区| 色婷婷视频在线| 特黄日韩免费一区二区三区| 91在线丝袜| 久久久久久高潮白浆| 精品無碼一區在線觀看 | 69av在线| 国产精品 欧美激情 在线播放|