999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于R的文本大數據分析方法

2023-05-30 15:56:14鄭鵬飛李菁菁
計算機應用文摘 2023年5期
關鍵詞:可視化

鄭鵬飛 李菁菁

關鍵詞:文本大數據;R語言;可視化

1引言

在大數據時代,海量文本的積累在各個領域不斷涌現。從人文研究到相關部門決策,從精準醫療到量化金融,從客戶管理到市場營銷,海量文本作為最重要的信息載體之一,處處發揮著舉足輕重的作用。各種語言都擁有獨特的語言模式,并時常伴隨著各式各樣的“噪音”。對這樣的文本(尤其是中文文本)進行處理,面臨著極大的技術挑戰[1]。

與英文文本相比,中文文本數據處理起來尤為困難,主要因為英文文本由獨立的單詞構成,可以很方便地進行詞頻統計,而中文漢字單個字符信息量有限,主要通過若干個字符組成的詞語來承載文本含義,因此對其進行詞頻分析時首先要解決斷句的難題。若要準確斷句,則必須先建立一個容量足夠大的“詞庫”以供比對,這對中文文本數據的分析形成了不小的挑戰。

R語言是一種開放式的統計軟件,世界各地的使用者都可以將自己的研究成果在平臺上共享,這為綜合應用各種資源來解決復雜問題提供了可能[2]。

2統計軟件R語言的特征

R語言是一種功能強大的統計軟件,它具有以下幾項基本特征。

(1)開源??梢栽谒木W站及其鏡像中下載任何安裝程序、源代碼、程序包及其源代碼、文檔資料。標準的安裝文件自身就帶有許多模塊和內嵌統計函數,安裝好后可以直接實現許多常用的統計功能[3]。

(2)可編程。作為一個開放的統計編程環境,語法通俗易懂,很容易學會和掌握語言的語法。而且學會之后,我們可以自己編制函數來擴展現有的語言,這也就是為什么它的更新速度比一般統計軟件運行速度快得多的原因。

(3)程序包。只有當一個包被載人時,它的內容才可以被訪問。一些常用、基本的程序包已經被收入在標準安裝文件中,隨著新的統計分析方法的出現,標準安裝文件中所包含的程序包也隨著版本的更新而不斷變化[4]。

(4)互動性。除了圖形輸出是在另外的窗口處,它的輸入/輸出窗口都是在同一個窗口進行的,輸入語法中如果出現錯誤會馬上在窗口中得到提示,對以前輸入過的命令有記憶功能,可以隨時再現、編輯修改,以滿足用戶的需要。

然而,R語言具有一定的學習門檻,初學者往往需要輸入至少一萬行代碼才能入門,而且很多程序包的學習甚至比R語言本身還要復雜(如ggplot2軟件包)[5]。

3基于R的文本大數據分析方法

3.1分析目標

迅速提取一段文本數據的中心思想,并進行可視化展示。

3.2解決思路

步驟1將文本數據轉存為方便R軟件讀取的txt格式。

步驟2將文本數據與特定“詞庫”進行比對和斷句,形成若干個獨立的中文短語。

步驟3剔除上述中文短語中的“白噪音”,如阿拉伯數字、語氣詞、助詞等,保留有用信息。

步驟4對上一步得到的信息進行頻數統計,按降序排列。

步驟5對上一步得到的信息進行適當的可視化。

步驟6對分析結果進行解讀。

3.3主要代碼

install.packages(c(¨Rwordseg¨,¨wordcloud2¨))

代碼注釋:下載并安裝兩個工具包。

library( Rwordseg)

代碼注釋:該工具包主要用于中文文本的斷句,由開發者Jian Li于2019年貢獻,版本0.3.2。

library( wordcloud2)

代碼注釋:該工具包主要用于可視化展示,由開發者Dawei Lang等于2018年貢獻,版本0.2.1。

代碼注釋:將txt格式的某報告文本讀人內存,約3萬5千字。

y<一segmentCN( strwords=contents,analyzer=¨hmm¨,returnType=¨vector¨)

代碼注釋:對上一步讀取的文本內容進行斷句,使之成為一個由孤立中文詞語組成的列表。

y<一unlist(y)

代碼注釋:修改上一步得到的分析結果的數據形式。

y<一y[!

grepl(1 0-9] ',y)]

代碼注釋:去掉文本中的阿拉伯數字,也可根據研究需要去掉更多的內容。

y<一y[ nchar(y》=2]

代碼注釋:去掉文本中的單個漢字,僅保留由兩個或兩個以上的漢字組成的詞語。

table(y)

代碼注釋:對上一步的分析結果進行詞頻統計。

top50<一sort( table(y),decreasing=TRUE)[1:50]

代碼注釋:進行降序排列,取出現次數排名前50的詞匯,也可根據研究需要取更多或更少的內容[6]。

wordcloud2( top50)

代碼注釋:進行可視化展示。默認的可視化形狀為圓形,如果加入shape=“star"或shape=“pentagon”可繪制五角星或五邊形。如果信息太多導致無法完整呈現,可使用size參數縮小圖形尺寸。

3.4結果呈現

按上述流程對某報告正文進行分析,頻次最高的50個詞匯如表1所列;可視化展示如圖2、圖3所示。

圖1和圖2都是用wordcloud2命令繪制的可視化圖形。該圖形完全根據表1的內容進行繪制,該命令形式如下:

如上所示,該命令參數眾多,可以對數據來源、圖形尺寸、網格尺寸、字體、文字粗細、前景顏色、背景顏色、旋轉角度、圖形比例、圖形形狀等多項顯示內容進行調節,為使用者提供了豐富的個性化手段[7]。

3.5結果分析

通過對長達3萬5千字的某報告全文進行上述處理可以看到,出現頻次最多的3個詞分別為“發展”“社會”和“堅持”,分別出現了238次、185次和173次,從數據上再一次證明了“發展才是硬道理”[8]。

4結束語

本文實現了一種基于R語言環境的文本大數據分析方法。與其他文本大數據處理方法相比,本文方法步驟相對簡便、結果呈現直觀、多種參數可調,既能作為一項日常的、批量化的文本數據處理工具,又能作為R語言教學的一個案例,激發學生的學習興趣。

猜你喜歡
可視化
無錫市“三項舉措”探索執法可視化新路徑
基于CiteSpace的足三里穴研究可視化分析
自然資源可視化決策系統
北京測繪(2022年6期)2022-08-01 09:19:06
三維可視化信息管理系統在選煤生產中的應用
選煤技術(2022年2期)2022-06-06 09:13:12
思維可視化
師道·教研(2022年1期)2022-03-12 05:46:47
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
自然資源可視化決策系統
北京測繪(2021年7期)2021-07-28 07:01:18
基于CGAL和OpenGL的海底地形三維可視化
可視化閱讀:新媒體語境下信息可視化新趨勢
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
主站蜘蛛池模板: 国内精自视频品线一二区| 欧美自慰一级看片免费| 国产精品播放| 国产高清在线观看| 免费亚洲成人| 国产精品成人第一区| 国模私拍一区二区| 国产91成人| 国产在线精品美女观看| 亚洲成在线观看 | 亚洲a级在线观看| 久久国产精品夜色| 久久久久国色AV免费观看性色| 国产在线91在线电影| 国产av无码日韩av无码网站| 在线播放真实国产乱子伦| 亚洲永久色| 精品一区二区无码av| 成人在线不卡视频| 欧美激情第一区| 欧美成a人片在线观看| 国产美女免费| 99无码熟妇丰满人妻啪啪| 蝴蝶伊人久久中文娱乐网| 亚洲成aⅴ人片在线影院八| 国产激情无码一区二区APP| 日韩午夜福利在线观看| 最新痴汉在线无码AV| 国产一区二区三区免费观看| 欧美视频在线观看第一页| 久久激情影院| 色婷婷视频在线| 欧美国产在线一区| 亚洲成人福利网站| 亚洲自偷自拍另类小说| 国产成人精品视频一区二区电影 | yy6080理论大片一级久久| 91青青草视频| 国产大片喷水在线在线视频| 久久免费视频6| 亚洲欧美自拍一区| 爆乳熟妇一区二区三区| 极品私人尤物在线精品首页| 欧美色伊人| 久久久久88色偷偷| 日本成人福利视频| 国产网友愉拍精品视频| 国产在线观看一区精品| 蝌蚪国产精品视频第一页| 国产精品区视频中文字幕| 欧美另类视频一区二区三区| 97视频精品全国免费观看| 国产激爽大片在线播放| 四虎影视无码永久免费观看| 午夜激情婷婷| 欧美精品综合视频一区二区| 久久精品中文无码资源站| 黄片在线永久| 成人亚洲视频| 97色伦色在线综合视频| 国产男女免费完整版视频| 国产成人综合日韩精品无码首页| 中文字幕伦视频| 欧美色亚洲| 成人毛片免费观看| 天天躁狠狠躁| 亚洲午夜国产片在线观看| 9丨情侣偷在线精品国产| 天天躁狠狠躁| 国产精品区网红主播在线观看| 亚洲国产精品无码AV| 成人欧美在线观看| 91欧美亚洲国产五月天| AV天堂资源福利在线观看| 亚洲中文精品久久久久久不卡| 全午夜免费一级毛片| 久操线在视频在线观看| 色婷婷丁香| 国产男女XX00免费观看| 婷婷激情亚洲| 国产偷倩视频| 高清乱码精品福利在线视频|