999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的有聲讀物數據可視化分析

2021-08-27 13:10:07陳雅婷段華斌李婭菲宋均
科技風 2021年23期
關鍵詞:數據分析可視化

陳雅婷 段華斌 李婭菲 宋均

摘??要:隨著有聲讀物市場迅猛發展,各類有聲讀物內容呈現百花齊放的姿態,越來越多的人開始利用碎片化的時間閱讀。本文基于Python針對喜馬拉雅有聲讀物各類型讀物播放量、粉絲數等進行了可視化分析。

關鍵詞:python;scrapy;數據分析;可視化

由于我國有聲讀物的市場規模迅速發展,各類有聲讀物層出不窮,有聲讀物的內容邊界逐漸擴大,不斷滿足各類用戶的需求,但是目前對于有聲讀物的類型、閱讀人群等缺少專業的數據分析,本文主要研究有聲讀物的數據分析以及可視化的方法,基于Python的Scrapy框架,實現了有聲讀物數據的可視化分析。使人們直觀的了解現階段有聲讀物在我國的發展情況,人們喜愛的有聲讀物是哪些,有聲讀物的作者可以投其所好創造出更多更優秀的作品。

1?研究設計

1.1?數據來源

本文的數據來源于喜馬拉雅FM2020年1月至6月的有聲讀物數據,含作品信息、作者信息等相關數據,將有聲讀物數據進行格式轉換,轉換成易處理的格式化數據并儲存至MySQL數據庫中進行可視化分析。本文使用到的數據有有聲讀物類型、有聲讀物標題、有聲讀物標簽、有聲讀物播放量、有聲讀物作者姓名、有聲讀物作者粉絲數。

1.2?研究方法

本論文基于Python的Scrapy爬蟲框架結合Docker、Splash、xpath、MySQL等技術結合實現對于有聲讀物的數據分析及可視化。

1.3?框架設計

系統框架設計主要分為三部分:網頁數據爬取模塊,數據處理模塊,數據存儲模塊,如圖1所示。網頁數據爬取模塊中Scrapy引擎通過控制調度器、下載器和Spiders各部分相互配合爬取數據。然后,通過Spiders中Xpath完成數據清洗,將后期要處理的數據轉化為Item類的屬性交給數據處理模塊。最后,數據存儲模塊將爬取到的數據格式化并儲存至MySQL數據庫中,以csv格式導出。

1.4?數據處理

本文將采集到的數據分為作品信息與作者信息兩類,使用的數據集與數據結構如表1所示。從數據庫中以csv格式導出爬取到的數據,通過數據清洗來處理數據中的臟數據、異常值、缺失數據。數據清洗工作在爬蟲框架爬取數據之時中已同步完成。在Jupiter中將轉換好的數據從csv文件中讀取,給這些數據加上類型標記,這些標記是根據數據的自身屬性來進行劃分的,將這些數據合并為一個DataFrame。最后DataFrame將數據依類型分組按照播放量之和進行降序排序,將數據依類型分組按照粉絲數之和進行降序排序,將數據依作者分組按照播放量之和進行降序排序,將數據依作者分組按照粉絲數之和進行降序排序。

1.5?任務抽象

針對采集到的數據,根據數據的特征提出了下列可視化任務:

任務1:分析有聲讀物各類型中熱門的標題。

任務2:分析有聲讀物中受歡迎的類型。

任務3:分析有聲讀物中受歡迎的作者。

任務4:分析有聲讀物各類型中熱門的標簽。

2?數據可視化分析結果

2.1?播放量分析

2.1.1?總體播放量分析

總體數據按各類型播放量進行排序如圖2所示,有聲書、人文、兒童占據前三,可見喜愛書籍、人文文化的民眾很多,同時兒童類型的受歡迎程度也反映出中國家長們對孩子在兒童時期的重視。從總體數據將作者按照播放量進行排序,有聲的紫金、采采、超級制作三位的作品是播放量最多的有聲讀物創作者。

從總體的播放量分析,將有聲讀物標題作為對象按照播放量繪制詞云圖如圖3所示,最受歡迎的作品一目了然。很容易找出在有聲讀物中獨占鰲頭的是《段子來了》,《摸金天師》和《晚安媽媽睡前故事》的受歡迎程度緊隨其后。

2.1.2各類型播放量分析

各類型的標題按照播放量進行了詞云圖和柱狀圖分析。從有聲書詞云分布(圖4)來看,南京1937、平“語”近人、百家講壇、黨史故事100講等有聲作品播放量最大。人文類的詞云如圖5所示,人文作品百花齊放,其中《古今女子圖鑒》為大家詮釋古今的女子而廣受歡迎,每個人都有個武俠夢,《金庸筆下的情愛江湖》倍受追捧。

除此之外,我國家長們對兒童閱讀越來越重視。兒童類詞云圖如圖6所示。家長們對孩子的開始閱讀年齡也是逐漸的在降低,胎教普遍流行,睡前故事、童話故事、兒童文學對于有兒童的家長們來說非常受歡迎。

2.2?粉絲量分析

總體數據將各類型按照粉絲量進行排序如圖7所示,找出最受歡迎的前三類依次是相聲、人文、有聲書,兒童類緊隨其后。總體數據將作者按照粉絲量進行排序如圖8所示,無獨有偶“德云社郭德綱”是最受歡迎的創作者。結合之前按照播放量排序的結果,可以得出相聲、人文、有聲書、兒童這四類從各方面來看無疑是最受歡迎的類型。

3?結語

針對有聲讀物的類型和閱讀人群等缺少專業數據統計、分析,不利于有聲讀物網站或行業的運營。本文通過搭建基于Python的Scrapy爬蟲框架結合了多種工具及Python庫,從網絡爬取數據,再進行數據清洗處理,使用詞云圖和柱狀圖將數據可視化。使人們更直觀的了解現階段有聲讀物在我國的發展情況,人們喜愛的有聲讀物是哪些。通過數據分析幫助有聲讀物平臺及創作者能夠創造出更優秀的作品,贏得聽眾們的喜愛,增加市場價值。

參考文獻:

[1]陸樹芬.基于Python對網絡爬蟲系統的設計與實現[J].電腦編程技巧與維護,?2019(02):26-27+51.

[2]何遠宏.基于Python語言的Web數據挖掘研究[J].計算機產品與流通,?2019(01):112.

[3]羅咪.基于Python的新浪微博用戶數據獲取技術[J].電子世界,?2018(05):138-139.

基金項目:國家級大學生創新創業訓練計劃項目(201910551031)

作者簡介:陳雅婷(2002—???),女,湖南株洲人,本科在讀,研究方向:大數據應用;李婭菲(1984—???),女,湖南永州人,碩士,實驗師,研究方向:人工智能;宋均(1999—???),男,湖南溆浦人,本科在讀,研究方向:網絡安全及應用。

*通訊作者:段華斌(1981—???),女,湖北荊門人,碩士,講師,研究方向:大數據應用研究,網絡安全。

猜你喜歡
數據分析可視化
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
淺析大數據時代對企業營銷模式的影響
主站蜘蛛池模板: a亚洲视频| 色综合天天娱乐综合网| 国产精品yjizz视频网一二区| 久久久精品无码一区二区三区| 国产欧美日韩精品综合在线| 婷婷亚洲视频| 色哟哟国产精品| 网久久综合| 久久大香香蕉国产免费网站| 视频一本大道香蕉久在线播放| 欧美人人干| 无码日韩人妻精品久久蜜桃| 久久精品丝袜| 亚洲男人在线天堂| 国产精品久久久久久久伊一| 亚洲第一黄色网址| 免费一级毛片| 日韩欧美中文| swag国产精品| 人妻精品全国免费视频| 久久精品嫩草研究院| 国产电话自拍伊人| 91在线一9|永久视频在线| 高清不卡一区二区三区香蕉| 欧美激情视频一区| 国产美女自慰在线观看| 国产精品网址你懂的| 啪啪国产视频| 久久青青草原亚洲av无码| 久久久久亚洲AV成人网站软件| 福利国产在线| 国产高清精品在线91| 国产福利拍拍拍| 亚洲 日韩 激情 无码 中出| 人妻丰满熟妇啪啪| 中文字幕无码中文字幕有码在线| 欧美精品一二三区| 亚洲黄网在线| 国产清纯在线一区二区WWW| 国产三级成人| 日本亚洲国产一区二区三区| 精品人妻AV区| 中文字幕在线看| 成人亚洲视频| 国产91av在线| 狂欢视频在线观看不卡| 亚洲h视频在线| 国产精品一区二区在线播放| 天堂网国产| 欧美激情综合| 丝袜亚洲综合| 真实国产乱子伦高清| 国产杨幂丝袜av在线播放| 久久精品日日躁夜夜躁欧美| 久久久精品国产亚洲AV日韩| 特级毛片免费视频| 成人小视频网| 欧美日本在线观看| 欧美综合在线观看| 理论片一区| 国产免费一级精品视频| 亚洲视频无码| 国产国拍精品视频免费看| 不卡午夜视频| 国产亚洲精品资源在线26u| 19国产精品麻豆免费观看| 亚洲 成人国产| 五月天丁香婷婷综合久久| 99免费视频观看| 亚洲福利一区二区三区| 自慰高潮喷白浆在线观看| 亚洲一区二区三区在线视频| 视频一区视频二区中文精品| 国产福利拍拍拍| 欧美精品在线观看视频| 欧美一区二区自偷自拍视频| 秋霞一区二区三区| 久久精品人人做人人爽| 影音先锋亚洲无码| 国产亚洲欧美在线中文bt天堂| 伊人成人在线视频| 国产日本一线在线观看免费|