999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的有聲讀物數據可視化分析

2021-08-27 13:10:07陳雅婷段華斌李婭菲宋均
科技風 2021年23期
關鍵詞:數據分析可視化

陳雅婷 段華斌 李婭菲 宋均

摘??要:隨著有聲讀物市場迅猛發展,各類有聲讀物內容呈現百花齊放的姿態,越來越多的人開始利用碎片化的時間閱讀。本文基于Python針對喜馬拉雅有聲讀物各類型讀物播放量、粉絲數等進行了可視化分析。

關鍵詞:python;scrapy;數據分析;可視化

由于我國有聲讀物的市場規模迅速發展,各類有聲讀物層出不窮,有聲讀物的內容邊界逐漸擴大,不斷滿足各類用戶的需求,但是目前對于有聲讀物的類型、閱讀人群等缺少專業的數據分析,本文主要研究有聲讀物的數據分析以及可視化的方法,基于Python的Scrapy框架,實現了有聲讀物數據的可視化分析。使人們直觀的了解現階段有聲讀物在我國的發展情況,人們喜愛的有聲讀物是哪些,有聲讀物的作者可以投其所好創造出更多更優秀的作品。

1?研究設計

1.1?數據來源

本文的數據來源于喜馬拉雅FM2020年1月至6月的有聲讀物數據,含作品信息、作者信息等相關數據,將有聲讀物數據進行格式轉換,轉換成易處理的格式化數據并儲存至MySQL數據庫中進行可視化分析。本文使用到的數據有有聲讀物類型、有聲讀物標題、有聲讀物標簽、有聲讀物播放量、有聲讀物作者姓名、有聲讀物作者粉絲數。

1.2?研究方法

本論文基于Python的Scrapy爬蟲框架結合Docker、Splash、xpath、MySQL等技術結合實現對于有聲讀物的數據分析及可視化。

1.3?框架設計

系統框架設計主要分為三部分:網頁數據爬取模塊,數據處理模塊,數據存儲模塊,如圖1所示。網頁數據爬取模塊中Scrapy引擎通過控制調度器、下載器和Spiders各部分相互配合爬取數據。然后,通過Spiders中Xpath完成數據清洗,將后期要處理的數據轉化為Item類的屬性交給數據處理模塊。最后,數據存儲模塊將爬取到的數據格式化并儲存至MySQL數據庫中,以csv格式導出。

1.4?數據處理

本文將采集到的數據分為作品信息與作者信息兩類,使用的數據集與數據結構如表1所示。從數據庫中以csv格式導出爬取到的數據,通過數據清洗來處理數據中的臟數據、異常值、缺失數據。數據清洗工作在爬蟲框架爬取數據之時中已同步完成。在Jupiter中將轉換好的數據從csv文件中讀取,給這些數據加上類型標記,這些標記是根據數據的自身屬性來進行劃分的,將這些數據合并為一個DataFrame。最后DataFrame將數據依類型分組按照播放量之和進行降序排序,將數據依類型分組按照粉絲數之和進行降序排序,將數據依作者分組按照播放量之和進行降序排序,將數據依作者分組按照粉絲數之和進行降序排序。

1.5?任務抽象

針對采集到的數據,根據數據的特征提出了下列可視化任務:

任務1:分析有聲讀物各類型中熱門的標題。

任務2:分析有聲讀物中受歡迎的類型。

任務3:分析有聲讀物中受歡迎的作者。

任務4:分析有聲讀物各類型中熱門的標簽。

2?數據可視化分析結果

2.1?播放量分析

2.1.1?總體播放量分析

總體數據按各類型播放量進行排序如圖2所示,有聲書、人文、兒童占據前三,可見喜愛書籍、人文文化的民眾很多,同時兒童類型的受歡迎程度也反映出中國家長們對孩子在兒童時期的重視。從總體數據將作者按照播放量進行排序,有聲的紫金、采采、超級制作三位的作品是播放量最多的有聲讀物創作者。

從總體的播放量分析,將有聲讀物標題作為對象按照播放量繪制詞云圖如圖3所示,最受歡迎的作品一目了然。很容易找出在有聲讀物中獨占鰲頭的是《段子來了》,《摸金天師》和《晚安媽媽睡前故事》的受歡迎程度緊隨其后。

2.1.2各類型播放量分析

各類型的標題按照播放量進行了詞云圖和柱狀圖分析。從有聲書詞云分布(圖4)來看,南京1937、平“語”近人、百家講壇、黨史故事100講等有聲作品播放量最大。人文類的詞云如圖5所示,人文作品百花齊放,其中《古今女子圖鑒》為大家詮釋古今的女子而廣受歡迎,每個人都有個武俠夢,《金庸筆下的情愛江湖》倍受追捧。

除此之外,我國家長們對兒童閱讀越來越重視。兒童類詞云圖如圖6所示。家長們對孩子的開始閱讀年齡也是逐漸的在降低,胎教普遍流行,睡前故事、童話故事、兒童文學對于有兒童的家長們來說非常受歡迎。

2.2?粉絲量分析

總體數據將各類型按照粉絲量進行排序如圖7所示,找出最受歡迎的前三類依次是相聲、人文、有聲書,兒童類緊隨其后??傮w數據將作者按照粉絲量進行排序如圖8所示,無獨有偶“德云社郭德綱”是最受歡迎的創作者。結合之前按照播放量排序的結果,可以得出相聲、人文、有聲書、兒童這四類從各方面來看無疑是最受歡迎的類型。

3?結語

針對有聲讀物的類型和閱讀人群等缺少專業數據統計、分析,不利于有聲讀物網站或行業的運營。本文通過搭建基于Python的Scrapy爬蟲框架結合了多種工具及Python庫,從網絡爬取數據,再進行數據清洗處理,使用詞云圖和柱狀圖將數據可視化。使人們更直觀的了解現階段有聲讀物在我國的發展情況,人們喜愛的有聲讀物是哪些。通過數據分析幫助有聲讀物平臺及創作者能夠創造出更優秀的作品,贏得聽眾們的喜愛,增加市場價值。

參考文獻:

[1]陸樹芬.基于Python對網絡爬蟲系統的設計與實現[J].電腦編程技巧與維護,?2019(02):26-27+51.

[2]何遠宏.基于Python語言的Web數據挖掘研究[J].計算機產品與流通,?2019(01):112.

[3]羅咪.基于Python的新浪微博用戶數據獲取技術[J].電子世界,?2018(05):138-139.

基金項目:國家級大學生創新創業訓練計劃項目(201910551031)

作者簡介:陳雅婷(2002—???),女,湖南株洲人,本科在讀,研究方向:大數據應用;李婭菲(1984—???),女,湖南永州人,碩士,實驗師,研究方向:人工智能;宋均(1999—???),男,湖南溆浦人,本科在讀,研究方向:網絡安全及應用。

*通訊作者:段華斌(1981—???),女,湖北荊門人,碩士,講師,研究方向:大數據應用研究,網絡安全。

猜你喜歡
數據分析可視化
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
淺析大數據時代對企業營銷模式的影響
主站蜘蛛池模板: 中文字幕精品一区二区三区视频| 99热这里只有精品久久免费| 亚洲色偷偷偷鲁综合| 亚洲精品第一页不卡| 中文字幕人妻无码系列第三区| 精品无码一区二区三区在线视频| 一本色道久久88| 成人中文字幕在线| 午夜视频www| 网友自拍视频精品区| 日本91视频| 国产精品黑色丝袜的老师| 91精品国产91久久久久久三级| 一级毛片免费高清视频| 毛片基地视频| 色婷婷电影网| 激情视频综合网| 91娇喘视频| 亚洲综合第一区| 久久永久视频| 播五月综合| 久久美女精品国产精品亚洲| 久久综合色视频| 孕妇高潮太爽了在线观看免费| 日韩天堂在线观看| 欧美区一区| 国产精品免费p区| 狠狠做深爱婷婷综合一区| 在线播放精品一区二区啪视频| 又粗又大又爽又紧免费视频| 国产亚洲精久久久久久久91| 日韩精品高清自在线| 亚洲成人手机在线| 精品欧美一区二区三区在线| 亚洲男人在线天堂| 国产成人禁片在线观看| 欧美中文一区| 久久午夜影院| 久久亚洲美女精品国产精品| 色天堂无毒不卡| 国产精品免费电影| 91久久国产成人免费观看| 国产乱子伦精品视频| 国产精品v欧美| 亚洲天堂视频在线播放| 国产精品lululu在线观看| 毛片久久久| 久久成人国产精品免费软件| 99中文字幕亚洲一区二区| 免费va国产在线观看| 日韩欧美高清视频| 99视频在线看| 在线日本国产成人免费的| 人人爱天天做夜夜爽| 在线免费a视频| 国产精品免费p区| 在线网站18禁| 免费网站成人亚洲| 午夜国产大片免费观看| 天天做天天爱天天爽综合区| 97影院午夜在线观看视频| aaa国产一级毛片| 亚洲无线视频| 小说 亚洲 无码 精品| 操国产美女| 欧美午夜网站| 无码高潮喷水专区久久| 91久久精品日日躁夜夜躁欧美| 亚洲欧美激情小说另类| 精品综合久久久久久97| 精品国产免费人成在线观看| 免费毛片全部不收费的| 精品撒尿视频一区二区三区| 亚欧成人无码AV在线播放| 精品無碼一區在線觀看 | 高潮毛片免费观看| 亚洲高清在线天堂精品| 宅男噜噜噜66国产在线观看| 亚洲国产成人综合精品2020| 1级黄色毛片| 在线永久免费观看的毛片| 精品少妇人妻一区二区|