基于Python的有聲讀物數據可視化分析

2021-08-27 13:10:07陳雅婷段華斌李婭菲宋均

科技風 2021年23期

陳雅婷段華斌李婭菲宋均

摘??要：隨著有聲讀物市場迅猛發展，各類有聲讀物內容呈現百花齊放的姿態，越來越多的人開始利用碎片化的時間閱讀。本文基于Python針對喜馬拉雅有聲讀物各類型讀物播放量、粉絲數等進行了可視化分析。

關鍵詞：python;scrapy;數據分析;可視化

由于我國有聲讀物的市場規模迅速發展，各類有聲讀物層出不窮，有聲讀物的內容邊界逐漸擴大，不斷滿足各類用戶的需求，但是目前對于有聲讀物的類型、閱讀人群等缺少專業的數據分析，本文主要研究有聲讀物的數據分析以及可視化的方法，基于Python的Scrapy框架，實現了有聲讀物數據的可視化分析。使人們直觀的了解現階段有聲讀物在我國的發展情況，人們喜愛的有聲讀物是哪些，有聲讀物的作者可以投其所好創造出更多更優秀的作品。

1?研究設計

1.1?數據來源

本文的數據來源于喜馬拉雅FM2020年1月至6月的有聲讀物數據，含作品信息、作者信息等相關數據，將有聲讀物數據進行格式轉換，轉換成易處理的格式化數據并儲存至MySQL數據庫中進行可視化分析。本文使用到的數據有有聲讀物類型、有聲讀物標題、有聲讀物標簽、有聲讀物播放量、有聲讀物作者姓名、有聲讀物作者粉絲數。

1.2?研究方法

本論文基于Python的Scrapy爬蟲框架結合Docker、Splash、xpath、MySQL等技術結合實現對于有聲讀物的數據分析及可視化。

1.3?框架設計

系統框架設計主要分為三部分：網頁數據爬取模塊，數據處理模塊，數據存儲模塊，如圖1所示。網頁數據爬取模塊中Scrapy引擎通過控制調度器、下載器和Spiders各部分相互配合爬取數據。然后，通過Spiders中Xpath完成數據清洗，將后期要處理的數據轉化為Item類的屬性交給數據處理模塊。最后，數據存儲模塊將爬取到的數據格式化并儲存至MySQL數據庫中，以csv格式導出。

1.4?數據處理

本文將采集到的數據分為作品信息與作者信息兩類，使用的數據集與數據結構如表1所示。從數據庫中以csv格式導出爬取到的數據，通過數據清洗來處理數據中的臟數據、異常值、缺失數據。數據清洗工作在爬蟲框架爬取數據之時中已同步完成。在Jupiter中將轉換好的數據從csv文件中讀取，給這些數據加上類型標記，這些標記是根據數據的自身屬性來進行劃分的，將這些數據合并為一個DataFrame。最后DataFrame將數據依類型分組按照播放量之和進行降序排序，將數據依類型分組按照粉絲數之和進行降序排序，將數據依作者分組按照播放量之和進行降序排序，將數據依作者分組按照粉絲數之和進行降序排序。

1.5?任務抽象

針對采集到的數據，根據數據的特征提出了下列可視化任務：

任務1：分析有聲讀物各類型中熱門的標題。

任務2：分析有聲讀物中受歡迎的類型。

任務3：分析有聲讀物中受歡迎的作者。

任務4：分析有聲讀物各類型中熱門的標簽。

2?數據可視化分析結果

2.1?播放量分析

2.1.1?總體播放量分析

總體數據按各類型播放量進行排序如圖2所示，有聲書、人文、兒童占據前三，可見喜愛書籍、人文文化的民眾很多，同時兒童類型的受歡迎程度也反映出中國家長們對孩子在兒童時期的重視。從總體數據將作者按照播放量進行排序，有聲的紫金、采采、超級制作三位的作品是播放量最多的有聲讀物創作者。

從總體的播放量分析，將有聲讀物標題作為對象按照播放量繪制詞云圖如圖3所示，最受歡迎的作品一目了然。很容易找出在有聲讀物中獨占鰲頭的是《段子來了》，《摸金天師》和《晚安媽媽睡前故事》的受歡迎程度緊隨其后。

2.1.2各類型播放量分析

各類型的標題按照播放量進行了詞云圖和柱狀圖分析。從有聲書詞云分布（圖4）來看，南京1937、平“語”近人、百家講壇、黨史故事100講等有聲作品播放量最大。人文類的詞云如圖5所示，人文作品百花齊放，其中《古今女子圖鑒》為大家詮釋古今的女子而廣受歡迎，每個人都有個武俠夢，《金庸筆下的情愛江湖》倍受追捧。

除此之外，我國家長們對兒童閱讀越來越重視。兒童類詞云圖如圖6所示。家長們對孩子的開始閱讀年齡也是逐漸的在降低，胎教普遍流行，睡前故事、童話故事、兒童文學對于有兒童的家長們來說非常受歡迎。

2.2?粉絲量分析

總體數據將各類型按照粉絲量進行排序如圖7所示，找出最受歡迎的前三類依次是相聲、人文、有聲書，兒童類緊隨其后?？傮w數據將作者按照粉絲量進行排序如圖8所示，無獨有偶“德云社郭德綱”是最受歡迎的創作者。結合之前按照播放量排序的結果，可以得出相聲、人文、有聲書、兒童這四類從各方面來看無疑是最受歡迎的類型。

3?結語

針對有聲讀物的類型和閱讀人群等缺少專業數據統計、分析，不利于有聲讀物網站或行業的運營。本文通過搭建基于Python的Scrapy爬蟲框架結合了多種工具及Python庫，從網絡爬取數據，再進行數據清洗處理，使用詞云圖和柱狀圖將數據可視化。使人們更直觀的了解現階段有聲讀物在我國的發展情況，人們喜愛的有聲讀物是哪些。通過數據分析幫助有聲讀物平臺及創作者能夠創造出更優秀的作品，贏得聽眾們的喜愛，增加市場價值。

參考文獻：

[1]陸樹芬.基于Python對網絡爬蟲系統的設計與實現[J].電腦編程技巧與維護，?2019（02）：26-27+51.

[2]何遠宏.基于Python語言的Web數據挖掘研究[J].計算機產品與流通，?2019（01）：112.

[3]羅咪.基于Python的新浪微博用戶數據獲取技術[J].電子世界，?2018（05）：138-139.

基金項目：國家級大學生創新創業訓練計劃項目（201910551031）

作者簡介：陳雅婷（2002—???），女，湖南株洲人，本科在讀，研究方向：大數據應用;李婭菲（1984—???），女，湖南永州人，碩士，實驗師，研究方向：人工智能;宋均（1999—???），男，湖南溆浦人，本科在讀，研究方向：網絡安全及應用。

*通訊作者：段華斌（1981—???），女，湖北荊門人，碩士，講師，研究方向：大數據應用研究，網絡安全。