錢貝貝 陳志波



摘要:隨著大數據時代的到來,互聯網技術的快速發展,人們的聽歌模式也發生了翻天覆地的變化,音樂數字化給人們的生活帶來了便利,在線音樂播放成為主流。聽音樂是當代年輕人最常見的解壓方式之一,隨之而來的在線音樂平臺更是層出不窮,其中的網易云音樂最受當代年輕人的青睞。為了讓用戶更加清晰地了解音樂類型的分布、音樂潮流趨勢,文章利用 Python網絡爬蟲技術,從網易云網站爬取相關數據,對音樂類型、音樂播放數量以及評論等多個角度進行分析,并使用Python可視化庫中的Matplotlib對數據進行可視化分析,用圖表的形式,從多重角度對音樂進行分析,讓用戶更加清晰地了解音樂類型的分布、音樂潮流趨勢,為用戶選擇音樂提供一個參考。
關鍵詞:計算機科學與技術; Python;在線音樂;爬蟲;可視化
中圖分類號:TP312? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)08-0006-03
1 引言
隨著移動互聯網迅猛發展、數字音樂的興起,人們聽音樂的方式轉變為在線音樂,導致在線音樂的需求不斷在增加,各大音樂網站上也有了海量的用戶群體[1]。成長在移動互聯網環境下年輕一代,越發依賴在線音樂。QQ音樂、酷我音樂、網易云音樂等是國內現有的幾大主流音樂平臺。其中網易云音樂登頂音樂類App用戶的榜首。網易云音樂最初的目標是建立一個音樂社交網絡,就不同操作系統客戶端上線效率而言,網易云音樂側重于小眾圈子,提高了對小眾人群的關注,而小眾人群有比較大的概率形成社群,經過這種網絡關系來提升品牌價值。根據易觀分析發布的《2021中國在線用戶洞察報告》中的數據顯示,相比酷我音樂、酷狗音樂和QQ音樂等,網易云音樂是年輕用戶占比最大的平臺,35歲以下的用戶約占80%。如圖1所示,根據《2020年網易云音樂銷售手冊》顯示:網易云的用戶中,以學生及白領、15~35歲、高學歷、一二線城市、可支配收入高的群體為主,聽歌的人群更加年輕化。因此對網易云音樂進行數據可視化分析,有利于提高用戶的音樂體驗,即用戶可以根據自己的喜好,選擇自己對應音樂標簽的聽音樂,也有利于更加直觀地剖析音樂數據,輔助音樂公司做出決策。
2 相關技術
2.1 網絡爬蟲技術
網絡爬蟲也稱為“蜘蛛”,它可以在海量的互聯網信息爬取需要的信息。簡單地說它是模擬人類請求網站的行為,即自動請求網頁、抓取數據,然后從中提取有價值的數據[2]。具體步驟如下,首先發送請求獲取目標網頁,通過分析頁面獲得網頁的源代碼。其次,解析頁面從網頁源代碼中提取出本研究所需的數據。該操作為數據的處理以及分析提供便利,因此需要給予高度重視。最后,以適當的格式保存抽取的部分數據。通常以TXT文本、CSV或JSON等格式將數據保存在文本中[3-4]。
2.2 可視化技術
數據可視化是把數據以圖形或者表格的形式展示。用圖表的方式能清晰地展示數據信息,不僅保證數據直觀易分析,而且保證了美感。本文利用Python將數據可視化,可以快速生成各種簡單美觀的圖,例如柱狀圖、餅狀圖、折線圖、樹狀圖等,其語言簡潔、效率高,將數據直觀地呈現出來,讓人們更加方便地理解數據,從而更好地輔助人們做出決策。其次,Python能將數據爬蟲及數據分析集成在一起,便于方便信息的獲取及分析,并且基于Python的數據可視化使用起來相對靈活[5-6]。
3 數據的獲取及處理過程
首先在網易云網站爬取音樂相關數據,其次對爬取下來的數據進行預處理,即除去殘缺、冗余的數據,最后將數據可視化,如圖2為數據處理流程。
3.1 數據的獲取
數據集來源于網易云網站,登錄網易云網站,點擊排行榜進入各大榜單,進入開發者工具查看、分析網頁的源代碼。Python爬蟲算法通過調用Requests模塊向網頁發起請求,請求通過后即可抓取網頁的數據,根據網頁節點屬性使用BeautifulSoup 獲取所需要的數據,包括每首音樂的具體介紹都包含在一對 div 中提取出音樂的信息后,根據需要借助庫文件 BeautifulSoup 提取出音樂介紹、名稱、評論人數等相關信息。Python內置了CSV文件操作函數,然后將數據寫入CSV文件實現保存工作。如圖3所示為數據爬取流程圖。
網易云音樂對數據爬蟲的IP有限制,所以通常無法直接獲取目標音樂的全部數據,這是由于網易云是一個具有反爬蟲功能的網站,此時通過Requests庫設置爬蟲User-Agent,一般來說第三方庫發送請求會有一個默認的User-Agent,如果直接用這個User-Agent,就很容易被禁止,可以弄一個User-Agent池,然后每次訪問時都從中隨機抽取一個User-Agent[7]。
3.2 數據預處理
通過爬蟲得到的數據并不是就可以用,因為有一些關鍵信息的殘缺數據或者重復的數據,所以此時要對這些殘缺重復的數據進行處理工作。殘缺關鍵信息的數據通過數據預處理變完整,錯誤的數據、多余的數據經過處理將其糾正、去除,進而將所需的數據挑選出來,并且進行數據集成。數據清洗、數據集成這些都是常見數據預處理的方法。
本文采取數據清洗將爬取的數據進行處理,數據清洗主要有以下幾個步驟,首先去掉重復值,其次刪除缺失重要信息的數據項,最后處理空值。比如在同一個歌單下,去掉重復地爬取某幾首歌曲;爬取到歌曲信息不全的數據進行刪除。通過數據清洗可以使數據保持一致性和完整性。
4 實驗過程及分析
4.1 實驗平臺
本文是在Pycharm中完成,Pycharm是一款配置簡單、功能強大的支持多語言的編譯器,在使用Python語言開發時其效率很高,提供了如調試、代碼跳轉、智能提示、Project管理等功能,為項目開發提供了便利。CA3E1CE6-D75E-4DDF-BAF2-9A2417BDDD0D
4.2 實驗結果分析
本文數據來源于網易云音樂網站,利用Python爬蟲技術獲取到音樂數據,并對數據進行處理,最后利用Python可視化工具,將實驗結果以更直觀的形式呈現出來。如表1和表2所示為部分歌單索引信息表和部分歌單詳情表。
那么音樂類型、評分等因素對用戶的選擇有什么影響呢?首先,從音樂類型的數量分析熱門類型,可以發現哪種類型的音樂最符合大眾的需求,即所謂的潮流音樂。其次,用戶的收藏是一個顯性行為,可以直接反映出用戶對音樂的滿意程度。再次,結合歌單的播放次數,播放的次數越多,說明此歌單最受大眾的喜愛。最后,大眾的評論數也是可以直接反映音樂的熱度。
網易云音樂為迎合不同喜好的用戶,設置了許多類型的標簽,其中主流10種音樂標簽類型有:歐美、流行、電子、說唱、放松、浪漫、搖滾、R&B/Soul、興奮和影視原聲。從圖4可以看出:歐美音樂的數量是1306首,是流行類數量占比的兩倍多,說明歐美類型音樂最受聽眾的追捧。從圖中可以清晰地看出主流音樂的類型,這個對于音樂制片公司來說,也是一個啟發,大部分音樂制片公司都會選擇主流的音樂,這樣能獲取的利益較大。
收藏歌單這個行為充分反映了用戶對歌單的喜好,如圖5所示為歌單播放量前十名單,第一名336萬的收藏量,是第二名收藏量的4倍多,說明歐美私人定制這個歌單比較受大眾的喜歡,在新用戶加入網站時,想要選擇一些當前比較熱門的歌曲,此時,歌單收藏就可以作為一個參考,收藏得越多,說明是當下比較流行的音樂。
用戶收聽次數從側面反映用戶對音樂的喜愛程度,用戶喜歡這首音樂,可能在試聽過一次后,會重復收聽多次,反之,用戶可能在試聽過一次就不再收聽,如圖6為網易云歌單播放Top10,從圖上可以清晰地看出當下播放最多的歌單。
評分是用戶最直接體現對音樂的喜好程度,也是用戶對音樂的接受程度進行的評價和回饋,一方面取決于音樂自身的藝術質量,另一方面則取決于用戶本身情感的需求。通過可視化網易云音樂歌單評論,通過用戶的評論,音樂網站根據意見和建議,做相應的改進與完善,而且剛剛入駐音樂網站的新用戶能夠根據評論挑選出自己喜愛的音樂,是新用戶聽音樂參考的重要指標,也是反映了當時的音樂潮流。如圖7為網易云歌單評論Top10圖。
綜上所述,音樂數據可視化,對于用戶選擇音樂有一定的參考價值,也能看出歐美音樂還是比較受大眾的喜愛,也給國產音樂一定的啟發,未來國產音樂創作需要創新,以滿足用戶在大眾文化的時代背景下高速增長的聽覺需求。
5 結束語
本文通過Python爬蟲技術,在網易云網站上獲取數據并對數據進行處理,并利用Python數據可視化工具,將實驗數據通過圖表的方式呈現出來,通過對網易云網站的音樂數據分析,可以給音樂公司一些決策提示,也可以為用戶收聽音樂提供重要的參考指標。
參考文獻:
[1] 李娜娜.數字化時代的青少年音樂亞文化研究——基于自目的性分析視角[J].中國青年研究,2021(9):47,89-95.
[2] 潘曉英,陳柳,余慧敏,等.主題爬蟲技術研究綜述[J].計算機應用研究,2020,37(4):961-965,972.
[3] 于娟,劉強.主題網絡爬蟲研究綜述[J].計算機工程與科學,2015,37(2):231-237.
[4] 秦雅琴,馬玲玲.網絡爬蟲技術在交通信息獲取中的應用綜述[J].武漢理工大學學報(交通科學與工程版),2020,44(3):456-461.
[5] 李晶,黃杰,袁慧,等.大數據環境下網絡威脅可視化分析系統設計與實現[J].中南民族大學學報(自然科學版),2022,41(1):79-86.
[6] 賈艷平,翟晉剛.基于Python爬蟲技術的游客評論數據可視化分析[J].安陽師范學院學報,2021(5):51-54.
[7] 劉毅.網站反爬取機制的研究與應用[D].北京:北京郵電大學,2017.
【通聯編輯:謝媛媛】CA3E1CE6-D75E-4DDF-BAF2-9A2417BDDD0D