管 鵬,張 鍵,顧 杰
(1.南京郵電大學 貝爾英才學院,江蘇 南京 210046;2.南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
大數據背景下個性化音樂推薦方案探究
管 鵬1,2,張 鍵1,2,顧 杰2
(1.南京郵電大學 貝爾英才學院,江蘇 南京 210046;2.南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
隨著移動互聯網和云計算等技術高速發展,網絡音樂庫數量和種類呈現爆炸式增長,這使得面向音樂數據源的大數據分析需求應運而生。文章針對熱門的個性化音樂推薦服務,初步探討了基于大數據挖掘的概念性方法,并且研習了一種個性化音樂推薦方案。
大數據;數據分析;個性化;音樂推薦
隨著移動互聯網、云計算等信息技術的飛速發展,各行業所產生的數據量已呈指數級方式增長,并且各種新型數據源種類也呈現指數性增長,所謂的“大數據時代”已悄然降臨[1]。每天,人們在移動端以及PC端使用音樂軟件上留下了海量的新型數據源,這個新型數據源既含有非結構化的各種格式音樂文件,也包含存儲在后臺網絡日記中的點擊率、時長等數據。對于這種數據源如何進行有效數據分析和利用成為一個音樂業務提供商或者相關的虛擬運營商能否提高企業績效和長期生存的關鍵。這是因為:客戶管理對于一個音樂業務提供商很重要,大量客戶意味著企業績效。對于采用網絡方式的虛擬運營商,他們也需要通過各種新型音樂服務來吸引客戶,從而開展自身的主流服務。如電信虛擬運營商經常發布免費的流行音樂來實現輔助的廣告,最終提高電信服務體驗。
本文主要探討大數據分析技術在個性化音樂推薦服務中的應用。基本思想是:通過對用戶數據的挖掘,提取出用戶的行為特征以及興趣偏好,可以有針對性的向用戶提供個性化的音樂服務,進而提升用戶體驗和擴大用戶群體數量。
1.1大數據概念和治理概述
大數據是指數量特別多、數據體量巨大、數據源種類繁多、數據增長極快、價值稀疏的復雜數據[2]。與其他資產不同,大數據作為一種信息資產,其價值需要運用全新的大數據治理思維和解決平臺來實現。
1.2一種大數據環境下個性化音樂推薦
大數據環境下的推薦系統是傳統推薦系統的延伸,但應著重考慮大數據環境給音樂推薦系統帶來的影響。其特點如下[3]:①需要處理的數據量更大,且數據的融合會引入高維稀疏性數據,數據存在更高的冗余和噪聲,因此這要求系統具備更高的數據處理能力;②大數據環境下,音樂系統產生的數據以隱式反饋數據為主(比如用戶對歌曲的點擊率,收藏與拉黑情況等);③數據更新速度更快,這要求推薦系統具備
更快的計算效率;④推薦的時效性,推薦系統必須能對數據進行快速實時處理,以滿足用戶的需求。
個性化音樂推薦系統是基于分布式數據平臺的推薦系統,它通過對音樂庫以及用戶產生的海量用戶行為日志進行分析,通過相應的推薦算法挖掘出用戶的行為偏好,從而向用戶提供個性化的音樂推送服務。
2.1大數據環境下個性化音樂推薦系統結構框架
推薦系統在進行相關設置時主要包含兩個階段[4]:數據預處理和推薦生成階段。數據預處理階段,推薦系統需要不斷地將用戶產生的結構化以及非結構化數據進行存儲與提取。推薦生成階段,推薦系統根據用戶行為信息,利用相應的推薦算法,從數據集中產生用戶推薦項目。考慮到數據數量的龐大,傳統的存儲與處理技術已不能適應大數據的要求,通常都是借助Hadoop分布式系統來進行存儲處理。圖1展示了基于Hadoop平臺的個性化音樂推薦系統框架。借助Hadoop系統的個性化音樂推薦系統框架圖1所示。

圖1 基于Hadoop平臺的個性化音樂推薦系統
2.2個性化推薦原理與算法
現在主流的音樂推薦方式是系統智能推薦。推薦系統通過機器學習的方式,根據同類人的偏好特征給相似的人群推薦他們都喜歡的歌曲,也有根據歌曲的內容推薦相似風格的歌曲。
綜上,個性化音樂推薦的算法主要包括3種,即基于內容的推薦算法,協同推薦算法以及混合推薦算法。
2.2.1基于內容的推薦算法
基于內容的推薦算法,即最大相似度算法。其基本思想如下:首先根據用戶的行為信息,比如用戶收藏的曲目,用戶經常點擊的曲目等,分析這些曲目的特征(旋律,風格,歌手等)信息,以此構成該用戶的特征向量,然后遍歷音樂數據庫,分析音樂庫中文件的特征向量與用戶的相關程度,選擇其中相關程度較大的曲目最為推薦曲目推薦給用戶。
2.2.2協同推薦算法
協同推薦算法,也叫作相似人群的推薦。它通過比較當前用戶與其他用戶對感興趣音樂的相似度,計算出用戶間的相似度,構成用戶相似度集,從中選出與用戶相似度最大的若干用戶,將他們最喜歡的音樂推薦給用戶。具體流程如下:
(1)將用戶對于歌曲的喜愛程度做量化。比如:單曲循環=5,分享=4,收藏=3,主動播放=2,聽完整首歌曲=1,跳過歌曲=-1,拉黑=-5[5]。則通過數據分析我們可以分析出不同用戶對于不同歌曲喜愛程度的向量。
(2)生成相似人群集。即使用向量空間相似度的計算方法,通過計算向量之間的夾角余弦值來衡量用戶之間的相似度。根據預先確定的相似度閾值,選擇相似度大于閾值的作為相似用戶,或者根據預先確定的相似用戶數N,選擇相關度最大的N個用戶作為相似用戶[6]。
(3)生成推薦集,即將某用戶的鄰居用戶的最喜愛的歌曲進行排序,找到鄰居用戶最喜愛而該用戶沒聽過的曲目,將其推薦給該用戶。具體的實現過程如圖2所示。
2.2.3混合推薦算法并根據各自的混合權重對音樂進行綜合評分,選擇評分最高的項作為推薦項。

圖2 協同推薦算法下個性化音樂推薦系統
隨著大數據時代的真正來臨,分布式大數據挖掘平臺Hadoop等開源項目正在不斷發展和應用。在大數據治理思維下,業務提供商借助于這些平臺來搭建個性化音樂推薦系統,這將有利于業務提供商向用戶提供個性化音樂服務。對于高度稀疏性音樂數據,實際推薦的準確性往往難以保證。對此,今后音樂服務需要研究相關的大數據分析算法來提高數據分析的性能。
混合推薦算法,即融合內容推薦和協同推薦兩種方案,
[1]盛楊燕,周濤譯.大數據時代[M].浙江:浙江人民出版社,2013.
[2]徐宗本.大數據大智慧[N].人民日報,2016-03-15.
[3]孟祥武,紀威宇,張玉潔.大數據環境下的推薦系統[J],數據庫與數據處理,2015(2):2-3.
[4]張玉忠,方艾,金鐸,等.大數據在音樂推薦質量提升中的實踐及應用[J].電信科學,2014(10):44-47.
[5]盧麗靜,朱杰,楊志芳.基于大數據的個性化音樂推薦系統[J].廣西通信技術,2015(1):
Analysis of the Personalized Music Recommendation Method Based on Big Data
Guan Peng, Zhang Jian, Gu Jie
(1.Nanjing University of Posts and Telecommunications Baer School of Excellence, Nanjing 210046, China; 2.School of Communication and Information Engineering, Nanjing University of Posts and Telecommunications, Nanjing 210003, China)
With the quick advancement of mobile internet and cloud computation, the number and variety of music databases expands exponentially, which gives rises to the data analysis that is focused more on these topics. This essay focuses on the recommendation of popular music, primarily explores the theorized method which is based on Data Mining, and analyzes a unique and personalized music recommendation method.
big data; data analysis; personalized; music recommendation
項目名稱:南京郵電大學2015年STITP項目;項目編號:XYB2015525。項目名稱:南京郵電大學2014MOOC課程建設計劃;項目編號:2014MOOCA4專項。
管鵬(1995-),男,江蘇淮安。