趙圓圓 張小雷



摘? 要:隨著互聯網技術及音樂資源電子化地發展,用戶獲取音樂資源越來越容易。但音樂庫不斷增大卻使得用戶快速找到心儀音樂變得愈發困難。為解決傳統單一音樂推薦算法的不足問題,提高音樂推薦質量,在深入研究基于內容和協同過濾推薦算法基礎上,文章提出在基于協同過濾推薦算法中融入時間因素并與基于內容推薦算法加權融合的音樂推薦算法。實驗結果表明,與傳統單一推薦算法和部分相關算法相比,這種算法為用戶推薦音樂的效果更好。
關鍵詞:基于內容的推薦算法;基于協同過濾的推薦算法;時間因素;加權融合
中圖分類號:TP399???????? 文獻標識碼:A???????? ???文章編號:1672-4437(2023)03-0051-05
0 引言
近年來,互聯網數據量急劇增加,有專家預估,全球數據總量到2025年將會增加到175ZB[1]。音樂是人們日常生活中不可獲取的一部分[1],各音樂網站存在著大量音樂資源和用戶,以兩知名音樂網站網易云音樂和酷狗音樂為例,統計顯示,截止到2022年6月,網易云音樂用戶超1.8億人,樂庫音樂曲目超1.06億首。2022年酷狗全年新發1936萬首新歌,音樂人總粉絲超7億。面對海量音樂資源,用戶越來越難以快速找到喜歡的音樂,嚴重影響用戶聽歌體驗。較差的聽歌體驗,會導致音樂網站和用戶間黏性降低,音樂網站也就無法獲取相應利潤。
各大音樂網站都嵌有推薦系統,以滿足用戶個性化聽歌需求。目前音樂網站多采用傳統單一的基于內容(Content-Based)推薦算法或基于協同過濾(CF-Based)推薦算法[2]為用戶推薦音樂。Content-Based推薦算法在分析用戶所聽音樂記錄基礎上,構造音樂屬性特征,計算出音樂相似度,為用戶推薦相似音樂,但推薦新穎度不夠,推薦質量不高。CF-Based推薦算法包括基于用戶(User-CF-Based)推薦算法和基于物品(Item-CF-Based)推薦算法兩種。User-CF-Based推薦算法根據用戶對音樂偏好情況計算用戶相似度,依據相似用戶音樂偏好預測目標用戶音樂偏好。Item-CF-Based推薦算法首先計算音樂間相似度,然后預測目標用戶的音樂偏好。CF-Based算法在推薦過程中,缺少新用戶和新音樂歷史記錄,難以有效推薦,同時用戶對音樂交互較少也嚴重影響相似度計算,這就是CF-Based推薦算法面臨的冷啟動和稀疏性問題。音樂流行度對用戶的選擇影響很大,過去用戶喜歡的音樂現階段用戶不一定喜歡,所以在推薦音樂時還要考慮時間因素的影響。
在改進傳統推薦算法,提高推薦效果方面,很多學者做了大量研究。彭余輝等在融合基于內容和協同過濾算法基礎上,提出了MR_CCFI算法,該算法能夠降低冷啟動影響,提高推薦質量,但未考慮時間因素影響[3]。包玄等在傳統協同過濾算法中融合時間因素和興趣點,推薦準確度有所提高,但冷啟動問題依然存在[4]。付文靜在加權融合用戶和文本內容基礎上,構造出RC-DFM算法。該算法能降低數據稀疏性影響,但當數據集較大時,推薦效率會降低[5]。楊明極等混合注意力機制和改進的RNN進行音樂推薦,提高了準確度,但在推薦多樣性上有所欠缺[6]。付峻宇等提出了一種基于圖卷積的雙通道CF-Based推薦算法GCNCF-2C,緩解了冷啟動問題,取得不錯效果[7]。
針對傳統單一音樂推薦算法的不足,在深入研究Content-Based推薦算法和CF-Based推薦算法基礎上,本研究提出在CF-Based推薦算法中融入時間因素并與Content-Based推薦算法加權融合,以此降低冷啟動影響,緩解數據稀疏性,提高音樂推薦質量。
1 加權融合基于內容和融入時間因素的協同過濾的音樂推薦算法
1.1 算法基本框架
Content-Based推薦算法依據用戶和歌曲自身屬性推薦音樂,缺乏新穎性,存在用戶偏好音樂和特征間的語義差異,但不會面臨數據稀疏性和冷啟動問題[8]。CF-Based推薦算法通過計算用戶和音樂相似度來推薦音樂,推薦質量較高,但面臨數據稀疏性和冷啟動問題。在深入研究這兩種算法基礎上,考慮時間因素影響,本研究提出在CF-Based推薦算法中融入時間因素分別構造融入時間因素基于用戶(TF-User-CF-Based)和融入時間因素基于物品(TF-Item-CF-Based)的推薦算法,并與Content-Based推薦算法加權融合,構造出加權融合(MR_CTCFI)推薦算法。該算法包括加權融合基于用戶和基于內容(TF-User-Content)以及基于物品和基于內容(TF-Item-Content)推薦算法。根據不同用戶數和音樂數,計算用戶間及音樂間相似度,同時關注用戶歷史聽歌信息,為用戶推薦預測評分較高的音樂。
MR_CTCFI推薦算法基本框架如圖1所示:
1.2 Content-Based音樂推薦算法的處理
1.3 融合時間因素的CF-Based音樂推薦算法的處理
隨著音樂流行度變化和用戶聽歌習慣的改變,時間因素對用戶音樂選擇影響很大,所以在音樂推薦中要考慮時間因素。本研究通過融入時間因素并加入懲罰熱門音樂項改進CF-Based推薦算法。
1.3.1 TF-User-CF-Based推薦算法
1.3.2 TF-Item-CF-Based推薦算法
1.3.3 MR_CTCFI推薦算法
2 實驗結果與分析
在不同大小音樂數據集下測試算法的推薦準確率。實驗數據源來自于網易云音樂2022年上半年的一部分數據,在其中選取1000首歌曲,獲取其歌單、用戶、音樂以及評分等信息。實驗前,預處理數據,選擇音樂集中80%數據作訓練數據集(40%作小數據集),剩下的音樂集中20%數據作測試數據集。
2.1 數據預處理
原始數據如圖2所示:
2.1.1 對音樂集數據分類標注,得到標簽列表。部分標簽見表1。
2.1.2 對歌曲文本中的內容使用jieba對其分詞,再去詞停用,通過TF-IDF算法把關鍵詞提取出來,最終得出用戶對音樂的偏好矩陣
。
2.1.3 對音樂集數據處理后,選擇音樂編號、名稱、發表時間、類型等維度,部分數據見表2。
2.2 實驗結果分析
將本研究中MR_CTCFI推薦算法與文獻[4]中的MR_CCFI以及Content-Based算法進行實驗對比,比較這些算法的平均絕對誤差(MAE),分析在不同音樂集下的推薦質量,MAE值越小,推薦準確率越高。
2.2.1 參數設置
2.2.2 相似度計算
為驗證所選相似度計算方法的有效性,在把K分別設為10、15、20、25、30、35情況下比較Cosine、TF-User-content-Cosine和TF-Item-content-Cosine計算下的MAE值。如圖4所示,在較大音樂集,固定K值情況下,TF-Item-content-Cosine計算下MAE最小。如圖5所示,在較小音樂集,固定K值,TF- User content-Cosine計算下MAE最小。實驗結果表明,本研究所用余弦相似度計算法推薦結果較好。
2.2.3 MAE
實驗中,比較MR_CTCFI推薦算法與文獻[4]中MR_CCFI以及Content-Based算法的MAE值,檢驗本研究中算法的推薦效果。如圖6所示,在較大音樂集,固定K值,TF-User-content和TF-Item-content算法MAE值都較小,K為20時,MAE值最小。對比TF-User-content和TF-Item-content算法,較大音樂集下,TF-Item-content算法推薦效果更好。如圖7所示,在較小音樂集,固定K值,TF-User-content和TF-Item-content算法MAE值都較小,K為20時,MAE值最小。對比TF-User-content和TF-Item-content算法,較小音樂集下,TF- User -content算法推薦效果更好。
3 結語
本研究通過加權融合Content-Based和融入時間因素的CF-Based推薦算法構造出MR_CTCFI音樂推薦算法,以此降低冷啟動影響,緩解數據稀疏性,并提高推薦質量。在不同音樂集下進行實驗,結果表明,音樂集較大時,TF-Item-content更適合為用戶推薦音樂;音樂集較小時,TF- User –content更適合為用戶推薦音樂。在實際應用環境中,MR_CTCFI也適用。但本研究算法還無法解決社會網絡等方面問題,仍需進一步進行改良,以此來提高推薦算法的精確率和質量。
參考文獻:
[1]張全貴,張新新,李志強.基于注意力機制的音樂深度推薦算法[J]計算機應用研究,2019,36(08):2297-2304.
[2]張小雷.基于協同過濾和隱語義模型的圖書推薦算法研究與實現[D].阜陽:阜陽師范大學,2021.
[3]彭余輝,張小雷,孫剛.基于內容和協同過濾加權融合的音樂推薦算法[J].安慶師范大學學報(自然科學版),2021,27(2):44-53.
[4]包玄,陳紅梅,肖清.融入時間的興趣點協同推薦算法[J].計算機應用,2021,41(08):2406-2411.
[5]付文靜.基于評論和內容深度融合的跨域推薦問題研究[D].濟南:山東大學,2019.
[6]楊明極,劉暢,宋澤.注意力機制與改進 RNN 的混合音樂推薦算法研究[J].小型微型計算機系統,2020,41(10):2235-2240.
[7]付峻宇,朱小棟,陳晨.基于圖卷積的雙通道協同過濾推薦算法[J].計算機應用研究,2023,40(01):129-135.
[8]苗雨欣,宋春花,牛保寧,等.雙通道圖協同過濾推薦算法[J].計算機工程,2022,48(08):121-128.
[9]BREESE J S, HECKERMAN D, KADIE C. Empirical Analysis of Predictive Algorithms for Collaborative Filtering[J].uncertainty in artificial intelligence, 2013:3-5.