◆胡宗耀
?
基于改進相似度的電影推薦方法
◆胡宗耀
(遼寧大學信息學院 遼寧 110036)
針對當前的電影推薦方法推薦準確率不高的問題,提出一種改進相似度的電影推薦方法。該方法在通過皮爾遜相關系數計算用戶間的相似度時通過用戶之間共同觀看過的電影數目來進行調節,實驗結果表明本文算法在準確率和召回率上均有所提高。
電影;推薦方法;相似度
第三次工業革命以來,尤其是1989年萬維網的出現,使得使得網上的信息量逐年呈指數級增加,用戶逐漸從信息的被動接受者變為信息的生產者,據有關機構統計,2010 Q4中國網頁搜索請求量規模達640.2億次。在互聯網上,各種形式的信息以不同的類型呈現在網頁上:如文字、圖像、視頻,音頻,圖表等等。同時,隨著4g網絡的發展和智能手機的普及,網民上網速度更快,網絡質量更優。越來越多的用戶能夠方便快捷的接觸網絡,截至2018年6月,中國網民規模達8.02億。中國工程院院士鄔賀銓表示互聯網每天產生的信息量約有800EB,由此帶來了用戶查找所需信息時間增長的問題。電影視頻作為文化娛樂的重要內容,相比文字能傳遞更多的信息,影視傳媒在人們的物質和精神生活中發揮著其他媒體所無法代替的作用,用戶在電影視頻推薦網站中查找感興趣的內容時,面對眼花繚亂的內容,需要花費大量的精力篩選感興趣的視頻,查找所需要的時間變的越來越長,由此降低了用戶的體驗,也不利于網站的發展。因此越來越多的網站引入了推薦算法,由此給用戶提供一些建議,將用戶可能感興趣的內容展現在用戶的眼前,供用戶篩選。因此,將推進系統應用在電影視頻網站,為用戶提供個性化的視頻推薦,從而增加用戶黏度,減輕用戶負擔,提高用戶體驗,提高網站流量,具有一定的商業效益。
傳統的電影推薦的主要方法有:基于內容的推薦和協同過濾推薦[1],前者以用戶-項目評分矩陣中的用戶數據計算用戶間的相似度,后者以用戶-項目評分矩陣中的項目數據,計算項目之間的相似度,然后向用戶推薦。
設用戶集合={1,2,···,u},電影集合={1,2,···,i}。先通過評分矩陣通過計算相似度來進選目標用戶取近鄰用戶[2],然后選取目標用戶未看過的電影作為推薦數據集,Top-k即為用戶的最終推薦列表。具體步驟如下:
設用戶表Users、項目表Items、評分表,目標用戶∈,目標項目i∈,用戶與的相似度sim(,)可由式(1)計算得到。

其中為用戶和的共同評分項目,R為用戶對項目的評分,`R為用戶對所有項目的平均評分。
該相似度計算方法存在不足之處,若通過公式計算出兩個用戶的相似度很高,但是觀看過的電影中的重合度不高,那么兩個用戶的相似度值應該有所懲罰。
設()為用戶看過的電影集合,()為用戶觀看過的電影集合,則新的用戶相似度公式為:

為了驗證本文算法的有效性Movielens 數據集數據作為評測集數據集來檢驗算法。首先將數據隨機均勻分成5份,選取其中的4份當作訓練數據集,剩下的1份作為測試集[3]。
為了對本文所提算法的正確性與高效性進行驗證,實驗將本文算法與傳統的基于用戶的協同過濾算法(UCF)及融合時間因素和用戶評分[4]的協同過濾算法(CF-TP)從準確率(Precision),召回率(Recall)兩方面進行對比分析。
準確率:推薦列表中用戶喜歡的物品所占的比例,公式為(3):

召回率:測試集中有多少用戶喜歡的物品出現在推薦列表中,公式為(4):

其中B為用戶實際喜歡的項目,L為通過實驗產生的推薦列表。
由圖1可得,本文算法與基于用戶的協同過濾算法(UCF)及融合時間因素和用戶評分的協同過濾算法(CF-TP)[1]在推薦準確率(Precision)和召回率(Recall)方面均有所提高。

圖1 算法的準確率對比
從圖1和圖2可以看出,當鄰居數目較小時,本文算法和其他兩種算法的準確率和召回率相差不大,隨著鄰居數目的增大,本文算法的優勢體現出來。從圖中可以看出,鄰居數目對算法的推薦結果有一定的影響。本文固定鄰居數目為50進一步的實驗結果如圖3所示。
從圖3可以看出,當鄰居數目一定且推薦項目逐漸增加時,本文算法的準確率與其他算法相比有一定的優勢,但隨著推薦項目數的增加,各算法的準確率均逐漸減小。

圖2 算法的召回率對比

圖3 準確率與推薦項目個數的關系
本文提出一種基于改進的相似度的電影推薦方法,并且通過對比實驗驗證了所給方法在電影推薦的準確率、召回率等方面有所提升,在一定程度上,改善了傳統推薦算法準確率低的缺陷。推薦是一個情景化的事情,下一步的工作是利用上下文信息結合場景進行推薦,將上下文信息,例如地點信息加到推薦算法中,更好改善推薦效果。
[1]曾安,高成思,徐小強.融合時間因素和用戶評分特性的協同過濾算法[J].計算機科學.2017,44(9):243-249.
[2]沈華理.基于內容和協同過濾相融合的推薦算法[J]. 電腦知識與技術.2018,(2): 232-234+282
[3]雷鳴,朱明情感分析在電影推薦系統中的應用 [J].計算機工程與應用.2016(10): 59-63+107
[4] 馬宏偉,張光衛,李鵬.協同過濾推薦算法綜述 .[J]小型微型計算機系統2009(07): 1282-1288