張正風 強承魁 段素峰



摘要:大數據時代,各類影視資源紛紛涌現,“信息過載”問題在影視行業(yè)愈發(fā)凸顯,有效的電影推薦算法是解決這個問題的關鍵。本文首先總結了電影推薦的主流推薦算法,主要有協(xié)同過濾、基于內容的推薦和混合推薦三類算法,然后比較分析了幾種推薦算法的優(yōu)缺點。最后,針對推薦算法的發(fā)展方向,又對基于上下文的推薦算法進行了簡單的介紹。
關鍵詞:電影推薦;協(xié)同過濾;基于內容的推薦;混合推薦
Abstract:In the era of big data, all kinds of film and television resources have emerged, and the problem of "information overload" has become increasingly prominent in the film and television industry. Effective film recommendation algorithm is the key to solve this problem. This paper first summarizes the mainstream recommendation algorithms of film recommendation, including collaborative filtering, content-based recommendation and hybrid recommendation, and then compares and analyzes the advantages and disadvantages of several recommendation algorithms. Finally, according to the development direction of recommendation algorithm, the context based recommendation algorithm is briefly introduced.
Key words:Movie recommendation; collaborative filtering; content-based recommendation; hybrid recommendation
1引言
近年來,影視行業(yè)搭乘互聯網的快車,發(fā)展迅速,數量和種類增長快速。面對令人眼花繚亂的海量影視資源,“電影過載”問題日益凸顯,用戶需要花費大量的時間尋找自己感興趣的電影,并且用戶對觀影的要求也更加多樣化。如何提升用戶滿意度,進而增加用戶黏度是視頻門戶網站當前面臨的巨大挑戰(zhàn)。由此可見,提升個性化電影推薦算法性能的研究具有重要意義。
2電影推薦算法研究
推薦系統(tǒng)能在大數據時代有效的解決信息獲取泛濫的問題。在日常生活中,輔助人們做出決策。傳統(tǒng)推薦算法通常分為四類:協(xié)同過濾推薦、基于內容的推薦、基于人口統(tǒng)計學的推薦和混合推薦。
2.1基于協(xié)同過濾的推薦算法
協(xié)同過濾是推薦算法中的經典,也是當前應用最廣泛的推薦算法,其思想可以概括為“物以類聚,人以群分”[1],是“集體智慧”的體現。例如,用戶想要看電影,但沒有明確觀影對象時,通常會讓興趣類似的朋友推薦電影,這就體現了協(xié)同過濾的思想。協(xié)同過濾分支眾多,通常來說可分為三類。
(1)基于用戶的協(xié)同過濾推薦算法
此算法原理簡單,就是從用戶的角度出發(fā),從大量用戶中尋找與目標用戶有相似興趣的用戶群進行推薦[2]。下面以基于用戶的電影推薦為例,介紹一下推薦的流程。如圖1,當對張三推薦時,張三和王五都看過電影《算死草》和《百變星君》,而張三和李四沒有相同的觀影記錄,顯然張三和王五的觀影偏好更相似,故將王五觀看過的電影《少林足球》推薦給張三。
(2)基于物品的協(xié)同過濾推薦算法
基于物品的協(xié)同過濾[3]從物品的角度出發(fā),通過尋找與目標用戶有關系的物品的相似物品進行推薦,一定程度上緩解了上述問題。如圖2是一個基于物品推薦的簡單例子。在這個例子中,用戶喜歡《速度與激情8》和《敢死隊》兩部電影,然后推薦系統(tǒng)會分別找出與這兩部電影最相似的三部電影,根據公式計算用戶對每一部電影的感興趣程度。例如,計算用戶對《哥斯拉》的興趣度。因為這部電影和《速度與激情8》以及《敢死隊》的相似度分別為0.4和0.5.考慮到用戶對《速度與激情8》的興趣度是1.3,對《敢死隊》的興趣度是0.9,所以用戶對《哥斯拉》的興趣度為1.3*0.4+0.9*0.5=0.97。將用戶對每一部電影的興趣度計算出來,選擇興趣度最大的電影推薦給用戶。
2.2基于內容的推薦算法
基于內容的推薦算法是最早被使用的推薦算法,是在信息檢索和信息過濾的基礎上發(fā)展而來,其原理就是根據用戶有過消費行為物品的類別、標簽、評論等相關信息找到與之相似的物品推薦給用戶,原理簡單,可解釋性強[6]。因為基于內容的推薦算法只需根據物品特征計算相似度,且不需要其他用戶信息,故不存在冷啟動和新物品推薦問題。該算法主要用于文本領域。拿使用此算法的視頻推薦系統(tǒng)為例,如圖3所示,當給用戶A推薦電影時,因為,用戶A喜歡電影A,所以系統(tǒng)通過比較電影A、電影B和電影C的類型和主演,發(fā)現電影A和電影C都屬于“喜劇”類型,且主演都有王寶強,故認為電影A與電影C更相似,所以將電影C推薦給用戶A。
2.3基于人口統(tǒng)計學的推薦算法
此推薦算法簡單、容易實現。簡而言之,就是根據用戶的基本信息進行推薦。通常,用戶的基本信息包括年齡、職業(yè)、民族、性別和家庭地址等數據。根據用戶的基本信息將用戶劃分成不同類別,同一類的用戶相似,同屬于多個類的用戶相似度更高[8]。如圖4是一個簡單的基于人口統(tǒng)計學推薦系統(tǒng)原理圖。在這個例子中,Lisa和Ketty年齡相仿、性別相同且都是學生,因此認為Lisa和Ketty的興趣有高度的相似性,可以認為Ketty很可能喜歡Lisa喜歡的物品A,所以可以推薦給Ketty。通過這個例子可以看出,基于人口統(tǒng)計學的推薦算法僅需要用戶的基本信息,所以可以應用到各種領域的推薦系統(tǒng)中。