

【摘? 要】協同過濾是一種典型的推薦算法,在數據信息種類、表達方式越來越多的時代,很多技術都是圍繞協同過濾而展開研究的。本文概括介紹了基于用戶協同過濾推薦算法的理論思路,并對協同過濾推薦算法的發展趨勢做了簡單的闡述。
【關鍵詞】協同過濾 ;特征挖掘 ;推薦系統 ;基于用戶
引言
在如今這個大數據時代,互聯網應用所產生了海量的數據,那么在這么龐大的數據中,必定蘊含了豐富的意義,也必定有其應用價值。但是種類之繁雜的海量數據對于用戶來說不全是有用的,用戶提取有用數據會耗費大量的時間成本,因此協同過濾推薦算法根據用戶的需求誕生了。
1.協同過濾推薦概述
1.1協同過濾概述
協同過濾分為在線協同和離線過濾。協同,對于用戶群體來說,就是從在線數據集中篩選出同類用戶可能共同偏好的集合。這個集合可以是與你歷史物品相似的物品,也可能是用戶喜好的某些抽象的概念。過濾,就是從龐大的數據集中濾掉一些與用戶偏好無關的冗余數據,該類數據不值得推薦給用戶。
系統過濾模型可以理解為假設有N個物品和M個用戶數據,但是現存的數據集中只存在部分物品與用戶之間的評分關系,而其余的用戶物品評分均為空缺,那么就需要基于已知的數據集來預測出其余的用戶物品評分,并從中篩選出較高評分推薦給用戶。
1.2協同過濾推薦分類
現階段協同過濾推薦基本可以分為三種類型:基于用戶的協同過濾,基于項目的協同過濾以及基于模型的協同過濾。
這里重點說明一下基于用戶的協同過濾,這種協同過濾主要針對于用戶與用戶之間的數據交互,通過對比分析有相同偏好用戶的數據來為其所喜歡的物品進行評分,并基于該評分體系的建立來預測同類產品的其他評分,將評分高的若干物品推薦給其他用戶。
2.協同過濾算法實現
2.1算法理論基礎
(1)Jaccard相似系數
Jaccard相似系數用于比較有限樣本集之間的相似性與差異性,Jaccard系數值越大,樣本相似度越高。給定兩個集合A、B,Jaccard系數定義為A與B交集的大小與A與B并集的大小的比值,定義如下:
其中當集合A、B都為空時,J(A,B)定義為1。
(2)Jaccard距離
Jaccard距離是用來衡量Jaccard相似系數的指標,用于描述集合之間的不相似度。即Jaccard距離越大,樣本相似度越低,具體定義如下:
其中對參差 。
2.2算法實現思路
基于上述的理論解釋,我們可以將算法拆分為以下三個步驟:
基于Jaccard相似系數計算其他用戶與目標用戶的相似度;
通過Jaccard距離來找出與目標用戶最相似的N個其他用戶;
根據前兩個步驟所獲取的信息,推薦目標用戶相對喜歡,而且未采取過的行為。
利用Jaccard相似系數對目標用戶分別于其他試驗用戶進行相似度的求算,對所計算出的數據進行處理,以用戶、行為為維度建立用戶相似度矩陣。
根據目標用戶與K個目標用戶的相似度集合以及未采取過行為的用戶集合,建立用戶行為權重模型:
表示用戶對行為的權重,表示和用戶相似的K個用戶,表示采取過行為的用戶集合,表示用戶和用戶的相似度,表示用戶對行為的權重。
通過計算出不同用戶之間對行為的不同權重之后,即可根據其權重來計算出該行為對于該類用戶群體的喜歡程度,并根據每一種行為的推薦度高低來為目標用戶或者其他用戶進行推薦。
3.協同過濾算法應用以及發展趨勢
推薦算法具有非常多的應用場景和商業價值,在如今這個大數據時代,很多的應用在首頁以及需要推送咨詢等頁面中都會用到,根據用戶的操作行為歷史包括瀏覽、點擊、播放、收藏、評論、點贊、轉發、評分等,為用戶個性化的提供他可能喜歡的物品。
協同過濾算法作為最經典的算法,利用某興趣相投、擁有共同經驗之群體的喜好來推薦用戶感興趣的信息,個人通過合作的機制給予信息相當程度的回應(如評分)并記錄下來以達到過濾的目的進而幫助別人篩選信息。很多的應用技術都是圍繞協同算法而展開研究的。在信息種類、表達方式越來越多的時代,舊式的信息分類過濾系統無法滿足的地方,期許未來能用協同過濾的方法來解決。
參考文獻
[1] 惠康華,計瑜,王進,賀懷清.基于深度神經向量機自回歸的協同過濾算法[J].計算機工程與設計,2020,41(05):1308-1313.
[2] 趙小文. 基于協同過濾的推薦算法研究[D].西安電子科技大學,2019.
[3] 于洪,李轉運.基于遺忘曲線的協同過濾推薦算法[J].南京大學學報(自然科學版),2010,46(5):520-527.
[4] 焦富森,李樹青.基于物品質量和用戶評分修正的協同過濾推薦算法[J].數據分析與知識發現,2019,3(8):62-67.
[5] 基于用戶隱式行為特征的最大熵推薦算法[J].胡敏,陳元會,黃宏程.計算機工程與設計.2019(02)
[6] 協同過濾中一種有效的最近鄰選擇方法[J].冷亞軍,梁昌勇,丁勇,陸青.模式識別與人工智能.2013(10)
[7] 面向個性化推薦的強關聯規則挖掘[J].李杰,徐勇,王云峰,朱昭賢.系統工程理論與實踐.2009(08)
[8] 基于協同過濾的推薦算法研究[J].王興國.無線互聯科技.2016(03)
作者簡介:趙奕涵(1999.7-),男,漢族,黑龍江哈爾濱人,天津工業大學本科在讀,研究方向為軟件工程。