融入爭議項目的協同過濾推薦方法

2016-12-23 05:35:49徐瑩陶虎成

微型電腦應用 2016年9期

關鍵詞：用戶

徐瑩，陶虎成

融入爭議項目的協同過濾推薦方法

徐瑩，陶虎成

通過對爭議項的判定與選擇，過濾出在用戶群中爭議最大，同時目標用戶對其接受概率較高的物品增加到待推薦物品中去，從而增大了處于長尾位臵物品被推薦的幾率。在適度降低推薦結果精確度的前提下，通過擴大推薦結果的覆蓋率增強了推薦結果的新穎性，提高用戶對推薦結果的驚喜度。

協同過濾；推薦系統；模糊不確定性；個性化服務

0 引言

信息技術特別是互聯網技術的飛速發展，導致人們獲取信息的途徑與方式發生了巨大的變化，這使得人們無法及時、準確地從數據海洋中獲得滿足自身需要的信息。搜索引擎作為一種人們面對海量數據時較為有效的檢索與獲取信息的方式，仍舊無法滿足不同背景的使用者在不同時期的個性化信息需求。推薦系統則成為個性化信息服務領域的重要手段之一，并已廣泛應用于信息檢索、電子商務、互聯網廣告等眾多領域。

推薦系統主要是通過分析用戶與物品（項目）之間的關系，幫助人們從海量的數據中提取出符合其自身需求的個性化信息。從信息過濾角度來講，可以將其分為3類[1]：（1）協同過濾推薦：協同過濾算法的出發點是具有相同或者相似興趣偏好的用戶，對物品的評價也是類似的。通過計算與目標用戶行為記錄相似用戶的喜好，來預測目標用戶可能感興趣的物品。算法無需用戶行為日志之外的其他數據，但是存在數據稀疏、冷啟動等問題。（2）基于內容的推薦：不需要依據用戶對項目的評價意見，而是計算用戶有過行為記錄物品的特征信息與其他項目物品特征信息之間的相似性，進而選擇相似度較高的項目進行推薦。由于不需要其他用戶的匹配信息，消除了基于物品系統過濾的冷啟動問題，但是對物品特征的提取相對困難，當對物品屬性和用戶特征類別定義稍有偏差時，就很難做出相對精確的推薦。（3）混合式推薦：按照不同的方式將以上兩種推薦方法進行組合，取長補短，這就是混合推薦的思想。組合推薦的重點在于采用何種策略來組合不同的推薦算法，常用的有混合型、特征組合型、加權型，以及轉換型等。

在常用推薦策略中，協同過濾算法因不依賴于抽取對象的特征信息來了解用戶的興趣，同時還能發現用戶潛在興趣而備受歡迎，已成為目前應用最為廣泛的推薦方法。一個好的推薦系統應該盡可能地展現用戶感興趣的物品，但協同過濾面臨一個主要問題就是：越是熱門物品得到推薦的概率越大，新添加到系統中的物品和低曝光率物品往往因缺少評分數據或評分數據不足而無法得到推薦，即所謂的“冷啟動”問題。本文基于用戶的歷史評分記錄，選擇不確定性最大的物品作為待推薦對象，從而克服了推薦待選對象總是從最熱門物品中選擇的問題。本文第2節給出了基本的協同過濾算法；第3節介紹了本文的主要工作；第4節針對所提算法進行了實驗驗證；最后是本文的總結。

1 相關工作

1.1 協同過濾算法概述

協同過濾技術通常使用用戶-項目評分矩陣如圖1所示：

圖1 用戶-項目評分矩陣

其中，rui代表用戶u對項目的評分值。根據一定的度量標準在評分數據矩陣基礎上找出用戶的“最近鄰居”，基于這些“最近鄰居”的評分，計算預測目標用戶對項目的評分，進而產生推薦。

常用的最近鄰居度量標準包括余弦相似性、修正的余弦相似性和皮爾遜相似性等。分別用表示用戶u ，用戶v 曾有過評分的項目集合，表示用戶u 、 v共同有過評分記錄的項目集合，分別表示用戶u，用戶v打分的平均值。常用余弦相似度可表示為公式（1）：

余弦相似性沒有考慮不同用戶的評分尺度問題，修正的余弦相似性度量方法通過減去用戶對項目的平均評分來改善上述問題為公式（2）：

某些情況下，用戶之間的相關性也可以用來作為尋找“最近鄰居”的標準，相關性是指兩個實體之間相關聯的程度，比如“協同過濾”和“推薦系統”在字面意義上的相似性非常低，但卻是密切相關的兩個概念。在協同過濾中常用皮爾遜相似度來表示用戶之間相關的程度為公式（3）：

本文采用修正余弦相似性公式（2）作為用戶間相似度的評價標準，與之對應，用戶 a對項目i的評分預測可通過公式（4）計算得到公式（4）：

通過用戶評分預測的過程可知：協同過濾算法由于主要推薦相似用戶評分較高的物品。這就造成了越是熱門物品，被推薦的次數越多，而用戶本來感興趣的非熱門物品則得不到推薦的機會。

1.2 已有工作的分析

冷啟動和評分數據稀疏是協同過濾面臨相互關聯的兩個主要問題。解決此類問題的最直接方法就是對空值進行填充，例如文獻[2]利用模糊聚類算法根據用戶情景信息對用戶群進行分類，進而使用Slope One算法填充評分矩陣來提高推薦的精度。但是系統過濾本身就是一個對空值進行預測的算法，其本質也就是空值填充，同時預處理時填入數據的準確性也有待考量。因而眾多科研人員轉而通過對用戶或項目進行分類或聚類處理，如文獻[3]提出了一種在知識層面比較用戶相似度的方法，利用項目的分類信息，避免了把用戶整體打分作為單個向量的弊端，此方法在數據極度稀疏的情況下，仍能取得較高的推薦質量。文獻[4]根據項目之間的相似性進行聚類，并以此計算用戶的局部相似度；同時，利用重疊度因子來對用戶間的相似性進行精細調整，提高了在評分數據稀疏性框架推薦結果的質量。文獻[5]也使用類似重疊度因子的方式來對用戶相似度進行調校，以提高推薦結果的準確率。文獻[6]根據目標用戶與各用戶群體之間的關系，通過合并相應的聚簇來實現對相似用戶的精確查找，此方法在高維稀疏環境下取得了較好的效果。

在分類或聚類模型的基礎上，又有學者進一步加入了用戶間的信任信息，例如：黃創光等[7]通過對用戶和項目進行相似性匹配，并選擇目標用戶的最近鄰居的信任子群，并通過不確定緊鄰的動態度量方法，來對預測結果進行平衡，此方法可以有效的應對評分矩陣極度稀疏而帶來的不利影響。文獻[8]通過利用評分矩陣中的共同評分項，計算用戶間的信任關系，并通過綜合用戶相似度和信任關系得到用戶之間的偏好關系，進而完成推薦。此類算法雖然部分解決了冷啟動和數據稀疏問題，但冷門物品被推薦概率低的現象未曾得到根本改善。

類似文本檢索中的IDF概念，Breese等人[9]通過對物品的評分進行變換，通過降低對廣受歡迎物品的權重提出了反用戶頻率（inverse user frequency）來解決此問題。文獻[10]則通過方差權重因子來降低被頻繁推薦物品的重要性。這兩種方法的本質都是提高具有高方差評分值物品的作用來提高被推薦結果的覆蓋率。

在文獻[6,10,11]工作的基礎上，本文選擇用戶喜好傾向最難確定的物品為爭議站產品，并通過加權合并爭議項和傳統協同過濾推薦結果，提高最終推薦結果中用戶潛在感興趣且新穎性高的物品出現的幾率。

2 基于爭議項的協同過濾推薦

對于用戶來說，只有極少數的物品是確定喜歡與確定不喜歡的，對于剩余的絕大多數物品是介于喜歡和不喜歡之間，喜歡的程度可以用模糊數來表示。

以爭議項為推薦候選集合，使用協同過濾算法可以得到基于爭議項的待推薦集合，由于爭議項往往具有相對較低的評分值，可通過給予一定閾值以提高其最終被推薦的概率，

由于爭議項處于長尾位置，其預測評分值往往相對較低，可乘以一個適當的權重以提高其最終被推薦的概率，令C為爭議項集合，則用戶對產品i的評分預測值為公式（6）：

其中，ω為對爭議項評分值的權重，此值為大于等于1的實數，當ω=1時，算法就退化為傳統協同過濾方法，此值越大則處于長尾位置的爭議項被推薦的概率越大，推薦結果的多樣性就越高。此權重可根據實際應用需求通過實驗得到，一般取值范圍可在1.2-1.8之間。具體推薦方案如下：

算法1：基于爭議項預處理的混合協同過濾算法

step 1:爭議項的確定：根據公式(5)確定爭議項。

step 2:計算用戶可能感興趣的爭議項：

step 2-1:查找與用戶興趣相似的用戶集群：使用修正余弦相似性（公式2）選擇前m個相似度最大，且對爭議項有過評分的用戶作為興趣相似用戶群；

step 2-2:根據公式（4）計算目標用戶對待推薦爭議項的評分值，并選擇前n個物品作為目標用戶感興趣的待推薦物品集合S。

step 3:使用傳統協同過濾算法得到待推薦物品集合R。

step 4:物品推薦：

step 4-1:將集合S中的評分值乘以權重ω ；

step 4-2:合并加權后的集合S和集合R，并按評分值從高到低的順序排列，選擇前s個物品作為推薦結果。

3 實驗驗證

3.1 數據集

本文所用測試數據及來自 GroupLen提供的 Movielens 1M測試數據集（http://www.grouplens.org /system/files/ml-1m.zip），包含來自3 900名用戶對6 040部電影的1百萬條評分。評分范圍從1-5，分別表示“非常差”、“差”、“一般”、“好”、“非常好”5個級別，且所有用戶的評分記錄均在20條以上。

數據集主要包括3個文本文件：users.dat和movies.dat分別記錄了用戶、電影的相關信息，ratings.dat記錄了用戶對電影的評分情況。實驗按照7:1的比率隨機從ratings.dat中提取數據分別作為訓練集和測試集。實驗過程為：1）根據訓練集數據計算爭議項（電影）；2）根據用戶評分記錄分別以爭議項和物品全域內預測用戶對其潛在評分；3）針對有預期評分值的電影計算準確率和覆蓋率。

3.2 評價指標

有多種指標，可分別從不同角度來對推薦系統的性能進行評測。如準確率、覆蓋率、新穎性、驚喜度、信任度，以及實時性等。有些指標可以通過定量計算獲取如準確率、覆蓋率等，有些則只能通過用戶的主觀意志出發進行定性分析，如信任度、驚喜度、多樣性等。本文的出發點是提高推薦結果的多樣性與驚喜度，但是由于這兩個標準更依賴于用戶的主觀反應，而且很難量化，因而采用了準確率和推薦結果覆蓋率作為度量標準。總體來說，在保證準確率的前提下，覆蓋率越大，則推薦結果的多樣性相對越高，潛在帶給用戶的驚喜度也就越大。

令U為全體用戶集合，R(u)為根據推薦算法針對用戶u給出的推薦列表，T(u)為測試集中用戶u有過評分行為的電影列表，則推薦結果的準確率可以定義為公式（7）：

推薦列表需要能夠覆蓋用戶不同的興趣領域，假設系統的用戶集合為U，物品集合為I，推薦系統給每個用戶u∈U推薦一個長度為N的物品列表R(u)，則通過推薦系統的覆蓋率可定義為公式（8）：

由覆蓋率的定義可知，如果所有的物品都出現在推薦列表中，且出現次數差不多，那么推薦系統發掘長尾的能力就越好[12]。

3.3 實驗結果及分析

由于協同過濾在處理海量數據時效率較為低下，實際應用中最為常用的是先根據用戶的行為記錄對用戶進行聚類，推薦階段在聚類的基礎上使用協同過濾算法。因此，實驗結果與最為常用的傳統協同過濾算法和基于聚類的協同過濾進行了比較如圖2所示：

圖2、推薦結果準確率比較

由于處于長尾位置，曝光率小而導致其被評分的概率相對較低，造成了大部分爭議項沒有評分記錄。而計算準確率時，將未被評分產品的實際評分值默認設定為0，由此，造成了準確率有所降低。但是，這些處于長尾位置的物品對目標用戶來說具有相對較高的接受程度和相對較高的驚喜度，這些可以部分抵消精度略微下降帶來的損失如圖3所示：

圖3、推薦結果覆蓋率比較

由圖3可知，在加入爭議項后的推薦中，僅從比率上來看，覆蓋率提升不是很大，但從數量上分析，可選擇推薦結果從數量上平均提高了約30-40部可選擇空間，結合最終推薦結果一般在 5-20部之間，覆蓋率的提升給推薦結果的多樣性提供了足夠的可選擇空間。

綜合準確率和覆蓋率按照如公式（9）：

進行評判，如圖4所示：

圖4、 Fac-Measure

算法的綜合性能相對于傳統協同過濾和基于聚類的協同過濾算法有一定的提高。

實驗只是對推薦候選物品進行了評測，如3.3所述，在實際應用中，可根據實際需要來調整針對爭議項的權重因子，達到推薦結果精度和新穎性的平衡。

4 總結

由于推薦結果的優劣與個人的主觀意識緊密相關，因而不應僅僅從某一個可量化指標去進行判斷。本文所述方法，綜合考慮了多個評價指標，在推薦結果多樣性方面進行了初步的探索，通過對試驗結果的分析可以看出，通過提高待推薦產品的覆蓋率，并對處于長尾位置的物品賦以相對較高的權值，可以部分提高最終推薦結果的多樣性、新穎性。

[1] Jannach D, Zanker M, Felfernig A, Friedrich ,F. Recommender systems: An Introduction[M], Cambridge University Press, 2011.

[2] 李華, 張宇, 孫俊華. 基于用戶模糊聚類的協同過濾推薦研究[J]. 計算機科學, 2012, 39(12): 84-86.

[3] Rana Forsati, Alireza Moayedikia, Mehrnoush Shamsfard. An effective web page recommender using binary data clustering[J]. Information Retrieval Journal, 2015, 18(3):167-214.

[4] 韋素云, 業寧, 朱健, 黃霞, 張碩. 基于項目聚類的全局最近鄰的協同過濾算法[J]. 計算機科學, 2012, 39(12): 149-152.

[5] Bellogin A, Castells P,Cantador .I. Imporving memory based collaborative filtering by neighbor selection based on user preference overlap[C]. Proceedings of the 10th Conference on Open Research Areas in Information Retrieval, 2013: 145-148

[6] Gao .M, Cao F. Y. and Huang Z. J. A Cross Cluster-Based Collaborative Filtering Method for Recommendation[C]. Proceedings of the 10th IEEE International Conference on Information and Automation (ICIA’13). 2013: 447-452.

[7] 黃創光, 印鑒, 汪靜, 劉玉葆, 王甲海. 不確定緊鄰的系統過濾推薦算法[J]. 計算機學報, 2010, 33(8) : 1369-1377.

[8] 秦繼偉, 鄭慶華, 鄭德立, 田鋒. 結合評分和信任的協同推薦算法[J]. 西安交通大學學報, 2013, 47(4): 100-104.

[9] Breese J.S., Heckerman D. and Kadie C. M.. Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C]. Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence, 1998: 43-52.

[10] Herlocker J. L., Konstan J. A., Al. Bochers and J. Riedl. An Algorithmic Framework for Performing Collaborative Filtering[C]. Proceedings of the 22nd Annual International ACM SIGIR Conference, 1999: 230-237.

[11] Niemann K., Wolpers M.. A New Collaborative Filtering Appraoch for Increasing the Aggreate Diversity of Recommender Systems[C]. Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD’13), 2013: 955-963.

Collaborative Filtering Recommendation Method Incorporating with Controversial Items

Xu Ying1, Tao Hucheng2
(1. Education Support Center, Shanghai Police College, Shanghai 200137, China; 2. Shenzhen MaiDa Digital Company Limited, Shenzhen 518000, China)

By filtering out the most controversial items that may be accepted by the active users, a method is introduced increase the exposure rate of items positioned in long tail. The algorithm improves the novelty and surprising level for the users by improving the coverage of recommendation result, meanwhile only low relative accuracy is lost.

Collaborative Filtering; Recommender Systems; Fuzzy Uncertainty; Personalized Service

TP391.9

1007-757X(2016)09-0028-04

2016.05.17）

上海市教育委員會“晨光計劃”項目（13CGB13）

徐瑩（1986-），女，上海公安高等專科學校教輔中心，碩士研究生，研究方向：數據挖掘、推薦系統，上海 200137陶虎成（1973-），男，深圳市麥達數字股份有限公司，高級工程師，研究方向：機器學習、推薦系統，深圳 518000