基于聚類和獎懲用戶模型的協同過濾算法①

2020-03-22 07:42:02吳青洋鄧程鵬丁浩軒林勝海

計算機系統應用 2020年8期

吳青洋,程旭,鄧程鵬,丁浩軒,張宏,林勝海

(中汽數據有限公司,天津 300393)

由于互聯網不斷產生大量視頻、音頻、文章等,人們很難有效地找到自己喜歡的事物,個性化推薦系統能夠幫助人們快速從大量信息中作出選擇、提供建議、輔助決策[1].阿里,京東等公司通過使用推薦系統吸引了大量的用戶,并通過推薦系統提供的個性化服務,創造了驚人的銷售業績.

個性化推薦、基于內容的推薦和基于知識的推薦已經得到了廣泛應用,其中協同過濾(CF)是推薦系統中最突出、最流行的技術之一[2].協同過濾算法一般分為基于鄰域的協同過濾和基于模型的協同過濾.基于模型的協同過濾,通過使用大量數據來訓練模型,然后使用該模型預測用戶的偏好.加權λ 正則化的交替最小二乘法(ALS-WR)是基于模型的CF的一個經典案例,ALS-WR是基于矩陣因子分解算法實現的,并且能夠很好地解決數據的稀疏性和可擴展性問題[3].

基于模型的CF 在提高預測精度以及應對數據稀疏性方面優勢明顯.但它有一些缺點,如構建模型的成本很高[2].基于鄰域的CF 不需要構建特定的模型,而是使用用戶評分矩陣來計算用戶或項目之間的相似性.因此,基于鄰域的CF 實現起來更容易.但是,它也有一些缺點,如十分依賴用戶的評分、當數據很稀疏時預測精度急劇下降以及無法為新用戶進行推薦[2].基于鄰域的CF 算法又分為基于用戶的CF和基于項目的CF.基于用戶的CF和基于項目的CF 算法的本質是根據評分計算用戶相似性和項目相似性,在找到相似的用戶(稱為鄰居)后,基于用戶的CF 將鄰居們最喜愛而自己不熟悉的前N個項目進行推薦.當用戶數量遠遠大于項目數量時,基于用戶的CF 可擴展性較差.不少學者曾嘗試使用基于項目的CF 來解決可擴展性問題,但是當用戶和項目的數量很大時,仍然不能完全解決這個問題.盡管CF 有這些不足,但它仍然是最具代表性的推薦算法.

文獻[4]在致力于降低平均絕對誤差(MAE)或均方根誤差(RMSE)方面,對CF 算法進行了大量的研究.然而,對推薦系統來說僅靠降低MAE 或RMSE 數值,并不能從本質上提高推薦的準確性.假設兩個推薦系統具有相同的評分預測MAE 或RMSE.值得注意的是它們在用戶體驗(UX)方面可能不同,因為一個推薦系統可能推薦一個項目,而另一個推薦系統沒有推薦該項目.針對上述不足,與用戶體驗相關的性能指標,如查準率、召回率和F1-score 得到了廣泛應用.

潘多拉互聯網電臺、Netflix和Artsy 基于聚類的推薦算法分別開發了音樂基因組項目、微電影和藝術基因組項目.這些基于聚類的推薦算法取得了令人滿意的效果,但是聚類的處理成本很高.例如,就音樂基因組項目而言,音樂家分析每首歌曲的過程通常需要20 到30 分鐘.

綜上所述,基于鄰域的協同過濾算法存在數據稀疏性以及冷啟動問題,基于模型的協同過濾算法在提高預測精度以及應對數據稀疏性方面優勢明顯,但構建模型的成本很高.Netflix、Artsy 基于聚類的推薦算法取得了令人滿意的效果,因此本文采用聚類的推薦算法,針對聚類的處理成本較高,本文設計了一種處理成本低、只需要用戶給出評分,簡單易于實現的聚類的算法;為了提高推薦準確率,根據實際評分數據和皮爾遜相關系數,將用戶分為若干用戶簇,并深入研究了用戶與用戶簇之間的偏好的差異,根據同一用戶簇中用戶的偏好傾向,對每個項目進行激勵/懲罰,即本文通過使用激勵/懲罰用戶模型(IPU)的CBCF 算法,在準確率、召回率和F1-score 方面來提高推薦系統的性能.

1 相關研究

本文提出的算法涉及推薦系統中的CF 算法、聚類算法、基于聚類的推薦系統等研究領域,對推薦系統的性能指標諸如準確率和召回率等進行了研究分析,并總結了基于CF 算法的偏好預測以及兩種聚類算法.

1.1 CF 算法

CF是推薦系統最常用的技術之一,但在數據稀疏和冷啟動等方面存在不足[5].如果用戶評分矩陣過于稀疏,那么預測評分就會不準確.此外,CF 很難對新用戶或項目進行預測評分.解決這兩個問題有很大的挑戰[6].文獻[4]在如何提高CF 推薦系統的預測精度上進行了研究.

1.2 聚類算法

聚類已廣泛應用于各種數據挖掘應用:如K-means以及文獻[7]提出的監控游戲粘性DBSCAN 聚類算法.文獻[8]提出了一種新的基于熵的目標函數來聚類不同類型的圖片.為了滿足并行處理系統的實時性要求,文獻[9]中提出了一種改進的一維數據均值聚類算法.

1.3 基于聚類的推薦系統

文獻[10–12]在通過聚類算法提高推薦的準確性方面進行了深入研究.文獻[10]中,CF和基于內容的推薦分別用于查找相似的用戶和項目,并進行聚類,然后對目標用戶進行個性化推薦.結果表明在準確率、召回率和F1 score 方面的表現有所改善.文獻[11]提出對每組數據進行矩陣分解之前先進行聚類處理.文獻[12]對使用K-means、自組織映射(SOM)和模糊C 均值(FCM)聚類算法應用于基于用戶CF的性能進行研究.結果表明,與K 均值和SOM 聚類算法相比,使用FCM 聚類算法的基于用戶的CF 具有更好的性能.

1.4 性能指標分析及偏好預測方法

文獻[13]研究了廣泛應用于評價推薦系統優劣的性能指標,如準確率、召回率和F1-score 等.使用CF進行偏好預測的算法分為基于鄰域的推薦算法和基于模型的推薦算法.基于鄰域的推薦算法直接利用大量歷史數據來預測目標項目的評分,并為活躍用戶進行推薦.基于鄰域的推薦算法進行推薦過程中需要將所有數據加載到內存中,并在數據上實現特定的算法.基于模型的推薦算法通過基于已知數據利用數據挖掘的方法來建立預測模型,建立好預測模型后,在推薦過程中就不再需要歷史數據了[14].

本文研究了基于鄰域的CBCF 算法,盡管基于模型的方法在預測速度和可擴展性方面具有優勢,但在靈活性和預測質量等方面存在不足,建立模型通常是一個耗費時間和資源的過程,建立模型的方式對預測質量的影響較大.

1.5 聚類

在SOM、K-means、FCM和譜聚類等聚類算法中,本文選擇了譜聚類和FCM 聚類算法,因為這兩種算法能取得令人滿意的效果.下面簡單闡述一下這兩種算法.

譜聚類使用了關聯矩陣的特征向量來進行聚類.兩個對象之間的相似度越高,這兩個對象之間的關聯值越大.高斯相似度函數用于計算兩個對象之間的相似度,常用于構造關聯矩陣,高斯相似函數s(xi,xj)=其中,σ控制鄰居范圍的大小[15].得到關聯矩陣后,對關聯矩陣的特征向量來進行聚類,最后譜聚類根據特征向量來進行聚類.譜聚類實現簡單,可以通過標準的線性代數軟件進行求解,而且效果明顯也優于傳統的聚類算法(如K-means 算法)[15].

FCM 聚類[16]通過系數將對象xi劃分到簇cj,使每個對象成為具有不同模糊隸屬度的所有聚類的成員,其中m是控制集群模糊程度的超參數.m越大,簇越模糊.FCM 聚類首先在給定多個聚類的情況下隨機初始化每個聚類的中心點.然后,重復以下兩個步驟直到兩次迭代之間系數的變化小于給定的閾值.(1)計算每個簇的質心;(2)計算每個點在簇中的系數.

2 基于聚類和獎懲用戶模型的推薦算法

2.1 問題定義

本文的創新在于當MAE 或RMSE 相同的情況下,可以做出是否推薦某個項目的正確決策,來提升用戶體驗.例如,假設用戶A 對項目B的實際評分為4.2,兩個推薦系統分別預測用戶A 對項目B的評分偏好為3.8和4.6.預測評分大于4.0的項目將推薦給用戶,這兩個推薦系統的MAE是相同的,但只有后一個系統會推薦該項目.為了提升用戶體驗,本文根據用戶的偏好傾向對每一個項目進行激勵或懲罰.為此,將用戶分為若干簇,并根據用戶所屬的簇的情況來決定對項目的獎懲.圓形項目分別表示測試數據和訓練數據.和ru,i分別

圖1顯示了使用IPU 模型的CBCF 算法的示例,假設有2 個項目和4 個用戶簇,假設用戶被分成4 個簇,即C1、C2、C3和C4.從圖1可以看出,用戶u1、u2、u6和u17 屬于簇C1.其中,實心方形項目和實心為用戶u對項目i的預測評分和實際評分,其中基于鄰域的CF和基于模型的CF 可用于評分預測.如圖1所示,用戶17 對項目1 實際的評分ru17,i1=4.0及其預測的評分=3.9.用戶u已經評分的項目用紅色實心表示,沒有評分的項目用空心表示.例如,在簇C1中,用戶u1、u2和u17 對i1的評分分別為5.0、5.0和4.0,即ru1,i1=5.0、ru2,i1=5.0和ru17,i1=4.0.用戶u1、u2和u6 對i2的評分分別為5.0、4.0和3.0,即ru1,i2=5.0、ru2,i2=4.0和ru6,i2=3.0.表示為用戶簇Cc中用戶對項目i的平均偏好.可以表示為:

其中,Ui,c是用戶簇Cc中對項目i進行評分的一組用戶.如圖1所示,用戶簇C1 對i1的平均偏好為4.67.

圖1 基于IPU 模型的CBCF 算法的例子,假設有2 個項目和4 個用戶簇,實心方形項目和實心圓形項目分別表示測試數據和訓練數據

算法1.使用IPU 模型的CBCF 算法Cic≥γ 1.if then∧ru,i≥β 2.if then 3.將項目i 推薦給用戶u 4.else 項目i 不被推薦5.else∧ru,i≥α 6.if then 7.將項目i 推薦給用戶u 8.else 項目i 不被推薦9.end

如前所述,準確率、召回率和F1-score 作為性能評估的指標,這3 個性能指標可以表示為真正類(TP)、真負類(TN)、假正類(FP)和假負類(FN)的函數.假設預測條件為真.如果條件實際為真(或假),則為TP (或FP),假設預測條件為假,如果條件實際上為真(或假),則為FN (或TN).對于給定的用戶u和項目i,TP、TN、FP和FN 依賴于α、β和γ,因此:

其中,IA(x)是集合A函數,δpref是確定用戶是否真正喜歡相應項目的閾值,其中δpref通常設置為4.0 (用戶評分滿分為5.0)或8.0 (用戶評分滿分為10.0).如果≥γ,≥β,ru,i≥δpref則=1;如果<γ,≥α,ru,i≥δpref則=1;反之=0.類似的,如果≥γ,≥β,ru,i<δpref則=1;如果<γ,≥α,ru,i<δpref則=1,反之=0 而且,如果≥γ,<β,ru,i≥δpref則=1;如果<γ,<α,ru,i≥δpref則=1;反之=0.的計算方法與上述方法類似.基于式(2),準確率和召回率為:

其中,T表示用于計算準確率和召回率的測試數據集.F1-score 計算公式如下:

回顧圖1中的例子,其中α=4.5,β=3.5,γ=3.0.實心方形項目表示測試數據.假設評分超過4 星的項目是用戶所感興趣的,即δpref=4.0,是推薦系統中的一個典型假設[17].那么,項目i1 應該推薦給用戶u17,而不能推薦給用戶u8.用戶u29和u8 實際上對項目i2 很感興趣.根據圖1中的測試數據集,TP、TN、FP和FN 總結在表1中.本文將不使用聚類算法的CF與本文提出的算法進行比較,為此,假設γ=0,并修改推薦策略,只有當預測的偏好不小于4.0 時,才推薦項目i.表1中描述了TP、TN、FP和FN,從表1可知,當γ=0 時,u4 對項目i1 感興趣,u6、u8 對項目i2 感興趣,當γ=3.0 時,u17、u4 對項目i1 感興趣,u6、u29、u8 對項目i2 感興趣,即u17 實際上對項目i1 很感興趣,u29 實際上對項目i2 很感興趣.利用表1的結果,本文計算γ=0和γ=3.0 這兩種情況的準確率和召回率,如表1所示.

表1 當γ=0和γ=3時,TP、TN、FP和FN的例子

(1)γ=0(不使用聚類的CF 算法):從表1可以看出,TP=2,FP=1,FN=3.因此,使用式(3)計算準確率為2/3,召回率為2/5.

(2)γ=3.0(本文提出的算法):假設 α=4.5 且β=3.5.從表1可以得出,TP=4,FP=1,FN=1,使用式(3)計算準確率為4/5,召回率為4/5.

因此,當用戶分為多個簇,使用IPU 模型,并適當調整系統參數α、β和γ,可以顯著地提高準確率和召回率.

2.2 公式化

值得注意的是,準確率、召回率和F1-score 隨α、β和γ的變化而變化.因此,本文的目標是找到最優值α、β和γ,從而最大化F1-score(或召回率).因此,本文提出了一個新的約束優化問題(由于參數δpref通常設置為某個值,為了簡化符號,則δpref將從每個函數的參數中刪除)如下所示:

其中,δprecision是一個預先定義的閾值,并根據不同類型的推薦系統適當地調整該值.根據不同目的對式(5)進行修改也很容易.例如,當recall(α,β,γ)≥ δ 情況下,最大化precision(α,β,γ),或precision(α,β,γ)≥δ的情況下,最大化recall(α,β,γ),找到最優的α、β和γ,其中δrecall是一個預先定義的召回率閾值.因此,使用IPU 模型的CBCF 算法,通過用戶聚類以及找到參數α、β和γ的最優值可以提高準確率、召回率和F1-score.

2.3 基于IPU 模型的CBCF 算法

CBCF 算法通過用戶聚類以及使用IPU 模型分析用戶間的偏好傾向從而進行推薦.使用IPU 模型的CBCF 算法的核心是根據(用戶簇Cc中對項目i的偏好的均值)的結果對每個項目進行激勵或懲罰.由于評分矩陣RCBCF中存在用戶未評分項目,因此無法準確計算用戶向量之間的歐幾里得距離(即RCBCF中的行向量).因此,本文使用皮爾遜相關系數(PCC).PCC 通過計算兩個用戶的共同評分之間的相關性來衡量其相似性,兩個用戶u1和u2 之間的相似度s(u1,u2)為:

其中,Iu1和Iu2分別是u1和u2 評分的項目集,和分別是u1,u2 用戶評分項目交集Iu1∩Iu2上的評分均值.s(u1,u2)的范圍是–1 到1.

算法2.使用IPU 模型的CBCF 算法1.用戶簇 ;C∈{C1,···,Cc}2.初始化n,x,m的用戶評分矩陣 ;R←RCBCF 3.預測評分;RCBCF 4.初始化閾值 ;u←1 α,β,γ 5.for to n do Iu←6.用戶測試集中缺少評分的項目;u;7.ru,Iu← Iu 8.項目的預測評分;i←1 |Iu|9.for to do Ctmp←10.用戶u 所屬的用戶簇;Ci 11.用戶簇中的用戶對項目i的評分均值;ru,i≥α tmp←12.if then 13.將項目i 推薦給用戶u;ru,i≥β Ci 14.else if &&then 15.將項目i 推薦給用戶u;16.else 項目i 不被推薦;17.end 18.end tmp≥γ

下面著重說明算法2的整個流程:首先,通過聚類的結果獲得聚類集合C,并初始化n,x,m評分矩陣RCBCF(參見算法2 中的第1、2 行).接下來,使用基于鄰域的算法預進行偏好預測,并將預測結果保存在中(參閱第3 行).更具體地說,基于用戶/項目的CF 算法用于評估本文提出的CBCF 算法的性能.通過求解式(5)中的優化問題,確定閾值α、β和γ.在for 循環中,Iu是用戶u的測試集中缺少評分的項,是Iu中的預測評分,其中|Iu|表示Iu的基數.下面通過α、β和γ 來決策是否推薦某些項目.當≥α,時,將項目i推薦給用戶u,而不需要考慮算法1 中提到的閾值 γ(參考算法2 中的第11、12 行).當<α,時,那就需要考慮閾值γ 以及,其中表示某項用戶簇的偏好均值.當<γ 時,即使β≤<α,項目i也不會被推薦.這因為當<γ 時,給對項目i進行懲罰.當>β和≥γ時,將向用戶u推薦項目i(參考第13、14 行).當<β (參考第15行)時,項目i不會被推薦.

求解式(5)中的優化問題,確定閾值α、β和γ.在迭代執行算法2的同時不斷改變α、β和γ值.也就是說,根據式(5),迭代執行算法2 中的第4～17 行,來獲取α、β和γ的最優值.

使用IPU 模型的CBCF 算法總結如下:

(1)通過使用IPU 模型以及CBCF 算法來決策是否將項目i推薦給活躍用戶u.

(2)當(即≥α),那么將項目i推薦給用戶u.

(3)當≥β和≥γ,向用戶u推薦項目i,是用戶簇Cc對項目i的偏好均值.

3 實驗

3.1 實驗數據集

本節描述數據集以及數據結構.CBCF 常用于非冷啟動用戶,但它對冷啟動用戶同樣有效.本文使用MovieLens 數據集下的載地址為:https://grouplens.org/datasets/movielens/,其中有好幾種版本,對應不同數據量,本文所用的數據為100 KB的數據集.

100 KB的數據集具有以下屬性:

(1)評分最高為5 星;

(2)每個用戶至少有20 條評分記錄;

(3)100 KB 數據集有100 000 條評分記錄;

(4)100 KB 數據集有943 個用戶和1682 部電影.

值得注意的是,從movieens 100 KB 數據集獲得的評分矩陣的稀疏度(即評分矩陣中丟失的單元格數與單元格總數的比值)為93.7%.數據稀疏性問題的一個普遍解決方法是采用數據填補的方式,對缺失的單元格用零補全[18].

即使采用數據填補的方法能顯著提高預測精度,本文的重點在給定準確率的條件下最大化召回率(或F1- score)而非解決數據稀疏性問題,因此沒有采用數據填補方法.數據結構描述如下.

假設推薦系統中有一組用戶U和一組項目I,如下:

其中,n和m分別表示用戶數和項目數.評分矩陣RCBCF如下:

其中,ru,i是用戶u對項目i的評分,其中u∈{1,···,n}i∈{1,···,m}.值得注意的是,RCBCF可以是用戶的顯式評分,也可以是用戶的隱式評分.如果用戶u未對項目i進行評分,那么ru,i為空.

將用戶集U分為多個用戶簇,用戶簇是評分矩陣RCBCF中的一組類似的用戶.為了聚類U,定義了n個用戶向量,每個用戶向量由m個元素組成.

對于b∈{1,···,n}.假設n個用戶向量聚集到C個用戶簇中,其中的用戶簇集合C表示為:

同一個用戶簇中用戶的偏好相似度比不在同一個用戶簇中的其他用戶更接近.例如,假設有4 個用戶向量,分別為u1=[2,0,1,0],u2=[0,4,0,2],u3=[3,0,2,0]和u4=[0,3,0,2].需要將這4 個向量分成2 個簇.那么,u1和u3 將被分到一個族中,根據用戶的評分,他們是相似用戶,因為(u1,u3)之間的歐幾里得距離比(u1,u2)、(u1,u4)、(u3,u2)和(u3,u4)等其他組合的歐幾里得距離更近.

數據結構如表2所示.數據由以下3 個字段組成:用戶ID、項目ID和用戶評分.例如,如果用戶u1 對項目i1的評分為4.0,那么插入一個新的記錄“u1|i1|4.0”.

表2 數據結構

3.2 實驗結果與分析

本文從準確率、召回率和F1-score 方面來評估使用IPU 模型CBCF 算法的性能.本實驗中,除特殊說明外,默認采用基于項目的CF,因為它在基于鄰域CF 推薦的準確率上有更好的性能,這將在本節后面進行驗證.本文使用Apache Mahout 來構建執行機器學習任務(如CF、聚類和分類)的環境.當滿足以下條件時,假設推薦結果為真:

(1)實際評分為4.0 或5.0的項目向用戶推薦.

(2)實際評分低于4.0的項目不向用戶進行推薦.

本實驗中,譜聚類和FCM 聚類算法均設置c=10;根據文獻[19]將FCM 聚類的模糊度m設置為2;并將FCM 聚類的收斂閾值設置為1 0?4.在FCM 聚類中,將對象分配給具有最高系數的聚類.本實驗中,除特殊說明外,默認采用譜聚類.圖2比較了簇間和簇內的歐幾里德距離,以證明聚類的效果.PCC的值在–1.0和1.0 之間,其中1.0和–1.0 意味著兩個對象(如用戶)分別具有最高的正相關和負相關.由于大多數聚類算法不采用負相關,因此兩個用戶u1和u2 之間的PCC 值,即s(u1,u2),如下所示:

圖2 簇間和簇內的歐幾里德距離比較結果

接近0 表示高度正相關,而接近2 表示高度負相關.如圖2所示,從簇0的角度看,簇內距離小于簇間距離.因此,基于PCC的聚類是有效的.

圖3顯示了當閾值γ設置為3.4,α和β(分別對應于給予懲罰和激勵的閾值)對F1 分數的影響.當α=3.7和β=2.9 時,使用IPU 模型的CBCF 算法的F1的最大值為0.7451.實驗結果表明,隨著α和β的增加,F1-score降低,因為隨著α和β的增加,召回率的下降幅度大于準確率的上升幅度.如果α和β都很大,那么準確率和召回率分別增加和減少.然而,由于召回率的下降幅度大于準確率的上升幅度,F1-score 也相應降低.例如,在圖3中,當α=3.7,β=2.9,γ=3.4 時,準確率為0.6595,召回率為0.8564;當α=4.4,β=4.4,γ=3.4 時,準確率為0.6853,召回率為0.076.

圖4顯示當采用不考慮聚類(即γ=0)的基于項目CF 算法時,F1-score 隨著推薦閾值的變化趨勢,如果某個項目的預測評分大于推薦閾值,那么將向用戶推薦相應的項目.如果實際評分超過4.0,那么該推薦是有效的.如圖4所示,當閾值為3.1 時,F1-score的最大值為0.7282.實驗結果表明,總體趨勢與圖3相似,與不采用聚類的基于項目的CF的算法相比,本文所提出算法的F1-score 提高近3%.

圖3 當閾值γ為3.4,α和β 對F1-score的影響

圖4 基于項目的CF,F1-score 隨著推薦閾值的變化趨勢

表3顯示了使用IPU 模型CBCF 算法和不使用聚類的基于項目的CF 算法在給定準確率情況的召回率和F1-score.基于項目的CF 算法(未使用聚類算法)中,當閾值設置為4.0,準確率為0.7449 時,召回率的最大值為0.2815.使用IPU 模型CBCF 算法中,當準確率為0.7449,α=3.9,β=2.1,γ=4.2 時,召回的最大值為0.4343.召回率提高近50%.也就是說,如表3所示,在準確率相同的情況下,與基于項目的CF(未使用聚類算法)相比,本文提出的算法具有非常高的召回率.從圖3、圖4和表3可見,本文提出的算法在給定準確率的情況下,召回率或F1-score 得到了很大的改進.

表3 給定準確率情況的最大召回率和F1-score.

一般來說,推薦閾值越小,準確率越低,召回率越高,反之亦然.然而,如前所述,當閾值變得非常大時,F1-score 會迅速下降,因為召回率的下降幅度大于準確率的上升幅度.

本文提出的CBCF 算法中,也可以使用基于用戶的CF 代替基于項目的CF 通過求解式(5),找到參數α,β和γ最優值,對使用IPU 模型基于項目的CF 算法分別使用譜聚類和FCM 聚類算法的性能進行比較,如表4所示,以及對采用IPU 模型基于用戶的CF 算法分別使用譜聚類和FCM 聚類算法的性能進行比較,如表5所示,以上測試數據都不包含冷啟動用戶.根據實驗結果,總結如下:1)基于項目的CF 算法比基于用戶的CF 在F1 分數上有更好的表現;2)基于FCM 聚類的算法比譜聚類有更好的表現.

表4 比較本文提出的算法(基于項目的CF)分別使用譜聚類和FCM 聚類算法的性能

表5 比較本文提出的算法(基于用戶的CF)分別使用譜聚類和FCM 聚類算法的性能

此外,還比較了本文提出的算法(采用譜聚類)與未使用聚類的CF 算法基于冷啟動用戶(評分項目數少于20)數據的性能.由于movieens 100 KB 數據集不包含冷啟動用戶的記錄,根據文獻[20]修改了實驗設置.具體來說,本文選取了有過20～30 部電影評分記錄的290 名用戶的數據作為測試集,并隨機抽取每個用戶3～20 個評分項目.原始數據集中剩余的653 個用戶作為訓練集.表6中的結果與非冷啟動用戶的結果具有相似的趨勢,CBCF 算法的性能優于未采用聚類的CF算法.

表6 比較本文提出的算法與未采用聚類的CF 算法基于冷啟動用戶數據的性能

4 結束語

通過對推薦系統的不斷探索,本文提出了使用IPU 模型的CBCF 算法,并提出了一個約束優化問題,即在給定準確率的條件下最大化召回率(或F1-score).為此,應用聚類算法,根據實際評分和皮爾遜相關系數將用戶分為多個聚類,并根據同一個聚類內用戶的偏好傾向,對每個項目進行激勵或懲罰.實驗結果表明,采用IPU 模型的CBCF 算法在給定準確率的條件下,召回率或F1-score 有顯著地提高.本文未來研究的一個方向是通過利用基于模型的CF 算法(如矩陣分解)的特性,設計一種新的基于聚類的CF 算法.