彭玉 馬永波



摘要:協(xié)同過濾算法是當今電子商務推薦系統(tǒng)中主要采用的技術(shù)之一,然而用戶-物品矩陣的稀疏性問題卻是協(xié)同過濾算法的主要限制之一。為了解決這一問題,文章提出了一種基于信任的協(xié)同過濾算法。該方法利用用戶對物品的評分來計算用戶間的直接信任,然后基于信任推理生成信任矩陣,以找到最近的鄰居并為用戶進行推薦。與傳統(tǒng)的協(xié)同過濾算法相比,提出的方法能夠利用額外的信息來幫助緩解稀疏性問題。實驗結(jié)果表明,該算法可以顯著改善推薦性能。
關(guān)鍵詞:推薦系統(tǒng);協(xié)同過濾;信任推理;稀疏性
中圖分類號:TP31 文獻標識碼:A
文章編號:1009-3044(2024)14-0035-03 開放科學(資源服務)標識碼(OSID) :
0 引言
推薦系統(tǒng)根據(jù)用戶的過往行為和興趣向他們推薦產(chǎn)品和信息,它是解決信息過載問題、幫助用戶做出更好決策的有用工具。如今,電子商務網(wǎng)站廣泛使用推薦系統(tǒng)來推薦圖書、CD、新聞、電影、旅行產(chǎn)品等。協(xié)同過濾是當今推薦系統(tǒng)中使用的主要技術(shù)。它通過識別與目標用戶有相似興趣和偏好的其他用戶,然后通過匯總這些用戶對物品的評分來進行推薦。
然而,隨著電子商務推薦系統(tǒng)中用戶和物品數(shù)量的急劇增加,即使是那些在評分方面活躍的用戶也只能對總體物品中的少數(shù)進行評分,甚至流行的物品也只能被總體用戶中的少部分評價過,導致了一個稀疏的用戶-物品矩陣。由于稀疏性,無法正確計算用戶之間的相似度并進行推薦。即使相似度的計算可行,由于信息不足,推薦可能也不可靠。這個稀疏性問題已被確定為協(xié)同過濾的主要局限之一,提出了幾種方法來解決這個問題,包括降低用戶-物品矩陣的維度[1],使用基于物品的相似度或物品類別相似度替代基于用戶的相似度[2],對用戶進行聚類以找到相似用戶[3],并使用信任度指標代替相似度。
本論文提出了一種基于信任矩陣的協(xié)同過濾推薦算法,以處理稀疏性問題。該算法利用用戶之間的信任關(guān)系和信任推理來為目標用戶尋找更多的鄰居,能夠緩解傳統(tǒng)協(xié)同過濾算法的稀疏性問題并提高推薦性能。本文的組織如下:第1節(jié)回顧了基于信任的推薦算法的相關(guān)工作。第2節(jié)詳細說明了提出的基于信任的協(xié)同過濾推薦算法。第3節(jié)用相應的實驗來驗證提出算法的有效性。第4節(jié)總結(jié)了本文并提出未來研究工作的方向。
1 相關(guān)工作
信任被定義為用戶對另一個用戶可靠性的主觀信念。信任可以分為直接信任和間接信任。直接信任是一個用戶通過直接互動而對另一個用戶產(chǎn)生的信任,而間接信任是一個用戶通過信任傳播而對另一個用戶間接產(chǎn)生的信任。所有用戶之間的信任關(guān)系可以在一個全局信任網(wǎng)絡中進行聚合,該網(wǎng)絡是一個有向加權(quán)圖。節(jié)點代表用戶,實線邊和虛線邊分別表示用戶之間的直接信任和間接信任。每條邊的權(quán)重表示一個用戶對另一個用戶的信任程度。
許多研究者已經(jīng)將不同的信任度量引入到協(xié)同過濾中,以替代或補充相似度度量,以便為目標用戶找到最近的鄰居,并提出了不同的基于信任的協(xié)同過濾算法。他們利用來自Epinions.com的用戶顯式信任評級和信任傳播來為給定用戶尋找更多的鄰居[4]。這種方法可以增加協(xié)同過濾的覆蓋率并提高推薦性能,但需要用戶提供顯式的信任評級,并為用戶帶來額外的成本。其他方法使用用戶對物品的評分來計算一個全局的“聲譽”值,該值近似表示所有其他用戶對特定用戶的整體信任程度[5]。這種方法并沒有考慮不同用戶對特定用戶有不同的意見。此外,正如所提出的,使用全局信任指標會增加預測錯誤,特別是當存在一些具有爭議的用戶,受到許多人的信任和不信任的情況下。本文使用用戶對物品的評分來計算用戶之間的信任值,這反映了不同用戶的主觀意見,然后利用這些信任值來替代相似度度量,為給定用戶找到鄰居并進行推薦。
2 基于信任的協(xié)同過濾推薦算法
提議的基于信任的協(xié)同過濾推薦算法將用戶-項目矩陣作為輸入,并計算出直接信任的程度,以生成一個初始的信任矩陣。然后,按照預定義的信任傳播規(guī)則,算法推斷出用戶之間的間接信任程度,并將初始信任矩陣轉(zhuǎn)換為更密集的信任矩陣。這個更密集的矩陣用于找到目標用戶的k個最近鄰居,并推薦具有最高預測評分的項目。
2.1 直接信任
正如文獻[6]所建議的,信任和用戶相似度之間存在著強烈且正向的相關(guān)性,兩個用戶越相似,它們之間建立的信任就越大。因此,在推薦系統(tǒng)的背景下,相似度可以用來衡量信任。有多種相似度度量方法,比如皮爾遜相關(guān)系數(shù)、余弦向量相似度和均方差差異。本文使用常用的皮爾遜相關(guān)系數(shù)來計算兩個用戶之間的相似度。
這里,Cab 表示由用戶a 和用戶b 共同評分的條目數(shù),而用戶rak 和rbk 表示評分用戶a 和用戶b 分別對項目k 的評分。-ra 和-rb 分別表示用戶a 和用戶b 的平均評分。
此外,引入了一個置信度變量Ponfab 來表示兩個用戶之間相似度的可靠性。置信度與用戶a 和用戶b共同評分的項目數(shù)量相關(guān),并且可以計算為:
在等式(2) 中Ponfab 表示用戶a 對用戶b 的相似性的信心,Cab 表示由用戶a 和用戶b 共同評分的項目數(shù)量,N 是所有用戶的數(shù)量,并且max {Can },n =1,...,N,n ≠ i 是由用戶a 共同評分的項目數(shù)以及用戶b共同評分項目數(shù)最多的用戶。用戶a 對用戶b 的直接信任為:
Ta → b = Ponfab × sim(a,b) (3)
用戶之間的直接信任可以使用方程(3) 來計算,并產(chǎn)生一個初始的信任矩陣。這種方法考慮了信任的主觀性。不同的用戶對于特定用戶的可信度有不同的意見,用戶a 對用戶b 的信任并不一定等于用戶b和用戶a的信任。
2.2 信任推斷
用于推斷用戶之間間接信任的信任傳播規(guī)則定義如下。設l 為最大信任傳播距離。如果存在一個從節(jié)點S 到節(jié)點M 的信任傳播路徑,表示為P (S,N1,N2,...,Nt,M ),并且路徑的距離不大于l,則節(jié)點S對節(jié)點M的間接信任被定義為沿著信任傳播路徑的節(jié)點之間直接信任值的最小值。
TS → M = min {TS → N1,TN1 → N2,...,TNT → M } (4)
如果節(jié)點S和節(jié)點M之間存在多個信任傳播路徑p1,p2,...pm,其距離都不大于l,則節(jié)點S對節(jié)點M的間接信任值被計算為所有從節(jié)點S到節(jié)點M的信任傳播路徑獲得的間接信任值的平均值。
使用上述方法,表示用戶直接信任的初始信任矩陣可以轉(zhuǎn)換為一個更密集的信任矩陣。
2.3 推薦的產(chǎn)生
從生成的信任矩陣中選擇目標用戶最信任的k個最近鄰居,然后使用如下公式來預測用戶對未知項目的評分,并推薦具有最高預測評分的項目。
在這里,Pai 表示目標用戶a 對未知項目i 的預測評分。-ra 和-ru 分別表示目標用戶a 和用戶u 的平均評分。rui 表示用戶u 對項目i 的評分。wau 表示推薦項目i 中用戶u 的權(quán)重,在本文中它代表目標用戶a 對用戶u的信任程度。
3 實驗結(jié)果及分析
3.1 數(shù)據(jù)集
本文使用由GroupLens研究小組提供的MovieL?ens數(shù)據(jù)集進行實驗,該數(shù)據(jù)集可公開獲取(http://www.grouplens.org) 。該數(shù)據(jù)集包含了10萬條評分,涉及943個用戶和1 682部電影,評分范圍從1(非常差)到5(非常好)。數(shù)據(jù)集的稀疏程度為93.69%。
3.2 評估指標
本文使用了最常用的統(tǒng)計準確性指標Mean Ab?solute Error(MAE) 來評估所提算法的預測準確性。MAE是實際評分值與預測評分值之間偏差的度量。設( pi,qi )為預測評分和實際評分值,MAE通過首先對這N個對應的評分的絕對誤差求和,然后計算平均值來計算。MAE越低,算法的評分預測越準確。
3.3 實驗結(jié)果
本文采用了5折交叉驗證方法,將數(shù)據(jù)集分為五個部分。每次隨機選擇一個部分作為測試集,其他四個部分作為訓練集。K最近鄰協(xié)同過濾被選擇為基準算法,分別在數(shù)據(jù)集上運行基準算法和所提出的算法,并將最終結(jié)果取不同訓練集和測試集上的MAE值的平均值。
由于信任傳播路徑越長,推斷的信任值越不可靠,實驗僅考慮最大信任傳播距離為2或3的情況。在這兩種情況下,所提出的算法得到的結(jié)果相似。鑒于算法的時間復雜性,本文僅介紹了信任傳播距離為2時的結(jié)果。最近鄰數(shù)K從10到50,步長為10,并將基準算法和所提出的算法的MAE值進行比較。
從上圖中可以看出,兩種算法的預測質(zhì)量隨著鄰居數(shù)量的增加而提高。而且,在所有鄰居數(shù)量上,基于信任的協(xié)同過濾推薦算法的MAE值都低于K最近鄰協(xié)同過濾算法。這個結(jié)果表明,所提出的算法具有比K最近鄰協(xié)同過濾算法更好的預測準確性。
4 結(jié)論與未來工作
協(xié)同過濾是當前推薦系統(tǒng)中主要使用的技術(shù),但用戶-物品矩陣的稀疏問題是協(xié)同過濾的主要限制之一。為了解決這一稀疏問題,本文提出了一種基于信任矩陣的協(xié)同過濾推薦算法。該算法利用用戶對物品的評分和信任推斷來生成表示用戶間信任值的信任矩陣,然后使用這些信任值替代相似度度量來尋找鄰居并為給定用戶進行推薦。實驗證明,所提出的算法優(yōu)于K最近鄰協(xié)同過濾的預測準確性。與傳統(tǒng)的K 最近鄰協(xié)同過濾相比,該算法能夠提供更多信息來緩解稀疏問題并增強推薦性能。未來的研究將致力于改進所提算法的信任度量,以提高算法對惡意攻擊的抵抗能力和推薦系統(tǒng)的魯棒性。
參考文獻:
[1] GOLDBERG K,ROEDER T,GUPTA D,et al.Eigentaste:a con?stant time collaborative filtering algorithm[J]. Information Re?trieval,2001,4(2):133-151.
[2] SARWAR B,KARYPIS G,KONSTAN J,et a1.Item—based col?laborative filtering recommendation algorithm[C]//Vincent Y Shen,Nobuo Saito,Michael R.Lyu,et al,eds.Proceedings of the 10th International World Wide Web Conference. New York:ACM Press,2001:285-295.
[3] 鄧愛林.電子商務推薦系統(tǒng)關(guān)鍵技術(shù)研究[D].上海:復旦大學,2003.
[4] MASSA P,AVESANI P.Trust-aware collaborative filtering for recommender systems[C]//MEERSMAN R,TARI Z.OTM Con?federated International Conferences "On the Move to Meaning?ful Internet Systems". Berlin, Heidelberg: Springer, 2004: 492-508.
[5] A K DEY. Understanding and using contex[J]. Personal and Ubiquitous Computing,2001,1(5):4-7.
[6] SARWAR B,KARYPIS G,KONSTAN J,et al.Item-based collab?orative filtering recommendation algorithms[C]//Proceedings of the 10th international conference on World Wide Web Confer?ence. New York, 2011:285-295.
【通聯(lián)編輯:梁書】