劉源 耿瑞煥
(鶴壁汽車工程職業學院 鶴壁 458030)
基于文本聚類的用戶聚類在推薦系統中的應用
劉源 耿瑞煥
(鶴壁汽車工程職業學院 鶴壁 458030)
協同過濾是推薦系統中最重要的技術之一。隨著電子商務用戶和商品數目的增加,在商品空間上用戶評分數據極端稀疏。本文提出一種基于文本聚類的用戶聚類方法,對用戶評論做文本聚類處理,再經過余弦相似性度量,得到用戶聚類,最終做出推薦。實驗結果表明,該方法可以反映用戶的真實興趣,有效的解決了稀疏性問題。
協同過濾;稀疏矩陣;文本聚類;用戶聚類
目前,個性化推薦的應用日益廣泛,已成為Web2.0時代的核心技術。本文提出一種基于文本聚類的用戶聚類方法,對用戶的評分做出預測,在一定的可靠性前提下解決了矩陣的稀疏性問題,提高推薦質量。
文本聚類根據文檔的某種聯系或相關性對文檔集合進行有效的組織、摘要和導航,方便人們從文檔集中發現相關的信息。
協同過濾推薦算法基于這樣一個假設:
假設1:如果用戶對一些項目的評分比較相似,則他們對其他項目的評分也會比較相似。
基于用戶的協同過濾算法整個過程可以分為以下三步:
步驟1:找出目標用戶的最近鄰居,首先采用用戶-項陣Rm,n表示用戶評分信息,其中m行表示m個用戶,n列表示n個項目,Ri,j表示用戶i對項目j的評分值。
步驟2:計算用戶相似性,找出最近鄰居。
相似性度量方法有余弦相似性、修正的余弦相似性和相關相似性3種,我們選擇相關相似性方法。
相關相似性:設經用戶i和用戶j共同評分的項目集合用Iij表示,相似度 sim(i,j)為:

步驟3:根據相似用戶對同一商品評分相近的假設為目標用戶做出推薦。
本文本文提出一種基于文本聚類的用戶聚類評分預測算法,以填充稀疏矩陣Rm,n。整個算法分為兩部分。
2.1 離線部分(用戶聚類)
(1)選取聚類中心用戶i;
(2)用余弦相似性度量計算得出同用戶i相似性最高的h-1個用戶與用戶i組成以i為中心,模為h的用戶簇NSi。
2.2 在線部分(評分預測)
若目標用戶i已經在離線階段生成用戶簇NSi,則只需將離線時獲得的用戶簇NSi中所有的h個用戶平均評分作為目標用戶評分預測,填充矩陣 Rm,n。
2.3 理論依據
文本聚類將聚類在一個文本簇的評價的所有發出者(用戶)認為為一個用戶簇Cluster。用類似于用戶-項矩陣Rm,n的用戶-簇矩陣Sm,k來表示用戶與用戶簇簇的關系:

表1
當目標用戶i不同時,NSi也會不同,將個別用戶單獨為中心進行聚類有更高的精確程度。這種聚類可以理解為預處理運算,它的實質是通過對文本聚類得到第一次用戶簇Cluster1~Clusterk,由于這個簇并不是我們需要的用戶簇NSi,所以我們需要進一步計算,以得到的用戶簇Cluster1~Clusterk作為維度進行余弦相似性的計算得到用戶簇NSi。
3.1 數據集的選擇
用戶簇-文本簇的關系同論文引用的關系非常相似:每篇引用者論文都可以考慮為一個用戶,每篇被引用論文都可以考慮為一個文本簇。最終選用了一份關于論文引用的數據集,數據集包括了629814篇論文和3021489個引用關系,由于數據集提供者已經將外部引用關系刪除,所以這里所提到的引用,均指內部引用。因此這個數據集可以抽象為一個圖,圖中論文作為一個頂點,引用作為一條邊。將入度最高的12596個頂點的作為被引用論文,將從這些頂點出發的邊全部刪除;剩下的50385個頂點作為引用者論文,將從進入這些頂點的邊全部刪除。若將這些邊看做無向的,則圖變成一個二部圖。它的關聯矩陣即為Sm,k矩陣。其中被引用論文為Cluster,引用者論文為User。
3.2 驗證過程
(1)記成功次數 Ns=0,Nf=0。
(2)隨機抽取值為1的項,將其置0。
(3)根據矩陣 Sm,k求出用戶 i的用戶簇 NSi。
(4)遍歷NSi中除了i以外的所有用戶,統計他們屬于Clusterj的數量,如果超過了NSi的規模h的一半,則Ns+1,否則Nf+1
(5)反復進行步驟2-步驟4,進行k次。得到最終的Ns和Nf。成功率=
3.3 驗證結果及分析
由表2可以看出,當h=15或20時,精度達到了0.61以上,可以認為本文提出的基于文本聚類的用戶聚類方法能夠可靠的反應用戶的興趣聚類情況,當抽樣次數k>5000次時,精度基本穩定。

表2
本文提出了一種基于聚類的評分預測模型,通過聚類技術術將具有相似興趣愛好的用戶分配到相同的簇中,用戶簇NSi產生之后,根據簇中其他用戶對商品的評價預測目標用戶對該商品的評價,從而填充稀疏矩陣Rm,n,提高了推薦的質量。實驗表明,這種基于文本聚類的用戶聚類方法是比較可靠的。
[1]姚清耘,劉功申.基于向量空間模型的文本聚類算法.計算機工程.2008,18:39~41
[2]王輝,高利軍.個性化服務中基于用戶聚類的協同過濾推薦.計算機應用,2007,5:1225~1227.
[3]趙 亮,胡乃靜.個性化推薦算法設計.計算機研究與發展,2002,39(8):986~991.
TP319
A
1004-7344(2016)25-0327-02
2016-8-20
劉源(1986-),男,漢族,河南鶴壁人,助教,碩士,主要從事網絡計算、物聯網方向的研究。