999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶相似度遷移的協同過濾推薦算法*

2014-11-10 07:10:14柯良文
網絡安全與數據管理 2014年14期
關鍵詞:用戶模型

柯良文,王 靖

(華僑大學 計算機科學與技術學院,福建 廈門361021)

協同過濾技術是推薦系統中應用最為廣泛和成功的推薦技術之一[1],其基本思想是:利用整個用戶集對項目集的歷史評分數據來預測目標用戶對其未評分的項目集的偏好程度,從而選擇若干個預測后偏好程度最高的項目作為推薦結果[2]。

傳統的協同過濾算法最為關鍵的步驟是度量用戶之間或項目之間的相似度。隨著系統規模的不斷擴大,用戶對項目評分數據極端稀疏時,利用傳統的方法難以準確地度量相似性,導致了推薦系統的推薦質量降低。為了緩解稀疏性的問題,多領域數據的遷移學習已受到了學者們的高度關注。目前,研究者已提出了多種基于遷移學習的推薦算法,如SINGH等人提出了一種聯合矩陣分解模型 CMF(Collective Matrix Factorization)[3],Li Bin等人提出了一種評分矩陣生成模型RMGM(Rating Matrix Generative Model)[4],Pan Weike等人則提出了一種坐標系統遷移模型CST(Coordinate System Transfer)[5]。這些算法均通過對輔助領域的知識進行遷移來幫助提高目標領域的推薦精度。

然而,在現有的遷移學習推薦算法中,如CMF模型和CST模型,需要輔助領域與目標領域的用戶空間一致,并且模型中需要控制較多的參數,受到了一定的限制。針對這些局限,本文提出一種用戶相似度遷移的協同過濾模型 UST(User Similarity Transfer),對輔助領域和目標領域共同用戶的相似度進行遷移。為了能夠充分利用輔助領域的用戶評分信息,本文的模型在輔助領域里采用先填充后計算用戶相似度的策略。另一方面,通過一種用戶特征子空間的距離來度量模型中的平衡參數,一定程度上消除了人為調控的局限性。

1 相關定義

首先給出本文中所使用的符號及含義。在輔助領域里,定義一個p×q的矩陣RA來表示p個用戶對q個項目的評分;在目標領域里,定義一個m×n的評分矩陣RT來表示m個用戶對n個項目的評分。評分矩陣的項ri,j表示用戶ui對項目vj的偏好程度,分值越大表示用戶對項目的偏好程度越高。為了方便描述評分矩陣的項是否被評分,在輔助領域和目標領域里分別定義一個只有0和 1值的標記矩陣 WA和WT,其中0表示該項未被評分,1表示該項已被評分。

2 基于用戶的協同過濾算法

基于用戶的協同過濾算法根據其他用戶的觀點產生目標用戶的推薦列表。首先利用已有的評分數據計算目標用戶與其他用戶的相似度,其次通過目標用戶的最近鄰居對某個項目的評分來預測目標用戶對該項目的評分[6]。

2.1 相似度的計算方法

相似度的計算是基于用戶的協同過濾算法中最為關鍵的一步。傳統的相似度度量方法有余弦相似度、修正的余弦相似度和pearson相關系數[2],本文采用實踐中實現效果較好的pearson相關系數來度量[7]。設I是ui和uj共同評分的項目集合,則 ui和uj的pearson相似度計算方法如下:

其中,ri、rj分別表示ui、uj對它們共同評分項目的平均評分。

2.2 產生推薦結果

根據目標用戶ui的最近鄰居集合C對項目的評分信息預測ui對未評分項目的評分,選擇預測評分最高的若干個項目作為推薦結果反饋給目標用戶。目標用戶ui對未評分項目vk的預測評分,可以根據ui的最近鄰居集合C對vk評分的平均加權得到[8],計算方法如下:

其中,ri、rj分別表示用戶 ui、uj對其已知評分項目的平均評分。

3 基于用戶相似度遷移的推薦模型

3.1 UST模型介紹

現實世界中,輔助領域和目標領域往往只有部分共同的用戶或項目,導致大部分現有的遷移學習算法在實際應用中具有一定的局限性。為了能夠提高傳統協同過濾算法用戶相似度計算的準確性,本文從相似度遷移的角度出發,建立用戶相似度遷移模型,以更好地利用輔助領域的評分信息幫助目標領域用戶相似度的學習。

定義Asim為輔助領域計算得到的用戶相似度矩陣,Tsim為目標領域計算得到的用戶相似度矩陣,通過加權的方法建立如下UST模型:

其中,α為平衡參數,用來控制輔助領域的用戶相似度對目標領域用戶相似度學習的遷移程度。

在UST模型中,首先利用輔助領域用戶評分數據計算用戶之間的相似度,然后通過式(3)計算目標領域的用戶相似度矩陣,最后對目標領域未評分的項目進行預測。

3.2 輔助領域用戶相似度的學習

為了利用輔助領域的評分數據來計算用戶相似度矩陣,UST模型首先通過一種填充的方法對輔助領域的缺失評分矩陣進行填充,然后對填充后的矩陣計算用戶間的相似度。這樣做的好處是能夠更有效地利用輔助領域已知評分的信息來計算用戶的相似性度。

矩陣分解MF(Matrix Factorization)技術是一種有效的填充方式,它希望通過找到一個低秩的矩陣來逼近RA[9]。記填充后的低秩矩陣為ZA,則通過矩陣分解的方法可以將ZA近似分解成如下形式:

其中,d 表示特征的維度,d<

其中,||·||F表示 Frobenius范數,⊙表示 Hadamard積,例如(W⊙R)i,j=Wi,jRi,j。 為 了 避 免 過 度 擬 合 , 在 式 (5)中 引入了正則項,則矩陣分解的模型可以修改為:

其中,λ1、λ2為正則項的控制參數,用來協調實際用戶評分矩陣和矩陣分解模型學習后的填充矩陣之間的訓練誤差。為了獲得式(6)模型的最優解,參考文獻[10]提出了一種交替最小二乘ALS(Alternation Least Squares)的迭代算法,它通過求 ?Γ(U,V)/?U=0 和 ?Γ(U,V)/?V=0 來交替地更新U和V,使模型逼近最小值,具體計算公式如下:

進一步地,將輔助領域填充后的矩陣ZA通過式(1)計算出輔助領域的用戶相似度矩陣Asim。

3.3 目標領域用戶相似度的學習

在UST模型中,α的大小受到目標領域和輔助領域相關性的影響。為了度量α的值,采用一種目標領域和輔助領域的用戶特征子空間距離來估計。設正交矩陣UT和UA分別是目標領域和輔助領域的用戶特征矩陣,則UT和UA的子空間距離可由下式計算:

其中,σ min(Z)表示Z的最小奇異值。為了獲得輔助領域和目標領域的用戶特征子空間UT和UA,可以通過矩陣的QR分解將U分解成一個列正交的矩陣Q和上三角矩陣 T[11]:

確定了平衡參數α,根據模型式(3)計算出目標領域最終的用戶相似度矩陣,最后通過式(2)為目標用戶產生推薦結果。

4 實驗結果和分析

為了驗證UST-CF算法的有效性,選取了以下幾種經典的非遷移學習協同過濾算法和遷移學習的協同過濾算法做比較:基于pearson相關相似性的協同過濾算法(PCC)[6];基于傳統矩陣分解的單個目標領域協同過濾算法(RMF)[10],即本文式(6)的模型;聯合矩陣分解的協同過濾算法(CMF)。為了驗證輔助領域評分矩陣填充后是否有利于提高目標領域用戶相似度計算的準確性,本文還對輔助領域未填充的UST-unImpute算法進行比較。

4.1 實驗數據集

采用 MovieLens(http://www.gouplens.org/node/73)站點的電影評分數據集來對比各種算法的效果。MovieLens數據集包括71 567個用戶對10 681個電影項目的約107條評分數據,其評分形式為{0.5,1.0,1.5,…,5.0}。為了度量整個數據集的稀疏性,引入數據稀疏度的概念,定義為用戶已評分數據占整個數據集的比例,可以得到該數據集的稀疏度為 107/(71 567×10 681)≈1.31%。

4.2 評價標準

推薦系統的質量由預測結果的精度決定。實驗中,采用兩種廣泛的評價方法:均方根誤差RMSE(Root Mean Square Error)和平均絕對誤差 MAE(Mean Absolute Error),具體計算方式如下:

其 中 ,pi,j、ri,j分 別 表 示 預 測 評 分 值 和 實 際 評 分 值 ,TE表示訓練集的下標集合。

4.3 參數設定

對幾種比較算法的參數做如下設定:對于基于最近鄰的協同過濾算法(如 PCC、UST-unImpute、UST-CF),選擇的最近鄰居數為{5~300};對于RMF模型和CMF模型,選擇的特征維度為{4,5,…,10},正則項參數為{0.1,1,5,10},平衡參數為{0.1,0.5,0.9}。

4.4 實驗方案和結果分析

根據目標和輔助領域的用戶集相同且評分形式一致、用戶集相同但評分形式不一致、用戶集不相同但評分形式一致這三種情形設計3個實驗方案,每種方案的輔助領域的稀疏度均固定為5%。

方案1用戶集相同且評分形式一致

從數據集中隨機選取1 000個用戶對2 000個電影的評分數據,將其中1 000部電影作為輔助領域的項目,剩余的1 000部電影作為目標領域的項目。目標領域內每個用戶至少評價過25部以上的電影。進一步地劃分目標領域的訓練集和測試集,其中訓練集按照不同的數據稀疏度劃分為5組,每一組的稀疏度依次為1.0%、1.5%、2.0%、2.5%和3.0%,而每組剩余的評分數據作為測試集。

方案2用戶集相同但評分形式不一致

從數據集中隨機選取1 000個用戶對1 500個電影的評分數據,將其中1 000部電影作為輔助領域的項目,剩余的500部電影作為目標領域的項目。在輔助領域里人為地對用戶評分數據進行如下轉化:對評分≧4的項用1來代替,評分<4的項用0來代替。目標領域里每個用戶至少評價過20部以上的電影,訓練集和測試集的劃分同方案1。

方案3用戶集不同但評分形式一致

從數據集中隨機選取2 000部電影,其中1 000部作為輔助領域的項目,剩下的1 000部作為目標領域的項目。輔助領域和目標領域的用戶數均固定為1 500個,并且按照兩個領域的共同用戶數劃分5組實驗。每組實驗的共同用戶數分別為 300、600、900、1 200、1 500。 目標領域里每個用戶至少評價25部以上電影,并且訓練集的稀疏度為1%。

三個實驗方案的結果分別如表1~表3所示。從實驗結果可以看出,與其他協同過濾算法相比較,本文提出的UST-CF算法均能取得最好的推薦效果。從表1和表2可以看出,目標領域的稀疏度越低,UST-CF算法取得的優勢越明顯,這說明對評分數據極其稀疏的情形,UST-CF算法體現了更好的適應性,能有效緩解數據稀疏的問題。從表3可以看出,即使只有部分的共同用戶,UST-CF算法也能有效利用這部分共同用戶的評分數據,改進目標領域測試集的推薦精度。

本文提出了一種用戶相似度遷移的協同過濾推薦算法,有效地緩解了目標領域數據稀疏性的問題。此外,算法采用一種用戶特征子空間的距離來度量UST模型中的平衡參數,大大提高了模型的智能性。本文算法只考慮了對輔助領域的用戶相似度進行遷移,因此如何改進模型,使模型能夠對輔助領域的其他知識進行遷移(如用戶的評價特征、項目的屬性等),進一步提高目標領域的推薦精度,是一個有意義的研究方向。

表1 方案1實驗結果比較

表2 方案2實驗結果比較

表3 方案3實驗結果比較

[1]SU X,KHOSHGOFTAAR T M.A survey of collaborative filtering techniques[J].Advances in Artificial Intelligence,2009(4):1-19.

[2]馬宏偉,張光衛,李鵬.協同過濾推薦算法綜述[J].小型微型計算機系統,2009,30(7):1282-1288.

[3]SINGH A P,GORDON G J.Relational learning via collective matrix factorization[C].Proceeding of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,ACM,2008:650-658.

[4]Li Bin,Yang Qiang,Xue Xiangyang.Transfer learning for collaborative filtering via a rating-matrix generative model[C].Proceeding of the 26th Annual Internatioal Conference on Machine Learning,ACM,2009:617-624.

[5]Pan Weike,XIANG E W,LIU N N,et al.Transfer Learning in Collaborative Filtering for Sparsity Reduction[C].AAAI,2010(10):230-235.

[6]BREESE J S,HECKERMAN D,KADIE C.Empirical analysis of predictive algorithms for collaborative filtering[C].Proceeding of the 14th Conference on Uncertainty in Artificial Intelligence,Morgan Kaufmann Publishers Inc.,1998:43-52.

[7]MCLAUGHLIN M R,HERLOCKER J L.A collaborative filtering algorithm and evaluation metric that accurately model the user experience[C].Proceeding of the 27th Annual International ACM SIGIR Conference on Research and development in Information Retrieval,ACM,2004:329-336.

[8]SARWAR B,KARYPIS G,KONSTAN J,et al.Item-based collaborative filtering recommendation algorithms[C].Proceeding of the 10th International Conference on World Wide Web,ACM,2001:285-295.

[9]BUCHANAN A M,FITZGIBBON A W.Damped newton algorithms for matrix factorization with missing data[C].IEEE Computer Society Conference on Computer Vision and Pattern Recognition,CVPR 2005,2005(2):316-322.

[10]李改,李磊.基于矩陣分解的協同過濾算法[J].計算機工程與應用,2011,47(30):4-7.

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 91po国产在线精品免费观看| AV网站中文| 99热最新网址| 在线另类稀缺国产呦| 日韩欧美网址| 四虎国产精品永久在线网址| 成人一级免费视频| 青青国产在线| 久久国产精品影院| 国产一区二区影院| AV不卡在线永久免费观看| 色香蕉网站| 国产精品手机在线观看你懂的| 99er这里只有精品| 亚洲性影院| 久久久四虎成人永久免费网站| 国产成人福利在线| 亚洲欧洲一区二区三区| 老司机精品99在线播放| 99久视频| 久久国产精品娇妻素人| 中国国产A一级毛片| 黄色网站在线观看无码| 青青久久91| 国产精品第页| 在线欧美a| 99视频精品全国免费品| 六月婷婷精品视频在线观看 | 无码丝袜人妻| 国产精品无码久久久久久| 亚洲自拍另类| 青青草91视频| 亚国产欧美在线人成| 亚洲综合极品香蕉久久网| 久久国产V一级毛多内射| 亚洲日韩欧美在线观看| 97亚洲色综久久精品| 18禁影院亚洲专区| 久久久久中文字幕精品视频| 国产91九色在线播放| 91精品视频网站| 国产亚洲欧美在线人成aaaa| 亚洲一区二区三区麻豆| 毛片免费视频| 丰满的少妇人妻无码区| 国产主播在线观看| 欧美成a人片在线观看| 毛片手机在线看| 久久精品国产91久久综合麻豆自制 | 女同国产精品一区二区| 久久综合亚洲色一区二区三区| 国产成人综合日韩精品无码不卡| 日本一区二区三区精品AⅤ| 国产成人亚洲精品蜜芽影院| 日本a∨在线观看| 97精品久久久大香线焦| 精品第一国产综合精品Aⅴ| 亚洲一区二区日韩欧美gif| 亚洲日韩高清在线亚洲专区| 久久无码高潮喷水| 丁香婷婷久久| 免费又黄又爽又猛大片午夜| 亚洲成人网在线播放| 影音先锋丝袜制服| 国产精品视频久| 美女毛片在线| 国产成人h在线观看网站站| 特级aaaaaaaaa毛片免费视频| 国产亚洲精品无码专| 欧美精品黑人粗大| 免费观看男人免费桶女人视频| 亚洲欧美日韩动漫| 成人免费一区二区三区| 久久公开视频| 亚洲欧美自拍视频| 国产精品对白刺激| 一级毛片在线播放| 三级国产在线观看| 国产jizzjizz视频| 一本一道波多野结衣一区二区| 久久综合色视频| 国产精品成人免费视频99|