999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合社區結構和個人興趣的協同過濾推薦算法

2018-11-17 01:47:04楊長春
計算機工程與設計 2018年11期
關鍵詞:用戶模型

顧 寰,楊長春,吳 云,徐 筱

(常州大學 信息科學與工程學院,江蘇 常州 213164)

0 引 言

推薦系統[1-3]中的推薦算法部分是推薦過程中重要的一步,其中協同過濾(collaborative filtering,CF)算法是當前效果較好的推薦技術[4]。其主要思想是利用已有用戶群的歷史數據推測當前用戶的喜好。但是協同過濾算法的缺點在于對數據稀疏性問題很敏感[5]。目前,網上的用戶越來越多,商品種類也越來越豐富,用戶與用戶之間購買相同物品的機會越來越少,從而推薦結果出現了嚴重的過擬合現象。因此,最近的研究關注于將用戶的社交信息融入推薦算法中,減少過擬合現象。Li H等[6]提出的模型采用了重疊社區發現算法,通過調節目標函數中的正則項,降低所在社區中用戶間的偏好差異。Yang X等[7]提出了一種改進SocialMF模型,增加了用戶對不同好友之間信任度的差異,但是算法將用戶的好友劃成不同的類別,因此反而加劇了數據稀疏性問題。郭磊等[8]也提出了一種改進SocialMF模型,其考慮了信任具有不唯一性,基于用戶興趣和信任關系,挖掘出和目標用戶具有相似興趣以及可信賴的新用戶,并建立模型,算法中可能出現的缺陷還是源于沒有密集的社交關系網絡。郭弘毅等[9]考慮了用戶社區結構和用戶的興趣聚類,也提出了一種改進的SocialMF,稱為CCMF,該算法雖然加入了用戶社區信息和用戶興趣,緩解了由于數據稀疏性帶來的推薦不準確的問題,但算法將多個用戶的興趣融合成一個總的興趣,沒有充分考慮個人的興趣,導致推薦精度不高。因此,本文提出了一種基于社區結構和用戶個人興趣的協同過濾推薦算法,以達到更高的準確性。

1 個性化推薦系統模型

本文采用的基于社區發現和用戶個人興趣的協同過濾算法的過程如下:①通過BIGCLAM算法找到用戶中存在的隱含社區結構;②根據評分數量挑選出有經驗的用戶,并建立這些用戶的個人興趣;③通過在目標函數中引入新的正則項將社區結構和個人興趣融合到矩陣分解模型的優化分解過程中,獲得更好的推薦結果。

1.1 準備工作

本文采用的符號有:U={u1,u2,…,um}為推薦系統中所有用戶的集合,V={v1,v2,…vn}為推薦系統中所有項目的集合,其中m為用戶總數,n為項目總數。R=(Rij)m×n為用戶項目評分矩陣,其中Rij∈{1,2,3,4,5}為用戶ui對項目vi的評分。T=(Tij)m×m,Tij∈(0,1)為用戶的好友關系矩陣,Tij=0為用戶ui與用戶uj之間不存在好友關系。

1.2 基于社區結構的聚類

推薦系統中的用戶通常和好友具有相似的偏好。基于該假設,一些研究通過加入用戶的社交關系提升了傳統的協同過濾算法的準確度。然而在大型的社交網絡中,往往會出現一個現象[10],即大多數用戶的社交關系比較稀疏,所以依賴社交關系來發現社交網絡比較困難。因此必須通過其它方式來發現社交網絡。近年來,社區網絡發現領域的重點是重疊社區發現,而其中的BIGCLAM算法是目前效果突出的重疊社區發現算法[11],文獻[6]的實驗對比表明BIGCLAM算法相對于其它社區發現算法在推薦系統方面具有更好的效果,所以將BIGCLAM算法作為本文發現用戶社交網絡的算法。

BIGCLAM算法將社區內的所有用戶的評分平均值作為社區的評分值,然后將單個用戶的評分與該社區評分值相比較,作為判斷該用戶是否對該社區感興趣的標準。然而本文發現社區中的每個用戶對社區的貢獻是不同的,在社區中,擁有更多好友的用戶往往更能代表一個社區,基于該假設,有以下公式。

(1)帶有權重的社區評分向量

(1)

(2)用戶與社區的相似度

(2)

式(1)和式(2)定義請參見文獻[9]。

從式(1)中可以看出社區中好友越多的用戶對社區的貢獻度越大。

由此,我們獲得了基于社交網絡結構的用戶社區信息和每個用戶對每個社區感興趣的程度。

1.3 用戶興趣的定義

重疊社區發現算法能夠發現用戶中的網絡結構,屬于同一網絡結構內的用戶存在相同的特性。然而研究發現,有一些用戶,例如有很多打分記錄的用戶(稱為有經驗的用戶),他們在選擇的時候,很少在意別人的意見,傳統的推薦算法雖然通過社區聚類緩解了數據稀疏的現象,但是它們將這些用戶與其它用戶一視同仁,忽略了這些用戶的個性,造成了對這些用戶推薦的不準確,因此,本文提出了融入用戶興趣的算法,該算法在傳統的推薦算法的基礎上,加入了用戶個人興趣,提高了推薦的準確率。

定義用戶興趣

因為用戶興趣基于用戶已打過分的項目,因此本文定義用戶的興趣即為用戶特征向量Du與物品特征向量Di的相似度,記為Qu,i

Qu,i=sim(Du,Di)

(3)

因此用戶個人興趣可用一個條件概率分布來表示,公式如下

(4)

1.4 社區結構和個人興趣的融合

目前協同過濾算法中應用的最為廣泛的是矩陣分解模型,其核心思想認為用戶的興趣只受少數幾個因素的影響,因此將稀疏且高維的用戶項目評分矩陣R分解為兩個低維矩陣

R≈UTV

(5)

其中,U∈Rk×m,V∈Rk×n,k?min(m,n)。為了得到更好的結果,需要對預測評分矩陣和原評分矩陣的誤差進行優化,一般采用以下式(6)

(6)

其中,Iij為指示函數,表示用戶ui對項目vj是否產生過評分,取值為0或1。由于User-Item評分矩陣維度較高,應當小心謹慎預防過擬合現象,因此需要通過加入正則化項來避免過擬合,添加正則項后的公式如下

(7)

因此,本文提出了一個融合了雙重正則項的矩陣分解模型,記為PRM(personalized recommendation model)。其目標函數如式所示

(8)

為了學習模型中的參數,我們使用隨機梯度下降的方法來得到最優解,相應的公式如下

(9)

(10)

通過不斷地迭代,沿梯度下降方向更新U和V中的元素直到收斂。

2 實驗結果與分析

2.1 實驗準備

本節通過實驗來檢驗本文提出方法的有效性。本文在真實的數據集上開展實驗,所有的實驗基于臺式機環境,機器配置如下:操作系統為Win7 64位,CPU為intel i7-4790@3.6 G,內存為16 G。

本文的實驗數據來自全球最大的餐廳點評網站YELP提供的公開數據集。該數據集內容豐富,全部為該網站收集的真實用戶數據,因此在推薦系統相關的論文中被多次使用[9]。數據集中包括的內容有:用戶在YELP網站上對餐廳的評分和發表的評論,用戶之間的互動關系以及好友關系,餐廳的風味特色等。數據集含有8350位用戶,84 652個餐廳,524 117條用戶互相關注關系,263 773條評分信息。所有數據總共分成8個種類,每個數據種類分別按1-5的標度進行衡量。YELP數據集中的類別信息統計數據見表1。

表1 YELP數據集統計量

2.2 對比算法

為了驗證本文提出的模型與其它模型在準確率上的差異,本文選擇3種模型作為對比模型進行詳細驗證:

BaseMF:該矩陣分解模型是基本的協同過濾模型,僅考慮了用戶對物品的評分信息,忽略了用戶的社交關系信息和項目類別信息。

CircleCon:在BaseMF的基礎上,加入了用戶與其好友的信任關系和用戶信任網絡信息,提高了結果的準確性。

ContextMF:該方法在傳統的矩陣分解的模型中,考慮了個人影響力和個人興趣,相對于傳統的協同過濾模型相比提升了準確度。

2.3 評價指標

本文使用五折交叉驗證法。將原始數據集平均分為5組,每次先選擇數據集的4組當作訓練集,數據集余下的一組當作測試集,最后取5次實驗結果的平均值作為最終的結果。

準確性是衡量推薦算法效果好壞的關鍵指標,因此本文采用平均絕對誤差(MAE)和均方根絕對誤差(RMSE)作為評價指標

(11)

(12)

MAE和RMSE的定義請參見文獻[9]。MAE值和RMSE值越小表示推薦結果的準確性越高。

2.4 確定正則項系數λZ的值

式(8)中正則項系數λZ表示用戶的社交網絡信息在矩陣分解模型中所占的比重,當λZ=0時相當于基本的矩陣分解模型。將λZ分別取值{0.0001,0.001,0.01,0.1,1}進行實驗。記錄當λZ取不同值時,MAE和RMSE的值的變化。

從圖1中可以發現,當λZ取較小的值時,MAE值和RMSE值相對較高,隨著λZ不斷增大,MAE值和RMSE值會不斷降低,當λZ=0.01時MAE和RSME同時達到最低。λZ的值繼續增加后,MAE值和RMSE值再次升高。分析其可能原因,當λZ取較小的值時,式(8)中的推薦結果并不受社交網絡信息的影響,因而不能反映出社交網絡信息在推薦過程中起到的重要作用;而λZ取值過大時,則過度放大了社交網絡信息在推薦過程中所起的作用,結果適得其反。

圖1 系數λZ對準確度MAE,RMSE的影響

2.5 結果對比與分析

(1)不同推薦算法的推薦效果對比

根據實驗可以得到,當正則項系數λZ=0.01時,本文提出的PRM算法能夠獲得最高的準確率。為了進一步評估PRM算法的有效性,本文先采用五折交叉法對本文實驗所需算法的參數進行驗證確定。結果顯示,λU=λZ=0.01時效果最好,λU,λZ為常規正則項系數。用戶隱式特征向量維數取值等于項目隱式特征向量維數取值,均為15。在CircleCon算法和ContextMF算法中,社交正則項系數λZ分別設為0.01,0.01。在PRM中,個人興趣系數取30。最后將PRM算法與上文中提到的其它推薦算法進行對比。

根據圖2和圖3可知,本文提出的PRM推薦算法相對于其它推薦算法,MAE和RMSE的值更低,推薦結果更準確。

圖2 PRM算法與其它算法的MAE值對比

圖3 PRM算法與其它算法的RMSE值對比

分析其可能的原因,BaseMF算法由于沒有考慮用戶之間的社交關系所以推薦效果最差。CircleCon算法以用戶打過分的項目為依據,將用戶分成不同的組別,但是在每個組別中,用戶與用戶之間的互動不多,造成了推薦不夠準確。ContextMF算法沒有同時利用用戶社交信息和項目的類別信息,造成推薦結果準確性不夠高。本文提出的PRM算法首先利用用戶的社區結構信息,改善了因用戶的直接社交關系數據稀疏而造成的過擬合的問題;然后通過加入有經驗用戶的個人興趣,優化了用戶的特征向量,獲得更加準確地推薦結果。

3 結束語

現有的基于社交關系的推薦算法雖然在緩解數據稀疏方面有很好的效果,但是它們將屬于一個組的用戶視為一個用戶,學習他們共有的特征,沒有考慮一些有經驗用戶的個人特性,而這些用戶往往是電商網站重要的客戶,忽視這些用戶將導致推薦效果不理想。為了解決這一問題,本文提出了一種新的推薦算法,該算法先利用重疊社區發現算法挖掘用戶的社交關系群體,解決了數據稀疏性的問題,然后加入經驗用戶的個人興趣,從而獲得更好的推薦效果。實驗結果表明該算法比現有算法能夠得到更準確的推薦結果。

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 亚洲无码高清免费视频亚洲| 91免费国产在线观看尤物| 国产精品欧美在线观看| 日韩欧美中文在线| 一级做a爰片久久毛片毛片| 国产一级二级三级毛片| 日韩高清欧美| 天天婬欲婬香婬色婬视频播放| 国产清纯在线一区二区WWW| 亚洲视频影院| 欧美日韩动态图| 国产XXXX做受性欧美88| 国产精品粉嫩| 男人天堂亚洲天堂| 中文字幕欧美成人免费| 青青草综合网| 国产va免费精品观看| 久久综合激情网| 亚洲AⅤ永久无码精品毛片| 国产精品原创不卡在线| 91精品国产一区| 国产v欧美v日韩v综合精品| 亚洲一级无毛片无码在线免费视频| 亚洲午夜国产片在线观看| 国产在线观看91精品| 亚洲国产av无码综合原创国产| 91系列在线观看| 国产亚洲精品在天天在线麻豆 | 又黄又湿又爽的视频| 91福利在线观看视频| 国产视频 第一页| 亚洲第一天堂无码专区| 在线观看欧美国产| 日本五区在线不卡精品| 色欲色欲久久综合网| AV熟女乱| 中文字幕无码av专区久久| 国产欧美又粗又猛又爽老| 成人福利在线免费观看| 亚洲成网777777国产精品| 国产不卡在线看| 多人乱p欧美在线观看| 成人精品午夜福利在线播放| 亚洲国产欧美自拍| 成人福利视频网| 精品福利一区二区免费视频| 亚洲天堂成人在线观看| 成年A级毛片| 久久久噜噜噜久久中文字幕色伊伊| 精品国产aⅴ一区二区三区| 在线观看欧美精品二区| 午夜视频日本| 国产爽妇精品| 91福利免费| 久久99国产乱子伦精品免| 自拍偷拍一区| 日韩国产一区二区三区无码| 又黄又爽视频好爽视频| 久久一日本道色综合久久| 国产精品短篇二区| 成年人久久黄色网站| 免费人欧美成又黄又爽的视频| 大陆国产精品视频| 午夜免费视频网站| 秋霞午夜国产精品成人片| 国产精品播放| 亚洲黄色成人| 天天综合色网| 国产精品播放| 欧美人与牲动交a欧美精品| 久久久久免费看成人影片| 国产亚洲高清在线精品99| 国产精品无码影视久久久久久久| 日韩成人免费网站| 999精品色在线观看| 真实国产乱子伦视频| 黄色不卡视频| 99视频免费观看| av一区二区三区高清久久| 国产日韩精品一区在线不卡| 婷婷成人综合| 亚洲最猛黑人xxxx黑人猛交|