999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合多因素社交活動個性化推薦模型

2020-01-14 06:32:42
計算機應用與軟件 2020年1期
關鍵詞:用戶模型

陳 藝

(四川文理學院信息查詢與利用教研室 四川 達州 635000)

Probabilistic matrix decomposition

0 引 言

隨著互聯網技術的飛速發展,社交媒體和電子商務等迅速發展,互聯網數據呈指數級增長。人們不僅是數據的制造者也是數據的消費者,如何從龐大的數據中篩選用戶感興趣的信息成為學者們亟需解決的問題。對于用戶而言,感興趣信息的獲取可通過搜索獲得,也可借助推薦算法推薦得到。與搜索引擎相比,推薦算法不需要用戶主動提供所需信息,而是根據少量信息構建用戶興趣模型,進而利用數據挖掘獲得數據背后的信息。2006年DVD在線租賃商Netflix通過懸賞獎金的形式鼓勵學者們完善個性化推薦算法,期間大量針對傳統協同過濾推薦的改進算法被提出來。而協同過濾推薦過度依賴于“用戶-項目”評分數據,將其引入到社交興趣推薦中后難以獲得滿意的推薦效果。

針對社交大數據的特殊性,研究學者們提出了不同的解決方案。文獻[1]基于位置的社交網絡中用戶歷史興趣點,利用變階馬爾科夫算法來預測用戶未來到達的興趣點,算法提高了興趣點的推薦效果;文獻[2]將用戶物品圖引入信任機制建立用戶信任圖,在信任社交網絡中提出了一種基于圖熵的個性化推薦算法,不僅有效緩解了推薦的冷啟動問題還保持較高的推薦準確率;文獻[3]挖掘項目間的全局項目相似信息,并將社交網絡用戶間的可靠度融入個性化推薦模型中,提出了一種改進的社交網絡個性化推薦算法,降低了冷啟動問題;文獻[4]引入時間函數推斷用戶的興趣向量,并利用聚類算法對用戶發布的微博內容進行聚類分組,以用戶興趣向量篩選最佳匹配,并進行排序,取得了較好的推薦結果;文獻[5]對社會網絡推薦研究進行了系統述評,提出了一種融合項目特征和移動用戶信任關系;文獻[6]將用戶間的信任關系引入個性推薦模型中,以解決數據稀疏問題;文獻[7]通過優化基于內容的CF推薦模型,有效解決了個性推薦中的冷啟動問題;文獻[8]提出了一種結合社交關系和位置信息的地點推薦算法,緩解了數據稀疏和冷啟動問題;文獻[9]提出了基于多元社交信任的協同過濾推薦算法,利用用戶間的綜合信任關系選取推薦鄰居,算法有較高的推薦精度和較強的抗攻擊能力;文獻[10]提出了一種具有社交影響力的推薦算法,通過用戶的影響力不斷調解推薦的權重;文獻[11]提出了基于項目評分與用戶信任關系的CF推薦算法,通過評分用戶間的信任關系來挖掘用戶的社會關系與興趣偏好;文獻[12-14]利用位置信息來對用戶進行分類,借助其他屬性對類內用戶進行信任預測或計算,從而完成個性化推薦。以上文獻研究中,文獻[2-3,6-7,9,11]都是在協同過濾的基礎上融合其他屬性來提高分類的精度;文獻[1,4-5,8,10]主要是在融合用戶興趣度、活動地理位置等影響因素的基礎上獲得較高的推薦效率。

針對社交平臺日益龐大的數據以及用戶個性的多樣化,學者們提出或改進的社交網絡個性化推薦算法,一定程度上提高了因數據稀疏性導致的推薦精度問題,但單一社交活動屬性的個性化推薦算法難以有效獲得高精度推薦結果。為此本文綜合用戶對活動興趣度、活動召集者影響力以及活動舉辦地點偏好等三方面因素形成一種新的個性化推薦模型。

1 模型描述

(1)

1.1 構建用戶對活動興趣度的概率模型

用戶對社交活動內容的興趣度是影響用戶是否參加活動的重要因素。本文利用LDA(Latent Dirichlet Allocation)文件主題模型求取用戶ui與其參加過的所有社交活動的主題分布,并用用戶ui的主題分布表征其興趣度。在LDA中,設ψs表示隱含主題s在單詞集合上的多項式分布,docui表示用戶ui∈U所有參加過的社交活動內容形成的文件,對于docui可經過LDA文件主題模型求取其中所有隱含主題的多項式分布,而用戶對社交活動的興趣度可以表示成文件docui的主題概率分布。若對某社交活動內容的文件docui中含有Nk個隱含主題,則LDA對隱含主題的多項式分布求取過程:

Step1利用LDA分布函數Dirichlet(δ)對文件docui中的每個隱含主題s∈{1,2,…,Nk}生成隱含主題與單詞的概率分布ρs;

Step2利用LDA分布函數Dirichlet(γ)對文件docui中的每個文件生成文件與單詞的概率分布τdocui;

Step3利用LDA多項式分布函數Mult(τdocui)對文件docui中的第m單詞生成主題分配sdocui,m;

Step4利用LDA多項式分布函數Mult(ρsdocui,m)對文件docui中的第m單詞生成wdocui,m。

用戶文件docui的似然函數為:

f(sdocui,m|ηdocui)·f(ηdocui|γ)·f(Γ|δ)

(2)

式中:δ、γ為LDA分布函數的參數,wdocui、Mdocui、ηdocui、Γ分別表示文件docui中所有單詞、單詞的數量、單詞的主題分配、單詞對應的主題-單詞概率分布。

設在LDA文件主題模型中文檔間是相互獨立的,則M個文件的完全似然函數如下:

(3)

式中:W、S、Φ分別表示文件中所有單詞、主題的分布以及所有文件-主題詞概率分布。我們幾乎不可能從似然函數中推斷出參數Φ和Γ,并且難以直接從某一多變量概率分布中近似抽取樣本序列,因此,本文采用吉布斯采樣將隱含主題詞s從聯合的概率分布中采樣出來:

f(si=k|s-i,wi=z,w-i)∝

(4)

(5)

(6)

(7)

設用戶ui的文件為docui,社交活動aj的文件為docaj,兩者所對應的主題分布為τdocui和τdocaj,為了求取用戶與社交社交活動的主題的相似度,本文引入庫爾貝克-萊布勒散度(Kullback-Leibler,KL)[15]和延森-香農散度(Jensen-Shannon)[16]來計算兩者之間的相似度。延森-香農散度定義為:

(8)

式中:KL(·)表示庫爾貝克-萊布勒散度。其定義為:

(9)

JS(ui‖aj)會隨著τdocui和τdocaj兩者主題分布的差別而增大,這里定義用戶ui對社交活動aj的興趣度Ii,j為:

Ii,j=1-JS(ui‖aj)

(10)

(11)

1.2 構建用戶對召集者影響力概率模型

在基于活動的社交網絡中,用戶是否參加某項活動也跟活動召集者的影響力有關,或者說一大部分用戶是慕名參加社交活動。本文認為用戶參與某項社交活動受兩方面的影響:一是用戶對活動召集者的偏愛或慕名;二是用戶對社交活動本身的興趣或偏愛。這兩方面的影響很難直接獲得,本文將用戶參加某個召集者或某類社交活動的次數來量化影響力。設用戶ui參加某活動召集者ci組織的社交活動次數為cui,j,cui,j值越大說明召集者ci組織的活動對用戶ui的影響力越大。這里我們將構建一個用戶與召集者間的影響力矩陣C,通過基于影響力的概率矩陣分解來對矩陣進行精確的分析,力求得到用戶基于召集者影響力參與社交活動的概率。

(12)

式中:λ(0≤λ≤1)為權重因子,EA表示所有結束的社交活動集合。將召集者ci所有曾經組織的社交活動平均影響力來表示召集者ci的影響力:

(13)

式中:ENci表示召集者ci曾經組織的社交活動集合。

影響力矩陣C條件分布如下:

Efcj),σ2)]Vi,j

(14)

式中:Ν(x|μ,σ2)表示均值μ方差σ2的高斯分布,當用戶ui參加召集者ci組織的任何一場活動時Vi,j=1,否則為0。D、Q、Numu、Numc分別表示所有用戶和所有召集者的隱式特征矩陣以及用戶數量和召集者數量。針對用戶和召集者的隱式特征矩陣,這里利用均值μ=0的高斯先驗分布去求解:

(15)

(16)

對上進行取對數,后驗分布可得:

(17)

式中:B表示隱式特征矩陣維度,Z為常量。將上式最大化可得一個等價目標函數,該函數由二次正則化項平方誤差和范數平方組成:

(18)

(19)

經過模型的學習可以得到所有用戶和所有召集者的隱式特征矩陣D、Q,那么對于用戶與召集者間的影響力矩陣C中的缺失值可由下式進行估值:

(20)

(21)

1.3 構建用戶因地理位置偏好的概率模型

基于活動的社交網絡具有線上交流線下活動的特點,所以活動舉辦地也是影響用戶是否參加活動的重要因素之一。針對地理位置偏好對用戶參加社交活動的影響度,學者們進行了大量的研究,得出的結論也大體一致:用戶參加的大多數活動與之常住位置距離不遠,并且該距離分布函數近似冪律分布[17-18]。本文基于活動舉辦地與用戶常住距離,以用戶參加活動的頻數來對用戶地理位置偏好建模。在學者研究成果的基礎上,將活動舉辦地與用戶常住距離的概率定義為:

p(Dis)=ν·Disζ

(22)

式中:Dis表示活動舉辦地與用戶常住地之間的距離,ν、ζ為冪律分布函數的參數。對式(22)取對數來估算參數ν、ζ的值:

logp(Dis)=logν+ζlog(Dis)

(23)

(24)

式中:Dis(gi,gaj)表示地理位置gi、gaj間的距離,那么用戶ui基于地理位置參加社交活動aj的概率為:

(25)

2 實驗數據與參數設置

2.1 實驗數據及評價標準

為了獲得較大的數據量,本文選取一線城市北京和上海作為社交活動舉辦地,社交數據采集豆瓣同城在2017年1月1日-2018年12月31日期間舉辦的所有社交活動,主要采集的信息為:用戶信息(用戶名、用戶ID、用戶的興趣、用戶參加過的所有社交活動、用戶所在的位置等),社交活動信息(社交活動類別、社交活動的內容,社交活動召集者、社交活動舉辦地、社交活動ID等)。數據統計如表1所示。

表1 數據統計明細

仿真實驗將Top-N推薦算法推薦結果,采用Precision@N和Recall@N兩個評價指標評估各算法推薦的性能:

(26)

(27)

式中:U表示用戶集合,Reui,N、Tui分別表示利用各算法按照Top-N推薦給用戶ui的社交活動以及用戶ui在測試集中所參與的活動集合,|*|為計算集合大小,這里設置N=1,3,5,7,10,本文默認N=5。

2.2 參數設置

在LDA文件主題模型、召集者影響力概率矩陣分解模型中需要對參數進行優化設置。各模塊參數設置如下:

(1) LDA文件主題模型參數設置。實驗采用自然語言處理框架Gensim實現LDA文件主題模型,在模型中設LDA分布函數參數γ=50/Nk,δ=0.01,為了獲得隱含主題s的最佳個數Nk,利用豆瓣同城北京和上海數據集測試LDA在不同的Nk下Precision@5和Recall@5,結果如圖1所示。

圖1 不同隱含主題個數下Top-5結果

可以看出:在豆瓣同城北京數據集上,Precision@5和Recall@5隨著隱含主題個數的增大而增大,在Nk≤70階段,推薦準確度增加幅度較大,在70

圖2 不同隱式特征矩陣維度下Top-5結果

可以看出,在基于影響力的概率矩陣分解模型中,隨著隱式特征矩陣維度B值的增大,Top-5推薦評價指標Precision@5和Recall@5波動變化。在豆瓣同城北京數據集上,隨著維度B值的增大,推薦評價指標Precision@5和Recall@5值在振蕩減小;在豆瓣同城上海數據集上,在10≤B≤80階段,隨著維度B值的增大,推薦評價指標Precision@5和Recall@5值在振蕩增大,在80

3 仿真實驗與對比分析

為驗證本文所提算法的性能,將本文算法與文獻[8,19]進行社交活動推薦效果對比分析。文獻[8]利用興趣度計算相似用戶,借助用戶歷史地點簽到記錄獲取位置偏好信息,融合兩者提出了一種推薦算法;文獻[19]利用相似關系、興趣偏好建立一個社交活動參與模型,利用依靠移動社交媒體,如射頻識別(RFID)、藍牙設備等建立社交活動臨近模型,然后將兩者融合以推導用戶的潛在偏好和潛在的社交關系。硬件環境為Intel(R) Core(TM) i7-7700U@3.6 GHz,RAM:8 GB。軟件環境為:Windows 7操作系統,使用Python編程實現。利用網格搜索在豆瓣同城北京和豆瓣同城上海數據集上多次實驗得到參數α、β的最優設置。在豆瓣同城北京數據集上β=0.3,α=0.6,在豆瓣同城上海數據集上β=0.35,α=0.45,其他參數按照2.2節進行設置。為了驗證本文個性推薦算法的優越性,從兩個層面進行對比:一是將本文融合多因素推薦算法與單因素推薦算法進行推薦效果對比;二是將本文算法與同類推薦算法進行推薦效果對比。

3.1 推薦效果對比

本文算法綜合用戶對活動興趣度、召集者影響力及地理位置偏好等三方面的因素進行個性化推薦。為了對比綜合后的推薦效果,這里將三種單因素推薦算法與本文算法在兩個數據集上進行Top-N(N=1,3,5,7,10)推薦評價指標對比。設基于用戶對活動興趣度的推薦算法為UIA,基于召集者影響力的推薦算法為CI,基于地理位置偏好的推薦算法為GLP,推薦效果如圖3所示。

圖3 各算法Top-N推薦評價指標對比

如圖3所示,通過本文算法與其他三種算法在Top-N(N=1,3,5,7,10)下的推薦評價指標對比可以看出,在豆瓣同城北京和上海數據集上,三個單因素個性推薦算法的推薦效果是有差異的。在北京數據集上UIA算法效果優于其他兩個單因素推薦算法;而在上海數據集上CI效果優于UIA和GLP兩個單因素推薦算法。但總體上看本文算法在綜合用戶對活動興趣度、召集者影響力及地理位置偏好等三方面的因素后,推薦效果遠遠好于三種單因素推薦算法。在準確率上,本文推薦算法相較于三個單因素個性推薦算法至少提高了36.7%;在召回率上,本文推薦算法相較于三個單因素個性推薦算法至少提高了35.9%。

3.2 同類推薦效果對比

將三種算法對已有用戶社交活動的推薦結果進行對比分析,結果如圖4所示。

圖4 各算法Top-N推薦評價指標對比

可以看出,本文提出的個性化推薦算法在不同N值下的推薦指標明顯好于其他兩種推薦算法,說明本算法在綜合用戶興趣度、召集者影響力和地理位置信息后能夠取得較好的推薦結果。圖4(a)和圖4(b)為各算法在豆瓣同城北京數據集上的推薦結果,在Top-N(N=1,3,5,7,10)的推薦中,本文算法相較于文獻[8]和文獻[19]的準確率至少提升了11.42%和18.18%,召回率至少提升了約14.71%和23.64%;圖4(c)和圖4(d)為各算法在豆瓣同城上海數據集上的推薦結果,本文算法相較于文獻[8]和文獻[19]的準確率至少提升了8.77%和19.23%,召回率至少提升了約8.57%和12.52%。

4 結 語

本文綜合用戶對活動興趣度、活動召集者影響力以及活動舉辦地點偏好等三方面因素,采用不同權值配比綜合形成最終的社交活動個性推薦模型。對比實驗表明,本模型不論與三個單模塊個性推薦模型還是與其他兩個同類網絡社交活動推薦模型相比準確率和 召回率都有一定的提高。推薦精度的提高可能要增加 時間和空間消耗,將本文模型并行化處理以降低時間 復雜度是后續研究的重點方向。

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 久久永久免费人妻精品| 韩国v欧美v亚洲v日本v| 国产成人综合欧美精品久久| 国产欧美日韩免费| 欧美日韩中文字幕在线| 成人午夜精品一级毛片| 伊在人亚洲香蕉精品播放| 国产精品欧美激情| 啪啪啪亚洲无码| 精品一区二区三区水蜜桃| 日韩成人在线一区二区| www亚洲天堂| 精品99在线观看| 中文字幕佐山爱一区二区免费| 国产精品美乳| 亚洲经典在线中文字幕| 2021国产乱人伦在线播放| 国产高颜值露脸在线观看| 综合色亚洲| 国产h视频免费观看| 久久免费观看视频| 狠狠干综合| 九九这里只有精品视频| 免费啪啪网址| 99久久精品免费看国产电影| 免费黄色国产视频| 欧美精品成人一区二区视频一| 乱人伦视频中文字幕在线| 欧美在线免费| 午夜天堂视频| 91黄视频在线观看| 精品国产电影久久九九| 美女视频黄频a免费高清不卡| 国产理论一区| 日本免费一区视频| 国产福利免费视频| 日韩精品欧美国产在线| aa级毛片毛片免费观看久| 国产理论精品| 亚洲美女一区| 国产精品九九视频| 日本亚洲国产一区二区三区| av在线无码浏览| 欧美高清三区| a亚洲视频| 国产精品冒白浆免费视频| 91香蕉视频下载网站| 偷拍久久网| 久草视频精品| 色老头综合网| 国产爽妇精品| 欧美人人干| 波多野结衣第一页| 国产精品理论片| 国产精品毛片在线直播完整版| 人人妻人人澡人人爽欧美一区| 久久亚洲国产视频| 欧美日韩国产在线播放| 狼友视频一区二区三区| 久久国产拍爱| 99热这里只有精品免费| 大学生久久香蕉国产线观看| 午夜视频www| 午夜福利在线观看入口| 欧美中文字幕一区| 激情视频综合网| 欧美一区中文字幕| 91在线视频福利| 国产三级韩国三级理| 人妻无码一区二区视频| 日韩欧美视频第一区在线观看 | 久久综合色天堂av| 久久影院一区二区h| 国产日韩欧美视频| 香蕉久人久人青草青草| 无码不卡的中文字幕视频| 国产一在线观看| 中文字幕在线观| 国产91av在线| 欧洲免费精品视频在线| 波多野结衣一区二区三区AV| 精品久久久久久中文字幕女|