999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隱語義模型推薦算法的優(yōu)化*

2023-01-06 05:40:02黃樹成
關(guān)鍵詞:用戶實(shí)驗(yàn)模型

孔 歡 黃樹成

(江蘇科技大學(xué)計(jì)算機(jī)學(xué)院 鎮(zhèn)江 212100)

1 引言

隨著大數(shù)據(jù)時(shí)代的來臨,人們已經(jīng)很難從這些海量的數(shù)據(jù)中找到自己感興趣的,這樣就出現(xiàn)了“信息過載(Information Overload)”問題[1],導(dǎo)致信息利用率降低。推薦系統(tǒng)的出現(xiàn)讓人們從“大數(shù)據(jù)”中看到了“曙光”。然而對(duì)于個(gè)性化推薦系統(tǒng)的核心,推薦算法的研究一直是國(guó)內(nèi)外的研究熱點(diǎn)。2006年10月,美國(guó)Netfilx公司舉行了一場(chǎng)100萬美元的算法競(jìng)賽,競(jìng)賽的要求將RMSE降低到0.8572或更低。這極大地推動(dòng)了推薦算法的發(fā)展。

目前推薦算法中基于協(xié)同過濾的推薦應(yīng)用極其廣泛,協(xié)同過濾主要包括基于記憶的推薦和基于模型的推薦,基于記憶的推薦是通過計(jì)算物品之間的相似性為用戶推薦相似度較高的物品,而基于模型的推薦是通過分析用戶的歷史行為數(shù)據(jù)生成相應(yīng)的推薦模型。本文將通過融合用戶的情感因素和物品的熱門程度對(duì)傳統(tǒng)的LFM算法進(jìn)行改進(jìn),提出了一種基于動(dòng)量的學(xué)習(xí)算法(MO-B-LFM)并通過實(shí)驗(yàn)驗(yàn)證了算法的優(yōu)越性。

2 推薦算法簡(jiǎn)述

2.1 協(xié)同過濾推薦算法

Goldberg等最早在文獻(xiàn)[2]中提出了“協(xié)同過濾(Collaborative Filtering,CF)”這一詞,Tapestry是文獻(xiàn)[2]中提出來的第一個(gè)基于協(xié)同過濾的推薦系統(tǒng),該系統(tǒng)是電子文檔過濾系統(tǒng),根據(jù)用戶評(píng)價(jià)過的文檔給其他用戶推薦適合自己的文檔。

基于用戶的協(xié)同過濾旨在找到興趣相似的用戶,把他們歸結(jié)成為一類群體。并且以此為前提,分析得出目標(biāo)用戶的最近鄰居(最相似的若干用戶)對(duì)某個(gè)項(xiàng)目的評(píng)分進(jìn)而預(yù)測(cè)出目標(biāo)用戶對(duì)該項(xiàng)目的評(píng)分[3]。其中相似度可以通過Pearson、歐幾里德距離等去計(jì)算,由于歐幾里得距離計(jì)算相似度很有局限性,通常采用Pearson進(jìn)行計(jì)算。用戶i和j的相似度記為sim(i,j),其計(jì)算公式為[4]

基于模型的協(xié)同過濾通常采用數(shù)據(jù)分析,機(jī)器學(xué)習(xí)等方式,比如聚類算法,決策樹以及貝葉斯分類。該算法對(duì)用戶的行為數(shù)據(jù)進(jìn)行建模訓(xùn)練,最終使用該模型為用戶提供較為合理的推薦[5]。Bereese等在文獻(xiàn)[6]提出了一個(gè)基于概率的算法,其公式如下:

矩陣分解(Matrix Factorization,MF)是常見的基于模型的協(xié)同過濾算法。其中Shanideng等在文獻(xiàn)[7]中提出的潛在因子模型(Latent Factor Model,LFM)是本文主要研究的算法,該算法曾在Netfilx舉辦的推薦算法競(jìng)賽中奪冠。

2.2 其他推薦算法

文獻(xiàn)[8]提出了基于內(nèi)容的推薦算法,該模型通過分析一個(gè)用戶-物品表來為用戶做相應(yīng)的推薦。基于內(nèi)容推薦的思想是通過機(jī)器學(xué)習(xí)的方式將用戶有過行為的物品動(dòng)態(tài)的添加到用戶-物品表中,并對(duì)其進(jìn)行分析。

文獻(xiàn)[9]中提出了一種混合推薦算法,該算法思想通過吸取其他算法的優(yōu)點(diǎn)來彌補(bǔ)自身的不足,其中最常見的就是基于協(xié)同過濾和基于內(nèi)容推薦相結(jié)合,稱其為基于內(nèi)容的協(xié)同過濾(Content-Based Collaborative Filtering)。

3 LFM算法簡(jiǎn)述與改進(jìn)

3.1 LFM算法簡(jiǎn)述

假設(shè)Ru×i是用戶user對(duì)物品item的評(píng)分矩陣,LFM算法就是找到兩個(gè)矩陣Pu×k,Qk×i使得P·Q≈R。稱P,Q分別為user和item的特征矩陣,其中k是隱類的特征維度。最后計(jì)算出用戶對(duì)每個(gè)物品item的預(yù)測(cè)評(píng)分,計(jì)算公式如下:

下面是LFM的目標(biāo)函數(shù),其中rui為用戶user對(duì)物品item的真實(shí)評(píng)分:

求解上式最優(yōu)化問題可以使用交替最小二乘法(Alternating Least Square,ALS)[10]和梯度下降法,由于最小二乘法計(jì)算復(fù)雜這里使用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)。每次迭代單獨(dú)更新參數(shù)和其中α為學(xué)習(xí)率:

式(6)、(7)帶入式(5)得:

該算法很重要的影響的因素是P,Q初始值的選擇,一般選取P,Q初始為全0或1的矩陣和隨機(jī)數(shù)矩陣。大量實(shí)驗(yàn)證明,P,Q取隨機(jī)值時(shí)模型推薦效果更佳,本次實(shí)驗(yàn)在隨機(jī)值的基礎(chǔ)上除以。

3.2 算法改進(jìn)分析

上述算法沒有考慮到用戶的偏好,也沒有考慮到物品的冷門程度。假設(shè)用戶A偏向于打分很低,即使自己很喜歡的物品也只會(huì)給個(gè)中等分?jǐn)?shù),而用戶B偏向于打分很高,每個(gè)物品都給了較高的分?jǐn)?shù),LFM對(duì)于這種用戶的推薦的準(zhǔn)確率就會(huì)降低。同樣的,假定物品X屬于熱門產(chǎn)品,大多數(shù)用戶都對(duì)該物品有過行為,而物品Y屬于冷門產(chǎn)品,為極少數(shù)用戶所知。可能該物品某個(gè)用戶非常喜歡,但是沒有為該用戶進(jìn)行推薦,導(dǎo)致覆蓋率很低。

本文首先計(jì)算出所有評(píng)分的平均分μ,初始化用戶和物品的偏置矩陣bu,bi。給出改進(jìn)后的評(píng)分公式:

從而得到目標(biāo)函數(shù):

使用式(12)、(13)反復(fù)迭代訓(xùn)練出bu,bi。

以上訓(xùn)練方法訓(xùn)練時(shí)間過長(zhǎng),本文在更新P,Q前分別加入了用戶動(dòng)量M以及物品動(dòng)量N,其中M表示上一次更新時(shí)P的梯度的下降程度,N表示上一次更新時(shí)Q的梯度的下降程度,β為每次能夠接受的下降的程度。通過動(dòng)量M,N的添加能夠讓上一次梯度較大的地方下降的更快。同時(shí)梯度趨近與0的過程更加平緩,并且防止了過擬合和欠擬合的現(xiàn)象。通過實(shí)驗(yàn)證明準(zhǔn)確率和召回率有了明顯的提升,并且覆蓋率提升了近原來的兩倍。下面是算法的執(zhí)行過程:

上述介紹的算法訓(xùn)練出的模型,其在測(cè)試集的準(zhǔn)確率以及召回率有了明顯的提升,由于將用戶的偏好和物品的偏好也加入了訓(xùn)練,所以其在覆蓋率上更有了成倍的增長(zhǎng)。

4 實(shí)驗(yàn)分析

本文采用了控制變量法來對(duì)本文的算法進(jìn)行驗(yàn)證,主要有兩組實(shí)驗(yàn)。第一組實(shí)驗(yàn)使用加入用戶偏好和物品偏好的算法(B-LFM)與傳統(tǒng)的LFM算法進(jìn)行對(duì)比,其驗(yàn)證了將用戶偏好和物品偏好帶入訓(xùn)練會(huì)大大的提高推薦的覆蓋率。第二組實(shí)驗(yàn)使用加入動(dòng)量并融合用戶和物品的情感因素的算法(MO-B-LFM)與B-LFM進(jìn)行對(duì)比,其驗(yàn)證了加入梯度下降動(dòng)量訓(xùn)練模型不僅能夠加快訓(xùn)練速度,在準(zhǔn)確率上相比LFM算法有了明顯提升,在覆蓋率上相比B-LFM也有了可見的增長(zhǎng)。下面介紹實(shí)驗(yàn)的具體內(nèi)容。

4.1 數(shù)據(jù)集的選取

實(shí)驗(yàn)使用了MovieLens數(shù)據(jù)集[11],這是由GroupLens項(xiàng)目組創(chuàng)辦的一個(gè)包含大、中、小規(guī)模的推薦系統(tǒng)數(shù)據(jù)集[12~13]。其中小規(guī)模數(shù)據(jù)100k包含了1000個(gè)用戶對(duì)1700部電影的10000條評(píng)分記錄;中規(guī)模數(shù)據(jù)1M包含了6000個(gè)用戶對(duì)4000部電影的1000000個(gè)評(píng)分;大規(guī)模數(shù)據(jù)10M包含了72000個(gè)用戶對(duì)10000部電影的10000000個(gè)評(píng)分和100000個(gè)標(biāo)簽。實(shí)驗(yàn)使用了中、小規(guī)模兩個(gè)數(shù)據(jù)集對(duì)實(shí)驗(yàn)數(shù)據(jù)按照8:2劃分訓(xùn)練集與測(cè)試集并且保證了每個(gè)用戶都至少有20個(gè)評(píng)分?jǐn)?shù)據(jù)。

4.2 實(shí)驗(yàn)評(píng)測(cè)標(biāo)準(zhǔn)

評(píng)價(jià)一個(gè)推薦算法的性能一般使用平均絕對(duì)誤差(MAE)[14]和均方根誤差(RMSE)[11]兩種,但是推薦系統(tǒng)關(guān)注的是推薦的TopN中的準(zhǔn)確率以及召回率,對(duì)于實(shí)際應(yīng)用還應(yīng)考慮其覆蓋率。

文獻(xiàn)[15]給出了準(zhǔn)確率、召回率以及覆蓋率的定義。對(duì)于用戶u推薦的N個(gè)物品組成的集合記作R(u),用戶u在測(cè)試集上喜歡的物品組成的集合記作T(u)[16]。

4.3 實(shí)驗(yàn)分析

實(shí)驗(yàn)環(huán)境是Windows 10操作系統(tǒng),i7-9500H處理器,內(nèi)存24GB的CPU,使用的語言是Python,其版本是Python 3.7,編程工具使用了PyCharm。下面是實(shí)驗(yàn)中用于比較的算法。

算法1:傳統(tǒng)LFM算法

算法2:B-LFM算法:在傳統(tǒng)LFM算法基礎(chǔ)上添加了用戶偏好和物品偏好參與訓(xùn)練,其中bu,bi初始值為零矩陣。

算法3:MO-B-LFM算法:在算法2的基礎(chǔ)上添加用戶動(dòng)量M和物品動(dòng)量N,令β=0.65,M,N初始值為零矩陣。

采用兩組實(shí)驗(yàn)進(jìn)行對(duì)比,分別是算法1和算法2對(duì)比,以及算法2和算法3對(duì)比。

4.3.1 不同K值對(duì)實(shí)驗(yàn)的影響

LFM算法執(zhí)行的時(shí)間與隱類K有著直接的聯(lián)系,并且K值的選取也會(huì)影響算法的性能。實(shí)驗(yàn)固定α=0.02,λ=0.01正負(fù)樣本比例為1∶1分別研究K值取50,100,200,300,400的情況下推薦算法的準(zhǔn)確率,召回率以及覆蓋率,以求出最佳的K值。通過圖1表明,當(dāng)K=200時(shí)召回率和覆蓋率都是最高,故以下實(shí)驗(yàn)均基于K=200進(jìn)行。

圖1 不同K值下算法的準(zhǔn)確率和召回率

4.3.2 算法1與算法2對(duì)比試驗(yàn)

以上通過實(shí)驗(yàn)證明K值為200時(shí)算法性能最優(yōu),以下均使用K=200進(jìn)行試驗(yàn),B-LFM初始化bu,bi均為零矩陣。本文僅研究N取5,10,15,20,25時(shí)的情況,因?yàn)镹值取得過大,對(duì)于一個(gè)推薦系統(tǒng)就毫無意義。下圖是不同N值情況下算法的覆蓋率對(duì)比。實(shí)驗(yàn)結(jié)果如圖2所示,從圖可以看出,在N取何值時(shí),B-LFM算法的覆蓋率都遙遙領(lǐng)先于LFM算法,由此說明加入情感因素訓(xùn)練模型能極大地提高算法的覆蓋率。

圖2 不同N值下算法的覆蓋率

4.3.3 算法2與算法3對(duì)比試驗(yàn)

以上通過實(shí)驗(yàn)證明加入情境因素進(jìn)行訓(xùn)練可以極大提高算法的覆蓋率。下面研究在用戶動(dòng)量和物品動(dòng)量的加持下算法MO-B-LFM的準(zhǔn)確率以及召回率。通過圖3可知MO-B-LFM算法在準(zhǔn)確率和召回率都比B-LFM算法要高,進(jìn)而證明了加入動(dòng)量矩陣能夠有效地提升算法的性能。

圖3 BLFM與MO-B-LFM算法性能對(duì)比

5 結(jié)語

本文通過分析LFM算法的不足,融合了用戶和物品的情感因素,這不僅僅增加了算法準(zhǔn)確率和召回率,還極大地提升了算法的覆蓋率,使得冷門物品也能被推薦給更多的用戶,這樣就不會(huì)讓某個(gè)物品出現(xiàn)“餓死”現(xiàn)象。通過加入動(dòng)量參與模型的訓(xùn)練,不僅能夠縮短訓(xùn)練所需時(shí)間,也能夠大大提升算法的準(zhǔn)確率和召回率。

猜你喜歡
用戶實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 日韩欧美国产区| 亚洲综合片| 亚洲AV无码一区二区三区牲色| 中文字幕在线播放不卡| 中文字幕久久波多野结衣| 四虎影视国产精品| 人人爽人人爽人人片| 一本大道香蕉高清久久| 国产三级国产精品国产普男人| 国产黄色片在线看| 久久99国产乱子伦精品免| 亚洲色图在线观看| 九九久久精品国产av片囯产区| 国产精品女主播| 久996视频精品免费观看| 中文毛片无遮挡播放免费| 国内精品视频| 亚洲精品福利网站| 亚洲国产成人精品青青草原| 国产成人精品视频一区二区电影 | 国产精品视频第一专区| 国产日韩精品欧美一区灰| 精品国产美女福到在线直播| 国模视频一区二区| 婷婷六月在线| 在线观看国产黄色| 欧美亚洲一二三区| 亚洲免费毛片| 亚洲精品成人福利在线电影| 久久国产av麻豆| 欧美一级色视频| 久久动漫精品| 国产黄在线观看| 亚洲黄色视频在线观看一区| 国产成人亚洲精品无码电影| 草逼视频国产| 国产精品无码作爱| 国产性生交xxxxx免费| 中文字幕色在线| 午夜人性色福利无码视频在线观看| 伊人国产无码高清视频| 毛片一级在线| 亚洲天堂免费观看| 国产精品.com| 97久久人人超碰国产精品| 国产精品一区二区在线播放| 国模沟沟一区二区三区| 无码高潮喷水专区久久| 五月天香蕉视频国产亚| 欧美日韩国产高清一区二区三区| 国产午夜一级毛片| 波多野结衣一二三| 日日拍夜夜嗷嗷叫国产| 中文字幕无码制服中字| 影音先锋丝袜制服| 久久亚洲黄色视频| 亚洲va精品中文字幕| 毛片在线看网站| 真人高潮娇喘嗯啊在线观看| 欧美日韩精品在线播放| 91色爱欧美精品www| 欧美在线精品一区二区三区| 午夜性爽视频男人的天堂| 亚洲国产成人精品一二区| 97国产一区二区精品久久呦| 伊人网址在线| 欧美一区国产| 免费毛片视频| 综合色婷婷| 国产系列在线| 激情午夜婷婷| 综合久久五月天| 91精品免费高清在线| 国产精品毛片一区视频播| 亚洲成人动漫在线观看 | 国产第一页第二页| 日韩在线视频网| 亚洲AV无码久久精品色欲| 一级爱做片免费观看久久| 欧美成人怡春院在线激情| 精品福利一区二区免费视频| 久久99精品久久久久久不卡|