999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機(jī)森林-馬爾可夫用戶冷啟動(dòng)推薦系統(tǒng)

2020-11-17 06:55:06滕傳志趙月旭
關(guān)鍵詞:用戶

滕傳志,趙月旭

(杭州電子科技大學(xué) 經(jīng)濟(jì)學(xué)院,浙江 杭州 310018)

0 引 言

用戶冷啟動(dòng)問題是推薦系統(tǒng)中亟待解決的問題之一。目前大量的學(xué)者在這方面做了深入的研究工作,取得了豐碩的研究成果:高玉凱等[1]、王斯峰[2]、毛明松等[3]以及劉江紅等[4]在協(xié)同過濾的基礎(chǔ)上進(jìn)行改進(jìn)和擴(kuò)展,取得了良好的效果,一定程度上緩解了冷啟動(dòng)問題。朱坤廣等[5]、黎雪微等[6]、Margam等[7]以及Wei等[8]從個(gè)性化角度對冷啟動(dòng)問題進(jìn)行了較為詳細(xì)的研究,取得了不錯(cuò)的效果。王素琴等[9]針對用戶冷啟動(dòng)問題提出了改進(jìn)的Epsilon-greedy算法。Antoio等[10]利用統(tǒng)計(jì)學(xué)中概率模型來解決非注冊的用戶冷啟動(dòng)問題。馮宇等[11]、胡祥[12]以及張亞楠等[13]將社會關(guān)系信息融入推薦系統(tǒng)中,較好緩解了冷啟動(dòng)。本文將馬爾科夫的動(dòng)態(tài)時(shí)效轉(zhuǎn)移優(yōu)勢與隨機(jī)森林對數(shù)據(jù)噪聲和數(shù)據(jù)缺失等問題敏感性低的優(yōu)點(diǎn)結(jié)合起來,從而既可以充分利用用戶的個(gè)性化標(biāo)簽屬性特征來保障推薦的商品的個(gè)性化效果,又使得推薦具有動(dòng)態(tài)效果,以保障在不同時(shí)間段都能夠得到較為滿意且符合用戶個(gè)性化特征的商品列表,同時(shí)在推薦精度以及覆蓋率上較傳統(tǒng)以及其它算法有一定提升。從目前國內(nèi)對冷啟動(dòng)推薦算法研究來看,隨機(jī)森林較少涉及,本文嘗試將隨機(jī)森林引入并用來解決用戶冷啟動(dòng)問題,可以為以后對隨機(jī)森林在這方面的研究提供一定參考。

1 模型與算法

為方便計(jì)算首先引入下面一些記號:記N(>0) 為總用戶量,M(>0) 為總商品量,U={un+1|u1,u2,…,un} 為系統(tǒng)中的n個(gè)用戶,n+1為新進(jìn)的用戶。記C={c1,c2,…,cm} 為系統(tǒng)中m個(gè)商品量。S={s1,s2,…,sf}(f∈N),記Tag={tag1,tag2,…,tagw} 為用戶特征屬性集合,Ctagi={tag1,tag2,…,tagk} 表示商品i的k個(gè)標(biāo)簽屬性。A=[vij]n×m是用戶-商品評分矩陣,vij表示用戶i對商品j的評分值,若用戶對某一商品沒有評分,則記為空值。

1.1 隨機(jī)森林

隨機(jī)森林屬于集成算法Bagging類型的一種,它是將多個(gè)弱分類器進(jìn)行組合,以“少數(shù)服從多數(shù)”的原則或者取其平均值形成強(qiáng)分類器。相較于其它分類算法,隨機(jī)森林在精度與泛化上均有良好的表現(xiàn)。該算法只需通過對給定樣本的學(xué)習(xí)訓(xùn)練分類規(guī)則,不需要任何先驗(yàn)假設(shè)條件。隨機(jī)森林由于簡單、易實(shí)現(xiàn)、計(jì)算開銷小等優(yōu)點(diǎn)使得其在現(xiàn)實(shí)中得到廣泛的應(yīng)用。

為實(shí)現(xiàn)隨機(jī)森林,下面給出該算法的操作步驟:

(1)記初始數(shù)據(jù)集分為N個(gè)樣本集,利用自助法隨機(jī)抽取N個(gè)樣本集作為訓(xùn)練集,抽取K次,訓(xùn)練集分別為:T1,T2,…,Tk。

(2)設(shè)原始數(shù)據(jù)集中有D個(gè)特征,并組成D維特征空間,在生成每顆決策樹中,隨機(jī)選取S個(gè)特征 (S

(3)根據(jù)上述的訓(xùn)練,得出分類結(jié)果,運(yùn)用“少數(shù)服從多數(shù)”的原則進(jìn)行投票或者將分類結(jié)果進(jìn)行平均化,求其平均值。具體流程如圖1所示。

圖1 隨機(jī)森林實(shí)現(xiàn)流程

1.2 馬爾可夫鏈

馬爾可夫鏈模型是一個(gè)重要的統(tǒng)計(jì)模型,其中時(shí)間和狀態(tài)空間都是離散形式的馬爾可夫鏈的轉(zhuǎn)移概率為

(1)

對應(yīng)的狀態(tài)轉(zhuǎn)移概率矩陣為P=[pij]k×k。

1.3 算法闡述

1.3.1 隨機(jī)森林分類

記用戶特征屬性以及與之對應(yīng)的偏好標(biāo)簽集合為:{(Tag1,S1),(Tag2,S2),…,(Tagl,Sl)},其中Tagi={tagi1,tagi2,…,tagin} 表示用戶i的特征屬性集合,Si={si1,…,sik} 為第i個(gè)用戶偏好的商品標(biāo)簽集合。運(yùn)用隨機(jī)森林對特征屬性進(jìn)行有監(jiān)督分類訓(xùn)練,監(jiān)督屬性即為商品標(biāo)簽屬性值。根據(jù)新用戶特征屬性得出的偏好標(biāo)簽記為 {s1,s2,…,sn},初始推薦列表為 {c1,…,cn}。

1.3.2 時(shí)間-商品模型

由馬爾可夫鏈轉(zhuǎn)移概率公式,注意到時(shí)間范圍選擇尤為重要,因?yàn)槿绻x擇的時(shí)間范圍過大,會導(dǎo)致推薦效果欠佳(后面的模擬中會給出相關(guān)說明),如果選擇時(shí)間范圍過小則會導(dǎo)致轉(zhuǎn)移矩陣過大,增加計(jì)算量。因此選擇適當(dāng)?shù)臅r(shí)間范圍。設(shè)時(shí)間T={t1,t2,…,tx},記TH=[tq,tq+h](q,q+h∈{1,2,…,x}) 為一步時(shí)間區(qū)間,其中h=tq+h-tq為狀態(tài)轉(zhuǎn)移的時(shí)間長度,為簡便計(jì)算以及考慮時(shí)間的連續(xù)性,文中選擇一步轉(zhuǎn)移馬爾可夫鏈模型。

1.3.3 轉(zhuǎn)移概率修正

本文將用戶偏好標(biāo)簽考慮進(jìn)去,將用戶偏好的商品賦予較大的概率值使其在下一階段將被優(yōu)先考慮。故馬爾可夫一步轉(zhuǎn)移概率可表示為

(2)

其中,I(si→sj) 表示si一步轉(zhuǎn)移到sj的示性函數(shù),T(Utagk∩tagcj) 表示用戶偏好的標(biāo)簽與商品j標(biāo)簽匹配數(shù)量,為了體現(xiàn)差別且保證未匹配的商品概率不為0,做以下規(guī)定

(3)

由于在大樣本情況下,當(dāng)發(fā)生狀態(tài)轉(zhuǎn)移時(shí)會使得轉(zhuǎn)移矩陣出現(xiàn)較為嚴(yán)重的稀疏現(xiàn)象,而這對于提高運(yùn)行效率是非常不利的。為此本文在確定狀態(tài)空間時(shí)引入轉(zhuǎn)移閾值α,以此來緩解轉(zhuǎn)移矩陣的稀疏性問題,借鑒最大信息熵方法來確定閾值α,即

αi=arg min max{(∑pij)log(∑pij)}

(4)

以隨機(jī)森林分類模型得到新進(jìn)用可能偏好的商品標(biāo)簽類別,并以此為依據(jù)進(jìn)行第一層商品推薦列表。然后以第一層推薦商品為基礎(chǔ),建立商品之間的狀態(tài)轉(zhuǎn)移矩陣,當(dāng)用戶點(diǎn)擊商品時(shí),觸發(fā)轉(zhuǎn)移矩陣,自動(dòng)形成下一時(shí)刻可能偏好的商品。但當(dāng)用戶沒有點(diǎn)擊原始列表中的商品,則根據(jù)用戶當(dāng)前點(diǎn)擊的商品立即更新轉(zhuǎn)移矩陣,由此來推測下一時(shí)刻用戶可能感興趣的商品。

1.3.4 商品質(zhì)量修正

1.3.5 隨機(jī)森林-馬爾可夫鏈算法步驟

(2)求出閾值αi,并訓(xùn)練轉(zhuǎn)移矩陣P。

(3)以標(biāo)簽選擇符合的U個(gè)商品組成第一層列表。

(4)以被選出的商品為基礎(chǔ),結(jié)合訓(xùn)練好的一步轉(zhuǎn)移概率矩陣,并且將運(yùn)用質(zhì)量修正因子進(jìn)行修正后概率最大的商品作為下一階段推薦商品。

(5)以上一階段用戶點(diǎn)擊商品為基礎(chǔ)可以再進(jìn)行推薦,下一階段推薦以此類推形成動(dòng)態(tài)推薦。

2 實(shí)驗(yàn)與分析

2.1 數(shù)據(jù)集介紹

本文使用推薦系統(tǒng)中常用的movielens數(shù)據(jù)集,選擇 m1-1m 數(shù)據(jù)集,該數(shù)據(jù)集包含約3900多部電影,6040位用戶共1 000 209條評分記錄,每位用戶至少對一部電影做出評價(jià)。表1展示了movielens數(shù)據(jù)集中部分信息具體情況。

表1 movielens數(shù)據(jù)集部分?jǐn)?shù)據(jù)展示

表1數(shù)據(jù)中Occupation代表職業(yè),本數(shù)據(jù)集中共分為20類職業(yè)并分別進(jìn)行了虛擬化處理,Zip-code代表郵編(美國),Times代表時(shí)間該數(shù)據(jù)集的時(shí)間是以1970年1月1日為基準(zhǔn),將后期對某部電影評分時(shí)間節(jié)點(diǎn)轉(zhuǎn)化為秒的形式。將數(shù)據(jù)集隨機(jī)拆分成訓(xùn)練集與測試集比例為7∶3。

2.2 數(shù)據(jù)預(yù)處理

將該數(shù)據(jù)集分成兩部分,一部分是用戶特征屬性集合,例如:職業(yè)、性別、年齡等,另一部分為其它集合,例如:時(shí)間、電影、標(biāo)簽值等。在時(shí)間區(qū)間劃分上由于該數(shù)據(jù)集的時(shí)間戳是以1970年1月1日為基準(zhǔn)將用戶評分的時(shí)間轉(zhuǎn)換成以秒為單位的時(shí)間值。經(jīng)過計(jì)算得出:1 h=3600 s,1 day=86 400 s,1 m=2 592 000 s(以30天為準(zhǔn)),1 year=31 104 000 s。

在運(yùn)用隨機(jī)森林進(jìn)行分類時(shí),本文做如下設(shè)置:每次隨機(jī)重復(fù)抽取訓(xùn)練集:N=50 000樣本,訓(xùn)練次數(shù)為500次。

2.3 模型評價(jià)指標(biāo)

為了可以和其它方法進(jìn)行比較,本文以第一,二層共20種商品為準(zhǔn)進(jìn)行比較。選用推薦系統(tǒng)中常用的準(zhǔn)確率與召回率作為各模型評比標(biāo)準(zhǔn)。表2為準(zhǔn)確率與召回率的具體計(jì)算方法。

表2 召回率與準(zhǔn)確率計(jì)算方法

準(zhǔn)確率=A(A+B)-1,召回率=A(A+C)-1。

2.4 模型結(jié)果及比較

本節(jié)給出各模型的準(zhǔn)確率與召回率及其比較,以及相關(guān)參數(shù)變化給算法準(zhǔn)確率與召回率帶來的影響分析。具體如下。

2.4.1 時(shí)間閾值影響驗(yàn)證

根據(jù)上文1.3.2節(jié)可知,時(shí)間閾值的選取對模型準(zhǔn)確率與召回率有較大影響,需要對其進(jìn)行模擬說明,圖2展示了所提算法在movielens數(shù)據(jù)集中由于選擇不同時(shí)間閾值對準(zhǔn)確率與召回率產(chǎn)生的影響結(jié)果。

圖2 不同時(shí)間閾值下準(zhǔn)確率與召回率的表現(xiàn)

圖2中18 000、36 000、86 400分別代表5小時(shí)、10小時(shí)、1天的時(shí)間范圍。從圖2可以看出,時(shí)間因素對模型的準(zhǔn)確率與召回率有重要影響,當(dāng)時(shí)間閾值由5小時(shí)逐步擴(kuò)大到1天可以看到準(zhǔn)確率呈現(xiàn)出下降的趨勢,對于實(shí)現(xiàn)個(gè)性化推薦是不夠理想的,但注意到召回率卻呈現(xiàn)出遞增的趨勢,但是召回率范圍過大會導(dǎo)致推薦的商品種類過于繁多,這不僅增加了計(jì)算機(jī)的運(yùn)算負(fù)擔(dān),降低了推薦時(shí)效性而且使得推薦列表不夠精準(zhǔn)化。因此要綜合權(quán)衡這兩方面的考慮選擇最佳閾值。

2.4.2 隨機(jī)森林中樹的深度影響驗(yàn)證

隨機(jī)森林中各棵決策樹的深度選擇也將會影響到模型的準(zhǔn)確率與召回率的表現(xiàn),圖3展示了本文所提給出的算法在movielens數(shù)據(jù)集中由于樹的深度不同而使得準(zhǔn)確率與召回率的差異的具體表現(xiàn)。

圖3 隨機(jī)森林中各決策樹的深度選擇

由圖3可知,決策樹的深度選擇對模型是有一定的影響的,當(dāng)決策樹的深度為4時(shí),其準(zhǔn)確率最高,但是召回率有所降低,因此在決策樹深度的選擇上,要結(jié)合實(shí)際考慮。

2.4.3 算法有效性驗(yàn)證

為驗(yàn)證本文所提算法的有效性,將隨機(jī)森林-馬爾可夫算法(random forest-Markov chain,RF-MC)與冷啟動(dòng)中經(jīng)典算法:流行策略及用戶協(xié)同過濾(USER-CF),當(dāng)前較新算法:協(xié)同概率矩陣分解與迭代決策樹(GBDT-MPMF)與近鄰協(xié)同過濾算法(CF-AFN),進(jìn)行對比分析。表3展示了各算法在movielens數(shù)據(jù)集中準(zhǔn)確率與召回率的具體表現(xiàn)。

表3 不同策略的準(zhǔn)確率與召回率比較/%

從表3可以看出相較于經(jīng)典的算法如流行策略,USER-CF在準(zhǔn)確率和召回率上有較大的提升,相比于新的算法如GBDT-MPMF、CFAFN,準(zhǔn)確率和召回率有一定的提升。

3 結(jié)束語

在冷啟動(dòng)推薦系統(tǒng)中,以往的研究很少能做到實(shí)時(shí)動(dòng)態(tài)推薦的效果,文中的算法可以較好地完成這一目標(biāo)。從模擬的結(jié)果來看,該算法具有較高的準(zhǔn)確率和召回率,注意到時(shí)間區(qū)間劃分上不是越大越好,當(dāng)范圍擴(kuò)大后雖然召回率得到提升但是準(zhǔn)確率會有所降低,不利于實(shí)現(xiàn)個(gè)性化推薦,因此在時(shí)間選擇上應(yīng)該根據(jù)實(shí)際需要做適當(dāng)選擇。同時(shí)在決策樹深度的選擇上同樣也要根據(jù)實(shí)際需要進(jìn)行選擇。當(dāng)然本文也有不足之處,其一在時(shí)效性方面,由于目前沒有較好的在線測試平臺,故而無法有效驗(yàn)證實(shí)際效果,其二本文只考慮了用戶的特征屬性信息以及消費(fèi)時(shí)間因素。所以如何將社會關(guān)系信息加入模型當(dāng)中而且又有較好時(shí)效性是今后的主要研究工作。

猜你喜歡
用戶
雅閣國內(nèi)用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應(yīng)用
Camera360:拍出5億用戶
100萬用戶
主站蜘蛛池模板: 在线观看亚洲天堂| 97综合久久| 亚洲综合18p| 狠狠色丁香婷婷综合| 中国美女**毛片录像在线| 九九视频在线免费观看| 在线人成精品免费视频| 国产黄视频网站| 国产制服丝袜91在线| 看国产一级毛片| 视频二区中文无码| 热re99久久精品国99热| 亚洲色图欧美一区| 免费又黄又爽又猛大片午夜| 性欧美在线| 国产福利在线观看精品| 精品视频91| 亚洲AV色香蕉一区二区| 波多野结衣一区二区三视频| 青青草原国产免费av观看| 99热最新在线| 国产产在线精品亚洲aavv| 美女视频黄频a免费高清不卡| 91在线精品麻豆欧美在线| 欧美色伊人| 日韩精品无码不卡无码| 1024国产在线| 免费国产小视频在线观看| 91无码网站| 午夜a级毛片| 日韩成人在线视频| 91一级片| 亚洲人精品亚洲人成在线| 亚洲午夜福利在线| 午夜福利免费视频| 国产后式a一视频| 亚洲AV无码精品无码久久蜜桃| 国产人成午夜免费看| 免费 国产 无码久久久| 亚洲小视频网站| 毛片在线播放网址| 免费无码在线观看| 无码粉嫩虎白一线天在线观看| 欧美国产视频| 欧美在线黄| 国产成人综合亚洲欧洲色就色| 国产成人综合在线视频| 啦啦啦网站在线观看a毛片| 欧美另类图片视频无弹跳第一页| 欧美h在线观看| 超碰免费91| 成人福利在线观看| 福利视频一区| 亚洲精品自产拍在线观看APP| 2020国产在线视精品在| 污网站在线观看视频| 91丝袜美腿高跟国产极品老师| 国产麻豆精品在线观看| 成·人免费午夜无码视频在线观看| 国产精品免费p区| 亚洲一级毛片免费看| 亚洲婷婷在线视频| 尤物午夜福利视频| 午夜视频在线观看免费网站| 在线中文字幕日韩| 久久国产精品娇妻素人| 伊人中文网| 91福利免费视频| 国产精品亚洲天堂| 国产成人毛片| 99ri精品视频在线观看播放| 不卡网亚洲无码| 国产日韩欧美在线播放| 超碰aⅴ人人做人人爽欧美| 亚洲人成日本在线观看| 青青久在线视频免费观看| 1024国产在线| 99在线视频免费| 国产激爽爽爽大片在线观看| 国产正在播放| 国产精品99久久久| AV不卡在线永久免费观看|