999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進用戶相似度的協同過濾推薦算法研究

2019-07-25 08:03:26張利
現代計算機 2019年17期
關鍵詞:精確度用戶信息

張利

(安徽工業大學管理科學與工程學院,馬鞍山243032)

0 引言

互聯網的普及和快速發展,使其已經成為用戶獲取、處理、傳播、開發以及利用信息的一體化平臺,改變了人們傳統的生活方式。例如,現在用戶不僅足不出戶就可以通過淘寶網和京東商城等電商平臺購買生活所需要的產品,而且還可以通過Last.fm 和網易云音樂等音樂平臺收聽歌曲,以及通過Netflix 和YouTube 等網站觀看電影和視頻。然而,隨著網絡信息量的快速增長,用戶很難從網站和平臺發布的海量信息中搜索到自己感興趣的產品,運用傳統的搜索方法也只能得到與所有用戶一樣的搜索結果,無法根據每個用戶不同的興趣來推薦不同的搜索結果。因此,用戶在搜索符合自己產品需求的過程中就會消耗更多的時間和精力,而且很難能達到滿意的效果。而作為平臺和網站的信息發布者,也很難從眾多用戶中挖掘出滿足產品定位的更多潛在用戶,從而調整自身的服務來滿足更多不同的用戶。互聯網信息量的大幅度增長使得在面對大量信息時,用戶不能及時有效的獲取想要的那部分信息,這就出現了“信息過載”(Information Overlord)[1-3]問題。針對這種信息過載問題,通過幫助用戶過濾不相關信息并將相關信息傳遞給需要它的用戶的信息過濾技術應運而生。以個性化推薦系統(Recommender System,RS)[4-5]為代表的信息過濾技術,將用戶在系統中產生的歷史行為活動建立模型并分析用戶的真實需求,進而使用戶之前在系統中以搜索關鍵詞的方式變為系統主動通過學習用戶的興趣偏好來給用戶推薦相關的信息。因此,推薦系統在互聯網領域,特別是在電子商務網站和一些其他網絡平臺,如淘寶網、亞馬遜、蘇寧易購、豆瓣電影、YouTube[6]等得到了成功的應用;有效幫助緩解了“信息過載”問題,大大提高了用戶瀏覽網站的效率,使用戶能夠更快更準確地獲得自己想要的信息;同時,也為使用推薦系統的網站和平臺帶來了巨大的商業利潤。

1 基于用戶的協同過濾推薦算法

基于用戶的協同過濾推薦算法[7]的基本原理是:通過對目標用戶的興趣偏好分析,搜索與其擁有一樣(或者類似)喜好程度的相關用戶,并向其計算未看過項目的評分值以及產生推薦;也就是說,若目標用戶與其他用戶都對一些項目評過分,就說明他們之間存在共同的相似行為,那么目標用戶也就可能喜歡其他用戶看過的項目,因此就可以在其他用戶看過的所有項目中,從中計算其未看過但可能感興趣項目的評分值以及產生推薦。基于用戶的協同過濾算法流程圖主要是由以下3 個步驟組成。

步驟1:建立用戶關系數據模型

將獲取的評分數據集處理為可以表示為如表1 所示的評分矩陣的形式,其中User 表示用戶,Item 為項目,n 表示為系統中用戶的數量,m 為系統中項目的數量,√為用戶對項目的評分值。

表1 用戶-項目評分矩陣表

步驟2:計算相似度值以及尋找最近鄰

在基于用戶的協同過濾算法中,最重要的部分便是為用戶尋找近鄰集合,即為其尋找興趣偏好最為相似的鄰居集合。首先運用上一步處理后的數據矩陣來得到用戶間的相似度值;之后根據值的大小選取前k個鄰居,記為N(k)。獲取用戶間相似度的方式很多,其中基本的方法有皮爾遜相似度、Jaccard 相似度、余弦相似度等;也有其他研究者在相似度方面的改進,例如NHSM、JMSD 等相似度方法。

步驟3:為用戶推薦項目

通過步驟二,得到目標用戶的近鄰集合N(k),首先依據N(k)中的其他用戶看過的所有項目以及評分值,使用公式來計算其未看過的所有的項目預測值,生成項目集合,預測值公式如公式(1)和(2)所示。然后根據生成的項目集合為目標用戶推薦預測值最高的Top-N 項。

公式(1)是通過將近鄰用戶與目標用戶的相似度值作為權值,然后將鄰居對項目i 的評分值與該鄰居用戶所有評分的平均值的差值進行加權取平均。公式(2)是將目標用戶的近鄰用戶的所有評分取平均值。通常在學術研究中使用公式(1),而在本文中同樣使用了該公式。

2 協同過濾算法中的相似度度量

在獲得用戶相似度值的過程中需要用到相似度公式。重要的是,在基于用戶協同過濾推薦算法中最為關鍵的部分是相似度值的獲得。相似度值代表了用戶與用戶之間的相似度的大小,即兩者之間興趣偏好的相似,相似度方法的選擇往往對下一步進行預測值計算以及推薦系統的推薦質量有著重要的影響作用。因此,在這部分中,主要介紹本文中用到的兩種相似度計算方法。

(1)余弦相似度(Cosine Similarity,COS)

余弦相似度是將向量空間中的兩個向量之間夾角的余弦值作為度量兩者間的差異[8-9];將得到的兩者之間的夾角來度量兩個向量間的相似度,角度越小說明相似度越高。例如在推薦系統中,將用戶的標簽看作是一個1×n 的n 維向量,如果有一標簽未被用戶使用過,那么值應為0;然后使用余弦相似度對每個用戶的向量進行計算,若計算出的值越大,這說明這兩個用戶之間的相似性就越高。其計算公式如(3)所示。

(2)皮爾遜相關系數(Pearson Correlation Coefficient,PCC)

皮爾森相關系數是用來度量兩個變量之間相似程度的統計量[7,10]。PCC 相似度的公式如(4)所示,可知PCC 相似度的取值范圍為[-1,1],當值為負時,用戶u和用戶v 之間的興趣偏好為負相關;當值為正時,為正相關;絕對值越大,則正/負相關的程度越大。

式中,Iuv表示用戶u 和用戶v 之間的共同評分項目集合。

3 改進的相似性度量方法

在數據稀疏性情況下,為了提高給目標用戶推薦項目的精確度以及推薦質量,本文通過同時考慮不同用戶對于標簽信息以及項目評分偏好差異提出一種改進的相似度度量方法。該方法首先通過數據評分矩陣計算不同用戶間的評分差異相似度;然后通過利用標簽信息計算用戶間的標簽信息偏好相似度;最后通過加權獲得綜合考慮兩者的用戶相似度值。改進的新相似度計算公式如公式(5)所示。

其中,sim(u,v)I為利用標簽數據根據公式(3)計算得出的用戶間相似度值;sim(u,v)T為利用評分數據根據公式(4)計算得出的用戶間相似度值;式中,參數α表示權重,且α∈[0,1],步長為0.1。其中,當取α=0 時,用戶相似度sim(u,v)為sim(u,v)T,當取α=1 時,用戶相似度sim(u,v)為sim(u,v)I。

4 實驗設置以及結果分析

4.1 實驗數據

實驗所使用的數據集是MovieLens-latest-small,是由1996 年3 月29 日至2018 年9 月24 日期間的用戶組成的,且生成于2018 年9 月26 日,包括610 名用戶對9742 部電影的100836 條評分數據,以及3683 個標簽。在本實驗中,采用五折交叉實驗進行驗證。首先將MovieLens-latest-small 數據集分別隨機分成五份,每一份都是不相交的數據集;其次分別選取數據集中的一份數據集作為測試集,剩余的四份作為訓練集,對不同相似度方法的評價指標進行計算;最后將五次實驗的結果求取平均值進行對比。

4.2 評價指標

(1)精確度(Precision)

精確度是指在給用戶推薦的項目中,用戶所感興趣的項目數與推薦項目數的比例值[11-12]。因此,精確度值越大,說明系統推薦的項目中用戶感興趣的項目越多,推薦性能越好;反之則表示推薦效果不好。精確度計算公式如下:

式中,ls表示推薦系統中的用戶感興趣且出現在系統推薦項目列表N 中的項目數目。

(2)召回率(Recall)

召回率是指在給用戶推薦的項目中,用戶所感興趣的項目數目與系統中用戶所有感興趣的項目數目的比例值[11-12]。因此,召回率值越大,推薦性能越好;反之則不好。召回率計算公式如下:

式中,NT表示在推薦系統中,用戶感興趣的項目總數。

(3)F-Measure

F-Measure 表示精確度和召回率兩個指標的加權調和平均值,當使用精確度和召回率產生相互矛盾的結果時通常會繪制F-Measure 曲線來綜合考慮它們之間的關系[12-13]。當F-Measure 值越高時,則說明系統的推薦性能越好。F-Measure 的計算公式如下:

當參數a=1 時,就是通常使用的F1-Measure,其公式如下:

4.3 實驗結果及分析

(1)參數α的確定

通過將公式(9)作為評價指標,測試參數α對公式(5)產生的影響。在本實驗中設置參Top-N 取[1,2,3,4,5,10,15,20,25,30]。那么綜合評價指標F1-Measure 的在參數α的變化下的計算結果如表2 所示,變化曲線如圖1 所示。

表2 取不同參數α下的F1-Measure 值

圖1 F1-Measure的變化曲線圖

從表2 中可以看出,隨著參數α值的變化,F1-Measure 值也在不斷的變化,其中在α=0.7 時,F1-Measure取的最大值,值為0.05802。從圖1 能直觀地可以看出隨著參數α值的變化,評價指標F1-Measure 的變化趨勢。隨著參數α從0 到1 變化,F1-Measure 是先是曲線上升后到達最高值,然后曲線下降。當值F1-Measure越大表示推薦質量越好,因此,在本實驗中最優參數α的值取為0.7 時,改進的推薦算法的F1-Measure 取得最大值。此時也說明sim(u,v)I計算的相似度值占用戶相似度的70%,而sim(u,v)T計算的相似度值占用戶相似度的30%。在此后的實驗中,改進推薦算法與傳統協同過濾算法做對比時,參數α的取值均為0.7。

(2)結果及分析

推薦項目個數Top-N 是影響精確度以及召回率最重要的因素,因此在本小節中,通過對比并分析三種不同的推薦算法分別在Top-N 值變化情況下的準確率和召回率均值的值的變化曲線如圖2 所示。

從圖2 中可以看出,隨著Top-N 個數的增加,三種算法的精確度和召回值的均值都呈現下降的趨勢;這是因為隨著推薦項目的增加,有些可能用戶不喜歡的項目就會被推薦給目標用戶,因而造成精確度的降低。另外,改進的算法一直位于另外兩者曲線的上方,則說明通過添加標簽信息來計算用戶相似度能夠幫助目標用戶找到感興趣的項目,有助于提高推薦準確性。

圖2 準確率和召回率的均值的變化曲線圖

5 結語

本文通過將標簽與用戶評分信息聯系起來,提出一種新改進的相似度度量方法。通過實驗在評價指標精確度和召回率的均值對比結果可知,新的相似度方法均在一定程度上優于其他兩種相似度方法。另外,相比于其他兩種算法,改進的相似度方法算法更能區分用戶與用戶間的相似度,從而提高推薦系統的推薦質量。

猜你喜歡
精確度用戶信息
“硬核”定位系統入駐兗礦集團,精確度以厘米計算
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
易錯題突破:提高語言精確度
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 狠狠色噜噜狠狠狠狠色综合久| 成人午夜天| 天堂av高清一区二区三区| 国产资源站| 国产一区二区三区精品欧美日韩| 国产成人久久综合一区| 高清不卡毛片| 中文字幕欧美日韩高清| 国产一级在线观看www色 | 欧美翘臀一区二区三区| 国产一区二区视频在线| 精品第一国产综合精品Aⅴ| 国产区在线观看视频| 永久在线播放| 国产区免费| 色悠久久久| 久久久久国产精品嫩草影院| 狠狠色狠狠综合久久| 九九热精品免费视频| 免费观看无遮挡www的小视频| 欧洲高清无码在线| 91在线无码精品秘九色APP| 国产精品99r8在线观看| 好吊妞欧美视频免费| 国产一区二区福利| 久久久久无码精品| 伊人蕉久影院| 精品久久久久久久久久久| 韩国v欧美v亚洲v日本v| 夜精品a一区二区三区| 精品国产网站| 综合网天天| 2021精品国产自在现线看| 久久久亚洲色| 无码在线激情片| 国产人人射| 国产成人超碰无码| 青草视频在线观看国产| 亚洲色偷偷偷鲁综合| 99热这里只有精品久久免费| 欧美日韩激情| 亚洲欧美不卡中文字幕| 国产成人综合亚洲网址| 综合色亚洲| 亚洲天堂精品视频| 8090午夜无码专区| 日韩欧美中文亚洲高清在线| 亚洲自偷自拍另类小说| 91精品免费久久久| 爱做久久久久久| 毛片视频网址| 免费国产无遮挡又黄又爽| 国产午夜精品一区二区三| 亚洲欧美日本国产综合在线 | 狠狠色狠狠色综合久久第一次| 人妻丰满熟妇AV无码区| 精品国产成人高清在线| 欧美一级在线看| 国产不卡在线看| 成人久久精品一区二区三区| 亚洲日韩日本中文在线| a毛片在线| 乱人伦99久久| 97se亚洲综合在线| 亚洲高清国产拍精品26u| 丝袜亚洲综合| 国产永久在线视频| 国产成年女人特黄特色大片免费| 国产情精品嫩草影院88av| 高清无码手机在线观看| 亚洲精品无码成人片在线观看 | 久久黄色免费电影| 欧美成人精品欧美一级乱黄| 亚洲av色吊丝无码| 成人va亚洲va欧美天堂| 爱做久久久久久| 色噜噜在线观看| 国产凹凸视频在线观看| 国产乱人伦偷精品视频AAA| 国产高清毛片| 精品国产电影久久九九| 亚洲精品少妇熟女|