999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)相似度計(jì)算方法的協(xié)同過(guò)濾算法研究?

2021-04-04 07:48:44
關(guān)鍵詞:用戶

(江蘇科技大學(xué)計(jì)算機(jī)學(xué)院 鎮(zhèn)江 212003)

1 引言

伴隨著互聯(lián)網(wǎng)和信息技術(shù)的快速發(fā)展,數(shù)據(jù)量呈指數(shù)型增長(zhǎng),在促進(jìn)社會(huì)經(jīng)濟(jì)快速發(fā)展的同時(shí),也使我們面臨著嚴(yán)重的“信息過(guò)載”問(wèn)題[1]。如在電子商務(wù)領(lǐng)域,面對(duì)海量商品,買家容易產(chǎn)生選擇疲憊,從而會(huì)使商家失去寶貴的潛在客戶資源。推薦系統(tǒng)基于用戶歷史數(shù)據(jù)記錄,根據(jù)相關(guān)算法處理用戶數(shù)據(jù),完成個(gè)性化商品推薦,使用戶能夠快速并準(zhǔn)確地獲取自己感興趣的商品。目前,推薦系統(tǒng)已經(jīng)廣泛應(yīng)用在電子商務(wù)、電影推薦、新聞推薦、音樂(lè)推薦、短視頻推薦等領(lǐng)域[2]。協(xié)同過(guò)濾是目前推薦系統(tǒng)中使用最廣泛也是最成熟的一種推薦算法[3],分為基于用戶的協(xié)同過(guò)濾(User-based CF)和基于項(xiàng)目的協(xié)同過(guò)濾(Item-based CF),它們都是基于鄰域的推薦[4]。協(xié)同過(guò)濾主要分為三個(gè)步驟:用戶-項(xiàng)目評(píng)分矩陣的建立、相似度計(jì)算、評(píng)分預(yù)測(cè)。其中相似度計(jì)算是最核心的部分,后續(xù)的評(píng)分預(yù)測(cè)是在此基礎(chǔ)上完成的,相似度的計(jì)算將直接決定著推薦系統(tǒng)的質(zhì)量[5]。本文是在基于用戶的協(xié)同過(guò)濾基礎(chǔ)上,對(duì)相似度的計(jì)算加以改進(jìn)的。

2 傳統(tǒng)協(xié)同過(guò)濾算法

基于用戶的協(xié)同過(guò)濾的算法思想是通過(guò)計(jì)算用戶間的相似度,找到目標(biāo)用戶的相似鄰居集,通過(guò)分析相似用戶對(duì)某些商品的評(píng)分?jǐn)?shù)據(jù),來(lái)預(yù)測(cè)目標(biāo)用戶的未評(píng)分項(xiàng)目的分值,選取評(píng)分最高的若干項(xiàng)目進(jìn)行推薦[6]。傳統(tǒng)相似度計(jì)算方法主要有余弦相似度、皮爾遜相似度、杰卡德相似度等[7]。

2.1 余弦相似度

余弦相似度是將用戶對(duì)項(xiàng)目的評(píng)分看成兩個(gè)空間向量[8],通過(guò)計(jì)算兩向量的余弦值,來(lái)衡量用戶間相似度大小,余弦值越大,兩向量之間夾角越小,相似度越高。余弦相似度只考慮夾角大小,僅在角度這個(gè)維度上去比較相似度。

余弦相似度計(jì)算公式:

2.2 皮爾遜相關(guān)系數(shù)

皮爾遜(Pearson)相似度又稱相關(guān)相似度,是基于兩用戶共同評(píng)分項(xiàng)目來(lái)計(jì)算兩向量線性相關(guān)程度的一種統(tǒng)計(jì)計(jì)算方法[9]。計(jì)算結(jié)果值介于-1和1之間,當(dāng)值為負(fù)數(shù)時(shí),表示兩向量負(fù)相關(guān),為正數(shù)則呈正相關(guān),值越接近上下限,兩向量線性關(guān)系越強(qiáng)。

皮爾遜相關(guān)系數(shù)計(jì)算公式如下:

rv,i表示用戶v對(duì)項(xiàng)目i的評(píng)分,為用戶v的平均評(píng)分。

2.3 杰卡德相似度

杰卡德相似度是從集合的角度去考慮,即兩用戶共同評(píng)價(jià)項(xiàng)目數(shù)占兩用戶總的評(píng)價(jià)項(xiàng)目的比例[10]。該相似度計(jì)算方法只注重是否被用戶評(píng)價(jià),而忽略具體評(píng)分的影響,一般用于離散型二元變量(喜歡、不喜歡;點(diǎn)贊、踩等),對(duì)于非二元變量的使用場(chǎng)景,計(jì)算效果較差。

杰卡德公式如下:

Ui,j表示用戶共同評(píng)價(jià)的項(xiàng)目,Ui表示用戶對(duì)項(xiàng)目i的評(píng)分。

根據(jù)相關(guān)研究文獻(xiàn),Pearson相似度計(jì)算的實(shí)驗(yàn)效果較其余方法準(zhǔn)確率更高[3],故本文的相似度計(jì)算的改進(jìn)以Pearson相似度為基礎(chǔ)。

3 協(xié)同過(guò)濾算法的改進(jìn)

隨著系統(tǒng)中用戶數(shù)和商品數(shù)的指數(shù)型增長(zhǎng),用戶的評(píng)分?jǐn)?shù)據(jù)顯得十分稀疏,這會(huì)對(duì)相似性計(jì)算的準(zhǔn)確性產(chǎn)生很大影響。近年來(lái),很多學(xué)者對(duì)相似度的計(jì)算提出了改進(jìn),李容等[11]提出了共同評(píng)分項(xiàng)目數(shù)占比來(lái)改進(jìn)相似度的計(jì)算,文俊浩等[12]提出Tan?imoto修正系數(shù),并將用戶共同評(píng)分項(xiàng)和用戶所有評(píng)分項(xiàng)之間的關(guān)系融入到傳統(tǒng)的相似性計(jì)算方法中,這些算法的改進(jìn)在一定程度上提高了相似度計(jì)算的準(zhǔn)確性,但依然存有一些缺陷。

3.1 用戶的平均評(píng)分對(duì)相似度計(jì)算的影響

傳統(tǒng)的Pearson相似計(jì)算并沒(méi)有考慮到每個(gè)用戶的平均評(píng)分情況,只是單純地直接計(jì)算向量間的線性關(guān)系[13]。如表1,表示用戶和對(duì)應(yīng)項(xiàng)目的評(píng)分,用評(píng)分向量表示用戶,U1=(2,1,2,1,1)和U2=(5,4,5,4,4),利用Pearson相似度計(jì)算可得出sim(U1,U2)=1。而實(shí)際上,兩用戶在對(duì)應(yīng)項(xiàng)目上評(píng)分懸殊很大,根據(jù)具體評(píng)分可以看出,U2用戶對(duì)項(xiàng)目1和2比較喜歡,而用戶U1明顯不太喜歡這兩個(gè)項(xiàng)目,說(shuō)明兩用戶間相似性并不大,而通過(guò)皮爾遜相似度公式計(jì)算的相似度卻為1,現(xiàn)實(shí)情況與傳統(tǒng)的Pearson相似度計(jì)算結(jié)果相沖突。

表1 用戶-項(xiàng)目評(píng)分矩陣

為了解決這個(gè)問(wèn)題,本文提出平均評(píng)分修正因子,以衡量用戶間的評(píng)分差異,公式如下:

d(u,v)表示兩向量的歐氏距離[14],n為兩用戶共同評(píng)分項(xiàng)的數(shù)量,ru,i和rv,i分別表示兩用戶對(duì)同一商品i的評(píng)分,d(u,v)值越小,兩用戶間評(píng)分差距越小,相似度越高,則平均評(píng)分修正因子如下所示:

很明顯,d(u,v)越小,S(u,v)值越大,用戶間相似度越高。

3.2 商品的熱門程度對(duì)相似度計(jì)算的影響

傳統(tǒng)的Pearson相似度計(jì)算,計(jì)算的時(shí)候所有商品都被賦予了相同的權(quán)重[15],并沒(méi)有考慮到商品的熱門程度對(duì)相似度計(jì)算的影響。如表2所示,大部分用戶都對(duì)商品I1和I3給了評(píng)分,這兩商品相對(duì)于其他商品更加流行[16]。

表2 用戶-項(xiàng)目評(píng)分矩陣

從表2可知,用戶U1和U2,U4和U5兩組用戶,共同評(píng)價(jià)商品數(shù)和具體評(píng)分值均相同,根據(jù)Pearson相似度計(jì)算公式,得出相同的相似度,即sim(U1,U2)=sim(U4,U5)。計(jì)算雖然正確,但不符合現(xiàn)實(shí)情況的邏輯。

從表2可看出項(xiàng)目1,3較項(xiàng)目2,4評(píng)分?jǐn)?shù)目多,屬于相對(duì)熱門商品。例如一些人都買洗衣液,并不能很大程度上說(shuō)明他們都喜歡此商品,洗衣液屬于生活必需的熱門商品,如果兩用戶都買了《推薦系統(tǒng)實(shí)踐》,則能很大程度上說(shuō)明他們都對(duì)此物品有更大的興趣相似度。因此,對(duì)于熱門程度不同的商品[17],在相似度的計(jì)算中,要賦以不同的權(quán)重。

本文引出熱門商品懲罰因子,公式定義如下:

其中,n為商品的評(píng)分總數(shù),ni為用戶對(duì)商品i的評(píng)分值。物品越熱門,n值越大,H(i)值就越小,該熱門商品懲罰因子H(i)在懲罰熱門商品的同時(shí),對(duì)于冷門商品相似度計(jì)算的權(quán)值有了一定的提高,在降低熱門商品對(duì)相似度計(jì)算影響的同時(shí),也有利于對(duì)冷門商品的推薦[18]。

綜合式(5)和式(6),把熱門商品懲罰因子和平均評(píng)分修正因子融入相似度計(jì)算中,改進(jìn)后的皮爾遜相似度為

3.3 實(shí)驗(yàn)步驟

1)建立用戶-項(xiàng)目評(píng)分矩陣,評(píng)分為5分制。

2)求取相似用戶集N。利用式(7)計(jì)算目標(biāo)用戶和其他用戶間的相似度,結(jié)果按大小順序排列,前k個(gè)用戶即為目標(biāo)用戶的相似用戶集。

3)預(yù)測(cè)評(píng)分。根據(jù)相似用戶集的歷史評(píng)分?jǐn)?shù)據(jù)預(yù)測(cè)目標(biāo)用戶對(duì)項(xiàng)目的評(píng)分,計(jì)算公式如下:

其中,N為目標(biāo)用戶u的鄰居集,Sim(u,v)為改進(jìn)后的皮爾遜相似度計(jì)算公式。

4)根據(jù)評(píng)分結(jié)果進(jìn)行推薦。

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)集的介紹

本文實(shí)驗(yàn)數(shù)據(jù)集選取MovieLens數(shù)據(jù)集,該數(shù)據(jù)集是一個(gè)開源電影數(shù)據(jù)集,很多研究基于此數(shù)據(jù)集[19]。本文實(shí)驗(yàn)使用100kb的該數(shù)據(jù)集,包括1682部電影,943個(gè)用戶和100,000條評(píng)論等數(shù)據(jù),評(píng)分大小1~5分,此數(shù)據(jù)集包含以下幾個(gè)屬性:用戶ID,電影ID,電影評(píng)分和評(píng)分時(shí)間,數(shù)據(jù)稀疏度[20]為93.7%。取80%評(píng)分作為訓(xùn)練集,剩余20%作為測(cè)試集,訓(xùn)練集用作用戶相似度計(jì)算,后續(xù)對(duì)訓(xùn)練集中的未評(píng)分項(xiàng)目預(yù)測(cè)評(píng)分,測(cè)試集用于和某項(xiàng)目對(duì)應(yīng)的預(yù)測(cè)評(píng)分作比較[21],以判斷推薦準(zhǔn)確率。

4.2 實(shí)驗(yàn)評(píng)定標(biāo)準(zhǔn)

本文采用平均絕對(duì)誤差(MAE)來(lái)評(píng)估推薦質(zhì)量。

N為測(cè)試集,實(shí)際評(píng)分為{rv,1,rv,2,rv,3,…rv,N},預(yù)測(cè)評(píng)分為{Rv,1,Rv,2,Rv,3,…Rv,N}預(yù)測(cè)評(píng)分和實(shí)際評(píng)分越接近,MAE就越小,推薦的準(zhǔn)確率就越高。

4.3 實(shí)驗(yàn)結(jié)果和分析

本文選取傳統(tǒng)的Pearson相似度算法,文獻(xiàn)[11]提到的算法、文獻(xiàn)[12]提出的相似算法和本文改進(jìn)后的皮爾遜相似度計(jì)算方法進(jìn)行實(shí)驗(yàn),各算法計(jì)算流程均相同,不同算法的MAE值如圖1所示。

由圖1可知,除原始皮爾遜相似度計(jì)算公式外,其他算法的MAE值都有一定程度的降低,推薦準(zhǔn)確度得到了一定的提高。文獻(xiàn)[11]的算法通過(guò)引入共同評(píng)分項(xiàng)目占比,使相似度的計(jì)算更加準(zhǔn)確,文獻(xiàn)[12]的算法通過(guò)將用戶共同評(píng)分項(xiàng)和用戶所有評(píng)分項(xiàng)之間的關(guān)系引入相似度的計(jì)算更加有效地降低了MAE值。各算法均在相似用戶數(shù)量50~60附近使MAE出現(xiàn)收斂,但本文提出的改進(jìn)算法能更快地實(shí)現(xiàn)MAE值的收斂,且MAE值較其他方法更低,進(jìn)一步提高了推薦的準(zhǔn)確性。

圖1 不同算法下的MAE值

5 結(jié)語(yǔ)

用戶協(xié)同過(guò)濾是基于用戶評(píng)分?jǐn)?shù)據(jù),計(jì)算用戶間的相似度,通過(guò)相似鄰居集來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)未評(píng)分項(xiàng)目的喜好程度。本文通過(guò)分析傳統(tǒng)相似度計(jì)算方法的缺陷,考慮到用戶具體評(píng)分值和商品的熱門程度對(duì)相似度計(jì)算的影響,提出了熱門商品懲罰因子和平均評(píng)分修正因子,從而得到了一種優(yōu)化的相似度計(jì)算方法。實(shí)驗(yàn)表明,改進(jìn)后的相似度計(jì)算方法能在一定程度上提高推薦準(zhǔn)確率。隨著用戶數(shù)據(jù)的進(jìn)一步增加,數(shù)據(jù)的可擴(kuò)展性將是推薦系統(tǒng)中亟待解決的問(wèn)題,提高系統(tǒng)的可擴(kuò)展性并為用戶提供實(shí)時(shí)推薦,這些將是下一步的重要研究方向。

猜你喜歡
用戶
雅閣國(guó)內(nèi)用戶交付突破300萬(wàn)輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請(qǐng)稍后再哭
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應(yīng)用
Camera360:拍出5億用戶
100萬(wàn)用戶
主站蜘蛛池模板: 亚洲欧美在线综合图区| 真人免费一级毛片一区二区| 国产免费a级片| 久久动漫精品| 狼友视频国产精品首页| 国产欧美在线观看精品一区污| 久久精品这里只有国产中文精品| 欧美性精品| 亚洲中文在线视频| 国产不卡网| 欧美成人h精品网站| 一区二区欧美日韩高清免费| 国产成人综合久久精品尤物| 国产亚洲精久久久久久久91| 波多野结衣第一页| 在线日韩一区二区| 538精品在线观看| 久综合日韩| 中日无码在线观看| 国产成人1024精品下载| 久久国产精品电影| 波多野结衣在线一区二区| 白浆视频在线观看| 日本国产精品| 91精品国产91久久久久久三级| 美女无遮挡免费网站| 日韩av电影一区二区三区四区| 中国一级特黄大片在线观看| 国产在线精品香蕉麻豆| 免费jizz在线播放| 亚洲嫩模喷白浆| 欧美国产日韩另类| 国产人免费人成免费视频| 欧美亚洲国产视频| 日本国产精品一区久久久| 午夜啪啪网| 国产一国产一有一级毛片视频| 国产精品久久久久久久久| 精品国产免费第一区二区三区日韩| 国产一级毛片在线| 亚洲系列无码专区偷窥无码| 伊人激情综合网| 亚洲一区二区约美女探花| P尤物久久99国产综合精品| 欧美日韩中文国产va另类| 99久久免费精品特色大片| 在线日韩日本国产亚洲| 欧美日本二区| 久久这里只有精品23| 高潮毛片无遮挡高清视频播放| 久久99国产视频| 国产精品一区在线麻豆| 91丨九色丨首页在线播放| 精品夜恋影院亚洲欧洲| 高清乱码精品福利在线视频| 亚洲天堂日韩av电影| 97超级碰碰碰碰精品| 高潮爽到爆的喷水女主播视频| 青青青国产视频| 亚洲人成网址| 福利国产微拍广场一区视频在线 | 欧美中日韩在线| 亚洲欧美综合在线观看| 欧美国产日产一区二区| 在线观看免费国产| 视频一本大道香蕉久在线播放 | 亚洲精品无码日韩国产不卡| 欧美啪啪精品| 国产精品午夜福利麻豆| 亚洲成肉网| 精品精品国产高清A毛片| 免费看久久精品99| 国产综合日韩另类一区二区| 好吊妞欧美视频免费| 伊人狠狠丁香婷婷综合色 | 国产黑丝一区| 亚洲综合狠狠| 手机成人午夜在线视频| 日韩高清欧美| 熟女视频91| 国产一级二级在线观看| 在线观看av永久|