999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

協(xié)同過濾推薦算法中的相似性度量研究

2022-10-15 15:54:16李散散陳小榮
現(xiàn)代信息科技 2022年15期
關(guān)鍵詞:用戶實(shí)驗(yàn)

李散散,陳小榮

(廣州工商學(xué)院 工學(xué)院,廣東 廣州 510850)

0 引 言

大數(shù)據(jù)時代用戶獲取信息越來越方便,同時用戶也能感受到大數(shù)據(jù)技術(shù)帶來的一些困擾,如信息過載出現(xiàn)的信息冗余和人們對信息的依賴性。舉個生活中常見的例子,在電子商務(wù)領(lǐng)域,各類購物平臺上陳列著不計(jì)其數(shù)的商品,用戶可以借助搜索引擎查找自己感興趣的商品,與此同時用戶也常會遇到選擇困難的情況,特別是在用戶沒有明確需求的情況下,這種困擾會更加明顯。此時強(qiáng)大的搜索引擎也無計(jì)可施,不能很好地幫助用戶篩選商品,就在此時推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)是一種可以借助一定的算法分析用戶歷史數(shù)據(jù)獲取用戶偏好和需求,然后主動推薦給用戶感興趣的信息,從而減少用戶查找時間的工具。如,eBay的“興趣購物”功能,可以根據(jù)購物者的瀏覽和購物行為,為每一個購物者提供用戶行為畫像,然后給用戶打造一個私人訂制的頁面。這樣一來電子商務(wù)平臺就可以解決用戶購物時需瀏覽大量無關(guān)信息和商品所帶來的困擾,從而優(yōu)化用戶購物體驗(yàn),實(shí)現(xiàn)精準(zhǔn)營銷。

1 協(xié)同過濾推薦算法概述

1.1 協(xié)同過濾算法基本原理

協(xié)同過濾推薦算法通常分為兩種類型:基于用戶的協(xié)同過濾算法和基于項(xiàng)目的協(xié)同過濾算法。該算法的基本思想是“物以類聚,人以群分”,主要是通過搜集用戶在線上的歷史記錄數(shù)據(jù),建立用戶偏好模型。然后通過計(jì)算用戶或項(xiàng)目之間的相似度來查找與目標(biāo)用戶相似的用戶群或者目標(biāo)用戶可能感興趣的項(xiàng)目。最后通過計(jì)算用戶對項(xiàng)目的預(yù)測評分來生成推薦列表。下面以給用戶推薦電影為例闡述該算法的原理,表1記錄了5個用戶對5部電影的評分情況,其中行是電影名,列是用戶。從表格中的數(shù)據(jù)可以看出Tom、Bob和Lucy三個用戶具有相似的興趣偏好,因?yàn)樗麄內(nèi)齻€對Léon、Supper man、Titanic三部電影有相同的評分,因此在給用戶Lucy推薦電影時會推薦Jurassic park這部電影,即與用戶Lucy相似度高的用戶喜歡的而用戶Lucy并沒有觀看的電影。而對于新用戶Amy和新電影Homealone則無法進(jìn)行推薦,因?yàn)樵u分很少或者沒有評分,從而不能找到與其有一定相似度的用戶或電影,這就是協(xié)同過濾推薦算法存在的用戶冷啟動和項(xiàng)目冷啟動問題。即,不能給新用戶做個性化推薦,也不能將新項(xiàng)目推薦給可能對它感興趣的用戶。

表1 用戶—電影評分

1.2 協(xié)同過濾算法的實(shí)現(xiàn)過程

1.2.1 建立用戶-項(xiàng)目評分矩陣

協(xié)同過濾推薦算法首先要收集用戶偏好,這可以通過整理用戶行為歷史記錄而得到,例如用戶對項(xiàng)目的評分、投票、轉(zhuǎn)發(fā)、評論、購買、點(diǎn)擊、保存等。然后對用戶行為預(yù)處理之后,形成二維矩陣,兩個維度分別是用戶列表和項(xiàng)目列表,值代表用戶對項(xiàng)目的偏好。如圖1所示,r表示用戶對項(xiàng)目的評分,分值的大小表示用戶對項(xiàng)目的喜歡程度,如果用戶對項(xiàng)目沒有評分,則記為0或者φ。這些無評分?jǐn)?shù)據(jù)的元素占整個矩陣空間的比率就是該數(shù)據(jù)的稀疏度,數(shù)據(jù)的稀疏度對推薦質(zhì)量有著直接的影響。例如:有個user、個item、共個評分,數(shù)據(jù)的稀疏度計(jì)算公式為:1-(/×)。

圖1 用戶—項(xiàng)目評分矩陣

1.2.2 計(jì)算相似度

關(guān)于相似度的計(jì)算,目前的方法基本都是通過計(jì)算兩個向量的距離來衡量相似度的大小,距離越近越相似。例如,在圖1的用戶—項(xiàng)目評分矩陣中,我們可以將一個用戶對所有項(xiàng)目的評分,即矩陣中的一行當(dāng)作一個向量來計(jì)算不同用戶之間的相似度,同理,也可以將所有用戶對同一個項(xiàng)目的評分,即矩陣中的一列看作一個向量來計(jì)算不同項(xiàng)目之間的相似度。相似度的計(jì)算方法主要有以下幾種:

(1)余弦相似度計(jì)算。余弦相似度是通過計(jì)算兩個向量夾角的余弦值來衡量用戶或項(xiàng)目之間的差異大小。當(dāng)兩個向量的夾角為0°時,余弦值為1,表明兩個用戶或項(xiàng)目的相似度最高。項(xiàng)目之間的相似度計(jì)算公式為:

其中,U、U分別表示對項(xiàng)目和項(xiàng)目評分的用戶集合,r,、r,分別表示用戶對項(xiàng)目的評分、用戶對項(xiàng)目的評分。

(2)修正的余弦相似度。余弦相似度主要是從方向上區(qū)分差異性,對絕對的數(shù)值不敏感,因而不能反映每個維度上數(shù)值的差異,這就導(dǎo)致結(jié)果的誤差,需要修正。舉個例子,用戶對電影的評價(1~5分),兩個用戶A、B對兩部電影的評分分別是(1,2)(4,5)。使用余弦相似度計(jì)算的結(jié)果是0.98,此數(shù)值表明這兩個用戶極為相似。但從具體的評分來看用戶A似乎并不喜歡這兩部電影,相對比,B用戶則比較喜歡。

還有一種情況是,用戶在給項(xiàng)目評分時,由于沒有一個統(tǒng)一的評分準(zhǔn)則,用戶的打分尺度會因人而異。有些用戶要求苛刻,整體打分可能偏低;而有些用戶態(tài)度隨和,整體打分偏高。這種用戶態(tài)度引起的評分差異不利于構(gòu)建合理有效的預(yù)測評分模型。因此,為了解決以上評分習(xí)慣的問題,引入用戶在所有歷史項(xiàng)目中的平均評分,得到以下公式:

(3)Pearson相關(guān)系數(shù)。Pearson相關(guān)系數(shù)反映了兩個變量之間的線性相關(guān)性,在推薦場景中計(jì)算的是對項(xiàng)目和項(xiàng)目都參與評分的用戶之間相似度。具體計(jì)算公式為:

這里需要注意的是,修正的余弦相似度和Pearson相關(guān)系數(shù)在公式上存在細(xì)微差別,體現(xiàn)在公式的分母上。其中,修正的余弦相似度的分母是分別計(jì)算對項(xiàng)目或項(xiàng)目有過評分的用戶,Pearson相關(guān)系數(shù)的分母則是計(jì)算對項(xiàng)目和項(xiàng)目均有評分的用戶。

(4)本文改進(jìn)的相似度計(jì)算方法。項(xiàng)目的熱門程度或用戶活躍度對相似度的計(jì)算有一定的影響,可以假設(shè),衡量用戶之間相似度時,有以下兩種情況:即,1)兩個用戶對某熱門項(xiàng)目有較高評分;2)這兩個用戶對某冷門項(xiàng)目有同樣評分。我們可以判定第二種情況更能說明這兩個用戶具有相似的偏好。同理,活躍用戶對項(xiàng)目相似度的貢獻(xiàn)應(yīng)該也小于不活躍的用戶?;谶@個觀點(diǎn),我們在計(jì)算項(xiàng)目之間相似度時加入log(1+())來對用戶活躍度做一定懲罰,修正后的項(xiàng)目相似度計(jì)算公式為:

其中,()是用戶評過分的項(xiàng)目集合,()表示對項(xiàng)目評分的用戶集合,r表示用戶對項(xiàng)目的評分,dis計(jì)算的是兩個評分的絕對值差。

1.2.3 生成推薦列表

利用上述相似度計(jì)算方法計(jì)算每個項(xiàng)目和目標(biāo)項(xiàng)目的相似度后,對這些相似度進(jìn)行從高到低排序,篩選相似度最高的(最鄰近的)個項(xiàng)目,即候選集。

2 實(shí)驗(yàn)過程與結(jié)果

2.1 數(shù)據(jù)集

本文使用基于項(xiàng)目的協(xié)同過濾推薦算法開展實(shí)驗(yàn)。本實(shí)驗(yàn)的數(shù)據(jù)集是某電商網(wǎng)站用戶訂單數(shù)據(jù)集,該數(shù)據(jù)集包括用戶信息和購買產(chǎn)品信息,我們將用戶購買商品的次數(shù)轉(zhuǎn)化為用戶評分,評分值為1~5分。具體轉(zhuǎn)化的原則是:如果用戶A購買商品的次數(shù)為1,則記為用戶A對商品的評分為1分,以此類推,當(dāng)用戶購買商品的次數(shù)達(dá)到5次則為5分,分值越高表示用戶對商品的喜歡程度越高。本實(shí)驗(yàn)選取的數(shù)據(jù)集包含610個用戶對9 724個商品的100 836條評分。為了更好地評價模型,我們隨機(jī)將數(shù)據(jù)集劃分成訓(xùn)練集和測試集,比例為3:1,訓(xùn)練集用來產(chǎn)生實(shí)驗(yàn)結(jié)果,測試集用來驗(yàn)證實(shí)驗(yàn)結(jié)果。

2.2 實(shí)驗(yàn)流程

步驟1:建立用戶-項(xiàng)目評分矩陣。

步驟2:通過相似度計(jì)算方法,找到鄰近項(xiàng)目。

步驟3:采用TOP-N法對候選集中項(xiàng)目相似度進(jìn)行排序,得到和項(xiàng)目最相似的前個項(xiàng)目集合。

步驟4:對最鄰近的個項(xiàng)目進(jìn)行用戶評分預(yù)測。

步驟5:根據(jù)預(yù)測評分值與用戶評分平均值的關(guān)系,生成推薦列表。

2.3 評價指標(biāo)

在完成實(shí)驗(yàn)之后我們利用一些常用度量指標(biāo)評價推薦系統(tǒng)預(yù)測的準(zhǔn)確性,例如,均方根誤差、召回率和準(zhǔn)確率。以下為具體的定義和公式。

2.3.1 均方根誤差

均方根誤差(RMSE),它是通過計(jì)算若干個預(yù)測值和真實(shí)值偏差的平方和與觀測次數(shù)的比值的平方根對預(yù)測效果進(jìn)行綜合評價。均方根誤差對于一組測量中特大或特小誤差比較敏感,所以它能夠很好地反映出測量的精準(zhǔn)度。具體計(jì)算公式如式(6)。其中,是觀測次數(shù),p是預(yù)測值,r是真實(shí)值,從公式可以看出RMSE的取值與推薦質(zhì)量成反比。

2.3.2 召回率

召回率(Recall)表示推薦列表中有多少被真實(shí)預(yù)測到了,是推薦列表中用戶喜歡的項(xiàng)目數(shù)量與用戶所有喜歡的項(xiàng)目的比值。它能夠直接反映出推薦結(jié)果的精準(zhǔn)度,計(jì)算公式如式(7)。其中,RT分別表示給用戶推薦的項(xiàng)目集合、用戶真實(shí)喜歡的項(xiàng)目集合。

2.3.3 準(zhǔn)確率

準(zhǔn)確率(Precision)是指推薦系統(tǒng)給用戶的推薦列表中用戶實(shí)際選擇的項(xiàng)目與所有被推薦項(xiàng)目的比例。計(jì)算公式為:

2.3.4 平均絕對誤差

平均絕對誤差(MAE)是指預(yù)測值和觀測值之間絕對誤差的平均值。MAE值越小,預(yù)測結(jié)果越準(zhǔn)確,它的計(jì)算公式為式(9)。其中,r表示用戶對項(xiàng)目的實(shí)際評分,p表示用戶對項(xiàng)目的預(yù)測評分,為預(yù)測次數(shù)。

2.4 實(shí)驗(yàn)結(jié)果與分析

通過整理實(shí)驗(yàn)數(shù)據(jù),我們得出四種相似性度量方法在推薦的準(zhǔn)確率、召回率、均方根誤差和平均絕對誤差四個方面的差異,以及值(最近鄰居數(shù)量)對推薦結(jié)果的影響。根據(jù)實(shí)驗(yàn)數(shù)據(jù)制作了圖2至圖5,如下所示。

圖2 不同相似度計(jì)算方法的準(zhǔn)確率

圖3 不同相似度計(jì)算方法的召回率

圖4 不同相似度計(jì)算方法的均方根誤差

圖5 不同相似度計(jì)算方法的平均絕對誤差

2.4.1 實(shí)驗(yàn)結(jié)果

結(jié)果1:從圖2和圖3看,改進(jìn)的相似度計(jì)算方法的準(zhǔn)確率和召回率明顯優(yōu)于其他相似度計(jì)算方法,特別是相對于余弦相似度的方法而言。同時我們也發(fā)現(xiàn)修正的余弦相似度和Pearson相關(guān)系數(shù)的準(zhǔn)確率和召回率較為接近。

結(jié)果2:對于不同最近鄰居數(shù)量,即不同值(={10,20,30,…,100})對推薦準(zhǔn)確率、召回率、RMSE和MAE的影響。從圖中可以看出,最近鄰居數(shù)量對四種相似性度量方法的評價指標(biāo)均有影響。其中對RMSE和MAE的影響較大,對召回率的影響最小。相比而言,最近鄰居數(shù)量對修正的余弦相似度、Pearson相關(guān)系數(shù)和本文提出的改進(jìn)的相似度計(jì)算方法的影響較小。

結(jié)果3:從圖4和圖5來看,4種方法的均方根誤差和平均絕對誤差整體會隨著最近鄰數(shù)量的增加有增加的趨勢,余弦相似度的方法表現(xiàn)得更加明顯。而修正的余弦相似度、Pearson相關(guān)系數(shù)和本文改進(jìn)的相似度計(jì)算方法的RMSE和MAE比較接近,它們這3種方法的預(yù)測精準(zhǔn)度明顯比余弦相似度方法高,其中本文改進(jìn)的相似度計(jì)算方法的數(shù)據(jù)更加穩(wěn)定。

2.4.2 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)結(jié)果顯示本文提出的相似度計(jì)算方法在四個指標(biāo)中均具有較好的表現(xiàn),但效果不夠顯著,究其原因主要有以下兩個因素:

如何緩解數(shù)據(jù)稀疏性問題呢?很多研究者針對這一問題提出了改進(jìn)的方法,主要可以歸為三類:數(shù)據(jù)填充、聚類方法和矩陣分解。以數(shù)據(jù)填充方法為例,可以通過預(yù)測值填充的方法對未評分的項(xiàng)目填充數(shù)值,該方法主要從協(xié)同過濾推薦算法的兩個分類出發(fā),預(yù)測用戶對未評分項(xiàng)目的評分。首先根據(jù)項(xiàng)目之間的相似度和用戶對項(xiàng)目的個鄰近項(xiàng)目的評分來預(yù)測對未評分項(xiàng)目的評分,然后將預(yù)測評分填充到項(xiàng)目—評分矩陣中,預(yù)測評分的計(jì)算公式見式(5)。如果出現(xiàn)用戶對項(xiàng)目的個最鄰近項(xiàng)目也未評分的情況,即r為空,則根據(jù)用戶之間的相似度,以及與目標(biāo)用戶最鄰近的個用戶對項(xiàng)目的評分,來預(yù)測用戶對項(xiàng)目的評分,然后將預(yù)測評分?jǐn)?shù)據(jù)再次填充到矩陣中,計(jì)算公式見式(10)。將預(yù)測評分?jǐn)?shù)據(jù)填充到矩陣后,再次進(jìn)行項(xiàng)目之間相似度的計(jì)算,然后重新生成推薦列表。最近鄰居數(shù)量的多少會影響最近鄰居與目標(biāo)用戶或目標(biāo)項(xiàng)目的相似度,因此在進(jìn)行數(shù)據(jù)填充時值選擇不宜過大。

(2)項(xiàng)目本身質(zhì)量。影響實(shí)驗(yàn)結(jié)果的另一個原因是,在上述計(jì)算相似度的過程中,僅僅從已有評分判斷用戶興趣偏好,而沒有考慮到項(xiàng)目本身的質(zhì)量也會影響用戶評分。因此,在相似度計(jì)算時應(yīng)該對用戶評分?jǐn)?shù)據(jù)的離散性進(jìn)行加權(quán),糾正項(xiàng)目質(zhì)量所帶來的誤差。在統(tǒng)計(jì)學(xué)中,通常用極差、四分位差、方差、標(biāo)準(zhǔn)差和變異系數(shù)等描述一組數(shù)據(jù)離散程度。這里用項(xiàng)目評分的方差來衡量評分?jǐn)?shù)據(jù)的離散性,方差計(jì)算公式如式(11),它使用平方的方式求和后取平均值,能夠避免正負(fù)數(shù)的相互抵消。方差越小說明數(shù)據(jù)對平均值的偏離越小,評分?jǐn)?shù)據(jù)則越穩(wěn)定。為了更精確地計(jì)算項(xiàng)目之間的相似度,引入離散系數(shù),項(xiàng)目的離散系數(shù)的計(jì)算公式如式(12)。

將離散系數(shù)(式(12))與Pearson相關(guān)系數(shù)計(jì)算公式相結(jié)合得到相似度計(jì)算公式(13),該公式在Pearson相關(guān)系數(shù)的基礎(chǔ)上,融入對項(xiàng)目質(zhì)量的加權(quán),利用該公式計(jì)算項(xiàng)目之間的相似度會更加精準(zhǔn),因而理論上能有效提高推薦質(zhì)量,這仍需要后續(xù)研究進(jìn)行驗(yàn)證。

3 結(jié) 論

本文圍繞協(xié)同過濾推薦算法開展研究,借助電商平臺數(shù)據(jù)集,通過實(shí)驗(yàn)對比了四種不同相似性度量方法對推薦結(jié)果的影響。從實(shí)驗(yàn)結(jié)果看,改進(jìn)的相似度計(jì)算方法在準(zhǔn)確率、召回率、均方根誤差和平均絕對誤差這四個方面有更好的表現(xiàn),此外,修正的余弦相似度與Pearson相關(guān)系數(shù)計(jì)算方法的推薦效果明顯比余弦相似度計(jì)算方法的推薦效果好。本實(shí)驗(yàn)因沒有考慮數(shù)據(jù)稀疏性和項(xiàng)目本身質(zhì)量的問題影響了推薦的準(zhǔn)確性,故在此基礎(chǔ)上分析了實(shí)驗(yàn)改進(jìn)的方法和思路,作為后續(xù)研究的方向。

猜你喜歡
用戶實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
微型實(shí)驗(yàn)里看“燃燒”
做個怪怪長實(shí)驗(yàn)
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
100萬用戶
主站蜘蛛池模板: 国产国产人免费视频成18| 亚洲天堂网在线播放| 日韩中文精品亚洲第三区| 99精品伊人久久久大香线蕉| 国产成人久久777777| 一区二区三区四区日韩| 99久久99视频| 亚洲国产精品日韩欧美一区| 欧美精品1区2区| 欧美在线一级片| 美女一区二区在线观看| 99尹人香蕉国产免费天天拍| 最新亚洲人成网站在线观看| 精品久久久久久久久久久| 任我操在线视频| 在线免费不卡视频| 久热中文字幕在线| 操操操综合网| 国产一区亚洲一区| 精品福利一区二区免费视频| 伊人五月丁香综合AⅤ| 国产91无码福利在线| 国产精品成人免费视频99| 欧美亚洲综合免费精品高清在线观看 | 制服丝袜无码每日更新| 91区国产福利在线观看午夜 | 色国产视频| 亚洲中文精品久久久久久不卡| 欧洲高清无码在线| 免费观看国产小粉嫩喷水| 在线一级毛片| 亚洲欧美色中文字幕| 欧美伦理一区| 国产性猛交XXXX免费看| 国产区人妖精品人妖精品视频| 中文成人在线| 成人免费一级片| 夜夜操国产| 国产精品无码作爱| 免费一级毛片在线播放傲雪网| 久久精品中文无码资源站| 午夜国产精品视频黄| 国产成人综合日韩精品无码不卡| 一本大道香蕉高清久久| 久久人人97超碰人人澡爱香蕉| 国产成人综合久久| 97视频在线观看免费视频| 欧美成人午夜在线全部免费| 国产三级国产精品国产普男人 | www.99精品视频在线播放| 97超碰精品成人国产| 国产视频大全| 久久久久青草线综合超碰| 国产一级α片| 午夜毛片免费看| 精品自拍视频在线观看| 中文字幕在线不卡视频| 最新亚洲人成无码网站欣赏网 | 欧美亚洲第一页| 91亚洲影院| 国产一线在线| 激情無極限的亚洲一区免费| 亚洲日韩精品无码专区97| 欧美一级夜夜爽| 欧美成人第一页| 夜夜操国产| 婷婷激情五月网| 亚洲AⅤ永久无码精品毛片| 日韩福利在线观看| 青青青国产免费线在| 一本色道久久88综合日韩精品| 911亚洲精品| 婷婷综合缴情亚洲五月伊| 亚洲中文字幕久久精品无码一区 | 九九热这里只有国产精品| 国产亚洲视频播放9000| 91精品情国产情侣高潮对白蜜| 在线观看亚洲精品福利片| 国产成人亚洲无吗淙合青草| 日本久久免费| 成人日韩精品| 国产美女在线免费观看|