999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)背景的變頻興趣變化推薦算法研究

2020-06-29 23:57:09冀曉亮翁玉玲
科技創(chuàng)新與應(yīng)用 2020年20期

冀曉亮 翁玉玲

摘 ?要:現(xiàn)有的適應(yīng)興趣變化的協(xié)同過濾算法不能反應(yīng)用戶興趣變化的頻率,對(duì)即時(shí)熱點(diǎn)也不足夠敏感。同時(shí),因?yàn)橛?jì)算量大,不適應(yīng)大數(shù)據(jù)場(chǎng)景。為此我們采用對(duì)時(shí)間分層的推薦模型結(jié)合熱點(diǎn)權(quán)重函數(shù),解決了傳統(tǒng)算法存在問題,在生產(chǎn)環(huán)境中具備較高的應(yīng)用價(jià)值。

關(guān)鍵詞:個(gè)性化推薦;協(xié)同過濾;推薦算法;興趣變化;大數(shù)據(jù)推薦系統(tǒng);相似度計(jì)算

中圖分類號(hào):TP391 ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? ? ? 文章編號(hào):2095-2945(2020)20-0014-03

Abstract: The existing collaborative filtering algorithms that adapt to the change of interest can not reflect the frequency of the change of user interest, and are not sensitive to real-time hot spots. At the same time, because of the large amount of calculation, it does not adapt to the big data scene. For this reason, we use the time hierarchical recommendation model combined with the hot spot weight function to solve the problems of the traditional algorithm and have high application value in the production environment.

Keywords: personalized recommendation; collaborative filtering; recommendation algorithm; interest change; big data recommendation system; similarity calculation

1 概述

隨著時(shí)代的發(fā)展和互聯(lián)網(wǎng)的進(jìn)步,電子商務(wù)平臺(tái)的數(shù)據(jù)規(guī)模變得越來越大,用戶行為也越來越復(fù)雜。這種情況下,傳統(tǒng)的協(xié)同過濾算法因?yàn)樾蕟栴},難以滿足電子商務(wù)應(yīng)用的需求。基于大數(shù)據(jù)的快速、精準(zhǔn)的推薦系統(tǒng)逐漸成為科研領(lǐng)域內(nèi)的一項(xiàng)重要研究內(nèi)容。

協(xié)同過濾的個(gè)性化推薦技術(shù)通過研究不同用戶的興趣,主動(dòng)為用戶推薦最需要的個(gè)性化資源,是使用最廣泛并被認(rèn)為最成功的個(gè)性化推薦技術(shù)。這種推薦算法的基本思想是根據(jù)用戶興趣的相似度計(jì)算來推薦資源,把和當(dāng)前用戶相似的其他用戶的相關(guān)資源推薦給當(dāng)前用戶。

這種推薦算法的優(yōu)點(diǎn)是無需考慮資源的表示形式,并能為用戶發(fā)現(xiàn)新的感興趣的資源。現(xiàn)有的協(xié)同過濾算法存在一個(gè)弊端:不能及時(shí)反映用戶的興趣變化。

為了更好的解決這個(gè)問題,常見的方式是在推薦算法中引入基于用戶訪問時(shí)間的權(quán)重函數(shù)和基于資源相似度的權(quán)重函數(shù)。經(jīng)過類似處理,算法能更好地反應(yīng)用戶興趣變化,提高推薦的準(zhǔn)確性。但首先這種算法在計(jì)算興趣變化時(shí),采用了線性函數(shù)模擬用戶興趣隨同時(shí)間的變化,很難真正模擬出實(shí)際中用戶興趣的隨機(jī)變化。這導(dǎo)致了推薦結(jié)果的不準(zhǔn)確。同時(shí),引入更復(fù)雜的函數(shù)使得計(jì)算性能進(jìn)一步降低,不適用于大數(shù)據(jù)場(chǎng)景的生產(chǎn)環(huán)境。為此,我們引入新的基于時(shí)間分層的協(xié)同過濾推薦模型來解決以上問題。

2 經(jīng)典的協(xié)同過濾推薦模型介紹

2.1 基本的協(xié)同過濾算法模型

經(jīng)典的協(xié)同過濾算法針對(duì)用戶訪問過的資源進(jìn)行篩選。假設(shè)M個(gè)用戶訪問了N個(gè)資源,則此用戶和資源對(duì)應(yīng)的訪問記錄描述為R=M×N。我們用矩陣R[i,j]表示第i個(gè)用戶對(duì)第j個(gè)資源的訪問情況。如果為1,表示已經(jīng)訪問。如果為0,表示未訪問。

這種協(xié)同過濾算法基于用戶行為的相似性,對(duì)當(dāng)前用戶的訪問記錄計(jì)算其訪問行為最近鄰的K個(gè)用戶作為該用戶的最近鄰集合,統(tǒng)計(jì)通過最近鄰用戶訪問的資源集合生成Top-N推薦資源集。

推薦算法A:基于用戶-資源訪問集的協(xié)同過濾推薦

輸入項(xiàng):用戶x;用戶已訪問資源集Ix;資源的鄰近集合M;

輸出項(xiàng):用戶x的Top-N資源集P。

Step4.將Cx中的資源按加權(quán)推薦度大小排列,取資源的Top-N得到用戶x的推薦資源集P。

在這種算法中,計(jì)算推薦度時(shí)所采用的相似度算法是影響整個(gè)算法性能的關(guān)鍵。常用的相似度算法有余弦相似度、條件概率、歐式距離、皮爾遜相關(guān)系數(shù)等,這里不做一一列舉。

2.2 基于用戶興趣變化的算法模型

以上所描述的經(jīng)典協(xié)同過濾推薦算法存在的不足之處在于,關(guān)注資源和用戶之間的相似性,忽略了用戶興趣的動(dòng)態(tài)變化。為此,為了突出用戶近期訪問資源的重要性,出現(xiàn)了基于時(shí)間加權(quán)的動(dòng)態(tài)協(xié)同過濾推薦算法。

首先考慮用戶的興趣隨時(shí)間不斷變化。多數(shù)情況下,時(shí)間越久則訪問的資源權(quán)重越低。因此,一個(gè)用戶感興趣的資源和用戶近期的訪問記錄關(guān)系更大。為此可以考慮需要引入基于時(shí)間的數(shù)據(jù)權(quán)重函數(shù)來進(jìn)行描述。

假設(shè)資源i對(duì)用戶x的權(quán)重函數(shù)為:

其中,Dxi為用戶x對(duì)資源i的訪問時(shí)間與用戶x最早訪問某資源的時(shí)間間隔。Lx為用戶x訪問推薦系統(tǒng)的時(shí)間跨度或系統(tǒng)設(shè)置的可信時(shí)間間隔。α∈(0,1)成為權(quán)重增長指數(shù)。改變?chǔ)恋闹担梢哉{(diào)整權(quán)重隨訪問時(shí)間的變化速度。觀察可知,該函數(shù)隨時(shí)間跨度增加而遞減。

當(dāng)然,根據(jù)生產(chǎn)環(huán)境中的工程需要,我們也可以設(shè)計(jì)別的算法對(duì)權(quán)重函數(shù)進(jìn)行調(diào)整。

基于以上的權(quán)重函數(shù),我們提出改進(jìn)后的基于用戶興趣變化的協(xié)同過濾推薦模型。

推薦算法B:改進(jìn)后適應(yīng)用戶興趣變化的協(xié)同過濾推薦模型

輸入項(xiàng):用戶x;用戶已訪問資源集Ix;資源的鄰近集合M;

輸出項(xiàng):用戶x的Top-N資源集P。

算法步驟:

Step1. 讀取M,得到M的K近鄰數(shù)據(jù)集Ni={i1,i2,…,in},合并后獲得數(shù)據(jù)集C;

Step2. 從C中刪除Ix中已有的資源,得到候選的推薦數(shù)據(jù)集合Cx;

Step3. 利用公式1,計(jì)算權(quán)重函數(shù)W(x,i);

Step4. 對(duì)于資源j∈Cx,推薦度:

Step5.將Cx中的資源按照加權(quán)推薦度大小排列,取資源的Top-N得到用戶x的推薦資源集P。

這種算法能比較有效解決動(dòng)態(tài)興趣變化情況下的推薦準(zhǔn)確性,但同時(shí)也帶來了新的問題。

首先,用戶的興趣變化和時(shí)間的對(duì)應(yīng)時(shí)間函數(shù)很難模擬。不論是用戶訪問資源的頻率,還是用戶興趣的變化頻率,在某個(gè)較長時(shí)間周期內(nèi),都具有很大的不確定性。

其次,資源本身隨時(shí)間的熱度變化對(duì)用戶的訪問習(xí)慣造成的影響,干擾了推薦準(zhǔn)確性。

第三,算法模型進(jìn)一步復(fù)雜,計(jì)算過程耗費(fèi)系統(tǒng)資源,大數(shù)據(jù)背景下很多場(chǎng)景不適用或性能表現(xiàn)不佳。

第四,用戶的興趣變化并沒有規(guī)律性,訪問資源的習(xí)慣也和個(gè)人習(xí)慣有很大關(guān)聯(lián)。較冷門的、或用戶習(xí)慣無關(guān)但又可能是用戶需要的資源得不到有效推薦。

以上這幾種缺點(diǎn),都導(dǎo)致類似算法在生產(chǎn)環(huán)境中的使用受到限制。

2.3 改進(jìn)的基于時(shí)間的變頻協(xié)同過濾模型

基于對(duì)算法B的分析,我們考慮對(duì)以往的算法進(jìn)行改進(jìn)。

首先,我們考慮系統(tǒng)內(nèi)資源的自關(guān)聯(lián)關(guān)系,即資源本身與其它資源的關(guān)聯(lián)度或推薦度。考慮到各種相似度算法計(jì)算的復(fù)雜性,我們?cè)谟?jì)算這些關(guān)聯(lián)度的時(shí)候,不使用任何的資源相似性推薦算法。僅根據(jù)資源的“綁定程度”來進(jìn)行統(tǒng)計(jì)。

例如,某個(gè)用戶訪問資源i的同時(shí)訪問了一次資源j,或者某個(gè)用戶購買了一次商品i的同時(shí),購買了商品j,則我們認(rèn)為i和j的關(guān)聯(lián)度為1。這種關(guān)聯(lián)關(guān)系在生產(chǎn)環(huán)境中極其容易獲取,往往格式化存儲(chǔ)于用戶訪問記錄或者購物表單中。統(tǒng)計(jì)在某個(gè)特定的時(shí)間段T內(nèi),這些資源的關(guān)聯(lián)關(guān)系,可以得到所有用戶在訪問系統(tǒng)資源i的時(shí)候,i對(duì)應(yīng)的資源集合Ct。

考慮到在電子商務(wù)推薦的環(huán)境下,每個(gè)用戶的訪問資源往往多個(gè)。假設(shè)平臺(tái)用戶集合為Ix,考察因此我們可以統(tǒng)計(jì)在有限時(shí)長T內(nèi),資源被不同用戶i訪問的集合Ci。則平臺(tái)在有限時(shí)長T內(nèi),其用戶集合I(x,t)訪問的資源集合Ct=∑i∈I(x,t)Ci。匯總該集合,則產(chǎn)生以下的推薦算法。

推薦算法C:自適應(yīng)時(shí)間-興趣變化的協(xié)同過濾模型

輸入項(xiàng):用戶x ;有限時(shí)間T內(nèi)用戶已訪問資源集Ix;有限時(shí)間T內(nèi)用戶集合I(x,t)訪問資源的集合Ct;

輸出項(xiàng):用戶x的Top-N資源集P。

算法步驟:

Step1. 讀取Ct,遍歷Ix,得到Ct基于用戶x的K近鄰數(shù)據(jù)集Ni={i1,i2,…,in},合并后獲得數(shù)據(jù)集C;

Step2. 遍歷Ix,去除C中重復(fù)元素;

Step3. 統(tǒng)計(jì)C中資源訪問頻次,選取Top-N1,形成候選資源集Cx;

Step4. 對(duì)于資源 j∈Cx,按照公式1計(jì)算推薦度:

Step5.將Cx中的資源按加權(quán)推薦度大小排列,取資源的Top-N得到用戶x的推薦資源集P。其中N1遠(yuǎn)大于N。

與以往的算法相比,這種算法具備如下優(yōu)點(diǎn):

考慮了時(shí)間對(duì)資源訪問的影響的不確定性,同時(shí)兼顧了計(jì)算性能,特別適用于大數(shù)據(jù)場(chǎng)景下的電子商務(wù)推薦系統(tǒng),同時(shí)也能應(yīng)用于個(gè)性化推薦。

需要說明的是,這里的用戶x也可以替換為特定的群體,例如群組成員、商品的特定分類等。所以算法具有更廣的適配性。以上算法而前兩種算法因?yàn)檎w計(jì)算的數(shù)據(jù)量,在這點(diǎn)上會(huì)受限制。

在生產(chǎn)實(shí)踐中,某些場(chǎng)景的泛推薦還可以直接刪除步驟4,采用步驟3獲得的結(jié)果進(jìn)行推薦。

2.4 采用雙時(shí)間過濾的時(shí)間-興趣變化協(xié)同過濾推薦模型

算法C對(duì)算法A和B有了大幅度的改進(jìn),能滿足多數(shù)情況下的要求。但同時(shí)依然存在一些問題沒有解決。

考慮到為了獲取盡可能多的數(shù)據(jù)集Ct,實(shí)踐中選取的時(shí)長T往往比較寬泛,通常為一個(gè)季度或者一個(gè)月、一周等;對(duì)于某些對(duì)及時(shí)性要求特別高的場(chǎng)景,比如某個(gè)新聞爆點(diǎn)的相關(guān)新聞,推薦效果并不好。為此,我們對(duì)推薦算法C進(jìn)一步進(jìn)行優(yōu)化。

我們?cè)谝粋€(gè)寬松時(shí)間間隔T的基礎(chǔ)上,再定義一個(gè)嚴(yán)格時(shí)間間隔t,這個(gè)時(shí)間間隔通常比較小,可以取值為1天、1個(gè)小時(shí)等。基于算法B中的公式2,可知加權(quán)函數(shù):

這個(gè)函數(shù)在較長的時(shí)間間隔內(nèi),會(huì)誤差較大,也讓使用者比較迷茫。但對(duì)于響應(yīng)短時(shí)間內(nèi)的即時(shí)熱點(diǎn),則非常有效。基于這個(gè)公式,我們可以對(duì)算法C進(jìn)行改進(jìn)。改進(jìn)的方式是,利用算法B中的加權(quán)函數(shù)或類似思路的加權(quán)公式,在計(jì)算推薦度時(shí)調(diào)整阿爾法的值,讓最近的熱點(diǎn)時(shí)間段t內(nèi)的資源權(quán)重增大,從而達(dá)到基于用戶興趣的即時(shí)熱點(diǎn)資源推薦。詳細(xì)的計(jì)算步驟如下所示。

推薦算法D:采用雙時(shí)間過濾的時(shí)間-興趣變化協(xié)同過濾推薦模型

輸入項(xiàng):用戶x;有限時(shí)間T內(nèi)用戶已訪問資源集Ix;有限時(shí)間T內(nèi)用戶訪問資源的集合Ct;

輸出項(xiàng):用戶x的Top-N推薦資源集P。

算法步驟:

Step1. 讀取Ct,遍歷Ix,得到Ct基于用戶x的K近鄰數(shù)據(jù)集Ni={i1,i2,…,in},合并后獲得數(shù)據(jù)集C;

Step2. 遍歷Ix,去除C中重復(fù)元素;

Step3. 統(tǒng)計(jì)C中資源訪問頻次,選取Top-N1,形成候選資源集Cx;

Step4. 利用公式1,計(jì)算權(quán)重函數(shù)W(x,i);

Step5. 對(duì)于資源 j∈Cx , 按照公式3計(jì)算推薦度:

Step6. 將Cx中的資源按加權(quán)推薦度大小排列,取資源的Top-N得到用戶x的推薦資源集P。其中,N1遠(yuǎn)大于N。

對(duì)比算法B,算法D雖然計(jì)算步驟進(jìn)一步復(fù)雜,但生產(chǎn)環(huán)境下性能卻會(huì)提高很多。這種性能的提升主要來源于各層的候選數(shù)據(jù)集的減少。所以算法尤其適用于各種大數(shù)據(jù)場(chǎng)景。

2.5 性能更高的簡化雙時(shí)間推薦模型

當(dāng)推薦系統(tǒng)對(duì)推薦的精度要求稍低,但對(duì)系統(tǒng)性能要求更高時(shí),我們可以對(duì)推薦算法D進(jìn)行進(jìn)一步的改進(jìn),實(shí)現(xiàn)思路如下。

推薦算法E:簡化的雙時(shí)間推薦模型

輸入項(xiàng):用戶x;有限時(shí)間T內(nèi)用戶已訪問資源集Ix;有限時(shí)間T內(nèi)資源點(diǎn)擊Top-N1的集合Ct;

輸出項(xiàng):用戶x的Top-N資源集P。

算法步驟:

Step1. 讀取Ct,遍歷Ix,去除Ct中的重復(fù)元素后獲得備選數(shù)據(jù)集C;

Step2. 利用公式1,計(jì)算權(quán)重函數(shù)W(x,i)

Step3. 對(duì)于資源j∈Cx,按照公式3計(jì)算推薦度:

Step4. 將Cx中的資源按加權(quán)推薦度大小排列,取資源的Top-N得到用戶x的推薦資源集P。其中,N1遠(yuǎn)大于N。

在生產(chǎn)環(huán)境中,經(jīng)過精簡后的算法E,在推薦結(jié)果上和算法D區(qū)別不大,但更節(jié)省系統(tǒng)資源且運(yùn)算速度更快。

3 結(jié)束語

在大數(shù)據(jù)場(chǎng)景中,推薦算法首要考慮的便是數(shù)據(jù)量的龐大以及隨之帶來的性能問題。為此,我們必須對(duì)原有的推薦算法進(jìn)行改進(jìn)。個(gè)性化推薦因?yàn)橐紤]不同的時(shí)間和不同的用戶具有的不同特征,算法尤為復(fù)雜。

傳統(tǒng)推薦算法在時(shí)間上的模擬函數(shù)呈線性特征,因此推薦結(jié)果不能適應(yīng)用戶興趣的不規(guī)則改變。本文采用在特定的寬泛時(shí)間內(nèi)用戶訪問資源的頻率對(duì)資源集進(jìn)行過濾,并在此基礎(chǔ)上,進(jìn)行進(jìn)一步的推薦度計(jì)算。而對(duì)于時(shí)間敏感的熱點(diǎn)資源,再采取線性時(shí)間權(quán)重函數(shù)進(jìn)行二次推薦。

實(shí)踐證明,這種方法不但使推薦結(jié)果更準(zhǔn)確,也大幅度提高了算法的性能,不失為一種有效的大數(shù)據(jù)推薦算法模型。

參考文獻(xiàn):

[1]趙亮,胡乃靜,張守志.個(gè)性化推薦算法設(shè)計(jì)[J].計(jì)算機(jī)研究與發(fā)展,2002(08):986-991.

[2]余力,劉魯,羅掌華.我國電子商務(wù)推薦策略的比較分析[J].系統(tǒng)工程理論與實(shí)踐,2004(08):96-101.

[3]張鋒,常會(huì)友.基于分布式數(shù)據(jù)的隱私保持協(xié)同過濾推薦研究[J].計(jì)算機(jī)學(xué)報(bào),2006(08):1487-1495.

[4]徐義峰,陳春明,徐云青.一種基于分類的協(xié)同過濾算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2007(01):47-50.

[5]印桂生,崔曉暉,馬志強(qiáng).遺忘曲線的協(xié)同過濾推薦模型[J].哈爾濱工程大學(xué)學(xué)報(bào),2012(01):85-90.

[6]邢春曉,高鳳榮,戰(zhàn)思南,等.適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法[J].計(jì)算機(jī)研究與發(fā)展,2007(02):296-301.

主站蜘蛛池模板: 香蕉久人久人青草青草| 国产自在线播放| 亚洲毛片一级带毛片基地| 日韩东京热无码人妻| 亚洲码一区二区三区| 欧美激情综合一区二区| 亚洲天堂高清| 国产网站黄| 欧美三級片黃色三級片黃色1| 日韩欧美中文字幕在线精品| 日本三级欧美三级| 97精品国产高清久久久久蜜芽| 久久黄色免费电影| 国产精品白浆在线播放| 在线观看国产精美视频| 日韩在线影院| 欧美精品导航| 美女视频黄频a免费高清不卡| 欧美a级完整在线观看| 国产男人的天堂| 欧美第九页| 一级做a爰片久久毛片毛片| 国产香蕉在线| 九九视频免费在线观看| 国内精品久久久久鸭| 中文字幕久久波多野结衣| 亚洲Av激情网五月天| av一区二区三区在线观看| 经典三级久久| 色爽网免费视频| 精品综合久久久久久97超人该 | 97在线公开视频| 无码国内精品人妻少妇蜜桃视频| 久久99国产乱子伦精品免| 91午夜福利在线观看精品| 在线免费看片a| 国产经典免费播放视频| 青青极品在线| 97在线观看视频免费| 日本黄色不卡视频| 国产精彩视频在线观看| 91在线丝袜| 久久综合色播五月男人的天堂| 99热这里只有精品在线观看| 国产不卡一级毛片视频| 亚洲色图狠狠干| 丝袜美女被出水视频一区| 亚洲天堂在线免费| 97国产在线视频| 大陆精大陆国产国语精品1024| 国产精品美女网站| 日韩无码白| 青草娱乐极品免费视频| 成人字幕网视频在线观看| 国产网站一区二区三区| 婷婷综合在线观看丁香| 亚洲伦理一区二区| 54pao国产成人免费视频| 日韩在线播放中文字幕| 成人精品区| 最新日韩AV网址在线观看| 欧美亚洲欧美| 亚洲欧美另类日本| 婷婷色一区二区三区| 国产理论最新国产精品视频| 亚洲伊人久久精品影院| 亚洲伊人电影| 91年精品国产福利线观看久久| 欧美在线精品怡红院| 女人18毛片水真多国产| 97se亚洲| 国产第四页| 久久国产乱子| 国产精品尤物铁牛tv| 欧美国产日韩在线| 亚洲成a人片77777在线播放| 99爱在线| 夜夜操狠狠操| 国产成人亚洲欧美激情| 97亚洲色综久久精品| 91国内在线观看| 五月综合色婷婷|