朱妮



[提要] 本文基于隱形反饋數(shù)據(jù)集提出區(qū)分用戶長期興趣和短期興趣的推薦模型DYLSI,該模型主要考慮到用戶興趣、項(xiàng)目流行度隨時(shí)間的變化以及長短期興趣的不同,針對(duì)數(shù)據(jù)稀疏、用戶興趣刻畫不細(xì)致等問題提出解決方案。實(shí)驗(yàn)結(jié)果表明:與傳統(tǒng)的遺忘曲線、時(shí)間窗口和基于矩陣分解的協(xié)同過濾相比,本模型在F1-Score評(píng)價(jià)指標(biāo)上展現(xiàn)出更加優(yōu)越的性能。同時(shí),本文計(jì)算用戶興趣偏好時(shí),提取長短期興趣集合、用戶活躍度、項(xiàng)目流行度相關(guān)指標(biāo),可為用戶自動(dòng)打標(biāo)簽,為后續(xù)研究用戶興趣的動(dòng)態(tài)演化過程或者網(wǎng)站功能擴(kuò)展提供更多選擇。
關(guān)鍵詞:興趣漂移;動(dòng)態(tài)推薦;長短期興趣;隱式反饋
中圖分類號(hào):F724.6 文獻(xiàn)標(biāo)識(shí)碼:A
收錄日期:2020年3月10日
一、引言
在互聯(lián)網(wǎng)時(shí)代,用戶和項(xiàng)目數(shù)量均以指數(shù)級(jí)迅速增長,帶來海量信息的同時(shí)也引發(fā)了信息過載。Media Research(艾媒咨詢)數(shù)據(jù)顯示,截至2019年,中國移動(dòng)電商用戶規(guī)模將突破7億人。各大電商平臺(tái)正在尋求一種個(gè)性化推薦的服務(wù)模式,對(duì)不同的用戶提供不同的服務(wù)策略和服務(wù)內(nèi)容,其中,用戶興趣建模的準(zhǔn)確性是個(gè)性化推薦系統(tǒng)的關(guān)鍵。
在目前用戶興趣建模的研究成果梳理中發(fā)現(xiàn),針對(duì)用戶興趣遷移問題,經(jīng)典的解決方法為時(shí)間窗口和遺忘曲線,而這些算法往往將用戶興趣衰減同等對(duì)待,沒有考慮到用戶興趣類型的不同。通常長期興趣較穩(wěn)定,而短期興趣不穩(wěn)定,但具有很高的實(shí)時(shí)性。另外,推薦領(lǐng)域的絕大多數(shù)文獻(xiàn)都側(cè)重于處理顯式評(píng)分?jǐn)?shù)據(jù),然而在許多實(shí)際情況下,特別是在電商商務(wù)推薦系統(tǒng)需要以隱式反饋為中心。針對(duì)以上問題,本文基于隱性反饋數(shù)據(jù)集提出了區(qū)分用戶長期興趣和短期興趣的用戶動(dòng)態(tài)推薦模型DYLSI,通過對(duì)用戶興趣進(jìn)行追蹤和建模,提取出用戶的長短期興趣模式,捕捉用戶興趣漂移,并得到用戶興趣分布,進(jìn)一步豐富用戶畫像。
二、文獻(xiàn)綜述
(一)國外研究現(xiàn)狀。在基于長短期興趣混合的動(dòng)態(tài)興趣模型中,Shtykh和Jin采用多層次的動(dòng)態(tài)文件結(jié)構(gòu)來反映用戶興趣的波動(dòng)性,其中包含表示長期興趣的層次和短期興趣的層次,并強(qiáng)調(diào)了長期興趣的穩(wěn)定性。Lee等人提出一種新的正態(tài)分布密度曲線遺忘函數(shù),并將用戶模型定義為長短期興趣相結(jié)合的混合興趣模型,短期模型使用滑動(dòng)窗口算法進(jìn)行更新,長期模型采用正態(tài)漸進(jìn)遺忘算法進(jìn)行更新。Li等人在新聞個(gè)性化推薦中結(jié)合了長期興趣和短期興趣,首先根據(jù)用戶長期興趣的配置文件來區(qū)分用戶可能喜歡的新聞組,然后在每個(gè)長期興趣對(duì)應(yīng)的推薦列表中根據(jù)短期興趣進(jìn)行推薦。Bennett將用戶興趣劃分為長期興趣、短期興趣和除去短期興趣的長期興趣,實(shí)驗(yàn)結(jié)果表明結(jié)合這三種興趣模式的檢索準(zhǔn)確率最高。
(二)國內(nèi)研究現(xiàn)狀。在基于長短興趣融合的動(dòng)態(tài)興趣模型中,馮永等人提出一種攜帶歷史元素的循環(huán)神經(jīng)網(wǎng)絡(luò)推薦模型負(fù)責(zé)用戶短期動(dòng)態(tài)興趣建模,基于前饋神經(jīng)網(wǎng)絡(luò)推薦模型對(duì)用戶長期興趣建模。黃敦賢將用戶興趣分為長期興趣、短期興趣和偶然興趣,分析三類興趣對(duì)用戶未來興趣預(yù)測的影響,構(gòu)建用戶動(dòng)態(tài)興趣模型。在呂學(xué)強(qiáng)等人的研究中,將用戶興趣分為短期興趣集合和長期興趣集合,通過滑動(dòng)時(shí)間窗口來控制和判斷。在伍大清等人的研究中,將用戶興趣分為長期興趣和短期興趣,對(duì)短期興趣采用滑動(dòng)窗口處理更新,對(duì)長期興趣采用最少使用淘汰算法。在王曉春等人的研究中,設(shè)計(jì)一種長短興趣結(jié)合的通用方法,將短期歷史近似定義為與測試查詢時(shí)間距離最近的n次的記錄,并根據(jù)不同n的取值計(jì)算短期興趣。
三、用戶長短期興趣識(shí)別算法
現(xiàn)有的協(xié)同過濾算法在計(jì)算推薦過程中將用戶訪問過的每個(gè)資源同等對(duì)待,這顯然是不合理的。一般來說,用戶近期訪問過的資源對(duì)推薦該用戶未來可能感興趣的資源起比較重要的作用,而早期的訪問記錄對(duì)生成推薦影響相對(duì)較小,這是因?yàn)橛脩舻呐d趣隨時(shí)間的推移不斷變化,而在較短的一段時(shí)間內(nèi)用戶的興趣是相對(duì)穩(wěn)定的,因此一個(gè)用戶感興趣的資源最可能是他近期訪問過的相似資源。
傳統(tǒng)推薦算法只考慮用戶間的相似性或項(xiàng)目間的相似性,而忽略了用戶興趣的動(dòng)態(tài)變化,從而導(dǎo)致推薦精度會(huì)隨時(shí)間推移而下降。本文將用戶興趣分為短期興趣集合S和長期興趣集合L,通過時(shí)間窗口來控制和判斷,當(dāng)時(shí)間窗口內(nèi)對(duì)商品類別p的訪問次數(shù)超過閾值,將p加入短期興趣集合S。在時(shí)間窗口外,將訪問次數(shù)大于所有商品類別平均訪問次數(shù)的加入長期興趣集L。剩余的標(biāo)識(shí)為無興趣。具體操作步驟如下:(1)設(shè)定時(shí)間窗口T的大小;(2)計(jì)算用戶u對(duì)商品類別i的訪問次數(shù)c;(3)設(shè)定短期興趣判斷閾值α,在時(shí)間窗口內(nèi),當(dāng)c>α?xí)r,將商品類別i加入用戶u的短期興趣集合S中;(4)在時(shí)間窗口外,計(jì)算用戶u對(duì)所有商品類別的平均訪問次數(shù)avg_c,當(dāng)c>avg_c時(shí),將商品i加入到用戶u的長期興趣集合S中;(5)根據(jù)長短興趣集合中的商品在“雙十一”當(dāng)天用戶購買集合中的命中率,來確定參數(shù)T,α;(6)基于長短期興趣列表進(jìn)行TOP N推薦。
四、實(shí)驗(yàn)與分析
(一)實(shí)驗(yàn)設(shè)計(jì)
1、實(shí)驗(yàn)數(shù)據(jù)。本文實(shí)驗(yàn)數(shù)據(jù)采用的是來自廈門大學(xué)數(shù)據(jù)庫實(shí)驗(yàn)室的淘寶2015年雙11交易數(shù)據(jù)集,包括了用戶id、商品id、商品類別、用戶操作行為類型(包括點(diǎn)擊、加購物車、購買和關(guān)注商品)和操作時(shí)間。
2、評(píng)估指標(biāo)。精準(zhǔn)率指分類正確的正樣本個(gè)數(shù)占分類器判定為正樣本的樣本個(gè)數(shù)的比例,召回率指分類正確的正樣本個(gè)數(shù)占真正的正樣本個(gè)數(shù)的比例,F(xiàn)1 score是精準(zhǔn)率和召回率的調(diào)和平均數(shù),見式(1)。
(1)
(二)實(shí)驗(yàn)結(jié)果與分析
1、長短興趣劃分。通過用戶歷史數(shù)據(jù)來提取用戶的長短期興趣列表,然后對(duì)比預(yù)測日當(dāng)天用戶的實(shí)際購買行為,來獲取預(yù)測的準(zhǔn)確性。根據(jù)長短興趣提取規(guī)則,時(shí)間窗口大小T和短期興趣判斷閾值α能影響實(shí)驗(yàn)結(jié)果,因此根據(jù)時(shí)間窗口T和短期興趣判斷閾值α的不同取值進(jìn)行對(duì)比實(shí)驗(yàn)。(圖1)
由圖1可知,時(shí)間窗口相同的情況下,隨著α值增大,F(xiàn)1-score呈現(xiàn)先增長后減小的趨勢。在相同α取值下,隨著時(shí)間窗口增大,F(xiàn)1-score呈現(xiàn)先增大后減小的趨勢。本文實(shí)驗(yàn)中,當(dāng)T=11,α=1時(shí),長短期興趣提取規(guī)則的F1-score最高。
2、基于長短期興趣列表的TOP N推薦。根據(jù)用戶長短興趣區(qū)分及用戶興趣模式研究,可以得到長期興趣列表和短期興趣列表,在對(duì)用戶進(jìn)行TOP N推薦時(shí),需要考慮推薦列表中元素的排序問題。首先考慮不區(qū)分長短興趣的排序問題,即將長期興趣推薦列表中元素和短期興趣推薦列表中元素混合,然后根據(jù)用戶u對(duì)項(xiàng)目i的操作頻次降序排列,選取頻次最高的前N個(gè)元素進(jìn)行推薦。
根據(jù)實(shí)驗(yàn)結(jié)果,對(duì)于短期興趣推薦列表,精準(zhǔn)率為42.54%,召回率為20.11%,F(xiàn)1-Score為27.21%;對(duì)于長期興趣推薦列表,精準(zhǔn)率為17.08%,召回率為25.56%,F(xiàn)1-Score為20.47%。故短期興趣推薦列表中的精準(zhǔn)率遠(yuǎn)高于長期興趣推薦列表,而召回率略小于長期興趣推薦列表。綜合來看,短期興趣推薦列表的F1-Score值比長期興趣推薦列表高6%左右,因此短期推薦列表的推薦效果更好,基于長短期興趣列表的TOP N推薦中,應(yīng)區(qū)分長短期興趣,優(yōu)先推薦短期興趣、然后推薦長期興趣,不足N個(gè)時(shí)用最高頻次的無興趣列表中元素補(bǔ)充。
為了比較本文提出的算法與傳統(tǒng)算法之間捕捉用戶興趣漂移的效果,將本文的混合模型與傳統(tǒng)應(yīng)對(duì)興趣漂移的遺忘曲線、時(shí)間窗口和基于矩陣分解的協(xié)同過濾算法進(jìn)行對(duì)比。(圖2)
圖2給出了不同TOP N推薦數(shù)目N對(duì)推薦F1-Score的影響,其中N分別取值5、10、15、20、25。比較本文模型與基于矩陣分解的協(xié)同過濾、遺忘曲線和時(shí)間窗口算法,在不同N取值下本文模型的F1-Score均高于遺忘曲線和時(shí)間窗口,說明了本文模型在捕捉用戶興趣漂移的良好效果。
五、結(jié)論
用戶的興趣隨著時(shí)間的變化是不斷變化的,用戶興趣模式可以分為長期興趣和短期興趣,通常來說,長期興趣比較穩(wěn)定,而短期興趣不穩(wěn)定。本文首先通過用戶長短期興趣模式的區(qū)分和識(shí)別研究,得到用戶長期興趣列表和短期興趣列表。針對(duì)長短期興趣推薦排序問題,通過對(duì)比試驗(yàn)結(jié)果,基于長短期興趣列表的TOP N推薦應(yīng)區(qū)分長短期興趣,并優(yōu)先推薦短期興趣、其次推薦長期興趣。對(duì)比于時(shí)間窗口、遺忘曲線和基于矩陣分解的協(xié)同過濾算法,本文算法在F1-score上獲得更好的效果。
本文基于用戶描述文件計(jì)算用戶興趣偏好時(shí),結(jié)合長短期興趣模型,優(yōu)化了推薦中隨時(shí)間變化的興趣漂移問題,同時(shí)提取了長短期興趣集合、用戶活躍度、項(xiàng)目流行度相關(guān)指標(biāo),可為用戶自動(dòng)打標(biāo)簽,為后續(xù)研究或者網(wǎng)站功能擴(kuò)展提供更多選擇。同時(shí),細(xì)分用戶長短期興趣之后,可以持續(xù)追蹤用戶長短興趣之間的演化機(jī)制,進(jìn)一步研究用戶興趣的動(dòng)態(tài)演化過程,具有很強(qiáng)的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。
主要參考文獻(xiàn):
[1]艾媒新零售產(chǎn)業(yè)研究中心.2019中國電商半年度發(fā)展全景報(bào)告[EB/OL].艾媒網(wǎng),2019.
[2]Shtykh R Y,Jin Q.Dynamically constructing user profiles with similarity-based online incremental clustering[J].International Journal of Advanced Intelligence Paradigms,2009.1(4).
[3]Lee S K,Cho Y H,Kim S H.Collaborative filtering with ordinal scale-based implicit ratings for mobile music recommendations[J].Information Sciences,2010.180(11).
[4]Li L.,Zheng L.,Yang F.,et al.Modeling and broadening temporal user interest in personalized news recommendation[J].Expert Systems with Applications,2014.41(7).
[5]Bennett P.Modeling the Impact of Short- and Long-Term Behavior on Search Personalization[C].International Acm Sigir Conference on Research & Development in Information Retrieval.ACM,2012.
[6]馮永,張備,強(qiáng)保華,張逸揚(yáng),尚家興.MN-HDRM:長短興趣多神經(jīng)網(wǎng)絡(luò)混合動(dòng)態(tài)推薦模型[J].計(jì)算機(jī)學(xué)報(bào),2018.
[7]黃敦賢.推薦系統(tǒng)中的用戶動(dòng)態(tài)興趣模型研究[D].華南理工大學(xué),2018.
[8]呂學(xué)強(qiáng),王騰,李雪偉,董志安.基于內(nèi)容和興趣漂移模型的電影推薦算法研究[J].計(jì)算機(jī)應(yīng)用研究,2018.35(3).
[9]伍大清,陽小華,馬家宇,胡東,吳取勁.基于隱式反饋的用戶興趣漂移方法[J].計(jì)算機(jī)應(yīng)用與軟件,2010.27(9).
[10]王曉春,李生,楊沐昀,趙鐵軍.一種長短期興趣結(jié)合的個(gè)性化檢索模型[J].中文信息學(xué)報(bào),2016.30(3).