999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

混合貝葉斯個(gè)性化排序與內(nèi)容的推薦算法研究

2019-12-11 11:25:50文曉棠吳少?gòu)?qiáng)
現(xiàn)代計(jì)算機(jī) 2019年30期
關(guān)鍵詞:排序用戶

文曉棠,吳少?gòu)?qiáng)

(廣東財(cái)經(jīng)大學(xué)華商學(xué)院,廣州510000)

0 引言

當(dāng)今,數(shù)據(jù)量成指數(shù)級(jí)別增長(zhǎng),并且速度還在不斷攀升。面對(duì)如此龐大的數(shù)據(jù)海洋,如何從海量數(shù)據(jù)中獲取最想要的信息,這是一件很消耗時(shí)間和精力的事情。如今的搜索引擎很強(qiáng)大,根據(jù)輸入的關(guān)鍵字在全球海量數(shù)據(jù)中尋找到匹配度高的內(nèi)容,這在一定程度上解放了人類,但這一行為需要人們主動(dòng)的發(fā)起,并且未考慮到每個(gè)人單獨(dú)具備的特點(diǎn)。為了進(jìn)一步解決這一問(wèn)題,學(xué)者們提出了各具特點(diǎn)的推薦算法,根據(jù)每個(gè)人產(chǎn)生的行為記錄推斷其獨(dú)特的興趣并向其推送個(gè)性化信息。當(dāng)下,推薦系統(tǒng)在部分領(lǐng)域比較常見,如電商平臺(tái)、多媒體傳播平臺(tái)等。但在知識(shí)共享平臺(tái),推薦用戶感興趣的內(nèi)容這一塊還有待提升,因此在個(gè)性化知識(shí)推薦方面很有必要尋找解決方案。

推薦算法[1]分為以下幾種:基于內(nèi)容、協(xié)同過(guò)濾和混合推薦等算法。Goldberg等人[2]第一次引入?yún)f(xié)同過(guò)濾思想。Resnick等人[3]提出基于評(píng)分的協(xié)同過(guò)濾推薦算法,通過(guò)收集用戶評(píng)分以獲取其偏好,基于聚類算法分析用戶相似性,完成推薦。Huang[4]運(yùn)用Deep Structured Semantic Models(DSSM)模型構(gòu)建一個(gè)基于位置感知的個(gè)性化新聞推薦模型。

上述推薦算法中,協(xié)同過(guò)濾算法是當(dāng)前應(yīng)用最為廣泛的算法,該算法有一類為矩陣因式分解,通過(guò)FunkSVD算法或者其他改進(jìn)算法等對(duì)矩陣進(jìn)行分解,得到兩個(gè)矩陣因子,從而用來(lái)預(yù)測(cè)用戶對(duì)于未知項(xiàng)目的評(píng)分,但其評(píng)分是全局評(píng)分優(yōu)化,不能單獨(dú)對(duì)用戶興趣點(diǎn)排序,從而不能從大量數(shù)據(jù)中選取興趣點(diǎn)較高的少量推薦項(xiàng)。

為了解決上述問(wèn)題,本文將貝葉斯個(gè)性化排序和基于內(nèi)容推薦結(jié)合,提出一種混合的推薦算法。主要貢獻(xiàn)概括如下:

(1)基于矩陣分解的貝葉斯個(gè)性化排序算法,對(duì)三元組訓(xùn)練集進(jìn)行訓(xùn)練,達(dá)到收斂,再通過(guò)計(jì)算用戶個(gè)人感興趣關(guān)鍵字與文章關(guān)鍵字匹對(duì)程度,來(lái)預(yù)測(cè)用戶對(duì)該文章的感興趣程度,兩種算法充分發(fā)揮各自長(zhǎng)處,形成混合的個(gè)性化知識(shí)推薦算法,以此來(lái)提高整體的推薦效果。

(2)在技術(shù)博文論壇,使用Kaggle上的公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),取得顯著推薦效果。

(3)基于混合的個(gè)性化知識(shí)推薦算法,設(shè)計(jì)個(gè)性化知識(shí)推薦模型,可使算法用于實(shí)踐,具有較高實(shí)用價(jià)值。

1 相關(guān)算法

1. 1 貝葉斯個(gè)性化排序算法(BPR)

該算法是一種排序推薦算法,按照用戶對(duì)物品的感興趣程度進(jìn)行排序,再選擇優(yōu)先級(jí)最高的物品推薦給用戶。

在該算法中,訓(xùn)練數(shù)據(jù)集為數(shù)據(jù)對(duì)即<u,i,j>,表示的是用戶u對(duì)于物品i比物品j更感興趣。且該算法基于貝葉斯個(gè)性化排序,因此用戶之間的喜好行為是相互獨(dú)立的,用戶對(duì)不同物品的偏好也相互獨(dú)立。同時(shí),BPR也基于矩陣分解模型,對(duì)于用戶集與物品集形成的預(yù)測(cè)排序矩陣,通過(guò)優(yōu)化分解得到矩陣

優(yōu)化目標(biāo)則為找到合適的矩陣因子V和W使得Xˉ和X最為相似。其中,V和W,通過(guò)最大后驗(yàn)估計(jì)優(yōu)化P(V,W|>u),其中>u代表的是用戶u對(duì)于物品的偏好關(guān)系。通過(guò)貝葉斯公式即可得到:

對(duì)該公式進(jìn)一步分解之后,通過(guò)梯度上升法,最終使得V和W都收斂,模型即訓(xùn)練完成。最后使用V和W 矩陣因子求得預(yù)測(cè)值:xˉui=Vu?Wi,并選擇排序值最高的n個(gè)進(jìn)行推薦。

1. 2 基于內(nèi)容推薦算法(CBR)

基于內(nèi)容推薦算法使用的數(shù)據(jù)包括用戶興趣關(guān)鍵字,及文章關(guān)鍵字。為了計(jì)算文章內(nèi)容的關(guān)鍵字,需要對(duì)文章進(jìn)行分詞等文本預(yù)處理,之后可以計(jì)算這些詞語(yǔ)的重要性。

本文基于TF-IDF算法[5]來(lái)評(píng)估詞語(yǔ)在文章中的重要性,本研究中將每篇文章文本處理后的詞語(yǔ)看作關(guān)鍵詞的集合,即1篇文章有n關(guān)鍵詞c1,c2,…,cn,其中1篇特定文章中詞頻分別是tf1,tf2,…,tfn。TF計(jì)算公式如下:

ni,j是關(guān)鍵詞在所在文章dj中的出現(xiàn)次數(shù),分母是所在文章dj中所有詞語(yǔ)出現(xiàn)次數(shù)之和。

若關(guān)鍵詞c在Dc中首篇文章出現(xiàn),Dc的值越大,詞語(yǔ)c在文章中區(qū)別于其他文章的作用就越小。如“大數(shù)據(jù)”在很多文章中出現(xiàn),出現(xiàn)頻率非常高,但它在文章中的區(qū)分度貢獻(xiàn)小。因此,可以給文章中的關(guān)鍵詞賦予一定的權(quán)重,如果它很少在文章中出現(xiàn),通過(guò)比較可以容易找到相似文章,在文章中用于區(qū)別其他文章作用就大,其權(quán)重也就越大,反之權(quán)重越小。

本文使用IDF逆向文本頻率指數(shù)計(jì)算文章中關(guān)鍵詞的權(quán)重,計(jì)算公式如下:

|D|表示語(yǔ)料庫(kù)中文章總數(shù)

|{j:t∈dj}|表示包含詞語(yǔ) ti的文章數(shù)目,若該詞語(yǔ)不在語(yǔ)料庫(kù)中,就會(huì)導(dǎo)致被除數(shù)為0,故一般情況下使用 1+|{j:t∈dj}|

假設(shè)文章數(shù)量D=1000篇,若“大數(shù)據(jù)”在所有文章中均出現(xiàn),則其 idf=log(1000/1000)=0,若“人工智能”在20篇文章中出現(xiàn),則其 idf=log(1000/20)=1.69897。

綜上所述,使用上述TF-IDF=tfi*idif的值可以評(píng)價(jià)某個(gè)關(guān)鍵詞在某篇首次出現(xiàn)的文章中的重要程度。計(jì)算某篇首次出現(xiàn)的文章所有組成的tf*idf和sim,可以評(píng)價(jià)文章之間的相似性。計(jì)算相似度公式如下:

依據(jù)上述公式,可以把用戶感興趣的詞語(yǔ)形成關(guān)鍵詞集合,然后在所有文章中計(jì)算這些關(guān)鍵詞的tf*idf的和,從而找出相似度高的文章。

至于用戶的喜好關(guān)鍵詞集合,則由其以往的行為記錄逐漸生成,同樣可以使用TF-IDF算法處理用戶閱讀過(guò)的內(nèi)容,從而形成用戶喜好關(guān)鍵詞集合。

2 混合貝葉斯個(gè)性化排序與內(nèi)容的推薦算法

本文提出的混合算法主要基于上述兩種算法,對(duì)技術(shù)博文進(jìn)行個(gè)性化知識(shí)推薦。在該算法中,收集的用戶信息包括用戶對(duì)文章的評(píng)論、是否贊同、訪問(wèn)次數(shù)和訪問(wèn)時(shí)長(zhǎng)等。對(duì)于收集到的信息會(huì)進(jìn)行加權(quán)求得用戶對(duì)文章的評(píng)分,形成評(píng)分矩陣S。

考慮相關(guān)性問(wèn)題以及矩陣稀疏等問(wèn)題,可使用聚集算法,形成用戶集群。或者通過(guò)計(jì)算用戶之間的相似度,直接取前n個(gè)鄰居。相似度的計(jì)算可通過(guò)余弦相似度公式。

使用本算法設(shè)計(jì)的個(gè)性化知識(shí)推薦模型如圖1所示。

圖1混合貝葉斯個(gè)性化排序與內(nèi)容的個(gè)性化知識(shí)推薦模型圖

本混合推薦算法的核心過(guò)程如下:

S1:獲取最近一段時(shí)間內(nèi)用戶所產(chǎn)生的行為記錄,包括評(píng)論、是否贊同、訪問(wèn)次數(shù)和訪問(wèn)時(shí)長(zhǎng)等。

S2:通過(guò)評(píng)分函數(shù)計(jì)算用戶對(duì)文章的評(píng)分,并最終形成評(píng)分矩陣,行表示用戶,列表示文章,并通過(guò)該矩陣抽取得到<u,i,j>三元組訓(xùn)練集。

S3:貝葉斯個(gè)性化排行對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,最終達(dá)到收斂,并通過(guò)模型對(duì)未交互過(guò)的文章進(jìn)行預(yù)測(cè),得到感興趣的文章排序列表。

S4:使用基于內(nèi)容推薦算法對(duì)推薦結(jié)果進(jìn)行部分糾正,計(jì)算用戶感興趣關(guān)鍵字與推薦文章的關(guān)鍵字的匹配分值,如果相似度高則對(duì)推薦結(jié)果進(jìn)行增強(qiáng),否則對(duì)其進(jìn)行削弱,得到最后的推薦結(jié)果。

其中,對(duì)于新注冊(cè)用戶,由于沒有過(guò)去所產(chǎn)生的行為記錄,無(wú)法得知其興趣愛好并對(duì)其推薦,則可使用熱點(diǎn)推薦以及全局基線方法為其進(jìn)行推薦。同時(shí),應(yīng)用系統(tǒng)同時(shí)會(huì)定期對(duì)用戶關(guān)鍵字進(jìn)行削弱,并更新文章關(guān)鍵字。

3 實(shí)驗(yàn)結(jié)果與分析

3. 1 數(shù)據(jù)集

使用Kaggle公開數(shù)據(jù)集中的數(shù)據(jù),主要是用戶與文章交互的記錄。統(tǒng)計(jì)包括文章2987篇,用戶1895名。記錄形式如圖2所示。

圖2數(shù)據(jù)集記錄形式

行為記錄的數(shù)量時(shí)間分布圖如圖3,可將某個(gè)日期之前的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,后續(xù)數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)集。

圖3行為記錄數(shù)量時(shí)間分布圖

其中,行為包括:查看、喜歡、收藏、評(píng)論、訂閱作者。各種類型行為統(tǒng)計(jì)數(shù)如表1。

表1用戶行為-統(tǒng)計(jì)數(shù)量表

3. 2 實(shí)驗(yàn)結(jié)果

首次通過(guò)余弦相似度求得鄰居后,分別將鄰居對(duì)某篇文章的評(píng)分乘以相似度值,后求和,得出對(duì)文章的預(yù)測(cè)評(píng)分。但效果不佳。

將數(shù)據(jù)轉(zhuǎn)換為評(píng)分矩陣,并進(jìn)行歸一化處理。將模型通過(guò)訓(xùn)練后,部分預(yù)測(cè)排序值與真實(shí)數(shù)據(jù)評(píng)分的對(duì)比如圖4-圖5。

圖4初始推薦predict值

從實(shí)驗(yàn)結(jié)果可以看出,貝葉斯個(gè)性化排序推薦算法推薦效果比較明顯,均方誤差也達(dá)到了較小的程度。但實(shí)驗(yàn)未能完全實(shí)踐上使用基于內(nèi)容推薦算法對(duì)推薦結(jié)果優(yōu)化,理論上若完全實(shí)現(xiàn)混合算法,推薦效果要遠(yuǎn)優(yōu)于實(shí)驗(yàn)結(jié)果,這是筆者需要進(jìn)行的下一步工作。

圖5貝葉斯個(gè)性化排序算法predict值

圖6均方誤差

3. 3 總結(jié)

使用混合推薦算法,在一般規(guī)模的數(shù)據(jù)上,表現(xiàn)出較好的推薦效果。不過(guò)還有很多可以改進(jìn)的地方。當(dāng)數(shù)據(jù)規(guī)模達(dá)到一定程度時(shí),便需要將推薦系統(tǒng)部署在集群計(jì)算平臺(tái),以此來(lái)加快模型的訓(xùn)練等。并且在超大數(shù)據(jù)規(guī)模上,深度學(xué)習(xí)構(gòu)建的模型可能占據(jù)更大的優(yōu)勢(shì)。通過(guò)深度學(xué)習(xí)構(gòu)建神經(jīng)網(wǎng)絡(luò)對(duì)技術(shù)博文進(jìn)行推薦還有待研究,并且對(duì)用戶的評(píng)論也可進(jìn)行相應(yīng)的情感分析來(lái)輔助推薦。

猜你喜歡
排序用戶
排排序
排序不等式
恐怖排序
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
100萬(wàn)用戶
主站蜘蛛池模板: www亚洲天堂| 亚洲免费黄色网| 亚洲精品欧美日本中文字幕| 狠狠色成人综合首页| 国产欧美精品一区aⅴ影院| 在线日韩日本国产亚洲| 久久久精品国产亚洲AV日韩| 日本人妻丰满熟妇区| 狠狠v日韩v欧美v| 午夜福利视频一区| 国产香蕉在线视频| 91无码人妻精品一区二区蜜桃 | 国产男人天堂| 成年人国产视频| 91丨九色丨首页在线播放| 亚洲妓女综合网995久久| 动漫精品中文字幕无码| 精品久久久久久久久久久| 久久国产av麻豆| 中文无码毛片又爽又刺激| 青青草一区| 日本欧美中文字幕精品亚洲| 国产91无毒不卡在线观看| 国产精品3p视频| 在线亚洲精品福利网址导航| 欧美午夜网| a毛片在线| 四虎永久在线| 天堂网亚洲系列亚洲系列| 无码国产伊人| 99人体免费视频| 亚洲一级毛片免费看| 91毛片网| 亚洲日韩Av中文字幕无码| 国产尤物在线播放| 色婷婷成人| 国产永久免费视频m3u8| 中文字幕啪啪| 爽爽影院十八禁在线观看| 国产美女无遮挡免费视频网站| 性欧美精品xxxx| 福利在线不卡| 国产一区二区三区在线精品专区 | 天天综合网色| 亚洲精品你懂的| 免费观看国产小粉嫩喷水| 久久久久久国产精品mv| 午夜毛片免费看| 亚洲人成在线精品| 久久久久中文字幕精品视频| 久久久久无码精品| 精品国产中文一级毛片在线看 | 国产XXXX做受性欧美88| 国产日本欧美在线观看| 国产福利在线免费| 伊人色综合久久天天| 国产欧美视频在线| 久久大香香蕉国产免费网站| 2021天堂在线亚洲精品专区| 久久久精品无码一二三区| 丁香婷婷综合激情| 亚洲精品无码成人片在线观看 | 一级毛片在线播放免费| 欧美日韩亚洲国产主播第一区| 无码粉嫩虎白一线天在线观看| 呦视频在线一区二区三区| 亚洲国产成人超福利久久精品| 毛片网站在线看| AV天堂资源福利在线观看| 国产毛片不卡| 久久超级碰| 免费看黄片一区二区三区| 一级黄色片网| 亚洲国模精品一区| 国产在线拍偷自揄拍精品| 欧美亚洲国产日韩电影在线| 免费女人18毛片a级毛片视频| 日韩精品亚洲一区中文字幕| 日韩激情成人| 国产91丝袜| 国产成人夜色91| 操操操综合网|