999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經(jīng)網(wǎng)絡(luò)物品嵌入表示在圖書推薦系統(tǒng)的研究

2020-01-18 05:51:32梁肇敏劉峻
電子技術(shù)與軟件工程 2019年24期
關(guān)鍵詞:模型

文/梁肇敏 劉峻

1 引言

近年,推薦系統(tǒng)逐漸應(yīng)用在圖書信息系統(tǒng)上,推薦系統(tǒng)通過(guò)分析讀者行為習(xí)慣等信息向讀者推薦讀者感興趣的圖書,實(shí)現(xiàn)了“圖書主動(dòng)找人”,從而提高了圖書的銷售率。推薦系統(tǒng)成為解決“信息過(guò)載”問(wèn)題的有效手段,但也暴露了數(shù)據(jù)稀疏性、數(shù)據(jù)冷啟動(dòng)等問(wèn)題。為解決推薦系統(tǒng)的相關(guān)問(wèn)題,本文主要借鑒了在自然語(yǔ)言中的詞嵌入表示方法,將word2vec訓(xùn)練詞向量的思想應(yīng)用于讀者-圖書行為數(shù)據(jù)集,通過(guò)word2vec思路訓(xùn)練出每本書的嵌入表示,然后用來(lái)做圖書相似推薦。

在自然語(yǔ)言處理中,詞向量化最常見(jiàn)的做法是使用One-hot Representation方法,但該方法無(wú)法解決向量稀疏性問(wèn)題,1986年Hinton提出了詞分布式表示(Word Distributed Representation)的概念。該方法是指將詞表中的詞映射為一個(gè)稠密、低維的實(shí)值向量,每一維表示詞的一個(gè)潛在特征。這種方法基于深度學(xué)習(xí),可以表示出詞與詞之間的聯(lián)系[1]。word2vec訓(xùn)練出來(lái)的向量正是這種表示。

Word2vec訓(xùn)練詞向量的思路借鑒了Bengio于2003年提出的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[2]。基于相似詞應(yīng)該出現(xiàn)在相似上下文這個(gè)假設(shè)所做的工作。一般該神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型是用來(lái)處理自然語(yǔ)言任務(wù)的,而詞向量作為神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的副產(chǎn)物訓(xùn)練出來(lái)。

2013年mikolov在谷歌發(fā)表了兩篇文章[3,4],提出word2vec算法,對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了改進(jìn)和優(yōu)化,在輸出層利用層次softmax或Negative Sampling使輸出數(shù)大大減小,同時(shí)簡(jiǎn)化網(wǎng)絡(luò)復(fù)雜結(jié)構(gòu),在保證效果的前提下提高了計(jì)算效率。

2 基于神經(jīng)網(wǎng)絡(luò)物品嵌入表示的圖書推薦

2.1 圖書數(shù)據(jù)預(yù)處理

首先需要對(duì)輸入的數(shù)據(jù)進(jìn)行預(yù)處理,其過(guò)程如下:

(1)首先整理出讀者—圖書的關(guān)聯(lián)數(shù)據(jù)。

(2)把圖書數(shù)據(jù)整理成行為集合,將讀者-圖書行為數(shù)據(jù)整理成每行是讀者所看過(guò)圖書的集合,這樣一個(gè)讀者看過(guò)圖書集合對(duì)應(yīng)于語(yǔ)言中的一句話,集合里的書本就對(duì)應(yīng)于句子里的詞語(yǔ)。

(3)構(gòu)建詞典,統(tǒng)計(jì)數(shù)據(jù)記錄中共有多少本書,根據(jù)讀者看的次數(shù)由多到少進(jìn)行排序,去除借閱次數(shù)少于5次圖書數(shù)據(jù)后,構(gòu)建出長(zhǎng)度為V的圖書詞典,其中V是書本數(shù)量。然后根據(jù)詞典,從0開(kāi)始按順序給書下標(biāo)標(biāo)號(hào)。

(4)構(gòu)建詞向量矩陣,建立一個(gè)行數(shù)為詞典數(shù),列數(shù)為向量數(shù)的詞向量矩陣。這樣,矩陣每一行就是一個(gè)詞的詞向量。每個(gè)詞向量賦高斯分布的初始值,模型訓(xùn)練后最終要得到的就是這個(gè)向量矩陣迭代后的最終值。

2.2 圖書推薦模型的構(gòu)建與訓(xùn)練

word2vec訓(xùn)練詞向量使用的模型一般有兩種模式:CBOW和Skip-gram,兩種模型結(jié)構(gòu)如圖1所示,CBOW模型要預(yù)測(cè)的目標(biāo)是詞典中的一個(gè)詞wt,而Skip-gram模型正好相反,該模型是通過(guò)wt去預(yù)測(cè)窗口為k大小的上下文。

參照word2vec自然語(yǔ)言處理,把物品的共現(xiàn)性作為自然語(yǔ)言中的上下文關(guān)系,利用Skip-gram模型和Negative Sampling算法思路構(gòu)建神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出物品在隱空間的向量表示。這樣雖然丟失了空間/時(shí)間信息,但可以忽略用戶-物品關(guān)系,可以生成物品集合。在該思路下,本文以數(shù)據(jù)集中每個(gè)讀者看過(guò)的圖書為集合,每本書代表一個(gè)詞語(yǔ),按照Skipgram模型和Negative Sampling算法,對(duì)每個(gè)讀者的圖書集合用大小為K的窗口進(jìn)行掃描,生成輸入數(shù)據(jù)和標(biāo)簽數(shù)據(jù)。模型進(jìn)行迭代訓(xùn)練,達(dá)到收斂,最后得出每本書的向量。

2.3 基于圖書向量相似度的借閱推薦

通過(guò)模型訓(xùn)練好的書本向量,是一個(gè)固定低維度的稠密向量。得到每本書的向量后,就可以通過(guò)向量余弦相似度算法,計(jì)算出兩本書的相似度。計(jì)算公式為:

其中,A,B表示兩本書的向量,得出兩本書的相似度,通過(guò)分析讀者所看過(guò)的圖書記錄,計(jì)算出TOPN個(gè)相似度最大的圖書,完成圖書推薦。

3 實(shí)驗(yàn)與分析

本文使用由 Cai-Nicolas Ziegler 整理的圖書評(píng)分公開(kāi)數(shù)據(jù)集Book-Crossings對(duì)算法進(jìn)行評(píng)價(jià),該數(shù)據(jù)集由90000位讀者對(duì)270000本圖書組成的1100000萬(wàn)條評(píng)分記錄組成,評(píng)分?jǐn)?shù)據(jù)值在1至10之間。本文將閱讀書本數(shù)量少于50本的讀者和閱讀人數(shù)少于50人的書排除在外。經(jīng)過(guò)篩選整理,數(shù)據(jù)集里剩余808位讀者和2185本圖書,共96448條評(píng)分記錄,其數(shù)據(jù)格式如表1所示。數(shù)據(jù)集按7:3的比例分為訓(xùn)練集和測(cè)試集。

實(shí)驗(yàn)硬件環(huán)境如下:CPU為Intel(R)Core(TM)i7-7700HQ v4 @ 2.80GHz,內(nèi)存為8GB。軟件環(huán)境如下:操作系統(tǒng)為windows10 64位。

本文使用推薦系統(tǒng)中常用的top_N推薦評(píng)價(jià)指標(biāo),統(tǒng)一選取N=10-100進(jìn)行推薦,即推薦10到100本書,然后使用準(zhǔn)確率、召回率和算法運(yùn)行時(shí)間指標(biāo),將本算法與基于物品的協(xié)同過(guò)濾算法和基于奇異值分解(SVD)推薦算法進(jìn)行對(duì)比。并且還通過(guò)設(shè)置物品不同向量維度的不同取值,來(lái)驗(yàn)證特征向量維度對(duì)算法的影響。實(shí)驗(yàn)結(jié)果如表1和表2所示。

從表1和表2可以看出,本文研究的基于神經(jīng)網(wǎng)絡(luò)物品嵌入表示的推薦算法在準(zhǔn)確率和召回率上的結(jié)果均比傳統(tǒng)推薦算法有一定的提升。同時(shí)從表2第三列運(yùn)算速度上可以看出由于物品表示成了一個(gè)固定低維度的向量,使得在維度的計(jì)算上代價(jià)減少,使得運(yùn)算速度相對(duì)提升。這說(shuō)明本文提出的模型在圖書推薦上的有效性。

從圖2可以看出,進(jìn)行圖書推薦的準(zhǔn)確率和召回率與圖書的特征維度有關(guān),不同的維度大小,影響著推薦性能,從圖2可以看出向量維度為70時(shí),推薦性能最優(yōu)。

表1:top10-100各算法召回率(%)

表2:各算法之間top10的評(píng)測(cè)結(jié)果

4 總結(jié)

如何讓讀者更好地找到自己喜歡的圖書,對(duì)于圖書館提高圖書借閱服務(wù)質(zhì)量,以及對(duì)于書商提高圖書銷售量都有重要意義,本文借鑒word2vec思想,利用讀者對(duì)圖書的評(píng)分?jǐn)?shù)據(jù)集做圖書推薦。經(jīng)過(guò)對(duì)比實(shí)驗(yàn),結(jié)果顯示本文算法相比傳統(tǒng)推薦算法有所提升,解決了傳統(tǒng)推薦算法因數(shù)據(jù)維度過(guò)大而導(dǎo)致的數(shù)據(jù)稀疏和運(yùn)算效率低下問(wèn)題,為圖書推薦提供了一種有效的解決途徑。

圖1:CBOW和Skip-gram模型

圖2:向量維度對(duì)準(zhǔn)確率和找回率的影響

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 日韩一区二区三免费高清| 国产成人盗摄精品| 亚洲人成高清| 91在线一9|永久视频在线| 色天堂无毒不卡| 日韩欧美91| 久久99精品久久久久纯品| 一本无码在线观看| 高清久久精品亚洲日韩Av| 亚洲婷婷丁香| 久久精品国产一区二区小说| 国产女人爽到高潮的免费视频| 国产91精品调教在线播放| 欧美一区二区啪啪| 狠狠ⅴ日韩v欧美v天堂| 国产欧美精品一区二区| 成年A级毛片| 人人艹人人爽| av在线无码浏览| 无码日韩视频| 日本色综合网| 又大又硬又爽免费视频| 色成人亚洲| 国产精品专区第1页| 亚洲AV电影不卡在线观看| 99久久精品国产综合婷婷| 欲色天天综合网| 国产午夜人做人免费视频| 无码中字出轨中文人妻中文中| 亚洲AV无码乱码在线观看代蜜桃| 狠狠亚洲五月天| 亚洲精品人成网线在线| a级毛片在线免费| 日韩视频福利| 亚洲中文在线看视频一区| 草草线在成年免费视频2| 婷婷色在线视频| 国产福利大秀91| 日韩精品少妇无码受不了| 国产成人久视频免费| 无遮挡国产高潮视频免费观看| 国产高清在线丝袜精品一区| 日本妇乱子伦视频| 亚洲动漫h| 四虎精品黑人视频| 好吊妞欧美视频免费| 成人日韩欧美| 亚洲免费毛片| 免费看黄片一区二区三区| 啦啦啦网站在线观看a毛片| 国产区人妖精品人妖精品视频| 欧美无专区| 4虎影视国产在线观看精品| 波多野结衣无码AV在线| 成人免费网站久久久| 国产小视频a在线观看| 色爽网免费视频| 欧美日韩国产在线观看一区二区三区| 国产成人精品一区二区秒拍1o| 欧美激情一区二区三区成人| 国产一二三区视频| 亚洲综合天堂网| 伊在人亚洲香蕉精品播放| 99视频在线观看免费| 日本尹人综合香蕉在线观看| 国模沟沟一区二区三区| 91区国产福利在线观看午夜| 99久久无色码中文字幕| 97久久精品人人| 国产精品亚欧美一区二区三区 | 久久国产高潮流白浆免费观看| 狠狠亚洲婷婷综合色香| 欧美a在线视频| 999国产精品永久免费视频精品久久| 四虎影视永久在线精品| 丰满人妻被猛烈进入无码| 色婷婷久久| 日韩国产高清无码| 最新加勒比隔壁人妻| 国产精品久久久精品三级| 国产精品真实对白精彩久久 | 国产欧美日韩va另类在线播放|