999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Q-learning算法優(yōu)化的SVDPP推薦算法

2021-02-05 03:02:50周運(yùn)騰張雪英李鳳蓮劉書(shū)昌焦江麗
計(jì)算機(jī)工程 2021年2期
關(guān)鍵詞:優(yōu)化用戶模型

周運(yùn)騰,張雪英,李鳳蓮,劉書(shū)昌,焦江麗,田 豆

(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,太原 030600)

0 概述

隨著網(wǎng)絡(luò)和信息技術(shù)的不斷發(fā)展,現(xiàn)實(shí)社會(huì)中網(wǎng)絡(luò)信息的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。面對(duì)種類(lèi)繁多的信息,如何獲取個(gè)性化服務(wù)已成為人們的迫切需求。個(gè)性化推薦[1]通過(guò)各種推薦算法分析用戶的行為喜好,能夠有效過(guò)濾用戶不需要的信息,主動(dòng)為用戶提供個(gè)性化的產(chǎn)品或服務(wù)。目前,個(gè)性化推薦已被廣泛應(yīng)用于社交[2]、新聞、音樂(lè)、圖書(shū)和電影網(wǎng)站等應(yīng)用[3],如網(wǎng)易云音樂(lè)[4]、淘寶商品推薦[5]、Netflix和MovieLens電影推薦等。

協(xié)同過(guò)濾(Collaborative Filtering,CF)技術(shù)[6]可用于推薦算法,其主要包括基于內(nèi)存和基于模型兩類(lèi)算法。其中:基于內(nèi)存的協(xié)同過(guò)濾推薦算法通過(guò)分析“用戶-項(xiàng)目”評(píng)分矩陣計(jì)算相似度,并根據(jù)相似度進(jìn)行預(yù)測(cè)推薦;基于模型的協(xié)同過(guò)濾推薦算法通過(guò)用戶的歷史購(gòu)買(mǎi)記錄、網(wǎng)絡(luò)操作等數(shù)據(jù)訓(xùn)練一個(gè)預(yù)測(cè)模型,進(jìn)而利用此模型對(duì)項(xiàng)目進(jìn)行預(yù)測(cè)評(píng)分。許多研究通過(guò)改進(jìn)協(xié)同過(guò)濾算法優(yōu)化了推薦效果,如限制性玻爾茲曼機(jī)、K近鄰算法[7]、奇異值分解[(8]Singular Value Decomposition,SVD)算法及其改進(jìn)模型(Singular Value Decomposition Plus Plus,SVDPP)。SVD不僅是一個(gè)數(shù)學(xué)問(wèn)題,其在很多工程中也得到了成功應(yīng)用。在推薦系統(tǒng)方面,利用SVD可以很容易地得到任意矩陣的滿秩分解,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的壓縮降維。SVDPP在SVD基礎(chǔ)上進(jìn)一步融入了隱式反饋信息,采用隱式偏好對(duì)SVD模型進(jìn)行優(yōu)化,因此性能更優(yōu)。但是SVDPP與SVD都沒(méi)有考慮時(shí)間戳對(duì)推薦性能的影響,而實(shí)際推薦效果與時(shí)間戳仍然有一定的關(guān)聯(lián)性,如十年前的用戶對(duì)某一部電影的評(píng)分與當(dāng)前用戶的評(píng)分是有一定差異的,因此有必要對(duì)其進(jìn)行改進(jìn),優(yōu)化預(yù)測(cè)效果。

本文考慮時(shí)間戳對(duì)推薦性能的影響,通過(guò)馬爾科夫決策過(guò)程(Markov Decision Process,MDP)對(duì)用戶、評(píng)分、電影和時(shí)間進(jìn)行建模,并利用強(qiáng)化學(xué)習(xí)Q-learning算法優(yōu)化推薦算法,從而提升推薦效果,實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。

1 問(wèn)題描述

在使用基于模型的推薦算法進(jìn)行預(yù)測(cè)時(shí),SVD和SVDPP模型都沒(méi)有考慮時(shí)間戳對(duì)于推薦準(zhǔn)確性的影響,而用戶之前看過(guò)的電影會(huì)對(duì)他之后選擇觀看的電影類(lèi)型及其對(duì)電影的評(píng)分產(chǎn)生影響。因此,本文利用馬爾科夫決策過(guò)程對(duì)這種時(shí)序決策問(wèn)題建模,反映時(shí)間戳數(shù)據(jù)與評(píng)分的關(guān)系,并通過(guò)強(qiáng)化學(xué)習(xí)對(duì)推薦算法進(jìn)行優(yōu)化。

Q-learning算法是一種基于反饋和智能體的無(wú)模型的強(qiáng)化學(xué)習(xí)方法,本文提出一種基于Q-learning算法優(yōu)化的SVDPP推薦算法RL-SVDPP,以解決SVDPP在電影推薦預(yù)測(cè)中未考慮時(shí)間戳影響的問(wèn)題。

強(qiáng)化學(xué)習(xí)[9-10]作為一種機(jī)器學(xué)習(xí)方法,主要原理是智能體以試錯(cuò)的方式進(jìn)行學(xué)習(xí),通過(guò)自身與環(huán)境交互獲得獎(jiǎng)勵(lì)。目前,強(qiáng)化學(xué)習(xí)已經(jīng)被成功應(yīng)用到神經(jīng)網(wǎng)絡(luò)和文本處理等領(lǐng)域,但將該方法直接應(yīng)用于推薦算法的研究較少,現(xiàn)有研究主要通過(guò)結(jié)合深度神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練并推薦預(yù)測(cè)[11]。筆者受啟發(fā)于Netflix Prize比賽中競(jìng)賽選手將時(shí)間戳應(yīng)用到矩陣分解模型[12],以及文獻(xiàn)[13]將強(qiáng)化學(xué)習(xí)用于協(xié)同過(guò)濾的思路,考慮到用戶對(duì)一部未看過(guò)電影的評(píng)分可以通過(guò)他之前看過(guò)的電影評(píng)分來(lái)預(yù)測(cè),即時(shí)間戳?xí)绊懹脩魧?duì)未知電影的評(píng)分,將SVDPP推薦算法得到的預(yù)測(cè)評(píng)分進(jìn)一步采用馬爾科夫決策過(guò)程中的獎(jiǎng)懲函數(shù)進(jìn)行優(yōu)化,建立推薦預(yù)測(cè)評(píng)分與馬爾科夫決策過(guò)程之間的映射關(guān)系,并利用強(qiáng)化學(xué)習(xí)Q-learning算法[14]進(jìn)行模型訓(xùn)練,以優(yōu)化預(yù)測(cè)過(guò)程。

2 建模過(guò)程

2.1 奇異值分解

現(xiàn)實(shí)生活中的“用戶-項(xiàng)目”矩陣規(guī)模很大,但是由于用戶的興趣和消費(fèi)能力有限,單個(gè)用戶消費(fèi)產(chǎn)生評(píng)分的物品是少量的,SVD的核心思想是將高維稀疏的矩陣分解為2個(gè)低維矩陣,相對(duì)于特征值分解只能用于對(duì)稱矩陣,SVD能對(duì)任意M×N矩陣進(jìn)行滿秩分解,以實(shí)現(xiàn)數(shù)據(jù)壓縮。但是在采用SVD對(duì)矩陣進(jìn)行分解之前,需要對(duì)矩陣中的空白項(xiàng)進(jìn)行填充,以得到一個(gè)稠密矩陣。假設(shè)填充前的矩陣為R,填充后為R′,則計(jì)算公式為:

利用SVD算法獲取預(yù)測(cè)評(píng)分的計(jì)算公式如下:

其中:μ代表評(píng)分的平均值;bu、bi分別代表用戶u和電影i的偏置量;qi、pu分別對(duì)應(yīng)電影和用戶在各個(gè)隱藏特質(zhì)上的特征向量,上標(biāo)T代表轉(zhuǎn)置。

如果用戶對(duì)某個(gè)電影進(jìn)行了評(píng)分,則說(shuō)明他看過(guò)這部電影,這樣的行為蘊(yùn)含了一定的信息,從而可以推理出評(píng)分這種行為從側(cè)面反映了用戶的喜好,據(jù)此可將這種喜好通過(guò)隱式參數(shù)的形式體現(xiàn)在模型中,得到一個(gè)更為精準(zhǔn)的模型SVDPP[15]。

利用SVDPP模型獲取預(yù)測(cè)評(píng)分的計(jì)算公式如下:

其中:N(u)為用戶u瀏覽和評(píng)價(jià)過(guò)的所有電影的集合;yj為隱藏的評(píng)價(jià)了電影j的個(gè)人喜好偏置;用戶u的偏好程度由顯式反饋pu和隱式反饋兩部分組成。

2.2 馬爾科夫決策過(guò)程

馬爾科夫決策過(guò)程是決策理論規(guī)劃、強(qiáng)化學(xué)習(xí)及隨機(jī)域中其他學(xué)習(xí)問(wèn)題的一種直觀和基本的構(gòu)造模型[16]。在這個(gè)模型中,環(huán)境通過(guò)一組狀態(tài)和動(dòng)作進(jìn)行建模,可用于執(zhí)行控制系統(tǒng)的狀態(tài)。通過(guò)這種方式來(lái)控制系統(tǒng)的目的是最大化一個(gè)模型的性能標(biāo)準(zhǔn)。目前,很多問(wèn)題(如多智能體問(wèn)題[17]、機(jī)器人學(xué)習(xí)控制[18]和玩游戲的問(wèn)題[19-20])成功通過(guò)馬爾科夫決策過(guò)程進(jìn)行建模,因此,馬爾科夫決策過(guò)程已成為解決時(shí)序決策問(wèn)題的標(biāo)準(zhǔn)方法[21]。

一般的馬爾科夫決策過(guò)程由五元組<S,A,P,γ,Rew>表示,如圖1所示,其中,st表示狀態(tài),at表示動(dòng)作,rt表示回報(bào)函數(shù)。智能體感知當(dāng)前環(huán)境中的狀態(tài)信息,根據(jù)當(dāng)前狀態(tài)選擇執(zhí)行某些動(dòng)作,環(huán)境根據(jù)選擇的動(dòng)作給智能體反饋一個(gè)獎(jiǎng)懲信號(hào),根據(jù)這個(gè)獎(jiǎng)懲信號(hào),智能體就從一個(gè)狀態(tài)轉(zhuǎn)移到了下一個(gè)狀態(tài)。

圖1 馬爾科夫決策過(guò)程Fig.1 Markov decision process

采用強(qiáng)化學(xué)習(xí)方法對(duì)SVDPP推薦模型進(jìn)行優(yōu)化,首先需要建立推薦預(yù)測(cè)模型與馬爾科夫決策過(guò)程的映射關(guān)系。由于本文采用MovieLens 1M數(shù)據(jù)集作為研究對(duì)象,因此需要將用戶在不同時(shí)間戳下對(duì)電影的評(píng)分轉(zhuǎn)換成五元組以構(gòu)造馬爾科夫決策過(guò)程。下面給出本文設(shè)計(jì)的電影評(píng)分到馬爾科夫決策過(guò)程的映射關(guān)系。

2.3 狀態(tài)表生成

由上述馬爾科夫決策過(guò)程可知,一個(gè)狀態(tài)轉(zhuǎn)移到下一個(gè)狀態(tài)的動(dòng)作對(duì)應(yīng)下一個(gè)時(shí)間電影的評(píng)分,雖然這樣在表面上忽略了電影名及電影類(lèi)型,但用戶對(duì)電影的喜好被隱式地反映在時(shí)間戳里,通過(guò)這個(gè)過(guò)程可將MovieLens 1M數(shù)據(jù)集處理為表1所示的形式。其中,括號(hào)中的第1個(gè)數(shù)字反映了對(duì)應(yīng)行用戶給對(duì)應(yīng)列電影的評(píng)分,第2個(gè)數(shù)字反映了對(duì)應(yīng)行用戶觀看對(duì)應(yīng)列電影的時(shí)間戳信息或者時(shí)間順序,如第1行第1列(4,3th)表示用戶1觀看電影1的時(shí)間順序是第3個(gè),因此,時(shí)間戳t=3且用戶1對(duì)電影1打了4分,NaN表示對(duì)應(yīng)用戶未觀看這部電影。

表1 MovieLens 1M數(shù)據(jù)集部分?jǐn)?shù)據(jù)Table 1 Partial data of MovieLens 1M data set

將表1的數(shù)據(jù)按照時(shí)間戳排序,生成的狀態(tài)轉(zhuǎn)移路徑如下:

根據(jù)表1得到該狀態(tài)轉(zhuǎn)移路徑的規(guī)則,以第1行為例進(jìn)行說(shuō)明。第1行狀態(tài)轉(zhuǎn)移路徑5→3→4 →3反映了用戶1在時(shí)間戳t=1時(shí)看電影3,對(duì)電影3的評(píng)分為5,t=2時(shí)看電影2,對(duì)電影2的評(píng)分為3,t=3時(shí)看電影1,對(duì)電影1的評(píng)分為4,t=4時(shí)看電影5,對(duì)電影5的評(píng)分為3。其余4個(gè)轉(zhuǎn)移路徑采用類(lèi)似方式得到。

此狀態(tài)轉(zhuǎn)移路徑表示馬爾科夫決策過(guò)程中狀態(tài)的轉(zhuǎn)移,指引了Q表更新的方向。

3 RL-SVDPP算法

本文提出的RL-SVDPP算法包括訓(xùn)練與預(yù)測(cè)兩部分。訓(xùn)練時(shí),首先采用SVDPP算法對(duì)訓(xùn)練集進(jìn)行模型訓(xùn)練,得到SVDPP推薦模型,如式(3)所示,然后對(duì)強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,利用式(5)所示的獎(jiǎng)懲函數(shù)計(jì)算狀態(tài)轉(zhuǎn)移的獎(jiǎng)懲值Rew,完成強(qiáng)化學(xué)習(xí)Q表的更新,用于SVDPP推薦評(píng)分的優(yōu)化模型。預(yù)測(cè)時(shí),首先根據(jù)SVDPP推薦模型得到預(yù)測(cè)評(píng)分值,再用本文設(shè)計(jì)的優(yōu)化模型對(duì)預(yù)測(cè)評(píng)分進(jìn)行優(yōu)化,得到最終的預(yù)測(cè)評(píng)分。本文設(shè)計(jì)的優(yōu)化模型表示如下:

3.1 訓(xùn)練過(guò)程

首先通過(guò)式(3)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,得到SVDPP推薦模型;然后對(duì)強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,利用式(5)計(jì)算獎(jiǎng)懲值Rew,進(jìn)而將Rew用于Q-learning算法中Q值的更新過(guò)程。Q表更新公式如下:

RL-SVDPP算法訓(xùn)練過(guò)程的偽代碼如下:

算法RL-SVDPP算法訓(xùn)練過(guò)程

3.2 預(yù)測(cè)過(guò)程

預(yù)測(cè)過(guò)程根據(jù)SVDPP推薦模型得到的預(yù)測(cè)評(píng)分,結(jié)合訓(xùn)練的Q表來(lái)預(yù)測(cè)用戶u對(duì)電影i的評(píng)分,同時(shí)可預(yù)測(cè)用戶u未觀看但是其他用戶觀看過(guò)的電影。

3.3 數(shù)據(jù)稀疏性及邊界點(diǎn)問(wèn)題的處理

本文所采用的MovieLens 1M數(shù)據(jù)集存在缺省值,即存在沒(méi)有評(píng)分的電影信息。根據(jù)本文優(yōu)化模型的構(gòu)建思路,后續(xù)優(yōu)化過(guò)程中需要利用未評(píng)分電影評(píng)分信息,這將導(dǎo)致中可能缺少s或者a的值,從而使優(yōu)化模型失效。為避免出現(xiàn)這一情況,本文采用SVDPP模型對(duì)缺失值進(jìn)行預(yù)測(cè)再取整填充,以解決數(shù)據(jù)稀疏的問(wèn)題。

此外,當(dāng)t=1,2時(shí),邊界的會(huì)超出下標(biāo)范圍,出現(xiàn)沒(méi)有對(duì)應(yīng)取值的情況。因此,本文采用最后兩列的預(yù)測(cè)評(píng)分作為第-1列和第0列的預(yù)測(cè)評(píng)分?jǐn)?shù)據(jù),以保證數(shù)據(jù)的完整性。

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)采用MovieLens 1M數(shù)據(jù)集,其中包含6 040個(gè)用戶對(duì)3 952個(gè)影片的近1億條評(píng)分,評(píng)分范圍為1分~5分。本文將數(shù)據(jù)的80%作為訓(xùn)練集來(lái)訓(xùn)練RL-SVDPP模型,其他的20%作為測(cè)試集,通過(guò)均方根誤差(Root-Mean-Square Error,RMSE)來(lái)評(píng)價(jià)推薦算法的準(zhǔn)確性。

4.2 評(píng)價(jià)指標(biāo)

評(píng)分預(yù)測(cè)的準(zhǔn)確度一般通過(guò)均方根誤差來(lái)決定,定義如下:

其中:rui表示測(cè)試集中用戶u對(duì)電影i的真實(shí)評(píng)分;為采用本文算法得到的預(yù)測(cè)評(píng)分;T為電影集合;N表示該用戶看過(guò)的電影總數(shù)。

4.3 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本文算法的有效性,除了對(duì)SVDPP模型進(jìn)行優(yōu)化得到RL-SVDPP模型外,同時(shí)也對(duì)SVD模型進(jìn)行訓(xùn)練,建立優(yōu)化模型RL-SVD。實(shí)驗(yàn)分別建立SVD及SVDPP模型,并求出預(yù)測(cè)評(píng)分,以得到獎(jiǎng)懲函數(shù)Rew,根據(jù)獎(jiǎng)懲函數(shù)可得到對(duì)應(yīng)的獎(jiǎng)懲表,如表2和表3所示。獎(jiǎng)懲函數(shù)作為馬爾科夫決策過(guò)程中最重要的部分,能夠隱式地反映學(xué)習(xí)目標(biāo),指出馬爾科夫決策過(guò)程的前進(jìn)方向。在表2和表3中,行表示狀態(tài),列表示動(dòng)作,如-1.137 11表示在狀態(tài)1時(shí),進(jìn)行動(dòng)作1得到的獎(jiǎng)勵(lì)值為-1.137 11,其他以此類(lèi)推,其中獎(jiǎng)勵(lì)值為正表明對(duì)正確行為給予獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)值為負(fù)表明對(duì)錯(cuò)誤動(dòng)作給予懲罰。

表2 由SVD預(yù)測(cè)評(píng)分得到的獎(jiǎng)懲表Table 2 Reward and punishment table by SVD prediction scores

表3 由SVDPP預(yù)測(cè)評(píng)分得到的獎(jiǎng)懲表Table 3 Reward and punishment table based by SVDPP prediction scores

將獎(jiǎng)懲函數(shù)Rew用于Q表更新過(guò)程,更新后的Q表如表4和表5所示。可以看出,通過(guò)Q-learning算法訓(xùn)練生成的Q表中的值有正有負(fù)。為更形象地進(jìn)行描述,將表中數(shù)據(jù)繪制成三維空間圖,如圖2和圖3所示,其中,凸起和凹陷部分表示在某狀態(tài)下采取動(dòng)作獲得的期望收益有好有壞。可以看出:RL-SVD算法Q表三維圖中Q值動(dòng)態(tài)變化范圍較大,變化范圍為-0.979 930~1.000 000,25個(gè)Q值中有14個(gè)為負(fù)值;RL-SVDPP算法得到的Q表三維圖中Q值動(dòng)態(tài)變化范圍較小,變化范圍為-0.145 190~0.175 280,25個(gè)Q值中有10個(gè)為負(fù)值。這表明RL-SVDPP選擇正確動(dòng)作得到獎(jiǎng)勵(lì)的情況多于選擇錯(cuò)誤動(dòng)作進(jìn)行懲罰的情況,因此,其優(yōu)化性能優(yōu)于RL-SVD。下文將通過(guò)RMSE性能對(duì)比進(jìn)一步驗(yàn)證該結(jié)論。

表4 由SVD預(yù)測(cè)評(píng)分得到的Q表Table 4 Q table by SVD prediction scores

表5 由SVDPP預(yù)測(cè)評(píng)分得到的Q表Table 5 Q table by SVDPP prediction scores

圖2 RL-SVD算法Q表三維圖Fig.2 3D diagram of Q table for RL-SVD algorithm

圖3 RL-SVDPP算法Q表三維圖Fig.3 3D diagram of Q table for RL-SVDPP algorithm

對(duì)20%的測(cè)試集采用本文提出的優(yōu)化模型RL-SVD和RL-SVDPP計(jì)算預(yù)測(cè)評(píng)分,并通過(guò)式(8)求解其與實(shí)際評(píng)分的均方根誤差,驗(yàn)證本文優(yōu)化方法的有效性。RMSE比較結(jié)果如表6所示。

表6 本文算法與已有SVD/SVDPP的RMSE對(duì)比Table 6 Comparison of RMSE by the proposed algorithm and the existing SVD/SVDPP

可以看出:相對(duì)SVD算法,采用RL-SVD算法得到的預(yù)測(cè)結(jié)果比優(yōu)化前SVD算法預(yù)測(cè)結(jié)果的RMSE降低了0.004 3;相對(duì)SVDPP算法,采用本文提出的RL-SVDPP算法得到的預(yù)測(cè)結(jié)果比優(yōu)化前SVDPP的RMSE降低了0.005 6,驗(yàn)證了本文融合時(shí)間戳信息建立的強(qiáng)化學(xué)習(xí)優(yōu)化的推薦模型的有效性,也說(shuō)明用戶對(duì)電影的評(píng)分與時(shí)間戳確實(shí)有一定的關(guān)系。

由于學(xué)習(xí)率α和折扣因子γ是可以動(dòng)態(tài)調(diào)整的,因此進(jìn)一步研究RL-SVDPP算法中α和γ的變化對(duì)預(yù)測(cè)性能的影響,實(shí)驗(yàn)結(jié)果如圖4和圖5所示。由圖4可知,當(dāng)γ一定時(shí),α從0.000 003增大到0.3,10倍遞增,RMSE的值會(huì)增大,并且當(dāng)α比較大時(shí),RMSE變化很小,因此,α應(yīng)盡可能取較小的值。由圖5可知,當(dāng)α一定時(shí),γ從0.4增大到0.6,RL-SVDPP算法的RMSE不斷減小,實(shí)驗(yàn)中最好的效果是當(dāng)α=0.000 003和γ=0.6時(shí),此時(shí)RMSE能達(dá)到0.819 48,相比之前降低了0.008 6,由此證明了RL-SVDPP算法的可行性。

圖4 γ 一定時(shí)α 變化對(duì)RMSE的影響Fig.4 Effect of α change on RMSE with constant γ

圖5 α 一定時(shí)γ 變化對(duì)RMSE的影響Fig.5 Effect of γ change on RMSE with constant α

5 結(jié)束語(yǔ)

本文提出一種強(qiáng)化學(xué)習(xí)Q-learning算法優(yōu)化的SVDPP推薦算法RL-SVDPP。將用戶在不同時(shí)間戳下對(duì)電影的評(píng)分動(dòng)作轉(zhuǎn)化為馬爾科夫決策過(guò)程,結(jié)合協(xié)同過(guò)濾算法與強(qiáng)化學(xué)習(xí)獎(jiǎng)懲過(guò)程進(jìn)行建模,對(duì)SVDPP推薦預(yù)測(cè)評(píng)分進(jìn)行優(yōu)化,并通過(guò)調(diào)整影響因子來(lái)改善預(yù)測(cè)效果。實(shí)驗(yàn)結(jié)果表明,用戶過(guò)去的評(píng)分?jǐn)?shù)據(jù)對(duì)當(dāng)前的評(píng)分有顯著影響,將用戶對(duì)電影的喜好隱式地反映在時(shí)間戳中,有助于得到更精確的結(jié)果。本文僅采用強(qiáng)化學(xué)習(xí)方法中的Q-Learning對(duì)SVDPP進(jìn)行優(yōu)化,如何能通過(guò)融入時(shí)間戳對(duì)算法直接進(jìn)行優(yōu)化,或者將強(qiáng)化學(xué)習(xí)與其他推薦方法(如深度學(xué)習(xí)網(wǎng)絡(luò))相結(jié)合進(jìn)行優(yōu)化,將是下一步的研究方向。

猜你喜歡
優(yōu)化用戶模型
一半模型
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
關(guān)注用戶
3D打印中的模型分割與打包
關(guān)注用戶
主站蜘蛛池模板: 大陆精大陆国产国语精品1024 | 久久综合丝袜日本网| 日韩精品无码不卡无码| 国产资源免费观看| 国产激情无码一区二区免费| 啊嗯不日本网站| 亚洲有码在线播放| 国产在线第二页| 青青国产视频| 国产自在线播放| 欧美不卡二区| 欧美日本激情| 午夜精品久久久久久久无码软件 | 97国产成人无码精品久久久| 精品国产一二三区| 精品欧美一区二区三区在线| 亚洲成人手机在线| 日韩在线欧美在线| 亚洲va欧美ⅴa国产va影院| 无码精品福利一区二区三区| 58av国产精品| 亚洲第一成年网| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 黄色网站不卡无码| 97国产精品视频自在拍| 午夜日本永久乱码免费播放片| 国产无码网站在线观看| 亚洲欧美另类久久久精品播放的| 久久综合干| 午夜福利在线观看成人| 亚洲免费毛片| 老色鬼久久亚洲AV综合| 91色在线观看| 精品久久香蕉国产线看观看gif| 青青操国产| 国产99视频精品免费视频7| 国产专区综合另类日韩一区| 五月天久久综合国产一区二区| 经典三级久久| 欧美日韩中文字幕在线| 亚洲午夜国产精品无卡| 久久精品国产在热久久2019| 国产高清免费午夜在线视频| 国产亚洲精久久久久久无码AV| 亚洲热线99精品视频| 一本一道波多野结衣一区二区 | 日本在线国产| 视频一本大道香蕉久在线播放| 国产裸舞福利在线视频合集| 免费一级毛片| 成人在线天堂| 午夜不卡视频| 色丁丁毛片在线观看| 亚洲成A人V欧美综合| 九九这里只有精品视频| 日本成人精品视频| 欧美日本在线观看| 国产亚洲高清在线精品99| 国产香蕉一区二区在线网站| 日韩专区欧美| 毛片基地视频| 国产视频a| 色天堂无毒不卡| 国产99精品久久| 欧美在线一级片| 免费在线色| 免费看的一级毛片| 欧美另类图片视频无弹跳第一页| 国产高清精品在线91| 9啪在线视频| 中文字幕欧美日韩| 六月婷婷综合| 亚洲无码在线午夜电影| 欧美人在线一区二区三区| a毛片免费观看| 国产在线观看人成激情视频| 国产在线专区| 亚洲成a人在线播放www| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产在线无码av完整版在线观看| 欧美成人日韩| 久久精品波多野结衣|