999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合循環(huán)知識(shí)圖譜和協(xié)同過濾電影推薦算法

2020-01-17 01:42:28張亞釧卜榮景李晉源
關(guān)鍵詞:語義融合用戶

李 浩,張亞釧,康 雁,楊 兵,卜榮景,李晉源

云南大學(xué) 軟件學(xué)院,昆明650091

1 引言

隨著信息化社會(huì)的推廣和普及,互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展使得信息以爆炸式增長的態(tài)勢呈現(xiàn)在用戶面前,用戶難以從信息過載難題下獲得對(duì)自己真正有用的那部分信息,因此如何有效地為用戶篩選信息是大數(shù)據(jù)時(shí)代的一個(gè)課題。推薦系統(tǒng)研究的主要問題就是如何從這些過載的信息中找到每個(gè)用戶感興趣的內(nèi)容,并把這些內(nèi)容推送給用戶。

協(xié)同過濾算法是推薦領(lǐng)域應(yīng)用廣泛的算法。傳統(tǒng)的推薦算法不需要預(yù)先獲得用戶或物品的特征數(shù)據(jù),僅依賴于用戶的歷史行為數(shù)據(jù)對(duì)用戶進(jìn)行建模,從而為用戶進(jìn)行推薦。該算法多數(shù)采用最近鄰技術(shù),利用用戶歷史喜好信息計(jì)算用戶之間的距離,然后利用目標(biāo)用戶的最近鄰居對(duì)商品評(píng)價(jià)的加權(quán)評(píng)分值來預(yù)測目標(biāo)用戶對(duì)特定商品的喜好程度,但常常面臨著數(shù)據(jù)稀松和推薦結(jié)果挖法解釋等問題。

因此學(xué)者考慮利用知識(shí)圖譜來完善基于內(nèi)容的推薦系統(tǒng)中對(duì)用戶和物品的特征描述從而提升推薦效果。輔助信息可以豐富對(duì)用戶和物品的描述、增強(qiáng)推薦算法的挖掘能力,從而有效地解決稀疏性和冷啟動(dòng)問題,提高推薦結(jié)果的精確性、多樣性和可解釋性,所以如何根據(jù)具體推薦場景的特點(diǎn)將各種輔助數(shù)據(jù)有效地融入推薦算法成為推薦系統(tǒng)研究領(lǐng)域的熱點(diǎn)和難點(diǎn),并且混合方法可以彌補(bǔ)基于內(nèi)容推薦在多樣性的不足[1]。

為了有效的推薦,本文依據(jù)混合推薦的基本思路,結(jié)合深度學(xué)習(xí),在循環(huán)網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合協(xié)同過濾和知識(shí)圖譜,提出一個(gè)高效的推薦模型:RKGE-CF(Recurrent Knowledge Graph Embedding based on Collaborative Filtering)。主要內(nèi)容包括:(1)采用了循環(huán)知識(shí)圖嵌入,自動(dòng)學(xué)習(xí)實(shí)體和實(shí)體之間路徑的語義表示,以表征用戶對(duì)物品的偏好,得到更好的推薦結(jié)果。(2)在知識(shí)圖譜中同時(shí)加入外部評(píng)分,作為學(xué)習(xí)權(quán)重,更好地表達(dá)用戶的偏好程度。(3)改進(jìn)了協(xié)同過濾算法,在傳統(tǒng)的相似度計(jì)算中加入懲罰因子,以消除熱門物品和不活躍用戶對(duì)結(jié)果的影響。(4)利用不同的融合方法將內(nèi)涵知識(shí)與外部評(píng)分結(jié)果融合,得到最優(yōu)的融合推薦結(jié)果。(5)在公開數(shù)據(jù)集MovieLens 和IMDB 上進(jìn)行測試,測試結(jié)果在多維度上進(jìn)行比較,不斷調(diào)節(jié)參數(shù),達(dá)到最優(yōu)推薦性能。實(shí)驗(yàn)結(jié)果表明,本文所提出的框架在一定程度提高了推薦的準(zhǔn)確性。

2 相關(guān)工作

2.1 基于協(xié)同過濾的推薦

傳統(tǒng)的推薦系統(tǒng)算法可以分為協(xié)同過濾推薦、基于內(nèi)容推薦和混合推薦三種。Sarwar等[2]提出一種基于物品的預(yù)測算法,建立物品相似度的預(yù)計(jì)算模型,提高推薦系統(tǒng)修改的在線可伸縮性。Fletcher等[3]利用基于個(gè)性化的協(xié)同過濾為用戶提供個(gè)性化新歌推薦。Hernando等[4]提出一種基于將評(píng)價(jià)矩陣分解成兩個(gè)非負(fù)矩陣的協(xié)同過濾算法預(yù)測用戶口味的新技術(shù)。Liu 等[5]提出一種采用關(guān)聯(lián)挖掘技術(shù)從論文上下文中計(jì)算出用于協(xié)同過濾的引用論文之間的相似性。基于內(nèi)容的推薦能夠很好地解決用戶行為數(shù)據(jù)稀疏和新用戶的冷啟動(dòng)問題,通過使用向量空間模型、線性分類、線性回歸等方法對(duì)用戶興趣特征和物品特征進(jìn)行建模,為用戶推薦與他感興趣的內(nèi)容相似的物品。江周峰等[6]提出一種結(jié)合社會(huì)化標(biāo)簽的基于內(nèi)容的推薦算法,可以較好地識(shí)別模糊標(biāo)簽。Shu J等[7]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的基于內(nèi)容的推薦算法,文本信息被直接用于進(jìn)行基于內(nèi)容的推薦而無需標(biāo)記。混合推薦指將多種推薦技術(shù)進(jìn)行混合相互彌補(bǔ)缺點(diǎn),從而獲得更好的推薦效果。Chu 等[8]將視覺信息視為中間體,整合基于內(nèi)容的推薦和協(xié)同過濾,具有很高的實(shí)用性。Subramaniam等[9]提出一種基于貝葉斯算法的非個(gè)性化推薦,在計(jì)算最小網(wǎng)頁加載時(shí)間的電影預(yù)測和推薦因子方面被證明是有效的。

2.2 基于深度學(xué)習(xí)的推薦

深度學(xué)習(xí)通過學(xué)習(xí)一種深層次非線性網(wǎng)絡(luò)結(jié)構(gòu),表征用戶和物品相關(guān)的海量數(shù)據(jù)。源異構(gòu)數(shù)據(jù)中進(jìn)行自動(dòng)特征學(xué)習(xí)并將不同數(shù)據(jù)映射到一個(gè)相同的隱空間,從而獲取用戶和物品的深層次統(tǒng)一特征表示,將深度學(xué)習(xí)用在推薦系統(tǒng)上具有更好的抗噪性和有效性。Rumelhart等[10]提出的自編碼器(Autoencoder,AE)通過對(duì)用戶和物品的相關(guān)信息進(jìn)行隱層特征表示,應(yīng)用于推薦系統(tǒng)中用戶對(duì)物品的偏好預(yù)測。Smolensky P等[11]提出的受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)通過重構(gòu)學(xué)習(xí)用戶評(píng)分矩陣對(duì)推薦系統(tǒng)中的未知評(píng)分進(jìn)行預(yù)測。Hinton 等[12-13]提出的深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)采用貪婪追逐算法訓(xùn)練多層非線性變量連接組成的生成式模型,從而從無標(biāo)記數(shù)據(jù)中獲取更深層次的特征表示,多數(shù)應(yīng)用于音樂數(shù)據(jù)的推薦。隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[14-15]的出現(xiàn)避免了前面所提及的復(fù)雜特征提取和重構(gòu)學(xué)習(xí)從而獲取物品的低維空間表示,減少了推薦模型中的參數(shù)數(shù)量,成為推薦系統(tǒng)研究的熱點(diǎn)。由于CNN 未考慮到建模數(shù)據(jù)之間的序列影響,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)應(yīng)運(yùn)而生,并由此研究出更加有效建模長期依賴關(guān)系的長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[16-17]和門控循環(huán)單元(Gated Recurrent Unit,GRU)[18],廣泛應(yīng)用于結(jié)合社交網(wǎng)絡(luò)的推薦。

2.3 基于知識(shí)圖譜的推薦

知識(shí)圖譜作為一種新興類型的輔助數(shù)據(jù)源引起了越來越多學(xué)者的關(guān)注,現(xiàn)有的將知識(shí)圖譜引入推薦系統(tǒng)的工作分為以LibFM 為代表的通用的基于特征的推薦算法[19]和以PER、MetaGraph 為代表的基于路徑的推薦算法[20],前者將知識(shí)圖譜弱化為物品屬性,統(tǒng)一地把用戶和物品的屬性作為推薦算法的輸入,然而該方法無法高效地利用知識(shí)圖譜的全部信息;后者將知識(shí)圖譜視為一個(gè)異構(gòu)信息網(wǎng)絡(luò),然后構(gòu)造物品之間的基于meta-path或meta-graph的特征,充分且直觀地利用知識(shí)圖譜的網(wǎng)絡(luò)結(jié)構(gòu),不過工作量大。吳璽煜等[21]使用知識(shí)圖譜表示學(xué)習(xí)方法,將語義數(shù)據(jù)嵌入到低維空間,并將物品語義信息融入?yún)f(xié)同過濾推薦。Zhang 等[22]分別用網(wǎng)絡(luò)嵌入、多層降噪自動(dòng)編碼機(jī)、層疊卷積自編碼器獲取結(jié)構(gòu)化知識(shí)的向量化表示、文本知識(shí)特征、圖片知識(shí)特征,緊接著將這三類特征融合進(jìn)協(xié)同集成學(xué)習(xí)框架實(shí)現(xiàn)個(gè)性化推薦,實(shí)驗(yàn)證明基于深度學(xué)習(xí)的知識(shí)圖譜推薦算法在推薦效果上優(yōu)于基于協(xié)同過濾的傳統(tǒng)推薦模型。

現(xiàn)有的方法局限于考慮物品外在的物品-用戶評(píng)分矩陣信息,忽視了物品自身的信息。本文所提出的模型考慮到語義問題,將實(shí)體嵌入到低維空間里,還保持圖中原有的結(jié)構(gòu)和語義信息,通過知識(shí)圖譜語義網(wǎng)絡(luò)引入額外的一些輔助信息作為輸入,豐富實(shí)體之間的語義關(guān)聯(lián),使推薦結(jié)果更加精確。此外,知識(shí)圖譜發(fā)散不同的關(guān)系連接種類和歷史記錄,提升了推薦結(jié)果的多樣性和可解釋性。

3 RKGE-CF架構(gòu)

本章將分塊介紹RKGE-CF的具體內(nèi)部結(jié)構(gòu)。首先采用了循環(huán)知識(shí)圖的電影推薦模型,去自動(dòng)學(xué)習(xí)實(shí)體和實(shí)體之間路徑的語義表示,以表征用戶對(duì)物品的偏好,在知識(shí)圖譜的基礎(chǔ)上結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),形成循環(huán)知識(shí)圖譜。考慮到電影實(shí)體之間關(guān)系序列長度等問題,本文利用循環(huán)知識(shí)圖譜,較為方便地學(xué)習(xí)實(shí)體關(guān)系的語義,能夠?qū)Σ煌L度的序列進(jìn)行建模,特別適用于建模路徑,捕獲實(shí)體和實(shí)體對(duì)之間的整個(gè)路徑的語義的能力較好。對(duì)于多條路徑與不同長度可能連接實(shí)體,網(wǎng)絡(luò)能捕獲所有可能的關(guān)系。

在加入一批遞歸的循環(huán)神經(jīng)網(wǎng)絡(luò)后,可以鏈接相同的實(shí)體對(duì)的路徑,也就是完成了實(shí)體之間的關(guān)聯(lián)。再對(duì)實(shí)體對(duì)的路徑的語義進(jìn)行建模,將路徑無縫地融合到推薦模型中,使得每個(gè)實(shí)體和關(guān)系可以通過學(xué)習(xí)得到對(duì)應(yīng)的低維向量。既保持圖中原有結(jié)構(gòu)或語義信息,同時(shí)還方便鏈接相同語義實(shí)體的路徑,再將這些路徑融合到推薦中,提高推薦精確度。因此一組好的實(shí)體向量可以充分且完全地表示實(shí)體之間的相互關(guān)系,利用循環(huán)知識(shí)圖譜特征學(xué)習(xí)可以很方便地將數(shù)據(jù)特征引入各種推薦系統(tǒng)算法中。

然后加入了協(xié)同過濾的推薦,包括基于物品的協(xié)同過濾和基于用戶的協(xié)同過濾。對(duì)于協(xié)同過濾的推薦,系統(tǒng)會(huì)執(zhí)行最近鄰搜索,計(jì)算相關(guān)的相似度之后得到推薦結(jié)果。循環(huán)知識(shí)圖譜可以學(xué)習(xí)到推薦關(guān)系中的內(nèi)涵知識(shí),協(xié)同過濾可以很好地使用外部評(píng)分,本文提出的方法將內(nèi)涵知識(shí)和外部評(píng)分進(jìn)行組合,有效地提高推薦的效率。

循環(huán)知識(shí)圖譜嵌入模型框架如圖1所示,主要由上下兩部分組成。上部分是循環(huán)知識(shí)圖譜嵌入,下部分是結(jié)合基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾。

3.1 循環(huán)知識(shí)圖譜(RKGE)

在本節(jié)將具體介紹循環(huán)知識(shí)圖譜的詳細(xì)結(jié)構(gòu)信息,包括語義路徑、LSTM網(wǎng)絡(luò)層和輸出層。同時(shí)本文使用真實(shí)數(shù)據(jù)集Movielens 1M 和相應(yīng)的IMDB 數(shù)據(jù)集進(jìn)行循環(huán)知識(shí)圖譜的構(gòu)建。

3.1.1 語義路徑

知識(shí)圖譜是一種特殊網(wǎng)絡(luò),其中每個(gè)節(jié)點(diǎn)代表現(xiàn)實(shí)世界中的實(shí)體,而節(jié)點(diǎn)間的邊表示實(shí)體之間的關(guān)系。知識(shí)圖譜一般用三元組形式表示內(nèi)涵知識(shí),每個(gè)三元組包括一個(gè)頭實(shí)體、一個(gè)尾實(shí)體以及它們之間的關(guān)系,這是知識(shí)圖譜的基本表示形式。

本文實(shí)驗(yàn)中使用電影相關(guān)的數(shù)據(jù)集,用戶實(shí)體對(duì)應(yīng)觀看過的電影,電影實(shí)體包含演員、導(dǎo)演和電影類型等信息。

圖3 電影知識(shí)圖譜

如圖2所示,將電影特征放入知識(shí)圖譜就可得到電影知識(shí)圖譜三元組是基礎(chǔ)的三元組,表示該導(dǎo)演指導(dǎo)了這部電影。藍(lán)色表示為電影實(shí)體,綠色表示為人物實(shí)體,箭頭描述的是人物與電影之間的關(guān)系,意味該人物參演或指導(dǎo)了該電影。將類似的多個(gè)三元組相互連接便形成知識(shí)圖譜,如圖3。

圖2 三元組

在RKGE-CF 模型中,包含一批LSTM 結(jié)構(gòu),每個(gè)LSTM 學(xué)習(xí)指定路徑的語義表示。實(shí)體對(duì)(ui,vj)的路徑長度是動(dòng)態(tài)的,對(duì)于長度為T 的任意路徑pl可表示為:

其中e0=ui,eT=vj。LSTM通過學(xué)習(xí)每個(gè)實(shí)體的語義表示和整個(gè)路徑的單個(gè)表示來對(duì)路徑進(jìn)行編碼。為了充分利用知識(shí)圖譜中的實(shí)體關(guān)系,首先挖掘出實(shí)體間具有不同語義的路徑,然后將這些路徑無縫地融合到循環(huán)網(wǎng)絡(luò)批處理中進(jìn)行有效推薦。為了提高模型的效率,用長度約束枚舉的路徑,即只使用長度小于閾值的路徑。

因此可以根據(jù)知識(shí)圖譜中內(nèi)容,挖掘出實(shí)體間不同語義的路徑。在抽取出的關(guān)系路徑后,可以根據(jù)關(guān)鍵路徑推斷出用戶的偏好關(guān)系,便于推薦,如圖4。

以威廉和阿波羅13 號(hào)的偏好關(guān)系為例,可得到以下路徑:

圖4 語義路徑推理

以上捕捉到的路徑(1)描述的是屬于同一種電影類型之間的特征關(guān)系;路徑(2)描述的是由同一位導(dǎo)演指導(dǎo)的其他電影。因此可以推斷出威廉可能會(huì)喜歡的電影是《阿波羅13 號(hào)》。所以基于以上的關(guān)系路徑,結(jié)合相關(guān)偏好信息進(jìn)行合理推測。但是,連接相同實(shí)體對(duì)于不同的路徑通常具有不同的語義關(guān)系,意味著在描述用戶的偏好和品位方面具有不同的重要性,某些路徑可能比其他路徑更能描述用戶的偏好。為了充分利用知識(shí)圖譜中的路徑進(jìn)行推薦,不僅需要捕獲不同路徑的語義,還需要捕獲它們在描述用戶對(duì)物品的偏好的顯著性。然后將這些路徑無縫地融合到LSTM 批處理中進(jìn)行有效推薦。

由于知識(shí)圖譜的體積大、復(fù)雜度高,存在大量連接實(shí)體對(duì)的路徑,這些路徑可能包含不同順序、不同長度的不同實(shí)體類型和關(guān)系類型。為了提高模型的效率,只使用長度小于閾值的路徑…。較短的路徑表示了兩個(gè)實(shí)體之間的近鄰關(guān)系密切,如果使用較長的路徑,兩個(gè)實(shí)體之間就存在大量的噪聲關(guān)系,并且它們之間的近鄰關(guān)系就越微弱,遙遠(yuǎn)的兩個(gè)實(shí)體會(huì)在一定程度上失去語義意義。

3.1.2 LSTM網(wǎng)絡(luò)層

在上部分中,將模型中用戶-物品實(shí)體對(duì)看成序列,序列中的元素是路徑中的實(shí)體,并使用由嵌入層和注意門隱藏層組成的LSTM 對(duì)路徑進(jìn)行編碼。該體系結(jié)構(gòu)包含一批LSTM,LSTM 通過學(xué)習(xí)每個(gè)實(shí)體的語義表示和整個(gè)路徑的單個(gè)表示來對(duì)路徑進(jìn)行編碼。

在嵌入層對(duì)pl中的每個(gè)實(shí)體et學(xué)習(xí)一個(gè)分布式表示plt,該plt將et映射到一個(gè)低維向量并捕獲該實(shí)體的語義,然后將此新表示作為輸入提供給隱藏層,以學(xué)習(xí)編碼整個(gè)路徑的單個(gè)表示。注意門控隱藏層為了學(xué)習(xí)路徑表示,考慮路徑中實(shí)體的嵌入和這些實(shí)體的順序,采用基于流的方法對(duì)路徑的開始實(shí)體到結(jié)束實(shí)體的序列進(jìn)行編碼,最終得到整個(gè)路徑的表示hlT。

用alt表示步驟t 處的注意門,它是[0,1]之間的標(biāo)量值。t 時(shí)刻的隱藏狀態(tài)可表示為:

其中,注意門alt平衡了前一個(gè)隱藏狀態(tài)hl(t-1)和當(dāng)前候選隱藏狀態(tài)的輸入貢獻(xiàn)。通過充分考慮當(dāng)前時(shí)間步長的輸入,進(jìn)一步給出了當(dāng)前候選隱藏狀態(tài):

其中,W,H 分別是前一步和當(dāng)前步的線性變換參數(shù),b是偏置項(xiàng),σ 是sigmoid激活函數(shù)。最后,根據(jù)當(dāng)前時(shí)間步長的輸入觀測值和相鄰觀測值在兩個(gè)方向上的信息,建立了注意門的模型:

其中,σ 是sigmoid激活函數(shù),用于將注意門的范圍控制在[0,1]之間;M 為權(quán)重向量,b′為注意層的偏置項(xiàng);“;”表示量之間的連接。總結(jié)從開始到步驟t 的路徑,總結(jié)從結(jié)束到步驟t 的路徑,由下式給出:

通過將ui和vj之間的限定路徑同時(shí)合并到相應(yīng)的注意門控網(wǎng)絡(luò)中,得到所有ui和vj的實(shí)體關(guān)系。由于ui和vj之間有多條路徑連接,不同的路徑在建模它們之間的關(guān)系時(shí)會(huì)有不同的影響程度。因此,通過池化操作來區(qū)分不同向量的最重要特性,max-pooling 層可形式化表示為:

若ui和vj之間的路徑為s 條,其通過LSTM 學(xué)習(xí)后,最后隱藏狀態(tài)為h1T1,h2T2,…,hSTS,其中TS 為最后一步。通過池化層獲得所有路徑上最顯著的特性。然后采用全連接層,進(jìn)一步量化ui和vj的關(guān)系(接近度)。完成模型訓(xùn)練后,通過根據(jù)接近度評(píng)分對(duì)物品進(jìn)行排序,并向ui推薦得分最高的前K 個(gè)物品。

3.2 協(xié)同過濾(CF)

模型的下半部分,主要描述的是協(xié)同過濾算法的實(shí)現(xiàn)過程。同時(shí)使用了基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾算法。分別得到兩個(gè)不同的Top-K 推薦結(jié)果,在與之前循環(huán)知識(shí)圖譜得到的結(jié)果融合,可以得到最終的Top-K 結(jié)果。

首先把每個(gè)的用戶或物品當(dāng)作向量,然后計(jì)算其他所有的用戶或物品與其他的相似度,有了兩兩之間相似度之后,系統(tǒng)也推薦給用戶。循環(huán)知識(shí)圖譜可以學(xué)習(xí)到推薦關(guān)系中的內(nèi)涵知識(shí),協(xié)同過濾可以很好地使用外部評(píng)分,提出的方法將內(nèi)涵知識(shí)和外部評(píng)分進(jìn)行組合,有效地提高推薦的效率。

基于用戶的協(xié)同過濾中,根據(jù)用戶的歷史行為計(jì)算用戶與其他用戶之間的相似度時(shí),計(jì)算如下式:

其中,N(u),N(v)分別表示用戶u,v 過正反饋的電影集合。如果用戶對(duì)于冷門的物品采取過相似的行為,更能表達(dá)出兩者之間的相似度。所以特別加入懲罰因子,以此來懲罰用戶之間共同電影列表中熱門電影相似度的影響。

基于物品的協(xié)同過濾中,計(jì)算物品與物品之間的相似度時(shí),通過下式:

其中,N(i),N(j)分別表示喜歡電影i 和喜歡電影j 的用戶數(shù)。因?yàn)榛钴S用戶對(duì)物品相似度計(jì)算的貢獻(xiàn)會(huì)小于不活躍的用戶,所以也加入懲罰因子以此降低影響。

4 循環(huán)知識(shí)圖譜和協(xié)同過濾融合算法

4.1 融合流程

由上一章可知,循環(huán)知識(shí)圖嵌入采用了一種新的遞歸網(wǎng)絡(luò)架構(gòu),該架構(gòu)包含一批遞歸網(wǎng)絡(luò),用于對(duì)鏈接相同實(shí)體對(duì)的路徑的語義建模,這些路徑無縫地融合到推薦中,并選擇一條好的推薦路徑進(jìn)行Top-K 推薦。同時(shí),利用協(xié)同過濾收集用戶行為以獲得其對(duì)物品的顯式或隱式信息,以基于物品協(xié)同過濾和基于用戶協(xié)同過濾分別給出Top-K 推薦。模型最后將三種方法給出的Top-K 推薦結(jié)果進(jìn)行融合,得到最終的推薦列表。圖5描述了循環(huán)知識(shí)圖譜與協(xié)同過濾融合的流程,將兩部分的推薦結(jié)果融合,能更好地提高推薦效率。

圖5 知識(shí)圖譜與協(xié)同過濾融合

4.2 融合算法

為了實(shí)現(xiàn)循環(huán)知識(shí)圖譜對(duì)協(xié)同過濾算法的支撐,本文針對(duì)實(shí)體內(nèi)涵知識(shí)和外部評(píng)分的情況,提出了兩種不同的結(jié)果融合算法。根據(jù)循環(huán)知識(shí)圖譜得出的推薦列表和協(xié)同過濾算法得到的推薦列表,經(jīng)過融合算法可以抽取出相同或排名靠前的結(jié)果進(jìn)行融合,得到新的推薦結(jié)果。由此得到的推薦結(jié)果,一方面可以提高推薦的有效性,另一方面可以解釋每個(gè)推薦結(jié)果的來源,使得協(xié)同過濾和循環(huán)知識(shí)圖譜結(jié)果得以相互彌補(bǔ)。

在下列兩個(gè)算法中L和E 是基于用戶和基于物品的協(xié)同過濾要推薦給用戶的物品集合,對(duì)于集合當(dāng)中的每一個(gè)對(duì)象{L0,L1,…,Ln} 和{E0,E1,…,En} 按照預(yù)測評(píng)分進(jìn)行排序,也就是說L和E 是兩個(gè)有序數(shù)列。內(nèi)涵知識(shí)近鄰集T 也根據(jù)預(yù)測評(píng)分排序得到一個(gè)有序數(shù)列。

算法1 概述了內(nèi)涵知識(shí)與外部評(píng)分的第一種融合方式,將該融合方式記為循環(huán)抽取融合(Loop Extraction Fusion,LEF)。基于用戶的協(xié)同過濾、基于物品的協(xié)同過濾和基于循環(huán)知識(shí)圖譜生成的物品集合通過遍歷,依次將三個(gè)集合中的物品放入Top-K 推薦集合T 中,在放入推薦集合T 的過程中,要保證放入的對(duì)象不存在于T 中,也就是要保證推薦集合T 中對(duì)象的唯一性。

算法1 融合算法LEF

輸入:基于用戶的協(xié)同過濾近鄰集:Set L={L0,L1,…,Ln};基于物品的協(xié)同過濾近鄰集:Set E={E0,E1,…,En};內(nèi)涵知識(shí)近鄰集:Set T={T0,T1,…,Tn}。

輸出:Top-K 推薦集C={C0,C1,…,Ck}。

1. for i(0 ≤i ≤n) do

2. If Li?C:

3. C.append(Li);

4. If Len( )C ==k:break;

5. If Ei?C:

6. C.append(Ei);

7. If Len( )C ==k:break;

8. If Ti?C:

9. C.append(Ti);

10. If Len( )C ==k:break;

11. end do

12. 輸出Top-K 推薦集Set C

算法2描述了內(nèi)涵知識(shí)與外部評(píng)分的第二種融合方式,將該融合方式記為循環(huán)比較融合(Loop Comparison Fusion,LCF)。基于用戶的協(xié)同過濾、基于物品的協(xié)同過濾和基于循環(huán)知識(shí)圖譜生成的物品集合通過遍歷,分別判定每個(gè)集合中當(dāng)前對(duì)象是否存在于另外兩個(gè)集合,若存在,則將當(dāng)前集合的當(dāng)前對(duì)象放入Top-K 推薦集合T 中,在放入推薦集合T 的過程中,也要保證放入的對(duì)象不存在于T 中,保證推薦集合T 中對(duì)象的唯一性。

算法2 融合算法LCF

輸入:基于用戶的協(xié)同過濾近鄰集:L={L0,L1,…,Ln};基于物品的協(xié)同過濾近鄰集:E={E0,E1,…,En};內(nèi)涵知識(shí)近鄰集:T={T0,T1,…,Tn}。

輸出:Top-K 推薦集C={C0,C1,…,Ck}。

1. for i(0 ≤i ≤n) do

2. If Li?C && (Liin E||Liin T):

3. C.append(Li);

4. If Len( )C ==k:break;

5. If Ei?C && (Eiin L||Eiin T)

6. C.append(Ei);

7. If Len( )C ==k:break;

8. If Ti?C && (Tiin L||Tiin E):

9. C.append(Ei);

10. If Len( )C ==k:break;

11. end do;

12. 輸出Top-K 推薦集Set C

5 實(shí)驗(yàn)及結(jié)果分析

5.1 實(shí)驗(yàn)設(shè)置

5.1.1 數(shù)據(jù)集

為測試模型的有效性,利用了真實(shí)的數(shù)據(jù)集MovieLens中的IM-1M來進(jìn)行驗(yàn)證。該數(shù)據(jù)集在Movielens 1M和相應(yīng)的IMDB數(shù)據(jù)集的基礎(chǔ)上進(jìn)行構(gòu)建,數(shù)據(jù)集詳細(xì)信息如表1。在前期的循環(huán)知識(shí)圖譜構(gòu)建和后期的測試中,都使用了該數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。其中Movielens 1M包含電影元數(shù)據(jù)信息和用戶屬性信息,也包括多個(gè)用戶對(duì)多部電影的評(píng)分?jǐn)?shù)據(jù),每個(gè)用戶至少有20 個(gè)評(píng)分記錄。將Movielens 1M 數(shù)據(jù)集與IMDB 數(shù)據(jù)集映射鏈接,得到實(shí)驗(yàn)數(shù)據(jù)(數(shù)據(jù)集下載地址分別為http://groplens.org/datatsets/movielens/和http://www.imdb.com/)。

表1 數(shù)據(jù)集信息

在實(shí)驗(yàn)數(shù)據(jù)集中每個(gè)用戶對(duì)應(yīng)多個(gè)已觀看的電影,并且將用戶對(duì)電影評(píng)分小于等于閾值r 的數(shù)據(jù)作為負(fù)反饋,再對(duì)模型進(jìn)行訓(xùn)練。r={0,1,2,3,4}以獲得不同的外部評(píng)分對(duì)于內(nèi)涵知識(shí)的影響。其中,0表示用戶未對(duì)該電影有過評(píng)分行為。

5.1.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)在GPU服務(wù)器上運(yùn)行,詳細(xì)信息見表2。

表2 實(shí)驗(yàn)環(huán)境

5.2 評(píng)價(jià)指標(biāo)

在模型的損失函數(shù)部分,將推薦問題作為二分類問題進(jìn)行處理,所以在給定的訓(xùn)練集中將通過優(yōu)化以下參數(shù)進(jìn)行學(xué)習(xí),公式如下:

根據(jù)公式和訓(xùn)練模型,可以很容易地進(jìn)行端到端訓(xùn)練。在遞歸層中采用時(shí)間反向傳播算法對(duì)參數(shù)進(jìn)行更新,在其他部分采用普通的反向傳播對(duì)參數(shù)進(jìn)行更新。為每個(gè)用戶隨機(jī)抽取未評(píng)分的物品作為負(fù)面實(shí)例,其數(shù)量與他的評(píng)級(jí)物品相同。連接用戶及其負(fù)面實(shí)例的路徑也被用來幫助平衡模型學(xué)習(xí)。

在推薦系統(tǒng)的評(píng)價(jià)指標(biāo)中,使用準(zhǔn)確率(Precision)和MRR(Mean Reciprocal Rank)來評(píng)價(jià)模型的推薦能力。

準(zhǔn)確率描述的是推薦系統(tǒng)中給出的最終推薦列表中有多少比例的用戶是發(fā)生過的用戶-物品評(píng)分記錄,準(zhǔn)確率(Precision)公式如下:

其中,R(u)是根據(jù)用戶在訓(xùn)練集上的行為給用戶做出的推薦列表,T(u)是用戶在訓(xùn)練集上。同時(shí)Precision@K(K=1,5,10,15)表示的是評(píng)測推薦系統(tǒng)的準(zhǔn)確率,并且選取不同的推薦列表長度K ,計(jì)算出多組準(zhǔn)確率,以便對(duì)比。

MRR 是平均倒數(shù)排名,表示最終推薦列表在被評(píng)價(jià)系統(tǒng)給出結(jié)果中的排序取倒數(shù)作為準(zhǔn)確度,再對(duì)所有的數(shù)據(jù)取平均,公式如下:

其中,m 表示用戶個(gè)數(shù),vj是在最終的推薦列表中正確的推薦物品,test(ui)是ui的測試數(shù)據(jù)集中物品集合,rank(ui,vj)是ui的推薦列表中vj的位置。推薦列表中第一個(gè)在推薦列表結(jié)果中物品所在的排列位置。本文實(shí)驗(yàn)中計(jì)算的是K=10 時(shí)的MRR數(shù)值,進(jìn)行對(duì)比。

5.3 實(shí)驗(yàn)對(duì)比

為了驗(yàn)證實(shí)驗(yàn)結(jié)果的有效性,和9種算法在上述數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn)對(duì)比,包括最新的協(xié)同過濾與知識(shí)圖譜相結(jié)合的算法CKE和RKGE,以證明該模型具有良好的性能。分別介紹如下:

MostPop:向所有用戶推薦熱門物品,但不屬于個(gè)性化推薦算法。

BPRMF:基于矩陣因子分解的貝葉斯后驗(yàn)優(yōu)化的個(gè)性化得分排序算法,本身不優(yōu)化用戶對(duì)物品的評(píng)分,只是借評(píng)分來優(yōu)化用戶對(duì)物品的排序。

NCF:神經(jīng)協(xié)同過濾算法,是一種基于神經(jīng)網(wǎng)絡(luò)的推薦方法。主要用于解決在含有隱式反饋的基礎(chǔ)上進(jìn)行推薦的協(xié)同過濾問題。

LIBFM:基于潛在特征因子的一種經(jīng)典的矩陣分解模型,其中將圖譜中的物品屬性當(dāng)作原始特征放入該模型。

HeteRs:提出了一種基于圖的推薦方法,其中利用馬爾可夫鏈整合知識(shí)圖譜。

HeteRec:使用潛在因子模型混合元路徑的個(gè)性化推薦方法。

GraphLF:基于圖形的方法個(gè)性化的Pagerank方法,再通過邏輯推理來發(fā)現(xiàn)用戶偏好。

CKE:最近提出了一種基于協(xié)同過濾結(jié)合知識(shí)圖譜嵌入的方法,在知識(shí)圖譜的幫助下更好地學(xué)習(xí)物品的潛在信息。

RKGE:利用知識(shí)圖譜嵌入和一組遞歸網(wǎng)絡(luò)結(jié)構(gòu),自動(dòng)學(xué)習(xí)實(shí)體之間的路徑及語義關(guān)系,從而更好地描述物品對(duì)用戶的偏好信息。

5.4 實(shí)驗(yàn)結(jié)果分析

分別使用融合方法1(LEF)和融合方法2(LCF)在MovieLens數(shù)據(jù)集上進(jìn)行了Top-1、Top-5、Top-10、Top-15和MRR 的推薦,曲線展示了在RKGE 的基礎(chǔ)上分別加入userCF和itemCF、同時(shí)加入userCF和itemCF(下文中統(tǒng)一稱為CF),以及在同時(shí)加入userCF 和itemCF 基礎(chǔ)上對(duì)RKGE 加入不同評(píng)分的變化情況。在下面所有的數(shù)據(jù)RKGE(r0,r1,r2,r3,r4)代表了不同的外部評(píng)分對(duì)于內(nèi)涵知識(shí)的影響,其中r0 表示未添加外部評(píng)分。例如,RKGE(r2)表示對(duì)電影評(píng)分小于等于2的數(shù)據(jù)作為負(fù)反饋,再對(duì)模型進(jìn)行訓(xùn)練。

從表3中可以看出LEF的推薦性能優(yōu)秀,當(dāng)Top-K推薦的K 值比較大時(shí),模型也能夠保持相對(duì)較好的性能,同時(shí)加入CF 的推薦結(jié)果會(huì)明顯優(yōu)于單獨(dú)加入user-CF或itemCF;在選擇了評(píng)分小于1作負(fù)反饋時(shí),綜合推薦結(jié)果略優(yōu)于其他分?jǐn)?shù),不同Precision下的比較曲線見圖6。

表3 融合算法1(LEF)精確度數(shù)據(jù)

圖6 融合算法1(LEF)精確度對(duì)比

從表4中可以看出LCF整體的性能都要優(yōu)于LEF,也可以從圖7中看出,隨著推薦個(gè)數(shù)的增加性能不會(huì)再有所增加;同時(shí)在選擇了評(píng)分小于1 作負(fù)反饋時(shí),綜合推薦結(jié)果略優(yōu)于其他分?jǐn)?shù)。

表4 融合算法2(LCF)精確度數(shù)據(jù)

表5 對(duì)比了LEF 和LCF 兩種融合方法在不同維度下的MRR 值。圖8 展示了LEF 和LCF 在MRR 上的對(duì)比曲線。只加入userCF或itemCF時(shí)LCF優(yōu)于LEF。但是同時(shí)加入CF后,LEF會(huì)明顯優(yōu)于LCF,這也說明了EF更適用于多推薦列表的融合。兩種融合方法,都是評(píng)分1以下作為負(fù)反饋時(shí)效果最好。

最后表6 將本文提出的模型與MostPop、BPRMF、

圖7 融合算法2(LCF)精確度對(duì)比

表5 兩種融合方法MRR數(shù)據(jù)

圖8 兩種融合算法MRR對(duì)比

表6 十種方法精確度對(duì)比

LIBMF、NCF、HeteRS、HeteRec、GraphLF、CKE、RKGE進(jìn)行了對(duì)比實(shí)驗(yàn),圖9中在不同的Top-1、Top-5和Top-10上都可以看出本文提出的模型遠(yuǎn)遠(yuǎn)優(yōu)于其他模型,并且當(dāng)K 值較大時(shí)也能保持優(yōu)秀的推薦性能。

圖9 十種方法精確度對(duì)比

6 結(jié)束語

本文提出了一種基于循環(huán)知識(shí)圖譜嵌入的混合推薦模型,該模型既可以通過協(xié)同過濾發(fā)現(xiàn)用戶的現(xiàn)有興趣,也可以通過知識(shí)圖譜挖掘用戶的潛在興趣,將兩種結(jié)果融合,得到個(gè)性化的推薦結(jié)果。模型將循環(huán)神經(jīng)網(wǎng)路、知識(shí)圖譜和協(xié)同過濾相結(jié)合,模型可以自動(dòng)學(xué)習(xí)實(shí)體之間的路徑關(guān)系,推斷出偏好關(guān)系。同時(shí)在知識(shí)圖譜中加入外部評(píng)分,作為學(xué)習(xí)權(quán)重,更好地表達(dá)用戶的偏好程度。最后利用不同的融合方法將內(nèi)涵知識(shí)與外部評(píng)分結(jié)果融合,得到最優(yōu)的融合推薦結(jié)果。結(jié)果表明,本文所提出的框架在推薦的準(zhǔn)確性、MRR 對(duì)比現(xiàn)有的模型取得了更好的效果。該模型也有一些待優(yōu)化的部分,例如在融合方法能不能更好地調(diào)節(jié)比例,這也為接下來的工作提出了新的思路。

此外,本文所提出的方法,同樣適合于音樂、圖書等推薦場景。但是不同的產(chǎn)品領(lǐng)域相對(duì)于電影推薦會(huì)存在著評(píng)分刻度差異、領(lǐng)域之間相關(guān)性不同、情感差異等問題。為了實(shí)現(xiàn)遷移學(xué)習(xí),可以嘗試在其他場景中,提取用戶和物品的標(biāo)簽,通過添加神經(jīng)網(wǎng)絡(luò)對(duì)用戶、物品和評(píng)分等內(nèi)容特征進(jìn)行學(xué)習(xí),得到用戶內(nèi)涵知識(shí)或特征等信息,然后再遷移到目標(biāo)任務(wù)中。

猜你喜歡
語義融合用戶
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
語言與語義
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 九九免费观看全部免费视频| 奇米精品一区二区三区在线观看| 午夜影院a级片| 国产a网站| 亚洲综合精品香蕉久久网| 久久香蕉国产线| 亚洲aaa视频| 波多野结衣无码视频在线观看| 又爽又大又黄a级毛片在线视频| 国产成人亚洲精品色欲AV | 伊人久久大香线蕉成人综合网| 美女被躁出白浆视频播放| 日本高清免费不卡视频| 一本大道视频精品人妻| 毛片在线播放网址| 国产精品人成在线播放| 国产日韩欧美成人| 欧美中文字幕无线码视频| 精品无码视频在线观看| 免费无码AV片在线观看国产| 亚洲色精品国产一区二区三区| 狠狠干欧美| 中文国产成人精品久久| 国产91视频免费观看| 亚洲—日韩aV在线| 欧美日韩成人| 亚洲黄网在线| 国产欧美日韩va另类在线播放| 制服丝袜国产精品| 国产午夜小视频| 国产午夜无码片在线观看网站| 夜夜操天天摸| 久久精品中文无码资源站| 真实国产乱子伦高清| 日韩福利在线观看| 久久久久久高潮白浆| 午夜不卡视频| 国产va免费精品观看| 国产精品所毛片视频| 狠狠色综合网| 91无码国产视频| 亚洲色无码专线精品观看| 国产精品页| 国产成人亚洲无吗淙合青草| 99热亚洲精品6码| 欧美日本二区| 国产第一页屁屁影院| 亚洲中文字幕av无码区| 中文字幕在线不卡视频| 成人毛片在线播放| 伊人久久影视| 99资源在线| 色欲不卡无码一区二区| 亚洲无码A视频在线| 国产精品无码作爱| 久久精品免费看一| 无码精品国产dvd在线观看9久 | 国产成人无码AV在线播放动漫| 欧美亚洲综合免费精品高清在线观看 | 日韩免费成人| 国产尤物在线播放| 日本福利视频网站| 亚洲精品高清视频| 亚洲成人高清在线观看| 欧美一区二区福利视频| 重口调教一区二区视频| 国产精品99在线观看| 专干老肥熟女视频网站| 国产成人h在线观看网站站| 巨熟乳波霸若妻中文观看免费 | 日韩在线1| 国产69精品久久久久孕妇大杂乱| 超清无码熟妇人妻AV在线绿巨人| 亚洲黄色网站视频| 五月激情综合网| 在线va视频| 国产呦精品一区二区三区下载| 成人免费网站在线观看| 香蕉视频在线精品| 久久精品国产精品国产一区| 伊在人亚洲香蕉精品播放| 欧美综合中文字幕久久|