999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合輔助文本信息的項目冷啟動推薦研究

2018-06-13 07:52:36吳婷
現(xiàn)代計算機 2018年13期
關鍵詞:特征文本用戶

吳婷

(重慶大學計算機學院,重慶 400044)

0 引言

隨著信息的存儲和傳輸技術的進一步發(fā)展,各式各樣的多媒體資源服務平臺應運而生。這類服務平臺憑借其內容多樣性及便捷性吸引了大量的互聯(lián)網用戶,但是頻繁更新的海量內容往往使用戶很難迅速準確地定位到目標內容,因此,能主動對無關內容進行篩選的推薦系統(tǒng)具有重要的實用性。傳統(tǒng)的推薦系統(tǒng)可以通過用戶、項目的歷史記錄來學習到用戶、項目潛在屬性特征。但是對于剛進入市場的新項目,因為沒有或缺乏足夠的歷史記錄信息,傳統(tǒng)的推薦系統(tǒng)就會遭遇經典的項目冷啟動問題。為了完善項目冷啟動推薦,挖掘新項目的屬性特征并實現(xiàn)個性化推薦具有重要的現(xiàn)實意義。

項目冷啟動問題根據(jù)相關項目歷史記錄是否完全為0劃分為完全冷啟動問題(Complete Cold Start,CCS)和非完全冷啟動問題(Incomplete Cold Start,ICS)[1]。冷啟動問題一直是推薦系統(tǒng)研究領域的重要分支。對于非完全冷啟動問題,何明等[2]融合進類別信息及用戶興趣度來緩解稀疏并進行推薦。張玉芳等[3]選用了分步填充方法來對原矩陣進行填充。潘濤濤等[4]在協(xié)同過濾的基礎上,進一步融入物品的可預測性,并進行矩陣填充。對于完全冷啟動,因為可供利用的信息過少,傳統(tǒng)的方法大都是基于專家系統(tǒng),即當商品進入市場時,通過專家系統(tǒng)或者手工標注為新商品添加標簽,但是這種方法往往會耗費大量的人力物力。Wei等[5]提出一種融合協(xié)同過濾和深度學習的項目冷啟動推薦方法,他們選用了SDAE來提取輔助文件中的特征。然而SDAE是基于詞袋模型,忽略了文本中的上下文信息。

矩陣分解[6]是推薦系統(tǒng)中的經典算法,除了具有高準確性之外,該模型的易擴展性使其可以便捷地與其他信息進行融合。現(xiàn)領域具有重要突破研究的模型timeSVD++[7]、HFT[8]、TopicMF[9]等都是基于該模型。為了應對當前項目冷啟動領域的局限,本文選用卷積神經網絡來對項目的文本信息進行挖掘,并將其成功地融入到矩陣分解模型中。

1 矩陣分解與文本特征提取

1.1 矩陣分解

在現(xiàn)實生活中,每個用戶有自己獨特的興趣偏好因子,每一個項目有自己的屬性因子。用戶對一個項目的評價往往就是看用戶興趣偏好因子與項目屬性因子的匹配程度。矩陣分解方法便是基于這一事實。

矩陣分解模型的基礎是潛在因子模型,它將用戶和項目的信息映射到一個維度為k的潛在因子向量中,用戶和項目的交互被建模為這兩個向量的內積。與用戶潛在因子高相似的項目會被推薦給用戶。假設現(xiàn)在有N個用戶、M個項目及一個用戶-項目的歷史評分記錄矩陣R∈RN×M,則用戶u對項目i的預估評分可通過如下公式計算:

其中,pu∈Rk,qi∈Rk分別表示用戶和項目的潛在因子向量。給定一個訓練集T,可以通過以下目標函數(shù)來對用戶、項目的潛在因子向量進行學習:

其中,λ是控制正則化尺度的參數(shù),通常通過交叉驗證決定。這個最小化函數(shù)通過可以通過梯度下降方法或交替最小二乘法來執(zhí)行。

這種最簡單的矩陣分解模型能夠很好地捕捉用戶與項目間的交互,但是評分信息很多時候還與用戶與項目各自偏移值有關。例如,有的用戶本身傾向于比其他用戶給出更高的評分,而有些項目傾向于比其他項目得到更高的評分,這種偏移值對進一步對評分進行建模是至關重要的。故Koren等[6]對評分進行進一步建模:

其中,μ為全局平均分,bi是項目自身評分相對于平均分的偏移,bu是用戶自身評分相對于平均分的偏移。該模型可以通過如下目標函數(shù)學習:

該模型充分考慮了影響評分的各個因素,是推薦系統(tǒng)中的經典方法之一。除了優(yōu)秀的準確性之外,該模型具有良好的可拓展性,故本文將其選作模型的基本模型。

1.2 文本特征提取

對于項目冷啟動研究,比較有研究意義的方向便是對項目的輔助信息進行挖掘。對于多媒體資源,隨著項目上線,一般都會有項目的相關簡介文本,故本文重點研究將這類文本中蘊含的項目屬性特征與矩陣分解融合起來。

本文選用卷積神經網絡來對文本進行信息提取。卷積神經網絡是一種深度前饋神經網絡,專門用來處理具有類似網絡結構的神經網絡。它憑借能夠產生局部特征的卷積層和簡潔表示數(shù)據(jù)的池化層區(qū)別于傳統(tǒng)的神經網絡。

本文選用Kim等[10]提出的卷積神經網絡來對項目描述文本進行特征提取。該模型結構主要包括四層:嵌入層、卷積層、池化層和輸出層。模型結構如圖1所示。其中,嵌入層是通過詞向量嵌入將每個項目的文本表示為一個密集矩陣作為輸入。特別地,一個項目的文本由它所有相關的描述文本自然連接而成,記:

Di=x1:n=x1⊕x2⊕…⊕xn

其中,⊕表示自然連接。x1:n表示從詞x1到詞xn的級聯(lián)。

卷積層是選用共享權重來從詞窗口上生成特征。例如,從h個詞的窗口從詞xi:i+h-1上生成的上下文特征為:

c=f(w*xi:i+h-1+b)

其中,w為共享權重,b為偏差,f為非線性函數(shù)ReLu。一個共享權重只能對一種類型的上下文信息進行捕捉,故在模型中選用了多個共享權重,定義,有第j個共享權重生成的特征為cj為:

隨后,利用最大池化操作捕獲每個特征映射中最重要的特征。通過池化操作,不同長度的文檔都被轉化為固定長度的特征向量,這樣便可以設計輸出層了。輸出層將池化層的特征按照特定目標任務進行轉換。于本文,目標任務便是從對應項目中提取能充分表示項目的特征,我們選用常規(guī)的非線性投影來得到輸出:

其中,為投影矩陣,f為投影中間維度,為偏置向量,θ為得到的文本特征向量。為了將該向量與項目向量連接在一起,我們取θ的維度為k。

該模型一方面利用了卷積神經網絡,相較于傳統(tǒng)的詞袋模型,能夠更好地捕捉文本中的上下文信息。另一方面,預先嵌入的詞向量是可以隨著神經網絡的訓練而不斷優(yōu)化的,故文本特征提取的性能更高。

圖1 卷積神經網絡

2 冷啟動推薦模型

2.1 完全冷啟動項目推薦:TECCS

對于完全冷啟動的項目,它們完全沒有相關的歷史記錄,所以矩陣分解無法對項目特征進行學習,無法對該類商品實現(xiàn)準確推薦。本文在建立模型的時候,考慮到矩陣分解優(yōu)秀的評分預測能力,將其作為參考模型,為了能對完全冷啟動項目進行推薦,將模型的預測評分修正如下:

其中,θi為使用卷積神經網絡提取到的文本特征,整個函數(shù)的變量只與用戶相關,所以該模型適用于對完全冷啟動的項目推薦中,模型圖見圖2。

模型的目標函數(shù)定義為:

2.2 非完全冷啟動項目推薦:TEICS

本文在構建非完全冷啟動項目推薦系統(tǒng)的時候,除了對顯式的用戶-項目歷史交互記錄進行挖掘之外,進一步融入項目描述文本中的信息,將其作為項目潛在因子特征的補充,模型結構如下:

圖3 非完全冷啟動項目推薦模型

在完整矩陣分解的基礎上,本文將待優(yōu)化目標函數(shù)定義為:

其中,項目屬性qi一方面受評分矩陣的約束,一方面受提取的文本特征約束。

對該目標函數(shù)的優(yōu)化應該分兩步,對用戶、項目的相關向量的優(yōu)化可以通過梯度下降法。但是卷積神經網絡的結構權重參數(shù)等無法通過梯度下降得到,不過當將用戶潛在因子向量視為固定的時候,卷積神經網絡應該滿足如下目標函數(shù):

故而,可以根據(jù)目標函數(shù),以反向傳播的方法對卷積網絡中的權重進行優(yōu)化。

3 實驗設計

3.1 數(shù)據(jù)集

本文選用了一個開源的數(shù)據(jù)集Movielens。Movielens是一個非商業(yè)化的個性化電影推薦網站,它包括用戶對電影的歷史評分信息及電影的名稱上映時間等。本文使用OMDB API根據(jù)電影的名稱、上映名稱等從IMDB網站上爬取電影的內容簡介文本。為了配置兩種不同的冷啟動環(huán)境,我們仿照Wei等的工作,選出最晚接收到評分的500部電影的所有記錄作為完全冷啟動項目的測試集。對于非完全冷啟動,將這500部電影的各自前10個評分記錄加入訓練集。最終我們使用的數(shù)據(jù)集統(tǒng)計信息如下:

表1 Movielens數(shù)據(jù)集信息

表2 訓練集、測試集分割

3.2 預處理

預處理主要是對電影情節(jié)文本的處理,我們參照Kim等人的工作,對文本做如下預處理:

(1)取文檔的最大長度為300;

(2)根據(jù)停用詞列表去除停用詞;

(3)為剩下的詞計算每個詞的TF-IDF值;

(4)根據(jù)計算得到的TF-IDF值,去除文檔相關的停用詞,即文檔出現(xiàn)頻率高于0.5的詞;

(5)在剩下的詞中選擇8000個出現(xiàn)最頻繁的詞;

(6)使用Glove模型進行詞的向量化表示,使得初始向量之間盡可能多地蘊含語義和語法信息。

3.3 評價標準

本文通過評分預測性能來評價模型,我們選用通用的評價方法RMSE(Root Mean Square Error,平方根誤差),其具體定義如下:

其中,N是測試集中測試項的總數(shù),是測試項的預測評分,rui是測試項的真實評分。

3.4 對比實驗

本文選定分別為兩個模型選擇兩種對比方法,來比較我們提出的推薦系統(tǒng)的性能:

完全冷啟動:UA(User Average):使用用戶之前的所有評分的平均值作為對未知項目的預測評分;ToU[5]:將文本相似度作為項目相似度,利用相似度公式來計算未知項目的預測評分。

非完全冷啟動:UA(User Average):使用用戶之前的所有評分的平均值作為對未知項目的預測評分;LMF[6]:只考慮用戶與項目交互的潛在因子模型;MF[6]:完整的矩陣分解模型。

3.5 實驗結果

(1)TECCS推薦性能

從結果可分析:UA方法是直接利用用戶所有的歷史評分的平均值作為預測評分,從實驗結果看,該方法的預測準確性最差。對于ToU和TECCS方法,本文先選擇一個使用初始權重賦值的卷積神經網絡來提取文本特征,從結果可以看出,ToU方法只簡單使用了用戶歷史評分過的項目與待評分項目的文本特征,準確性并沒有顯著提高。TECCS將文本特征融合進矩陣分解模型中,通過訓練學習到用戶關于電影情節(jié)文本的偏好興趣,利用這個偏好興趣與位置項目文本特征的耦合度做出推薦,故TECCS模型相較于對比方法取得了更好的結果。

圖4 完全冷啟動項目推薦性能比較

(2)TEICS推薦性能

由實驗結果分析,TEICS綜合考慮了評分矩陣中的蘊含的信息,并且進一步使用卷積神經網絡來提取文本中的信息,并將其作為項目屬性特征的補充,最后取得了最好的效果。MF模型綜合考慮了用戶和項目的交互,并且同時考慮了用戶、項目的偏移值信息,最后取得了第二好的效果。LMF因為只考慮用戶項目交互信息,最后取得了第三好的效果。UA僅僅使用用戶歷史評分的平均分作為預測評分,效果最差。

圖5 非完全冷啟動項目推薦性能比較

4 結語

本文提出了兩個針對不同冷啟動環(huán)境的項目推薦框架:首先考慮到矩陣分解模型的高準確性和易拓展性,兩個模型都以基本的矩陣分解模型為基礎。其次,在矩陣分解模型的基礎上,利用卷積神經網絡從項目文本中提取文本特征,并將其融入到兩個推薦模型中,作為項目屬性特征的約束。實驗結果證明,本文提出的模型較對比實驗取得了更好的效果。未來計劃進一步將時間因素、項目相關性因素融入到框架中。

[1]Zhang,D.,Hsu,C.H.,Chen,M.,Chen,Q.,Xiong,N.,&Lloret,J.Cold-start Recommendation Using Bi-clustering and Fusion for Large-Scale Social Recommender Systems.IEEE Transactions on Emerging Topics in Computing,2014,2(2):239-250.

[2]何明,肖潤,劉偉世,等.融合類別信息和用戶興趣度的協(xié)同過濾推薦算法[J].計算機科學,2017,44(8):230-235.

[3]張玉芳,代金龍,熊忠陽.分步填充緩解數(shù)據(jù)稀疏性的協(xié)同過濾算法[J].計算機應用研究,2013,30(9):2602-2605.

[4]潘濤濤,文峰,劉勤讓.基于矩陣填充和物品可預測性的協(xié)同過濾算法.自動化學報,2017,43(9):1597-1606.

[5]Wei J,He J,Chen K,et al.Collaborative Filtering and Deep Learning Based Recommendation System For Cold Start Items[J].Expert Systems with Applications,2016,69:29-39.

[6]Koren Y,Bell R,Volinsky C.Matrix Factorization Techniques for Recommender Systems[J].Computer,2009,42(8):30-37.

[7]Koren,Yehuda.Collaborative filtering with temporal dynamics[J].Proc Kdd,2009,53(4):447-456.

[8]Mcauley J,Leskovec J.Hidden Factors and Hidden Topics:Understanding Rating Dimensions with Review Text[C].ACM Conference on Recommender Systems.ACM,2013:165-172.

[9]Bao Y,Fang H,Zhang J.TopicMF:Simultaneously Exploiting Ratings and Reviews for Recommendation[C].Twenty-Eighth AAAI Conference on Artificial Intelligence.AAAI Press,2014:2-8.

[10]Donghyun Kim,Chanyoung Park,Jinoh Oh,Sungyoung Lee,Hwanjo Yu.2016.Convolutional Matrix Factorization for Document Context-Aware Recommendation.In Proceedings of the 10th ACM Conference on Recommender Systems(RecSys'16).ACM,New York,NY,USA,233-240.DOI:https://doi.org/10.1145/2959100.2959165.

猜你喜歡
特征文本用戶
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何獲取一億海外用戶
主站蜘蛛池模板: 日韩精品少妇无码受不了| 五月激激激综合网色播免费| 国产精品亚洲αv天堂无码| 国产精品视频a| 国产欧美在线| 国产91精品调教在线播放| 白浆视频在线观看| 98精品全国免费观看视频| 天堂在线视频精品| 国产精品开放后亚洲| 欧美亚洲一二三区| 国产欧美精品一区二区| 欧美一区二区自偷自拍视频| 欧美激情视频二区| 好吊色国产欧美日韩免费观看| 亚洲婷婷在线视频| 日韩麻豆小视频| 激情六月丁香婷婷| 99热线精品大全在线观看| 久久这里只精品国产99热8| 亚洲综合专区| 亚洲天堂高清| 国产成人精品一区二区| 一级全黄毛片| 日本三级欧美三级| 亚洲天堂日韩在线| 欧美日韩激情在线| 中文国产成人精品久久一| 欧美亚洲日韩中文| 58av国产精品| 亚洲国产中文欧美在线人成大黄瓜 | 亚洲三级成人| 尤物特级无码毛片免费| 久久伊人操| 久久久久国色AV免费观看性色| 久久免费视频6| 久久久国产精品无码专区| 国产亚洲欧美在线人成aaaa| 亚洲国产日韩视频观看| 在线va视频| 狠狠色丁香婷婷| 人禽伦免费交视频网页播放| 亚洲欧美在线精品一区二区| 亚洲Va中文字幕久久一区| 国产精品欧美激情| a亚洲视频| 国产精品福利一区二区久久| 精品无码人妻一区二区| 婷婷99视频精品全部在线观看| 精品国产自在现线看久久| 国产jizzjizz视频| 国产国语一级毛片| 91麻豆国产视频| 美女无遮挡被啪啪到高潮免费| 米奇精品一区二区三区| 欧美一区二区精品久久久| 亚洲一区网站| 日韩免费成人| 亚洲综合亚洲国产尤物| 久久一日本道色综合久久| 色妞永久免费视频| 91蝌蚪视频在线观看| 中文字幕亚洲综久久2021| 成人午夜福利视频| 亚洲人成色在线观看| 国产99热| 一级在线毛片| 久久semm亚洲国产| 青青草91视频| AV天堂资源福利在线观看| 国产99免费视频| 啦啦啦网站在线观看a毛片| 99免费视频观看| 国产三区二区| 国产人成在线观看| 亚洲成人精品在线| 欧美精品在线看| 久青草免费视频| 国产女人水多毛片18| 在线欧美国产| 亚洲无码视频一区二区三区 | 国产亚洲精久久久久久久91|