999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隱語義模型的個性化推薦

2018-01-03 01:58:30范慧婷鐘春琳龔海華
計算機應用與軟件 2017年12期
關鍵詞:語義特征用戶

范慧婷 鐘春琳 龔海華

(中國科學技術大學計算機科學與技術學院 安徽 合肥 230027)

基于隱語義模型的個性化推薦

范慧婷 鐘春琳 龔海華

(中國科學技術大學計算機科學與技術學院 安徽 合肥 230027)

許多傳統的推薦方法如協同過濾和低秩矩陣分解都存在物品或用戶方面的稀疏性和冷啟動問題。為了克服這兩方面的問題,提出一種基于隱語義模型的個性化推薦方法。通過對用戶行為進行分析,利用隱語義模型推斷出用戶潛在的興趣因子,從而構建用戶興趣特征矩陣來進行個性化推薦。對現實的電影數據的實驗證明了所提方法的有效性,并在準確率、召回率和覆蓋率方面均優于傳統的協同過濾方法和基于內容的方法。

隱語義模型 稀疏性 冷啟動 個性化推薦

0 引 言

隨著互聯網的快速發展,海量的信息呈現在用戶面前,比如各類新聞、電影、音樂、電子商務提供的商品等。這些信息種類繁雜,質量和價值參差不齊,用戶(信息消費者)需要花費大量的時間從中獲得自己想要的信息,造成信息過載。這時就需要有技術或工具能夠幫用戶過濾掉不感興趣或者與所想要的信息不相關的信息。相對于經典過濾工具如門戶網站(方案是分類目錄)和搜索引擎這類“被動”地讓用戶獲取信息的方式,推薦系統考慮了用戶的個性化需求,是一種向用戶推薦可能感興趣的信息的智能化工具,能夠有效地解決信息過載問題[1]。

為了提供個性化推薦,系統需要收集用戶的各種數據。例如為了給用戶推薦電影,系統需要收集用戶的歷史觀影記錄。推薦系統通過挖掘用戶的歷史行為,為用戶興趣建模來找到用戶對物品的偏好,從而主動地向用戶推薦他們可能感興趣的但之前沒有過行為的物品。

1 相關工作

目前現存的大部分個性化推薦方法可以分為基于內容的推薦、協同過濾以及混合方法[2-4]。下面將分別介紹這幾種方法及其優缺點。

1.1 基于內容的推薦

基于內容的推薦方法為用戶推薦與過去所喜歡物品類似的物品[5]。例如我們知道某個用戶喜歡瀏覽金融類的新聞和哪些新聞是金融類的,則系統可能會推薦《保護主義或再次引發債務危機》這樣一篇新聞。該方法的前提是需要用戶歷史記錄(包括用戶已知的偏好、興趣等屬性信息)以及物品相關的特征信息,即需要豐富的領域知識。同時也設定用戶曾經喜歡的物品的特征能夠反映用戶的偏好[6]。然后計算用戶與待推薦物品的相似度,最后為用戶推薦相似度高的物品。相似度的計算是該方法的關鍵部分,需要把用戶和物品映射到相同的特征空間。假設數據集中有I={Item1,Item2,…,Itemn}和m個用戶U={User1,User2,…,Userm},為了描述每個用戶和物品的屬性(內容),把它們都表示為一個特征集合,即我們需要得到Itemi={wi1,wi2,…,wik},其中wik(1≤i≤n,k≤n)是物品i第k個特征的權重,以及Useri={wi1,wi2,…,wik},同理,wik(1≤i≤m,k≤m)是用戶i第k個特征的權重。

權重的眾多計算方法中,常用的是TF-IDF[7]。這個計算方法是一種基于文本的統計方法,在自然語言處理領域中應用十分廣泛,可以用來提取關鍵詞。詞頻(TF)是指一個詞在指定文件中出現的次數,逆文檔頻率(IDF)度量一個詞的重要性(權重)。如果按照詞頻來提取一篇文檔的特征,或者能表示這篇文檔的關鍵詞會有一個很大的問題,因為停頓詞,如“的”、“是”、“在”,出現次數很多但卻不能表征一篇文檔,所以我們要給不同的詞添加不同權重。比如停頓詞應該給一個很小的權重,而那些在其他文檔中很少出現的且本文檔中出現次數多的詞應該給一個較大的權重。TF-IDF的函數為:

TF-IDF(ti,dj)=TF(ti,dj)×IDFi

(1)

式中:

(2)

(3)

式(2)中maxzfz,j是在文檔dj中所有詞tz的出現次數fz,j上計算得到的最大值,式(3)中|D|是語料庫中文檔總數,|{j:ti∈dj}|是包含詞ti的文檔集合的數量。如果詞ti不在語料庫中,則除數會為零,所以一般情況下分母使用|{j:ti∈dj}|+1。

為了使權重落在[0,1]區間且用戶或物品能夠用相同數量的特征來表示,需要將式(1)歸一化:

(4)

現在我們需要得到基于內容的推薦中用戶特征和待推薦物品特征的相似度。計算相似度的方法有很多,廣泛應用的是利用余弦相似度。所以Useri與Itemj的相似度為:

(5)

1.2 基于協同過濾的推薦

基于協同過濾的推薦根據用戶對物品的評分或者其他行為(如點擊、購買)來進行推薦,不同于基于內容的推薦,該方法不需要得到用戶或物品的大量信息。例如學生Bob喜歡書籍A、書籍D,學生John喜歡書籍B、書籍C,學生Alice喜歡書籍A、書籍B、書籍D,從這些信息中我們發現學生Bob和學生Alice的對書籍的偏好比較類似,所以系統會把Alice喜歡的而Bob沒有看過的書籍B推薦給Bob。基于協同過濾的推薦又分為基于用戶的協同過濾、基于項目的協同過濾和基于模型的協同過濾。

1.2.1 基于用戶的協同推薦

該方法首先挖掘與目標用戶興趣、偏好相似的用戶群體,然后根據這個群體中用戶的歷史興趣偏好為目標用戶推薦未曾有過行為的物品。

首先需要計算兩個用戶間的興趣/偏好相似度,找到與目標用戶興趣相似的用戶群體。為了得到用戶興趣/偏好的相似度,主要利用用戶行為的相似度。假設有用戶u和用戶v,N(u)、N(v)分別表示用戶u、v歷史行為中有過正反饋的物品集。正反饋是指明確表現了用戶對物品喜好的行為中用戶喜歡某物品的行為,比如用戶在觀影網站中對某部電影評分5分(最高分)的行為為正反饋。計算用戶u、v的興趣/偏好相似度可以通過Jaccard公式:

(6)

或者通過余弦相似度:

(7)

得到用戶之間的興趣/偏好相似度后,基于用戶的協同過濾算法得到與目標用戶興趣最相似的K個用戶,然后為目標用戶推薦這K個用戶喜歡的而目標用戶以前沒有行為的物品。用戶u對物品i的感興趣程度可以用以下公式計算:

(8)

式中:

1)S(u,K)為與用戶u興趣最相似的K個用戶集合;

2)N(i)表示對物品i有過行為的用戶集合;

3)wuv是用戶u和用戶v的興趣相似度;

4)rvi表示用戶v對物品i的興趣,比如用戶對電影的評分數據。

1.2.2 基于物品的協同過濾算法

該協同過濾算法給用戶推薦的物品和他們之前喜歡的物品是相似的[8-9]。基于內容推薦算法根據物品的內容屬性來計算物品間的相似度,而基于物品的協同過濾算法是根據用戶的歷史行為來計算物品間的相似度,比如物品i和物品j相似度高是由于喜歡物品i的用戶基本也喜歡物品j。物品i和物品j的相似度計算公式為:

(9)

式中:N(i)、N(j)分別是喜歡物品i、j的用戶數,|N(i)∩N(j)|為既喜歡物品i又喜歡物品j的用戶數。

最相似的K個物品,并通過下面的公式計算用戶u對物品i的興趣:

(10)

式中:

1)S(i,K)為與物品i最相似的K個物品集合;

2)N(u)是用戶u喜歡的物品集合;

3)wij是物品i和物品j的相似度;

傳統的鉆井施工經驗及模式在施工中根深蒂固,抓住“三個一”精準化鉆井施工模式這一關鍵,推動“五個轉變”,實現鉆井工作的高端化。

4)rui表示用戶u對物品i的興趣。

1.2.3 基于隱語義模型的協同過濾算法

前兩種協同過濾算法屬于基于領域的模型,因為它們主要關注用戶之間或物品之間的相似性。而隱語義模型把用戶和物品映射到相同的隱語義空間,通過隱含特征把用戶的興趣和物品進行關聯[10],這些隱含的特征可以解釋用戶的喜好(評分)。比如在對用戶Alice進行電影推薦時,我們可以首先對他的興趣分類,然后從分類中推薦符合他喜好的物品。假設有用戶-物品評分矩陣Cm×n(m個用戶,n個物品),通過不斷對訓練數據進行迭代學習,可以把Cm×n分解成用戶特征矩陣P(P∈Rm×f,f是指特征數)和物品特征矩陣X(X∈Rn×f),如公式所示:

Cm×n=P×XT

(11)

在這里,通過下面的式(12)計算用戶u對物品i的興趣:

(12)

式中:pu、xi分別是P、X中的行向量。

1.3 基于混合的推薦

上述的各種推薦算法都有其一定的局限性,比如基于內容的推薦,其推薦結果只是那些與用戶曾經有過行為的物品相似度高的物品,缺乏新穎性。基于用戶的協同過濾推薦在網站的用戶越來越多時,維護用戶相似度矩陣代價很大。基于物品的協同過濾推薦,當物品列表更新很快時會很不穩定。如果能夠將幾種算法組合在一種推薦算法里,充分利用各種算法的優點,使推薦結果令用戶更加滿意的話,混合推薦就應運而生了。Burke[11]提出了七種不同的混合策略:加權、交叉、切換、串聯、分層、特征組合和特征補充。目前,基于協同過濾和基于內容的推薦方法的混合推薦是最常見的[12-17]。文獻[5]中提出了兩種主要的混合思路:推薦結果混合和推薦算法混合。前者是將兩種或者多種推薦方法的推薦結果混合得到最終的推薦結果[13,17],后者是以某種推薦方法為基準,混合其他的推薦方法[18-19]。

2 使用隱語義模型為用戶興趣建模

前面已經簡單介紹了隱語義模型,用其來進行協同過濾的主要目標是揭示用戶隱藏的特征,當為用戶興趣建模時能夠得到更加全面的興趣特征。上文中提到的方法都存在項目或者用戶的數據稀疏性和冷啟動問題,本文將通過充分利用用戶行為隱性反饋和隱語義模型來解決這兩個問題。

用戶的行為分為兩種:顯示反饋和隱式反饋。顯示反饋主要是用戶的評分行為,能明顯地反映用戶的興趣/偏好,比如對電影評分5分代表喜歡,1分代表不喜歡。而隱式反饋主要是用戶行為日志,比如瀏覽新聞日志、聽歌日志,這些行為能隱含地表達用戶的興趣/偏好。在隱式反饋數據集中,又可以分為正反饋和負反饋。正反饋指用戶的行為表明他喜歡某種物品,負反饋指用戶的行為表明他對某種物品不感興趣。比如,瀏覽新聞時用戶點擊一條新聞或者再其上細想超過一個閾值時間能夠表明該用戶確定的偏好,而沒有點擊或者花極少的時間在一條新聞上則可以解釋為負反饋。如果用戶在某個物品集上反饋信息,我們就能嘗試為該用戶的興趣建模。很多時候,數據集中用戶的負反饋信息很少,我們需要為其生成負反饋。

如何給每個用戶生成負反饋信息,文獻[20]中提出了以下幾種方法:

1) 把某用戶沒有過行為的物品作為負反饋;

2) 在某用戶沒有過行為的物品中均勻采樣得到一些物品作為負反饋;

3) 在第二種方法中保證采樣時該用戶的正負反饋信息數相當;

4) 在第二種方法中保證偏重對不熱門的物品進行采樣。

這幾種方法中,第一種方法副本太多,計算難度大且精度很差。文獻[20]中的作者比較了后三種方法,發現第三種方法好于第二種,第二種好于第四種。所以我們采用的方法是在保證正負反饋信息量相當的同時,選取那些用戶沒有行為卻很熱門的物品。

2.2 利用隱語義模型為用戶興趣建模

為了解決數據稀疏性問題,我們在為每個用戶的興趣建模時使用所有用戶的數據。我們方法的核心思想是為所有用戶建立一個隱因子空間,在這個空間里即使是從所有可用的數據中學習得到用戶的興趣模型,但是仍能保證每個用戶的興趣有自己的特征,是可區分的。

首先,我們把每個用戶的興趣特征矩陣Pm×f分為兩個部分:

2) 一個從物品特征到潛在因子的映射S∈Rk×f,由所有用戶共享。

所以用戶的興趣特征矩陣P構建為P=US。接下來就把問題轉化為如何學習得到U和S。這里我們用U、S和X來近似用戶-物品交互矩陣C,即:

C≈USXT

(13)

通過優化如下AUC損失函數我們可以學習到U和S。

λu‖U‖2+λs‖S‖2

(14)

(15)

(16)

(17)

根據隨機梯度下降法,通過式(15)、式(16)我們求得了U和S的偏導數,也即梯度,現在需要找到合適的樣本。我們采用了自助抽樣法來隨機得到正-負反饋樣本對,再利用下面兩個公式不斷交替更新U和S直到收斂:

(18)

(19)

式中:α是迭代步長或學習速率,其取值需要不斷地實驗得到。因為α太大容易導致結果在最優值附近震蕩,而太小收斂的速度太慢。

因子特征矩陣S是解決稀疏性和冷啟動問題的關鍵。那些只有有限交互數據的用戶能夠通過S從其他用戶的交互數據中獲益,因為S是對所有用戶共享的,而且在迭代中每個用戶的實例都會用來更新S一次。所以,即使一個用戶在與物品交互后只獲得了他很少的特征,我們仍然能夠用S推斷得到較廣范圍的特征。

3 實 驗

我們進行了實驗來驗證我們所提方法在為用戶興趣建模方面的性能,并評估了我們的方法在用戶推薦結果上的指標。

實驗所使用的數據是MoiveLens 10M數據集,其中有71 567 用戶的10 000 054條評分數據和10 681部電影的95 580條標簽。

首先建立用戶-電影矩陣,然后用所有用戶與90%電影的交互矩陣作為訓練集,剩下的10%作為測試數據集。實驗中,我們的隱因子個數設為10,學習速率α為0.02,λu和λs均為0.01,之后我們進行了本文所提出算法與基于內容的推薦和基于物品的協同過濾推薦在準確率、召回率和覆蓋率三個指標上的比較。這三個評價指標的計算公式如下:

(20)

(21)

(22)

式中:R(u)是為用戶u推薦的列表,T(u)是用戶u的觀看列表。

通過實驗,我們得到表1、表2所示的結果。

表1 不同推薦算法的TOP5推薦結果

表2 不同推薦算法的TOP10推薦結果

通過實驗結果可以發現,我們提出的基于隱語義模型的推薦算法在這三個指標上都優于傳統的基于內容的推薦和基于物品的協同過濾推薦。

4 結 語

我們提出了基于隱語義模型的推薦算法為用戶興趣建模,然后根據用戶興趣進行推薦物品。隱語義模型是推薦精度最高的單一模型,利用這一優勢,我們在電影推薦中使用了這一模型,并且通過實驗驗證了這一方法的優越性。

今后的研究需要解決在使用隱語義模型進行推薦時,如何解決當數據規模大時,其計算效率的提高。

[1] Resnick P,Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.

[2] 許海玲,吳瀟,李曉東,等.互聯網推薦系統比較研究[J].軟件學報,2009,20(2):350-362.

[3] 劉建國,周濤,汪秉宏.個性化推薦系統的研究進展[J].自然科學進展,2009,19(1):1-15.

[4] 王國霞,劉賀平.個性化推薦系統綜述[J].計算機工程與應用,2012,48(7):70-80.

[5] Lops Pasquale,De Gemmis M,Semeraro G.Content-based recommender systems:State of the art and trends[M].Recommender Systems Handbook.Springer US,2011:73-105.

[6] Jiang Peng,Zhu Yadong,Zhang Yi,et al.Life-stage Prediction for product recommendation in E-commerce[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’15).ACM,2015:1879-1888.

[7] Salton Gerar.Automatic Text Processing:the Transformation,Analysis and Retrieval of Information by Computer[M].Boston:Addison-Wesley Longman Publishing Co.,Inc.,1989.

[8] Deshpande Mukund,Karypis George.Item-based top-N recommendation algorithms[J].ACM Transactions on Information Systems (TOIS),2004,22(1):143-177.

[9] Linden Greg,Smith Brent,York Jeremy.Amazon.com recommendations:item-to-item collaborative filtering[J].IEEE Internet Computing,2003,7(1):76-80.

[10] 項亮.推薦系統實戰[M].北京:人民郵電出版社,2012.

[11] Burke Robin.Hybrid recommender systems:survey and experiments[J].User Modeling and User-adapted Interaction,2002,12(4):331-370.

[12] Balabanovic M,Shoham Y.Fab:Content-based collaborative recommendation[J].Communications of the ACM,1997,40(3):66-72.

[13] Claypool M,Gokhale A,Miranda T,et al.Combining content-based and collaborative filters in an online newspaper[C]//Proc of the ACM SIGIR’99 Workshop Recommender Systems:Algorithms and Evaluation.New York:ACM Press,1999.

[14] Yu Xiao,Ren Xiang,Sun Yizhou,et al.Personalized entity recommendation:a heterogeneous information network approach[C]//Proceedings of the 7th ACM international conference on Web search and data mining (WSDM’14).ACM,2014:283-292.

[15] Vahedian Fatemeh.Weighted hybrid recommendation for heterogeneous networks[C]//Proceedings of the 8th ACM Conference on Recommender systems (RecSys’14).ACM,2014:429-432.

[16] Schwab I,Kobsa A,Koychev I.Learning user interests through positive examples using content analysis and collaborative filtering[J].Internal Memo,GMD,St.Augustin,Germany,2001.

[17] Tran Thomas,Cohen Robin.Hybrid recommender systems for electronic commerce[C]//Proc Knowledge-Base Electronic Markets,papers from the AAAI Workshop.Menlo Park:AAAI Press,2000:78-83.

[18] Zhang Y C,Blattner M,Yu Y K.Heat conduction process on community networks as a recommendation model[J].Physical review letters,2007,99(15):154301.

[19] Zhou T,Su R Q,Liu R R,et al.Accurate and diverse recommendations via elimination redundant correlations[J].New Journal of Physics,2009,11.

[20] Pan Rong,Zhou Yunhong,Cao Bin,et al.One-class collaborative filtering[C]//The Eighth IEEE International Conference on Data Mining(ICDM),2008.

LATENTFACTORMODELBASEDPERSONALIZEDRECOMMENDATION

Fan Huiting Zhong Chunlin Gong Haihua

(SchoolofComputerScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei230027,Anhui,China)

Many traditional recommendation methods, such as collaborative filtering or low rank matrix factorization, have data sparsity and cold-start problems on items or users. In order to overcome these two problems, this paper proposes a personalized recommendation method based on the latent factor model. By analyzing behaviors of users, we utilize latent factor model to infer user interest feature vector so as to make a personalized recommendation. Our two kinds of experiments on realistic movie data demonstrate the efficacy of the proposed method, as well as the superiority compared to traditional collaborative filtering methods and content-based methods.

Latent factor model Data sparsity Cold-start Personalized recommendation

2017-04-05。范慧婷,碩士生,主研領域:推薦系統,隱私保護。鐘春琳,碩士生。龔海華,碩士生。

TP391

A

10.3969/j.issn.1000-386x.2017.12.039

猜你喜歡
語義特征用戶
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認知范疇模糊與語義模糊
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 日韩美毛片| 欧美a在线看| 日韩精品高清自在线| 日韩午夜伦| 亚洲欧洲日韩综合色天使| 99er精品视频| 狠狠v日韩v欧美v| 99无码中文字幕视频| 久久99蜜桃精品久久久久小说| 欧美成人看片一区二区三区| 午夜a级毛片| 亚洲三级a| 国产精品私拍99pans大尺度| 狠狠五月天中文字幕| 国产日产欧美精品| 亚洲色中色| 99久久精品国产精品亚洲 | 狠狠亚洲五月天| Jizz国产色系免费| 国产av色站网站| 欧美精品一区二区三区中文字幕| 亚洲欧美成人影院| 91丝袜在线观看| 午夜久久影院| 亚洲精品你懂的| 91青青草视频| 99精品国产自在现线观看| 啦啦啦网站在线观看a毛片| 91免费国产在线观看尤物| 国产aaaaa一级毛片| 久久久波多野结衣av一区二区| 毛片久久网站小视频| 日韩第九页| 国产精品自拍露脸视频 | 欧美午夜视频| 少妇精品网站| 操操操综合网| 亚洲精品在线影院| 综合色在线| 国产理论最新国产精品视频| 国产av色站网站| 亚洲一级毛片免费看| 九一九色国产| 97精品久久久大香线焦| 国产白浆在线| 亚洲色图欧美| 国国产a国产片免费麻豆| 国产大片喷水在线在线视频| 国产欧美精品一区aⅴ影院| 日韩中文精品亚洲第三区| 无码aⅴ精品一区二区三区| 亚洲成人一区二区| 欧洲高清无码在线| 99精品影院| 欧美丝袜高跟鞋一区二区| 最近最新中文字幕在线第一页| 精品福利视频导航| 日韩中文字幕亚洲无线码| 熟女视频91| 在线视频一区二区三区不卡| 在线观看精品自拍视频| 夜夜拍夜夜爽| 日本高清免费一本在线观看| 色综合a怡红院怡红院首页| 亚洲天堂视频网| 极品av一区二区| 色综合中文字幕| 狠狠综合久久| 无码日韩人妻精品久久蜜桃| 国产裸舞福利在线视频合集| 日韩国产综合精选| 亚洲欧美一区二区三区蜜芽| 99成人在线观看| 在线欧美日韩| 欧美高清日韩| 激情六月丁香婷婷四房播| 高清无码手机在线观看 | 国产欧美日韩综合在线第一| 亚洲无码不卡网| 国产91精品调教在线播放| 有专无码视频| 欧美日韩精品一区二区在线线|