程蕊蕊,陳慧萍
(河海大學物聯(lián)網(wǎng)工程學院,常州213022)
基于新聞推薦的用戶興趣模型研究?
程蕊蕊,陳慧萍
(河海大學物聯(lián)網(wǎng)工程學院,常州213022)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,涌現(xiàn)出一大批新聞類網(wǎng)站,人們也逐漸開始通過網(wǎng)絡獲取新聞消息,因此針對不同用戶推薦個性化的新聞內(nèi)容將會極大地幫助網(wǎng)站增加用戶粘性。為了提高新聞推薦的準確性,建立一種用戶綜合興趣模型,首先根據(jù)用戶瀏覽網(wǎng)頁的行為習慣建立相應的用戶穩(wěn)定興趣模型;然后根據(jù)新聞的時效性和主流性,提出以新聞新鮮度為基礎的試探性推薦方法,建立用戶的臨時興趣模型;最后,將這兩種模型通過加權(quán)進行組合以建立用戶綜合興趣模型。實驗結(jié)果證明,提出的方法能從大量最新發(fā)布的新聞中推薦最符合用戶閱讀偏好的特定新聞文章。
用戶粘性;新聞推薦;興趣模型;瀏覽習慣;時效性;新鮮度
隨著新聞類網(wǎng)站和各類社交網(wǎng)絡的飛速發(fā)展,互聯(lián)網(wǎng)上的新聞信息爆炸式增長,面對海量變化的網(wǎng)絡新聞,用戶面臨的選擇越來越多,在這樣的環(huán)境下,如何能夠更好的為用戶推薦比較符合用戶興趣的新聞列表,成為網(wǎng)絡新聞檢索領域的一項重要內(nèi)容。用戶閱讀新聞時一般是通過導航找到新聞列表分類,在新聞列表分類中尋找自己感興趣的新聞,或者是通過在搜索引擎中輸入關鍵詞或新聞摘要進行直接搜索。而面向個性化服務的新聞推薦是根據(jù)每個用戶的個性化興趣主動推薦符合用戶瀏覽習慣的新聞界面和新聞信息。因此,建立合適的用戶興趣模型是進行個性化推薦的核心。
根據(jù)用戶喜好推薦新聞給用戶,長期以來一直是推薦系統(tǒng)研究領域最受歡迎的。如通過在Twitter上用戶的實時微博活動,建立用戶個性化模型,進而實現(xiàn)個性化新聞推薦[1]。根據(jù)用戶點擊行為發(fā)現(xiàn)用戶的興趣,進而推薦用戶感興趣的新聞內(nèi)容[2-3]。盡管現(xiàn)存的推薦系統(tǒng)有了突破性進步,并且有很多學者對推薦系統(tǒng)中的推薦算法做了大量改進[4-6]來提高推薦效率。但針對新聞推薦仍有一些因素制約向用戶推薦的效率,它包括:①新聞的生命周期很短;②初次使用系統(tǒng)的用戶帶來的挑戰(zhàn),并且,最開始的時候,無法得知他們的興趣;③推薦與用戶喜好無關的新聞時,難以確定應該推薦哪些新聞;④盡管與用戶的興趣無關,用戶依然會對重大主流新聞感興趣。本文針對新聞推薦中無法得知初次使用系統(tǒng)的用戶興趣,根據(jù)文獻[7-8]中提到的每個用戶瀏覽網(wǎng)頁有行為和習慣能夠反應用戶的興趣特征,來對用戶興趣愛好進行分析,建立穩(wěn)定的興趣模型,并針對新聞生命周期短,用戶對重大主流新聞感興趣的因素,提出基于新鮮度的主流新聞試探性推薦,建立臨時興趣模型,從而在一定程度上提高了新聞推薦效率。
用戶興趣獲取一般是通過分析用戶以前瀏覽網(wǎng)頁的行為獲得的,雖然能較為準確的獲得用戶的興趣類別,但是對于突發(fā)性強、不易預測、很受關注的新聞來說,僅通過這種方法來獲取用戶興趣,不能很準確地預測用戶關注的新聞類別。
基于新聞推薦的用戶興趣的獲得需要考慮兩方面內(nèi)容:①用戶的穩(wěn)定興趣,即用戶一段時間內(nèi)的興趣,不會輕易改變,主要是通過對用戶一段時間內(nèi)瀏覽新聞網(wǎng)頁的行為習慣分析,捕捉用戶的興趣,而能夠反應用戶興趣的行為主要有評價、分享、保存、發(fā)送鏈接;②用戶臨時興趣,即用戶只是在短時間感興趣的項目,是不斷變化的。本文通過對最近發(fā)生的重大主流新聞進行試探性推薦來預測,如果是用戶感興趣的新聞類別,就直接進行推薦,對于不屬于用戶感興趣的新聞,根據(jù)新聞的新鮮度進行內(nèi)容不斷更新的推薦,由用戶接受與否來預測用戶對新聞的喜愛與否,從而構(gòu)成用戶的臨時興趣。最后,將穩(wěn)定興趣和臨時興趣結(jié)合構(gòu)成用戶的綜合興趣模型(見圖1)。
根據(jù)新聞推薦中用戶興趣的獲取,基于新聞推薦的用戶興趣建模要建立穩(wěn)定興趣模型和臨時興趣模型,最后將這兩種模型結(jié)合起來構(gòu)成用戶綜合興趣模型。

圖1 用戶興趣獲取
3.1 用戶穩(wěn)定興趣模型
用戶的穩(wěn)定興趣模型采用空間向量模型表示,假設新聞的分類集為:NW={NW1,NW2,...NWm},其中NWi是第i類新聞(1≤i≤m)。用戶的興趣向量模型可以表示為:

其中ID是用戶標識,w1,w2,w3是相應新聞分類的興趣度,即用戶對某類新聞喜愛的程度。
能夠反應用戶興趣特征的瀏覽行為有很多,但起關鍵作用的的主要有—評價(EV),分享(SH),保存(SV),發(fā)送文章鏈接(SD)等,將它們定義如下:
定義1:若用戶對瀏覽過的網(wǎng)頁給予評價,則將瀏覽某種類別所有新聞評分的平均值記為EV,規(guī)定0≤EV≤1,EV越大表示用戶的評價越高;
定義2:若用戶對瀏覽過的網(wǎng)頁進行分享,記為SH,規(guī)定SH=1,表示用戶分享該網(wǎng)頁,SH=0,表示用戶沒有分享,SHi表示用戶分享第i類新聞網(wǎng)頁的次數(shù);
定義3:若用戶對瀏覽過的網(wǎng)頁進行保存,則將保存第i類新聞網(wǎng)頁的總數(shù)量記為SVi;
定義4:若用戶發(fā)送瀏覽過的網(wǎng)頁鏈接,則將發(fā)送第i類新聞網(wǎng)頁的總次數(shù)記為SDi。
用戶的興趣度可以通過用戶對網(wǎng)頁的評價(EV)、分享(SH)次數(shù)、保存(SV)、發(fā)送鏈接(SD)的次數(shù)來評估,這些行為與用戶的興趣度成正比例,用戶對第i類新聞的興趣度可以表示為:

其中a,b,c,d是權(quán)重常量,且a+b+c+d=1,SH0,SV0,SD0是SH、SV和SD進行歸一化處理后的結(jié)果。歸一化計算公式如下:


根據(jù)公式(2)-(5),計算各個新聞類別的興趣度,得出用戶興趣度高的新聞類別,即可得到用戶的興趣,建立用戶的穩(wěn)定興趣(Stable Interest)模型,其中NWi是用戶感興趣的新聞類別。

3.2 用戶臨時興趣模型
由于新聞時效性強,更新速度快,用戶對新聞類別的關注有一部分是不斷變化的,主要是根據(jù)新聞系統(tǒng)向用戶推薦重大主流新聞,用戶是否接受來判斷的。在對用戶進行推薦時,要考慮到新聞的新鮮度,處理好時間和新聞的關系,及時有效地將用戶關注的主題相關新聞的最新狀態(tài)推薦給用戶,根據(jù)用戶的接受程度來建立用戶的臨時興趣模型(見圖2)。

圖2 新聞推薦的臨時興趣


3.3 加權(quán)后的用戶綜合興趣模型
在個性化新聞推薦中,最重要的是推薦給用戶有重要性的、最近發(fā)生的、用戶又不反感的內(nèi)容。根據(jù)用戶瀏覽網(wǎng)頁的行為習慣雖然能推薦給用戶符合其興趣特征的新聞內(nèi)容,但是對于新聞推薦來說不夠全面,而只推薦主流新聞忽略用戶的興趣偏好則會造成用戶使用不滿意。因此需要同時考慮用戶的穩(wěn)定興趣和臨時興趣,將最符合用戶當前閱讀偏好的新聞推薦給用戶,不僅能提高推薦系統(tǒng)的質(zhì)量,還能最大程度滿足用戶的需求。用戶的綜合興趣要將穩(wěn)定興趣和臨時興趣結(jié)合起來。用戶的興趣模型為:

α是用戶穩(wěn)定興趣在興趣中的權(quán)重,β是用戶臨時興趣在興趣中的權(quán)重,且α+β=1。


實驗數(shù)據(jù)是來自微博上用戶瀏覽閱讀的新聞內(nèi)容。基于新聞推薦的用戶興趣研究中,重要的是要能推薦給用戶接受的新聞內(nèi)容,本文用查準率驗證提出的方法。

在計算用戶的綜合興趣時,出于新聞重要性,更新速度快的特征考慮,圖3是本文令α=0.5,β=0.5時的模型查準率比較。

圖3 用戶興趣模型比較
由結(jié)果可以看出,基于新聞推薦的用戶興趣模型在對用戶進行新聞推薦時,更能將準確的新聞內(nèi)容推薦給用戶。隨著推薦的新聞數(shù)目的增加,這種優(yōu)勢更明顯。
提出了一種基于新聞推薦的用戶興趣研究方法。不僅考慮用戶瀏覽網(wǎng)頁的行為習慣,來獲得用戶的穩(wěn)定興趣,而且通過對用戶推薦重大主流新聞,發(fā)現(xiàn)用戶關注主流新聞的臨時興趣,再結(jié)合穩(wěn)定興趣和臨時興趣建立用戶的綜合興趣,此方法在新聞推薦系統(tǒng)中能更全面的將用戶感興趣的主流新聞推薦給用戶。雖然文中的方法對于新聞推薦系統(tǒng)有一定的提高,但是隨著移動網(wǎng)絡新聞用戶的增加,用戶對新聞的偏好不僅依賴于主題和內(nèi)容,也依賴于用戶現(xiàn)在的背景,如用戶現(xiàn)在的地理位置、時間、社會環(huán)境和外部事件等。下一步的研究工作要將這些因素考慮進來,以更高的精確度提高推薦系統(tǒng)的質(zhì)量。
[1] Abel F,Gao Q,Houben G J,et al.Analyzing usermodeling on twitter for personalized news recommendations[M].//User Modeling,Adaption and Personalization. Springer Berlin Heidelberg,2011:1-12.
[2] Liu J,Dolan P,Pedersen E R.Personalized news recommendation based on click behavior[C].//Proceedings of the 15th international conference on Intelligent user interfaces.ACM,2010:31-40.
[3] Phelan O,McCarthy K,Smyth B.Using twitter to recommend real-time topical news[C].//Proceedings of the third ACM conference on Recommender systems.ACM,2009:385-388.
[4] Sarwar B,Karypis G,Konstan J,etal.Item-based collaborative filtering recommendation algorithms[C].//Proceedings of the 10th international conference on World Wide Web.ACM,2001:285-295.
[5] Chang Y,Shen J,Chen T.A Data Mining-Based Method for the Incremental Update of Supporting Personalized Information Filtering[J].JOURNAL OF INFORMATION SCIENCE AND ENGINEERING,2008,24(1):129-142.
[6] Han J,Pei J,Yin Y,et al.Mining frequent patterns without candidate generation:A frequent-pattern tree approach[J].Data mining and knowledge discovery,2004,8(1):53-87.
[7] 付關友,朱征宇.個性化服務中基于行為分析的用戶興趣建模[J].計算機工程與科學,2006,27(12):76-78.
Fu G,Zhu ZY.A User InterestModel Based on the Analysis of User Behaviorsfor Personalization[J].COMPUTER ENGINEERING&SCIENCE,2006,27(12):76-78.
[8] 楊繼萍,王躍,高雪松.個性化流媒體服務中基于行為分析的用戶興趣建模[J].計算機應用與軟件,2011,28(8):247-250.
Yang J P,Wang Y,Gao X S.User Interest Modeling for Personalized Streaming Media Services Based on Behavior Analysis[J].Computer Applications and Software,2011,28(8):247-250.
[9] 于洪,李轉(zhuǎn)運.基于遺忘曲線的協(xié)同過濾推薦算法[J].南京大學學報(自然科學版),2010,46(5):520-527.
Yu H,Li Z Y.A collaborative filtering recommendation algorithm based on forgetting curve[J].JOURNAL OF NANJING UNIVERSITY(NATURAL SCIENCES),2010, 46(5):520-527.
Study on User Interest Model Based on News Recommendation
Cheng Ruirui,Chen Huiping
(College of Internet of Things Engineering,Hohai University,Changzhou 213022,China)
With the rapid development of the Internet,a large number of news websites were emerged and people gradually use the Internet to get news,so,introducing the personalized contents according to the users'different requirementswill help newswebsites increase user stickiness.In order to improve the accuracy of news recommendation,this paper establishes a comprehensive user interest model.First,a stable user interest model is established based on user browsing habits.Then,the freshness-based tentative recommendations are described on the basis of news timeliness and mainstream to get the user's temporary interest model.Finally,these two models are combined to establish a comprehensive user interestmodel.The experimental results prove that the proposed method can recommend specific news articleswhich bestmeets the user's reading preferences from a large number of the latest published news.
User stickiness;News recommendation;Interest model;Browsing habits;Timeliness;Freshness
10.3969/j.issn.1002-2279.2015.05.016
TP301
A
1002-2279(2015)05-0061-04
國家自然科學基金資助項目(61100045;61273170)
程蕊蕊(1986-),女,河南平頂山市人,碩士研究生,主研方向:數(shù)據(jù)挖掘。
2015-03-16