999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于時間戳的新聞推薦模型

2016-07-19 02:12:39史艷翠戴浩男石和平汪圣潔楊碩珩鐘惠軍
計算機應用與軟件 2016年6期
關鍵詞:用戶模型系統

史艷翠 戴浩男 石和平 汪圣潔 楊碩珩 鐘惠軍

(天津科技大學計算機科學與信息工程學院 天津 300457)

?

一種基于時間戳的新聞推薦模型

史艷翠戴浩男石和平汪圣潔楊碩珩鐘惠軍

(天津科技大學計算機科學與信息工程學院天津 300457)

摘要互聯網的高速發展,使用戶很難在“信息海洋”中找到感興趣的新聞,如何為用戶準確推薦滿足其需求的個性化新聞已成為當前研究的熱點和難點。為了改善新聞推薦系統的準確性,將時間戳信息引入到新聞推薦模型中。首先,利用分詞工具對新聞標題和新聞內容進行分詞,并引進時間加權函數來計算用戶對單個分詞的偏好;預測用戶偏好時不僅根據用戶自身的偏好進行預測,還使用改進協同過濾方法來預測用戶偏好;最后,通過融合得到的偏好值對新聞進行推薦。實驗結果表明,該模型不僅能提高新聞推薦系統的準確性,還縮短了模型構建的響應時間。

關鍵詞時間戳稀疏性分詞新聞推薦

0引言

互聯網的普及使用戶可以更方便地獲取信息,但互聯網中信息量爆炸式的增長,造成了嚴重的“信息過載”問題,用戶很難從“信息海洋”中找到需求的信息。推薦系統作為一項重要的信息過濾技術,很早就被廣大學者視為極具潛力的解決信息過載的有效手段而被廣泛研究[1]。推薦系統根據用戶以往行為在進行分析后對用戶即將發生的行為進行預測。在商務領域,以亞馬遜為代表的電子商務網站就是利用推薦系統增加商品銷售的典型案例。推薦系統不僅能夠為用戶提供個性化的服務,而且能夠與用戶建立長期穩定的關系,提高用戶忠誠度,防止用戶流失[2]。

目前,個性化推薦系統分為基于內容的推薦系統、基于協同過濾的推薦系統、基于知識的推薦系統以及幾種推薦系統的混合模型等[1,3,4]。由于以上幾種算法各有所長,因此,很多推薦系統對上述算法進行組合以得到準確的推薦結果[5,6]。

另外,隨時間變化,用戶偏好會發生變化[7,8]。如果不及時更新用戶偏好,使用已過時的用戶偏好為其推薦信息或服務,將無法滿足其個性化的需求,造成推薦系統性能的下降,客戶的流失。針對該問題,研究人員將時間因素引入到推薦系統中以更新用戶偏好,改善推薦系統的性能。鄭先榮等人[9]為了及時捕捉用戶偏好的變化,借鑒心理學中人的遺忘理論,引入了線性遺忘函數對用戶評分進行加權計算。而鄧娟等人[8]考慮到用戶對項目的評分隨時間遷移對當前用戶偏好的影響會衰減,引進了按指數衰減的時間加權函數。相比于線性遺忘函數,按指數衰減的遺忘函數能更好地擬合用戶偏好的衰減,因此印桂生等人[10]和張磊等人[11]分別提出了不同形式的按指數衰減的遺忘函數。在上述研究中,用戶評分被看做用戶偏好,因此可以直接進行相應計算,但在新聞推薦系統中,收集到的數據只有用戶閱讀過的新聞,并沒有直接給出相應的評分,所以在新聞推薦系統中首先需要挖掘用戶偏好。

針對上述問題,本文提出一種基于時間戳信息的新聞推薦模型。首先,使用分詞工具對新聞標題以及新聞內容進行分詞;然后,計算分詞的相對詞頻,考慮到時間因素的影響,本文參考已有文獻,引入了按指數衰減的時間加權函數;根據計算得到的相對詞頻,提出計算用戶偏好的公式;根據計算得到的用戶偏好,結合基于用戶自身偏好和改進的協同過濾方法實現推薦;最后,使用真實數據驗證本文提出模型的有效性。

1提出的模型

本文提出的模型,首先根據新聞的分詞計算用戶對新聞主題的偏好,然后根據用戶自身偏好和改進的協同過濾方法分別預測用戶可能的偏好,最后對得到的用戶偏好進行融合。在模型中本文引入時間戳信息來改善推薦系統的性能。

1) 計算相對詞頻

在新聞推薦系統中,不能直接獲取用戶偏好,因此本文通過新聞分詞來挖掘用戶偏好。首先使用分詞工具對新聞標題和新聞內容進行分詞。由于隨時間變化,用戶偏好會發生遷移,原有偏好對當前用戶偏好的影響比較小。因此,借鑒已有研究,采用按指數衰減的時間加權函數來調整分詞對用戶偏好的影響。時間加權函數[10]如下:

f(ti)=e-β(ti-t0)

(1)

其中,t0表示當前的時間;ti表示用戶閱讀第i條新聞的時間,β為時間衰減參數。

用戶閱讀的新聞包括新聞標題和新聞內容兩部分,但新聞標題的分詞和新聞內容的分詞對用戶偏好的影響是不同的。新聞標題中的分詞影響更大一些。因此,考慮到時間衰減的影響,本文提出了一種計算相對新聞分詞詞頻的方法,其公式如下:

(2)

其中,N1表示第i個分詞在用戶閱讀的新聞標題中出現的次數;N2表示第i個分詞在用戶閱讀的新聞內容中出現的次數;N表示用戶閱讀的所有新聞標題和新聞內容的分詞數量;tk表示第i個分詞第k次出現的時間,α表示權重參數。

2) 計算用戶偏好

由于用戶對新聞的偏好與閱讀次數之間不是線性關系,而是隨著閱讀次數的增加,用戶興趣度增長速度逐步變慢,這符合著名的經濟學理論——邊際效應遞減理論。即其他條件不變的情況下,如果一種投入要素連續地等量增加,那么產生的實際效應的增加速度會逐步下降。因此,本文根據邊際效應遞減理論使用式(3)來計算用戶對新聞分詞的偏好:

(3)

其中,a為對數的底數。當a的取值比較大時,得到的用戶偏好的范圍比較小,當a的取值比較小時,得到的用戶偏好的范圍比較大,本文中需要將用戶偏好映射到[0,1]之間的數值,而fi∈[0,1],所以設定a=2。

在獲取了用戶對單個分詞的偏好后,可以計算出用戶對某個新聞標題的偏好,其計算公式如下:

(4)

其中,Nnewi表示新聞標題中包含的分詞的數量。

3) 基于用戶自身偏好進行推薦

由于用戶偏好受自身因素的影響,例如用戶的學歷、興趣等。因此可以根據用戶的偏好來預測用戶可能的偏好。預測步驟如下:

(1) 根據目標用戶最后閱讀新聞的時間,選擇近三天發布的新聞標題。

(2) 根據計算得到的分詞的偏好,根據式(4)計算用戶對已選擇出的新聞標題的偏好。

(3) 對計算得到的新聞標題排序,選擇出偏好最高的前5個新聞標題。

但是當給出的新聞標題中不包含用戶已閱讀過的分詞時,根據式(3)預測的新聞標題的偏好會是0。因此,基于用戶自身偏好的預測方法,不能發現用戶對新的新聞主題的偏好。為了彌補基于用戶自己偏好預測方法的缺點,本文還結合使用了改進的協同過濾方法。

4) 基于改進的協同過濾進行推薦

(1) 根據其他用戶和目標用戶瀏覽的新聞的共同的分詞數量選擇近似鄰居。由于本數據集中用戶閱讀的新聞數量比較少,在尋找近似鄰居時,不是以新聞標題作為一個項目,而是將單個分詞作為一個項目。例如用戶A和用戶B,他們分別讀了關于馬航的5條新聞,但相同的新聞標題沒有。這并不能說明A和B偏好不相似,因此,在尋找近似鄰居時,使用單個的分詞作為項目是合理的。

(2) 在計算用戶之間的相似度時,為了提高計算的準確性,本文考慮了用戶之間共同分詞數量對相似度的影響。假設用戶A和B分詞分別為100和200個,且共同的分詞只有一個,計算得到的偏好相等,那么根據傳統的相似度計算公式得到的相似度可能比較高,但顯然,這是不合理的。因此本文使用改進的皮爾森相關系數來計算用戶之間的相似度,其公式如下:

(5)

其中,Sc表示用戶ui和uj閱讀的新聞標題以及新聞內容的共同分詞;pui,sk表示用戶ui對分詞Sk的偏好;θ用戶度量共同分詞數量的影響,其計算公式如下:

(6)

(7)

其中,Sui表示用戶ui閱讀的新聞標題分詞的集合。

(3) 根據計算得到的相似度,選擇前K個相似度最高的用戶作為目標用戶的近似鄰居。

(4) 由于新聞的特點,用戶一般會閱讀最近發生的新聞。因此,為了減少計算復雜度,本文根據目標用戶最后閱讀新聞的時間,從近似鄰居最近閱讀的新聞中選擇出目標用戶沒有閱讀過,且新聞的發布時間和目標用戶最后閱讀新聞的時間不超過三天的新聞標題進行預測。

(5) 根據近似鄰居的偏好預測目標用戶的偏好。

(8)

其中,Un表示用戶ui的近似鄰居的集合;sk∈Ss,Ss表示選擇出的符合要求的新聞標題的集合。

(6) 對于新用戶,本文根據其余用戶的偏好以及新聞的發布時間,選擇出最新的熱門新聞推薦給新用戶。

(7) 對于新推出的新聞,一方面通過分詞,來計算用戶對該新聞的偏好,另一方面將該新聞推薦給時尚型用戶。根據用戶閱讀新聞的時間與新聞發表的時間平均差來判斷用戶是否為時尚型用戶,其計算公式如下:

(9)

其中,Nn表示用戶ui閱讀的新聞標題的數量,即Nn=|Sr|,Sr表示用戶閱讀的新聞標題的集合;tsk表示新聞sk發表的時間,sk∈Sr;tui,sk表示用戶ui閱讀新聞sk的時間戳。如果計算得到的平均時間差小于給定的閾值,則判定用戶為時尚型用戶。

(8) 根據預測得到的偏好,選擇偏好最高的前5個進行推薦。

5) 推薦結果融合

由于基于用戶自身偏好的推薦和基于協同過濾的推薦各有優缺點,因此,本文結合兩種方法進行推薦。將基于用戶自身偏好的推薦結果和基于協同過濾的推薦結果進行融合,選擇出偏好最高的5個新聞標題推薦給目標用戶。

2實驗驗證和結果分析

1) 數據集

使用爬蟲工具從搜狐網站上爬取10 000個用戶在1個星期內閱讀新聞的行為信息。并對用戶、新聞進行編號,另外還抓取了新聞發表的時間,以及用戶閱讀新聞的時間戳信息。經統計分析該數據集包含7156條新聞,每個用戶閱讀的新聞量如表1所示。

表1 用戶看新聞總量的統計

2) 新聞標題及內容分詞

本文使用分詞工具——NLPIR漢語分詞系統對新聞標題和新聞內容進行分詞。但該系統不允許一次性對超過四句話的文本進行分詞。為提升效率對該軟件進行了改良。通過對文件編碼進行替換來適配漢語字符特有的寬編碼以及應用Windows核心編程API技術完成兩個進程間的通信需求。制作出了一個全新的文本讀寫軟件,將網上的分詞系統內置其中,可以通過循環控制和進程間通信的手段一次性完成所有的分詞工作。

3) 評價標準

本文采用F值作為評價指標,F值不僅考慮了準確率,還考慮了召回率,可以更準確地度量推薦結果。其計算公式如下:

(10)

其中,P表示準確率,R表示召回率,它們的計算公式分別如下:

(11)

其中,Na表示推薦的結果是用戶閱讀的新聞,Nl表示所有推薦的新聞標題的數量。

(12)

其中,NT表示測試集中所有的新聞標題的數量。

4) 結果分析

(1) 參數α的影響

圖1 當參數α取不同值時的推薦結果

從圖1可知,當α=1.3時,推薦結果最好。這是因為,當α=1時,即分詞沒有區分是新聞標題中的分詞還是新聞內容中的分詞,所以推薦結果的準確性低;1<α<1.3時,新聞標題中的分詞所占比重逐漸增大,所以準確性提高;當α>1.3時,由于新聞標題中的分詞所占比重過大,所以推薦的準確性開始降低。根據實驗結果,在后續試驗中,設定α=1.3。

(2) 參數β的影響

圖2 當參數β取不同值時的推薦結果

從圖2可知,當β=0.7時,得到的推薦結果最好。這是因為,當β取值比較小時,衰減速度比較慢,所以一些過時的偏好對現有偏好影響比較大,導致推薦結果的準確性降低;當β取值比較大時,用戶偏好衰減速度過快,使一些偏好對現有偏好的影響降低,同樣帶來了推薦結果準確性的降低。綜上分析,在后續實驗中,設定β=0.7。

(3) 不同推薦方法的比較。選擇傳統的協同過濾算法作為基準對比方法,即method1,本文提出的建模方法為method2,分別進行建模,對比推薦效果。實驗結果如圖3和圖4所示。

圖3 當平均時間差閾值為不同值時,不同建模方法的F值對比

圖4 當平均時間差閾值為不同值時,不同建模方法的建模時間對比

根據圖3和圖4可知,當平均時間差閾值為1天時,獲得結果最好,這是由新聞的實時性特點決定的。因此一般時尚型用戶會在新聞發布的第一時間進行瀏覽。根據圖3可知,與基于傳統的協同過濾算法的推薦系統相比,本文提出的模型在F值最好的情況上提高了0.0322;根據圖4可知,本文提出的建模方法,在建模時間上比基于傳統的協同過濾的推薦系統縮短了23.39分鐘。這是因為本文提出的建模方法不僅考慮了時間因素的影響,在使用協同過濾時考慮了用戶共同偏好數量的影響,并且在建模過程中做了一些預處理操作。改進方法的預處理因為是一些統計計算,因此其計算復雜度比較小,而傳統的方法需要計算目標用戶和其他所有用戶的相似度,所以計算的復雜度比較大。因此雖然改進方法增加了預處理操作,但總的計算復雜度卻減小了。

3結語

為了提高新聞推薦的準確性,本文將時間戳信息引入到新聞推薦模型中。首先,在計算用戶對單個分詞的偏好時,使用了時間加權函數來度量時間對用戶偏好的影響;在為用戶推薦新聞時,通過融合基于用戶自身的偏好的推薦結果和利用改進的協同過濾算法推薦的結果來實現推薦。實驗結果表明,本文提出的模型有效地提高了新聞推薦系統的準確性,并縮短了模型構建的響應時間。

參考文獻

[1] 許海玲,吳瀟,李曉東,等.互聯網推薦系統比較研究[J].軟件學報,2009,20(2):350-362.

[2] 劉魯,任曉麗.推薦系統研究進展及展望[J].信息系統學報,2008(1):82-90.

[3] 劉建國,周濤,汪秉宏.個性化推薦系統的研究進展[J].自然科學進展,2009,19(1):1-15.

[4] 王國霞,劉賀平.個性化推薦系統綜述[J].計算機工程與應用,2012,48(7):70-80.

[5] 喬向杰,張凌云.近十年國外旅游推薦系統的應用研究[J].旅游學刊,2014,29(8):117-127.

[6] 李忠俊,周啟海,帥青紅.一種基于內容和協同過濾同構化整合的推薦系統模型[J].計算機科學,2009,36(12):142-145.

[7] 柯良文,王靖.基于用戶特征遷移的協同過濾推薦[J].計算機工程,2015,41(1):37-43.

[8] 鄧娟,陳西曲.基于用戶興趣變化的協同過濾推薦算法[J].武漢工業學院學報,2013,32(4):48-51.

[9] 鄭先榮,曹先彬.線性逐步遺忘協同過濾算法的研究[J].計算機工程,2007,33(6):72-73.

[10] 印桂生,崔曉暉,馬志強.遺忘曲線的協同過濾推薦模型[J].哈爾濱工程大學學報,2012,33(1):85-90.

[11] 張磊.基于遺忘曲線的協同過濾研究[J].電腦知識與技術,2014(12):67-72.

A NEWS RECOMMENDER MODEL BASED ON TIMESTAMP

Shi YancuiDai HaonanShi HepingWang ShengjieYang ShuohengZhong Huijun

(School of Computer Science and Information Engineering,Tianjin University of Science and Technology,Tianjin 300457,China)

AbstractRapid development of Internet makes it difficult for users to find the interested news from “information ocean”. It has been the hot issue and challenge in current studies that how to accurately recommend the personalised news to users meeting their requirements. In the paper, we introduced the timestamp into news recommendation model in order to improve the accuracy of the news recommender system. First, we employed the word segmentation tool to segment the news titles and news contents into words, and introduced the time weighting function to compute the preference of users on individual word segmentation. When predicting users preference, we were not just based on the preference of users themselves, the improved collaborative filtering method was also applied in prediction. Finally, the news recommendation was achieved by integrating the derived preference values. Experimental results showed that the proposed model could not only improve the accuracy of news recommender system, it also shortened the responding time of model building as well.

KeywordsTimestampScarcityWord segmentationNews recommendation

收稿日期:2015-01-27。國家自然科學基金項目(61402331)。史艷翠,講師,主研領域:用戶偏好獲取,推薦系統,上下文感知,社會網絡。戴浩男,本科生。石和平,本科生。汪圣潔,本科生。楊碩珩,本科生。鐘惠軍,本科生。

中圖分類號TP3

文獻標識碼A

DOI:10.3969/j.issn.1000-386x.2016.06.010

猜你喜歡
用戶模型系統
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 国产91特黄特色A级毛片| 青青草国产在线视频| 欧美午夜精品| 99ri国产在线| 亚洲黄色网站视频| 国产色伊人| 天堂在线视频精品| 乱码国产乱码精品精在线播放| 色爽网免费视频| 国产日本欧美在线观看| 婷婷色中文网| 亚洲欧洲日本在线| 国产在线精品99一区不卡| 午夜视频免费一区二区在线看| 国产精品久久久久久搜索| 啪啪永久免费av| 91九色国产porny| 波多野结衣久久高清免费| 欧美激情综合一区二区| 一本色道久久88亚洲综合| 国产精品手机在线观看你懂的 | 97狠狠操| 九九热免费在线视频| 国产精品尤物在线| 天堂成人在线| 日本成人精品视频| 国产亚洲高清视频| 国产精品手机在线播放| 国产制服丝袜无码视频| 人妻一区二区三区无码精品一区| 91精品啪在线观看国产| 野花国产精品入口| 亚洲无限乱码| 欧美在线免费| 久久99精品久久久久纯品| 1级黄色毛片| 蜜芽国产尤物av尤物在线看| 国产91高清视频| 国产精品jizz在线观看软件| 国产在线麻豆波多野结衣| 丁香综合在线| 精品国产乱码久久久久久一区二区| 欧美色丁香| 亚洲黄色网站视频| 国产激情无码一区二区免费| 亚洲欧美日韩视频一区| 日韩国产亚洲一区二区在线观看 | 中文字幕2区| 不卡的在线视频免费观看| 成·人免费午夜无码视频在线观看| 日本高清免费一本在线观看 | 国产亚洲精品97在线观看 | 在线毛片免费| 成人欧美日韩| 人妻中文字幕无码久久一区| 国产欧美日韩视频怡春院| 国产精品毛片一区| 在线观看91精品国产剧情免费| 国产xx在线观看| 国产97视频在线| 超碰91免费人妻| 亚洲成肉网| 91在线播放免费不卡无毒| 国产成a人片在线播放| 二级特黄绝大片免费视频大片| 国产成人高清精品免费软件| 久久久久国产精品熟女影院| 日本不卡在线播放| 日韩av资源在线| 广东一级毛片| 都市激情亚洲综合久久| 国产成人精品视频一区视频二区| AV熟女乱| 午夜色综合| 久久青草热| 国产丝袜无码一区二区视频| 99国产在线视频| 成人综合网址| 国产成人高清在线精品| 国产丝袜第一页| 免费xxxxx在线观看网站| 女人18毛片久久|