999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于瀏覽記錄的個性化新聞推薦實證分析

2024-03-05 04:50:44高小虎孫克爭
黑龍江科學 2024年3期
關鍵詞:用戶模型

王 妍,高小虎,孫克爭

(江蘇商貿職業學院,江蘇 南通 226011)

0 引言

隨著信息技術的發展,短視頻開始興起,并時時刻刻在生產網絡新聞。網絡新聞具有傳播速度快、互動性強、信息量大、時效性強等特點,閱讀網絡新聞已經成為人們增長知識、了解世界動態的重要方式。用戶閱讀網絡新聞時一般選擇自己熟悉或知名的網絡平臺,在瀏覽時往往具有隨意性,除了自身感興趣的主題外會瀏覽近期熱點新聞話題。如何向用戶推薦符合其喜好的新聞成為各大網絡平臺提高核心競爭力的關鍵,新聞網站需要精準快速地向用戶推薦個性化新聞,優化用戶體驗感,減少用戶搜索新聞的時間。劉佳茵基于知識圖譜構建了個性化新聞推薦模型,可以給用戶推薦符合其偏好的新聞。胡凱達提出了改進后的循環神經網絡算法模型,并結合用戶的興趣特征進行新聞推薦。不同的推薦算法有著不同的適用范圍和優缺點,目前的個性化新聞推薦系統可以分為兩種,即基于內容的個性化新聞推薦和基于協同過濾的個性化新聞推薦。基于內容的個性化新聞推薦是指對新聞記錄和用戶數據進行建模,對用戶曾經瀏覽過的新聞進行分析,找尋與該新聞相似的新聞并將其推薦給用戶。基于協同過濾的個性化新聞推薦則更注重用戶的歷史行為,可以通過用戶的歷史行為來預測其未來的行為,進而向用戶推薦個性化的新聞內容。基于物品的協同過濾推薦算法建立個性化新聞推薦模型,是對優化推薦模型的探索,有利于進一步優化個性化新聞推薦系統,提高新聞網絡平臺的競爭力。

1 基于物品的協同過濾推薦算法

協同過濾推薦算法的原理是用戶會喜歡與自己興趣愛好相似(同樣的歷史行為)用戶喜歡的物品,如某個用戶的朋友喜歡電影《流浪地球》,該算法就會推薦電影《流浪地球》給該用戶。協同過濾推薦算法主要分為兩種,即基于用戶的協同過濾推薦算法和基于物品的協同過濾推薦算法。

基于物品的協同過濾推薦算法是各大新聞門戶網站普遍使用的推薦算法,亞馬遜、Netfix、YouTube的推薦算法都是對基于物品的協同過濾推薦算法的改進。基于物品的協同過濾推薦算法不再測量用戶間的相似度,而是計算物品間的相似度,如用戶在網上商城購買了一款手機,網頁就會向用戶推薦這款手機的手機殼。基于物品的協同過濾推薦算法能夠計算出手機殼與手機之間具有很大的相似度,所以推薦手機殼。該算法是向用戶推薦與其過去喜歡的物品相似的物品,通過分析用戶的行為記錄演算出物品與物品間的相似度數值,而不是簡單地利用物品本身的特征來計算,即對物品a有興趣的用戶大概率對物品b也有興趣才會認為物品a和物品b具有相似性。基于物品的協同過濾推薦算法的概念示意圖詳見圖1,具體步驟為:①基于用戶過往的行為特征,求出某一物品與另一物品之間的相似度數值。②憑借物品之間的相似度數值和用戶過往的行為特征生成推薦列表。

圖1 基于物品的協同過濾推薦算法的概念示意圖Fig.1 Conceptual diagram of item-based collaborative filtering recommendation algorithm

如表1所示,用戶X喜愛物品甲與物品丙,用戶Y喜愛物品甲、物品乙和物品丙,用戶Z喜愛物品甲,通過分析可確定物品甲與物品丙比較相似,喜愛物品甲的人也可能喜愛物品丙,由此推斷出用戶Z大概率也會喜愛物品丙,所以將物品丙推薦給用戶Z。

表1 基于物品的協同過濾推薦Tab.1 Collaborative filtering recommendations based on items

基于物品的協同過濾推薦算法根據用戶的歷史行為向用戶做推薦解釋,可信度較高,用戶只要對一個物品產生行為,即向其推薦與該物品相關的其他物品,使推薦更加個性化,能反映出某位用戶的興趣傳承。該算法適用于物品數量少但用戶數量多的情況,可以用來進行個性化新聞推薦。

2 數據來源說明

為驗證基于物品的協同過濾推薦算法的推薦效果,通過網絡爬蟲技術從某新聞網站上抓取309 907條可用新聞瀏覽記錄,每一條記錄有5個特征,分別為用戶編號(user_id)、新聞編號(news_id)、新聞標題(news_title)、新聞發布時間(news_times)與新聞詳細內容(news_all)。用戶編號是用戶唯一標識,已做脫敏化處理,新聞編號是新聞唯一標識。詳見表2。

表2 部分原始數據Tab.2 Part of original data

3 實證分析

以Anaconda為實驗研究平臺,該平臺中包括眾多流行的數據分析Python庫。通過構建基于物品的協同過濾推薦模型,計算新聞A和新聞B之間的相似度,最后基于相似度矩陣向目標用戶推薦與其喜歡的新聞相似度高的其他新聞,主要包括劃分數據集、構建物品相似度矩陣并計算物品間的相似度、基于相似度矩陣進行推薦三個步驟。詳見圖2。

圖2 總流程圖Fig.2 General flow chart

使用pandas庫中的read_csv函數讀取數據集,對數據集中的新聞類型進行識別,新聞類型可分為全圖或視頻、圖文一體和全文本三種,數據集中各類型新聞在整個數據集中的占比。詳見表3。

表3 新聞類型分布Tab.3 News type distribution

為更好地了解不同新聞類型的瀏覽量分布情況,使用Matplotlib庫中pyplot模塊的pie函數繪制瀏覽量分布餅圖,其中全文本類型的新聞瀏覽量最多,詳見圖3。

圖3 不同新聞類型的瀏覽量分布Fig.3 Page view distribution of different news types

對數據集中的新聞類型和瀏覽量進行計數,結果顯示,9267條新聞共產生了309 907條新聞瀏覽記錄。瀏覽記錄數據中存在的重復數據會消耗計算資源,使分析結果產生偏差,故先對其進行預處理:只看1~2條新聞的用戶大都為隨機點擊網頁查看新聞,可將此類用戶定義為“游客”,若將這類用戶數據納入模型進行訓練,將導致建模時出現相似度矩陣過于稀疏、計算開銷龐大和預測結果精確率較低等情況,因此篩選出查看新聞條數≥3條的用戶數據用于模型訓練。在構建模型前隨機抽取數據集中的數據,按7∶3的比例將數據劃分為訓練集和測試集,訓練集的數據用于訓練模型,測試集的數據用于模型評估。詳見圖4。

圖4 預處理后數據集中的數據情況Fig.4 Data in the preprocessed data set

原始數據中只記錄了用戶瀏覽新聞的時間及內容,并未對新聞進行相應的評分或評論,因此采用杰卡德相似度計算物品與物品間的相似度,詳見式1:

(1)

式中,|N(i)|表示喜歡物品i的用戶數,|N(j)|表示喜歡物品j的用戶數,|N(i)∩N(j)|表示同時喜歡物品i和物品j的用戶數,|N(i)∪N(j)|表示喜歡物品i或物品j的用戶數。從式中可以看出,物品i和物品j相似,因為它們同時被多個用戶共同喜歡,喜歡它們的用戶人數越多物品間的相似性就越高。

基于物品的協同過濾推薦算法,運用式(2)計算出用戶u對物品j的喜歡程度:

Puj=∑i∈N(u)∩S(j,k)Wjirui

(2)

式中,N(u)表示所有用戶喜愛的物品的總集合,S(j,k)表示與物品j最為類似的k個物品的所在集合,Wji表示物品j和物品i的相似度,rui表示用戶u對物品i的喜歡程度。該公式的含義為與用戶曾經最喜歡的物品相似度越高的物品在對該用戶進行推薦的列表中排名越靠前。

生成推薦列表時,有時需要使用熱點新聞補充個性化推薦的結果,這是因為部分新聞的點擊量過少,與其最相似的k條新聞中存在相似度為0的新聞,此時僅保留相似度大于0的k1條可推薦新聞,再推薦k-k1條熱點新聞。測試集中,由于部分新聞不在訓練集的相似度矩陣中,無法根據相似度矩陣進行推薦,因此推薦k條熱點新聞作為替代。

根據訓練集中的物品相似度矩陣對測試集用戶進行推薦,利用離線測試集構造模型評估指標,重點關注指標中的精確率,即真正在測試集中被用戶瀏覽的新聞數與推薦給用戶的新聞數的比率。選定測試方法和指標后,對編號(user_id)為174944的用戶及其瀏覽的新聞進行測試,獲取用戶實際瀏覽的新聞。詳見表4、表5。

表4 174944用戶實際瀏覽的新聞Tab.4 Actual reviewed news of user 174944

表5 174944用戶推薦的新聞Tab.5 Recommended news of user 174944

與新聞40相似的新聞有312、26、84、2129、6、353、487、54、1369,其中54是用戶已經瀏覽過的新聞,精確率為8%。采用隨機推薦算法,針對6027條新聞進行計算,精確率約為0.016%,說明即便在小樣本空間中,基于物品的協同過濾推薦算法也可以有效提高推薦的精確率,且隨著樣本空間的增大,該算法會更有效,精確率也會繼續提升。

4 結論

基于物品的協同過濾推薦算法通過用戶的新聞網站瀏覽記錄實現個性化新聞的智能推薦,即根據用戶的瀏覽記錄進行用戶畫像,向用戶推薦與其曾經喜歡的物品相似度較高的物品,從而提高個性化新聞推薦的精準度。與隨機推薦算法相比,基于物品的協同過濾推薦算法效果更好,推薦精確率更高,但該算法一定程度上忽視了新聞的時效性,在后續的研究中還需進行改進。

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 天天躁日日躁狠狠躁中文字幕| 免费高清a毛片| 国产欧美视频综合二区| 亚洲码在线中文在线观看| 国产亚洲一区二区三区在线| 伊人久久大线影院首页| 国产精品七七在线播放| 在线五月婷婷| 国产亚洲欧美日韩在线观看一区二区| www.狠狠| 精品五夜婷香蕉国产线看观看| 免费观看精品视频999| 亚洲欧洲一区二区三区| 88av在线看| 91丝袜在线观看| 狠狠色综合网| 国产超碰一区二区三区| 91福利在线观看视频| 美女高潮全身流白浆福利区| 欧美一区国产| 午夜视频在线观看区二区| 国产精品爽爽va在线无码观看 | www.91在线播放| 国产精品分类视频分类一区| 精品视频在线一区| 日韩毛片基地| 亚州AV秘 一区二区三区| 国产三级a| 亚洲成网站| 一级一毛片a级毛片| 色综合日本| 爆操波多野结衣| 亚洲天堂网视频| 爆操波多野结衣| 中文字幕 91| 久久久久亚洲AV成人人电影软件| 日韩在线永久免费播放| 久久国产精品娇妻素人| 亚洲一区二区约美女探花| 综合色区亚洲熟妇在线| 国产精品短篇二区| 视频一本大道香蕉久在线播放 | 亚洲日韩第九十九页| 国产精品极品美女自在线网站| 老司机午夜精品网站在线观看| 无码高潮喷水在线观看| 色婷婷色丁香| 视频二区亚洲精品| 国产波多野结衣中文在线播放| 成人日韩精品| 欧美一区精品| 欧美激情二区三区| 最新亚洲人成无码网站欣赏网 | 亚洲天堂777| 久久久亚洲国产美女国产盗摄| 午夜啪啪网| 另类专区亚洲| 国产永久在线观看| 国产精品制服| 国产va在线| 97无码免费人妻超级碰碰碰| 亚洲无线视频| 亚洲国产欧美国产综合久久| 2020极品精品国产| 人妻精品全国免费视频| 成人欧美日韩| 欧美亚洲国产一区| 精品人妻系列无码专区久久| 亚洲精品成人片在线播放| 久久综合成人| 国产爽歪歪免费视频在线观看 | 欧美在线免费| 97一区二区在线播放| 91精品国产自产在线老师啪l| 亚洲成人77777| 国产成人综合网在线观看| 国产男人天堂| 国产成人精品视频一区视频二区| 亚洲黄色视频在线观看一区| 国产麻豆永久视频| 久久成人国产精品免费软件| 漂亮人妻被中出中文字幕久久|