999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本聚類的用戶聚類在推薦系統中的應用

2016-08-07 04:54:28劉源耿瑞煥
大科技 2016年25期
關鍵詞:文本用戶

劉源 耿瑞煥

(鶴壁汽車工程職業學院 鶴壁 458030)

基于文本聚類的用戶聚類在推薦系統中的應用

劉源 耿瑞煥

(鶴壁汽車工程職業學院 鶴壁 458030)

協同過濾是推薦系統中最重要的技術之一。隨著電子商務用戶和商品數目的增加,在商品空間上用戶評分數據極端稀疏。本文提出一種基于文本聚類的用戶聚類方法,對用戶評論做文本聚類處理,再經過余弦相似性度量,得到用戶聚類,最終做出推薦。實驗結果表明,該方法可以反映用戶的真實興趣,有效的解決了稀疏性問題。

協同過濾;稀疏矩陣;文本聚類;用戶聚類

目前,個性化推薦的應用日益廣泛,已成為Web2.0時代的核心技術。本文提出一種基于文本聚類的用戶聚類方法,對用戶的評分做出預測,在一定的可靠性前提下解決了矩陣的稀疏性問題,提高推薦質量。

1 相關工作

文本聚類根據文檔的某種聯系或相關性對文檔集合進行有效的組織、摘要和導航,方便人們從文檔集中發現相關的信息。

協同過濾推薦算法基于這樣一個假設:

假設1:如果用戶對一些項目的評分比較相似,則他們對其他項目的評分也會比較相似。

基于用戶的協同過濾算法整個過程可以分為以下三步:

步驟1:找出目標用戶的最近鄰居,首先采用用戶-項陣Rm,n表示用戶評分信息,其中m行表示m個用戶,n列表示n個項目,Ri,j表示用戶i對項目j的評分值。

步驟2:計算用戶相似性,找出最近鄰居。

相似性度量方法有余弦相似性、修正的余弦相似性和相關相似性3種,我們選擇相關相似性方法。

相關相似性:設經用戶i和用戶j共同評分的項目集合用Iij表示,相似度 sim(i,j)為:

步驟3:根據相似用戶對同一商品評分相近的假設為目標用戶做出推薦。

2 基于文本聚類的用戶聚類方法

本文本文提出一種基于文本聚類的用戶聚類評分預測算法,以填充稀疏矩陣Rm,n。整個算法分為兩部分。

2.1 離線部分(用戶聚類)

(1)選取聚類中心用戶i;

(2)用余弦相似性度量計算得出同用戶i相似性最高的h-1個用戶與用戶i組成以i為中心,模為h的用戶簇NSi。

2.2 在線部分(評分預測)

若目標用戶i已經在離線階段生成用戶簇NSi,則只需將離線時獲得的用戶簇NSi中所有的h個用戶平均評分作為目標用戶評分預測,填充矩陣 Rm,n。

2.3 理論依據

文本聚類將聚類在一個文本簇的評價的所有發出者(用戶)認為為一個用戶簇Cluster。用類似于用戶-項矩陣Rm,n的用戶-簇矩陣Sm,k來表示用戶與用戶簇簇的關系:

表1

當目標用戶i不同時,NSi也會不同,將個別用戶單獨為中心進行聚類有更高的精確程度。這種聚類可以理解為預處理運算,它的實質是通過對文本聚類得到第一次用戶簇Cluster1~Clusterk,由于這個簇并不是我們需要的用戶簇NSi,所以我們需要進一步計算,以得到的用戶簇Cluster1~Clusterk作為維度進行余弦相似性的計算得到用戶簇NSi。

3 實驗結果及分析

3.1 數據集的選擇

用戶簇-文本簇的關系同論文引用的關系非常相似:每篇引用者論文都可以考慮為一個用戶,每篇被引用論文都可以考慮為一個文本簇。最終選用了一份關于論文引用的數據集,數據集包括了629814篇論文和3021489個引用關系,由于數據集提供者已經將外部引用關系刪除,所以這里所提到的引用,均指內部引用。因此這個數據集可以抽象為一個圖,圖中論文作為一個頂點,引用作為一條邊。將入度最高的12596個頂點的作為被引用論文,將從這些頂點出發的邊全部刪除;剩下的50385個頂點作為引用者論文,將從進入這些頂點的邊全部刪除。若將這些邊看做無向的,則圖變成一個二部圖。它的關聯矩陣即為Sm,k矩陣。其中被引用論文為Cluster,引用者論文為User。

3.2 驗證過程

(1)記成功次數 Ns=0,Nf=0。

(2)隨機抽取值為1的項,將其置0。

(3)根據矩陣 Sm,k求出用戶 i的用戶簇 NSi。

(4)遍歷NSi中除了i以外的所有用戶,統計他們屬于Clusterj的數量,如果超過了NSi的規模h的一半,則Ns+1,否則Nf+1

(5)反復進行步驟2-步驟4,進行k次。得到最終的Ns和Nf。成功率=

3.3 驗證結果及分析

由表2可以看出,當h=15或20時,精度達到了0.61以上,可以認為本文提出的基于文本聚類的用戶聚類方法能夠可靠的反應用戶的興趣聚類情況,當抽樣次數k>5000次時,精度基本穩定。

表2

4 結論

本文提出了一種基于聚類的評分預測模型,通過聚類技術術將具有相似興趣愛好的用戶分配到相同的簇中,用戶簇NSi產生之后,根據簇中其他用戶對商品的評價預測目標用戶對該商品的評價,從而填充稀疏矩陣Rm,n,提高了推薦的質量。實驗表明,這種基于文本聚類的用戶聚類方法是比較可靠的。

[1]姚清耘,劉功申.基于向量空間模型的文本聚類算法.計算機工程.2008,18:39~41

[2]王輝,高利軍.個性化服務中基于用戶聚類的協同過濾推薦.計算機應用,2007,5:1225~1227.

[3]趙 亮,胡乃靜.個性化推薦算法設計.計算機研究與發展,2002,39(8):986~991.

TP319

A

1004-7344(2016)25-0327-02

2016-8-20

劉源(1986-),男,漢族,河南鶴壁人,助教,碩士,主要從事網絡計算、物聯網方向的研究。

猜你喜歡
文本用戶
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 免费在线色| 国产成人精品无码一区二| 曰韩人妻一区二区三区| 久久综合伊人77777| 亚洲日本中文综合在线| 国产无人区一区二区三区| 久久久国产精品无码专区| 波多野结衣亚洲一区| 日韩在线视频网| 国产乱人乱偷精品视频a人人澡| 亚洲无码高清一区二区| 国产欧美性爱网| 精品久久人人爽人人玩人人妻| 成·人免费午夜无码视频在线观看| 99久久国产精品无码| 国产精品制服| 超级碰免费视频91| 国产成人亚洲精品蜜芽影院| 久草美女视频| 欧美亚洲综合免费精品高清在线观看 | 欧美视频在线播放观看免费福利资源| 国产精品自在在线午夜区app| 久久久久亚洲精品成人网 | 午夜福利网址| 亚洲伊人天堂| 成年人视频一区二区| 在线看片中文字幕| 日韩中文无码av超清| 全午夜免费一级毛片| 福利国产在线| 一边摸一边做爽的视频17国产| 成人无码一区二区三区视频在线观看 | 四虎国产精品永久一区| 国产呦精品一区二区三区下载| 国产精品粉嫩| 亚洲国产中文精品va在线播放 | 国产玖玖玖精品视频| 亚洲中文字幕日产无码2021| 亚洲一区波多野结衣二区三区| 国产精品偷伦视频免费观看国产| 制服丝袜在线视频香蕉| 国产美女精品一区二区| 91视频国产高清| 国产一区三区二区中文在线| 亚洲第一综合天堂另类专| 欧美日韩国产综合视频在线观看| 亚洲va精品中文字幕| 五月激情婷婷综合| 欧美在线精品一区二区三区| 亚洲国产精品无码AV| 国产又爽又黄无遮挡免费观看| 99久久人妻精品免费二区| 白浆视频在线观看| 国产一区二区福利| 99热国产这里只有精品无卡顿"| 91美女在线| 成人午夜天| 日本手机在线视频| 欧美在线导航| 99一级毛片| 日韩高清无码免费| 久久女人网| 亚洲最大福利网站| 久久这里只有精品国产99| 国产交换配偶在线视频| 国产自在线播放| AV不卡在线永久免费观看| 成人午夜精品一级毛片| 中国特黄美女一级视频| 18禁不卡免费网站| 成人在线不卡视频| 日韩大乳视频中文字幕| 99偷拍视频精品一区二区| 国产女人18毛片水真多1| 国产午夜一级淫片| 日韩不卡免费视频| 久久一日本道色综合久久| 99久久亚洲综合精品TS| 乱系列中文字幕在线视频| 精品综合久久久久久97| 免费无码AV片在线观看中文| 天天色天天综合网|