999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本聚類的用戶聚類在推薦系統中的應用

2016-08-07 04:54:28劉源耿瑞煥
大科技 2016年25期
關鍵詞:文本用戶

劉源 耿瑞煥

(鶴壁汽車工程職業學院 鶴壁 458030)

基于文本聚類的用戶聚類在推薦系統中的應用

劉源 耿瑞煥

(鶴壁汽車工程職業學院 鶴壁 458030)

協同過濾是推薦系統中最重要的技術之一。隨著電子商務用戶和商品數目的增加,在商品空間上用戶評分數據極端稀疏。本文提出一種基于文本聚類的用戶聚類方法,對用戶評論做文本聚類處理,再經過余弦相似性度量,得到用戶聚類,最終做出推薦。實驗結果表明,該方法可以反映用戶的真實興趣,有效的解決了稀疏性問題。

協同過濾;稀疏矩陣;文本聚類;用戶聚類

目前,個性化推薦的應用日益廣泛,已成為Web2.0時代的核心技術。本文提出一種基于文本聚類的用戶聚類方法,對用戶的評分做出預測,在一定的可靠性前提下解決了矩陣的稀疏性問題,提高推薦質量。

1 相關工作

文本聚類根據文檔的某種聯系或相關性對文檔集合進行有效的組織、摘要和導航,方便人們從文檔集中發現相關的信息。

協同過濾推薦算法基于這樣一個假設:

假設1:如果用戶對一些項目的評分比較相似,則他們對其他項目的評分也會比較相似。

基于用戶的協同過濾算法整個過程可以分為以下三步:

步驟1:找出目標用戶的最近鄰居,首先采用用戶-項陣Rm,n表示用戶評分信息,其中m行表示m個用戶,n列表示n個項目,Ri,j表示用戶i對項目j的評分值。

步驟2:計算用戶相似性,找出最近鄰居。

相似性度量方法有余弦相似性、修正的余弦相似性和相關相似性3種,我們選擇相關相似性方法。

相關相似性:設經用戶i和用戶j共同評分的項目集合用Iij表示,相似度 sim(i,j)為:

步驟3:根據相似用戶對同一商品評分相近的假設為目標用戶做出推薦。

2 基于文本聚類的用戶聚類方法

本文本文提出一種基于文本聚類的用戶聚類評分預測算法,以填充稀疏矩陣Rm,n。整個算法分為兩部分。

2.1 離線部分(用戶聚類)

(1)選取聚類中心用戶i;

(2)用余弦相似性度量計算得出同用戶i相似性最高的h-1個用戶與用戶i組成以i為中心,模為h的用戶簇NSi。

2.2 在線部分(評分預測)

若目標用戶i已經在離線階段生成用戶簇NSi,則只需將離線時獲得的用戶簇NSi中所有的h個用戶平均評分作為目標用戶評分預測,填充矩陣 Rm,n。

2.3 理論依據

文本聚類將聚類在一個文本簇的評價的所有發出者(用戶)認為為一個用戶簇Cluster。用類似于用戶-項矩陣Rm,n的用戶-簇矩陣Sm,k來表示用戶與用戶簇簇的關系:

表1

當目標用戶i不同時,NSi也會不同,將個別用戶單獨為中心進行聚類有更高的精確程度。這種聚類可以理解為預處理運算,它的實質是通過對文本聚類得到第一次用戶簇Cluster1~Clusterk,由于這個簇并不是我們需要的用戶簇NSi,所以我們需要進一步計算,以得到的用戶簇Cluster1~Clusterk作為維度進行余弦相似性的計算得到用戶簇NSi。

3 實驗結果及分析

3.1 數據集的選擇

用戶簇-文本簇的關系同論文引用的關系非常相似:每篇引用者論文都可以考慮為一個用戶,每篇被引用論文都可以考慮為一個文本簇。最終選用了一份關于論文引用的數據集,數據集包括了629814篇論文和3021489個引用關系,由于數據集提供者已經將外部引用關系刪除,所以這里所提到的引用,均指內部引用。因此這個數據集可以抽象為一個圖,圖中論文作為一個頂點,引用作為一條邊。將入度最高的12596個頂點的作為被引用論文,將從這些頂點出發的邊全部刪除;剩下的50385個頂點作為引用者論文,將從進入這些頂點的邊全部刪除。若將這些邊看做無向的,則圖變成一個二部圖。它的關聯矩陣即為Sm,k矩陣。其中被引用論文為Cluster,引用者論文為User。

3.2 驗證過程

(1)記成功次數 Ns=0,Nf=0。

(2)隨機抽取值為1的項,將其置0。

(3)根據矩陣 Sm,k求出用戶 i的用戶簇 NSi。

(4)遍歷NSi中除了i以外的所有用戶,統計他們屬于Clusterj的數量,如果超過了NSi的規模h的一半,則Ns+1,否則Nf+1

(5)反復進行步驟2-步驟4,進行k次。得到最終的Ns和Nf。成功率=

3.3 驗證結果及分析

由表2可以看出,當h=15或20時,精度達到了0.61以上,可以認為本文提出的基于文本聚類的用戶聚類方法能夠可靠的反應用戶的興趣聚類情況,當抽樣次數k>5000次時,精度基本穩定。

表2

4 結論

本文提出了一種基于聚類的評分預測模型,通過聚類技術術將具有相似興趣愛好的用戶分配到相同的簇中,用戶簇NSi產生之后,根據簇中其他用戶對商品的評價預測目標用戶對該商品的評價,從而填充稀疏矩陣Rm,n,提高了推薦的質量。實驗表明,這種基于文本聚類的用戶聚類方法是比較可靠的。

[1]姚清耘,劉功申.基于向量空間模型的文本聚類算法.計算機工程.2008,18:39~41

[2]王輝,高利軍.個性化服務中基于用戶聚類的協同過濾推薦.計算機應用,2007,5:1225~1227.

[3]趙 亮,胡乃靜.個性化推薦算法設計.計算機研究與發展,2002,39(8):986~991.

TP319

A

1004-7344(2016)25-0327-02

2016-8-20

劉源(1986-),男,漢族,河南鶴壁人,助教,碩士,主要從事網絡計算、物聯網方向的研究。

猜你喜歡
文本用戶
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 日韩精品资源| 97国产精品视频人人做人人爱| 国产成人高清精品免费5388| 国产你懂得| 精品国产成人av免费| www.精品国产| 国产精品永久久久久| 狠狠亚洲婷婷综合色香| 亚洲欧美综合精品久久成人网| 国产在线视频福利资源站| 日韩国产 在线| 亚洲天堂网2014| 不卡午夜视频| 波多野结衣亚洲一区| 亚洲福利一区二区三区| 欧美成人看片一区二区三区 | 国产在线精品人成导航| 国产一二三区视频| 亚洲综合天堂网| 黄色网页在线观看| 中文字幕在线日韩91| 精品国产美女福到在线不卡f| 国产精品香蕉在线观看不卡| 丝袜无码一区二区三区| 国产制服丝袜91在线| 国产视频久久久久| 一级福利视频| 欧美成人在线免费| 色亚洲激情综合精品无码视频| 人妖无码第一页| 欧美在线视频a| 欧美伦理一区| 日本三区视频| 理论片一区| 69av免费视频| av大片在线无码免费| 国产成人8x视频一区二区| 波多野结衣二区| 亚洲最大福利视频网| 亚洲嫩模喷白浆| 国产综合无码一区二区色蜜蜜| 国产91透明丝袜美腿在线| 国产午夜小视频| 亚洲精品天堂在线观看| 免费精品一区二区h| 男人的天堂久久精品激情| 国产毛片片精品天天看视频| 欧美激情一区二区三区成人| 一本色道久久88综合日韩精品| 狼友av永久网站免费观看| 亚洲精品视频免费看| 3p叠罗汉国产精品久久| 久久综合伊人 六十路| 亚洲三级网站| 国产精品毛片一区| 亚洲第一视频网| 亚洲欧洲日韩综合色天使| 亚洲欧美一区二区三区蜜芽| 99er精品视频| 2020国产免费久久精品99| 永久免费AⅤ无码网站在线观看| 亚洲av无码人妻| 久久人人妻人人爽人人卡片av| 天堂成人在线| 青青久视频| 波多野吉衣一区二区三区av| 国产成人一区免费观看 | 99re热精品视频国产免费| 国产99热| 最新加勒比隔壁人妻| 国产精品分类视频分类一区| 亚洲一区二区三区中文字幕5566| 伊人网址在线| 亚洲天堂日韩av电影| 一区二区日韩国产精久久| 成年午夜精品久久精品| 国内毛片视频| 国产人成在线观看| 综合亚洲网| 亚洲AV无码久久精品色欲| 国产办公室秘书无码精品| 福利一区三区|