999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內容和協同過濾相融合的推薦算法

2018-02-03 22:28:35沈華理
電腦知識與技術 2018年2期

沈華理

摘要:協同過濾算法有兩個主要問題:新用戶冷啟動問題和相似用戶的可靠性問題。為了解決上述問題,提出了基于內容和協同過濾相融合的推薦算法,主要解決新用戶冷啟動、相似用戶可靠性問題。該算法的主要過程為,利用k-means聚類算法將數據集中的用戶進行聚類,然后確定用戶各個屬性特征的適當權重,根據用戶人口統計學特征的聚類方法,將新用戶分配到恰當的類中,最后提取出新用戶的最近鄰,根據最近鄰用戶的項目評分,計算新用戶對未評分項目的預評分,生成推薦列表。實驗結果表明,在平均絕對誤差(MAE)和均方根誤差(RMAE)上有較明顯的改善。

關鍵詞:協同過濾;冷啟動;人口統計學特征;k-means聚類;混合推薦

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)02-0232-03

Recommendation Algorithm Based on the Combination of Content and Collaborative Filtering

SHEN Hua-li

(College of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China)

Abstract: There are two main problems in collaborative filtering algorithm:the problem of new user cold start and the reliability of similar users. In order to solve the above problems, Recommendation Algorithm Based on the Combination of Content and Collaborative Filtering is proposed, which mainly solves the problem of cold start and similar user reliability. The main process of the algorithm is that the k-means clustering algorithm is used to cluster the users of the data set, then the appropriate weight of each attribute of the user is determined, and the new user is assigned to the appropriate class according to the clustering method of the user demographic characteristics, finally, the nearest neighbor of the new user is extracted. According to the project score of the nearest neighbor, Calculating the pre rating of a new user on a non rated project and generating a list of recommendations. The experimental results show that there is a significant improvement in the evaluation standard of MAE and RMSE.

Key words: collaborative filtering; cold start; demographic characteristics; k-means clustering; mixed recommended

推薦系統會在某些情況下被使用,像電影商店、圖書館、餐飲、旅游以及其他方面為用戶提供有趣的選擇和項目。特別在電子商務和網絡在線電影系統中得到了廣泛的應用。從過去到現在一直廣受歡迎研究之一的推擠系統是電影推薦系統。在信息量巨大的情況下,在恰當的時間向用戶提供最有吸引力的項目是個性化推薦領域[1]的相關內容之一。在電影推薦系統中,使得用戶可以根據電影標題、導演、編劇和發布日期等特征尋找電影。總體來看,推薦系統被劃分為兩種主要的種類[2]:基于內容的推薦和協同過濾推薦。在基于內容的推薦算法[3]中,是根據用戶分配給內容、新聞文本和鏈接的權重進行推薦,也就是把權重最高的項目向用戶推薦。在基于協同過濾的推薦算法(CF)[4]中,根據相似用戶的選擇給出推薦。

在未來,CF算法中最重要的挑戰之一是冷啟動問題,這一問題引起了很多研究人員的思考。冷啟動問題屬于沒有任何評價信息的新用戶,對于那些有冷啟動和沒有任何評價信息的用戶而言,可以采用基于內容的推薦方法向新用戶進行項目的推薦。但是,當系統中存在用戶評價的歷史記錄時,就可以采用CF算法進行推薦。通過將兩種算法的混合,這樣就可以有效的解決CF算法中存在的冷啟動問題。以下是之后各個章節所要講述內容的簡潔概括。在第1節中,主要闡述跟推薦系統有關的相關內容。在第2節中,描述本文算法的推薦模型和利用用戶人口統計學特征計算出新用戶的相似近鄰,并進行新用戶對未打分項目的預打分過程。在第3節中,給出實驗結果與分析。在第4節中,對全文進行總結和展望。

1 相關工作

在對電影進行推薦的研究中,為了解決冷起動問題,研究者們提出一些解決方法。陳丹兒等人[5],提出基于神經網絡的CF算法,以此來消除新用戶的冷啟動問題,并在Movielens數據集上進行了驗證。Hung 等人[6],指出了項目和新用戶的冷啟動問題,他們引入了一種改進的CF算法。該算法中,有兩個相似矩陣,一個是用戶項目相似矩陣,另一個是用戶之間的相似矩陣。之后按照制定預測機制,向用戶做出推薦。這個方案因為需要構建兩個相似矩陣,所以需要使用大量的內存,也是這個方案的缺點之一。王巧等人[7],提出使用k-均值聚類算法向用戶推薦電影,他是根據用戶對電影的評價信息來實現的,并且在MovieLens數據集上進行了實驗驗證。B.Lika等人,引入了一種分類算法模型,如樸素貝葉斯、決策樹和隨機分類算法,使用相似矩陣向用戶進行項目的推薦,并在MovieLens數據集上進行了實驗驗證。endprint

2 基于內容和協同過濾相融合的推薦算法

2.1 算法的體系結構

本文算法的體系結構如圖1所示。接下來將依據體系結構圖對算法的實現過程進行詳細描述。

1) 首先需要對實驗數據集進行預處理,預處理過程中包含利用數據挖掘軟件(weka)中的k-means聚類算法對數據集中的用戶進行聚類操作。

2) 通過利用用戶人口統計學特征的相似度計算方法,確定新用戶所在的類,已解決新用戶的冷啟動問題。本文選取的用戶人口統計學特征為性別、年齡和職業。

3) 由新用戶的相似用戶,得到近鄰用戶-項目評分矩陣。

4) 利用近鄰用戶-項目評分矩陣計算出新用戶對未打分項目的預評分,為新用戶生成一個項目推薦列表。

2.2 人口統計學特征的聚類方法

由圖1可知,在使用基于人口統計學信息方法對用戶聚類之前,首先需要對數據進行預處理。為了得到合適的聚類中心個數k,本文使用數據挖掘軟件(weka),對不同地k值進行評估,并且計算k取不同值時地誤差平方和,從而選擇一個適當地k值。實驗結果表明,當 k=100時誤差平方和最小。確定k地取值之后,此時再利用新用戶地人口統計學特征,就可以確定新用戶所在的類別。其次,通過k-means聚類算法可以將數據集中地用戶進行聚類,得到一個聚類模型,而聚類模型本文采用weka軟件產生。之后新用戶作為該系統的測試數據,并且通過人口統計學特征地聚類方法被聚到某個類中。在新用戶被確定所屬的集群后,提取出該用戶地相似近鄰,進而得到相似近鄰項目評分矩陣,利用該矩陣計算出新用戶對項目的預打分,從而把預打分最高地項目推薦給該用戶。假設系統的用戶定義為集合U={u1,u2,u3,...,un},用戶的人口統計學特征定義為集合D={d1,d2,...,dm},系統中項目的集合定義為I={i1,i2,...,ik}。用戶地各個人口統計學特征對應地權值集合定義為W={w1,w2,...,wm},且權重wi的取值范圍是[0,1],以及[imwi=1][imwi=1],利用公式(1)計算一個新用戶(u)和其他用戶(k)的相似度,計算公式如下:

[sim(u,k)=j=1mSFj*wjj=1mdj(u,k)] (1)

SFj是第j個特征地相似度值,wj是第j個用戶特征地權重,函數dj(u,k)是計算用戶u和用戶k地第j個特征的相似度,m是用戶特征的個數。

函數dj(u,k)有兩個部分組成:

1) 當用戶第j個特征的取值為數值型時,計算方法如下:

[dj(u,k)=(1-|Diff(dj,u,dj,k)||Diffmax(dj,u,neigu(dj))|)β]

SFj= dj(u,k) (2)

2) 當用戶第j個特征的取值為字符串和布爾型時,計算方法如下:

[dj(u,k)=1 dj,u=dj,k0 dj,u≠dj,k]

SFj= dj(u,k) (3)

dj,u是用戶u地第j個特征值,dj,k是用戶k地第j個特征值。Diff(dj,u, dj,k)是兩個特征值的差值,Diffmax(dj,u,neigu(dj))是新用戶u第j個特征值與近鄰用戶中第j個特征值的最大差值,β是決定兩個用戶特征差異效應的一個參數,本文選取β的值為0.5。在計算出新用戶u與用戶k各個特征之間地相似度后,之后計算出兩個用戶之間總地相似度,根據總地相似度得到新用戶地最近鄰。依據最近鄰用戶按照公式(4)計算出新用戶u未打分項目ib地預打分,將預打分最高地項目向新用戶u進行推薦。

[Ruib=j=1psim(u,kj)*rkj,ibj=1psim(u,kj)] (4)

P是最近鄰用戶個數,sim(u,kj)是新用戶u與最近鄰用戶kj地相似度,[rkj,ib] 是最近鄰用戶kj對項目ib地打分。

3 實驗結果分析

3.1 實驗數據集

在本文中,為了檢查和評估結果,采用普遍使用的Movielens數據集。本文從該數據集中隨機選取部分數據作為實驗驗證數據。本文的數據中包含有10000評分記錄,分為訓練數據和測試數據,用戶的屬性特征有性別,年齡和職業,其中職業的類型共有21種、總共有1682部電影,電影的種類共有19種。用戶對電影的評分范圍為:[1-5]整數,其中打分為1分地項目是用戶最不偏愛地項目,打分為5分地項目是用戶最偏愛地項目。為了確保實驗數據地合理性,所選取地每個用戶全部至少有20條項目打分記錄。

3.2 評價指標

1) 平均實際誤差[9]計算公式如下所示:

[MAE=1wiwPu,i-ru,i] (5)

W是測試集中目標用戶u評價地項目個數,Pu,i是目標用戶u對項目i地預評分,ru,i是目標用戶u對項目i地實際評分。

2) 均方根誤差計算公式如下所示:

[RMSE=1wiw(Pu,i-ru,i)2] (6)

3.3 結果分析

本文選取基于用戶聚類的推薦算法(UCCF)作為實驗的對比算法。該算法主要是在傳統協同過濾算法的基礎上,將用戶興趣變化模型和評分預測時間模型加入到推薦的過程中,最后向目標用戶進行項目推薦。該算法可以增強實時性的推薦。

本文根據用戶人口統計學特征中地年齡、性別和職業作為劃分相似用戶的依據。在這其中,不同特征所反映出用戶為某個項目的偏愛程度是不一樣的,所以需要為各個特征分配不同的權重。本文選取三組不同的分配方案進行實驗驗證,從而確定用戶人口統計學中各個特征所占的適當權重。分配方案如表1所示:

從表1可以看出,當年齡、性別和職業所占的權重分別為0.5,0.4,0.1時,算法的平均實際誤差值最底。在確定用戶各個特征所占的權重后,就可以將本文提出的算法與User Based CF和UCCF算法進行比較實驗了。本文分別進行2組對比實驗,即將10000條用戶打分記錄隨機分為2組。第1組為3000條評分記錄;第2組為7000條評分記錄。每組中都包含訓練數據和測試數據,其中訓練數據占80%,測試數據占20%,并且測試數據中的用戶不在訓練數據中。

以下為2組實驗的實驗結果圖:

由圖2的實驗結果可以看出,本文算法在最近鄰數取不同值時,MAE和RMSE的結果都比UCCF算法的值要低,并且相比較UCCF算法,本文算法在平均實際誤差上面平均降低了接近8%,在均方根誤差上平均降低了接近7.5%。

4 結束語

本文主要針對協同過濾算法中新用戶的冷啟動問題進行改進,并提出了基于內容和協同過濾相融合的推薦系統。在系統實現地過程中,首先需要對實驗采用地數據集進行預處理,然后利用數據挖掘軟件中的k-means算法對數據集進行聚類操作,之后利用用戶人口統計學特征聚類方法對新用戶進行聚類操作,從而提取出新用戶的最近鄰用戶,再根據近鄰用戶對項目地打分,計算出新用戶對未評分項目地預打分,最后把預打分最高地項目為新用戶進行推薦。本文采用的數據集為MovieLens數據集,經過將本文算法與UCCF算法在平均實際誤差和均方根誤差上對比的實驗結果表明,本文提出的改進算法在降低平均實際誤差和均方根誤差上更加有效。

參考文獻:

[1] 王國霞, 劉賀平. 個性化推薦系統綜述[J]. 計算機工程與應用, 2012, 48(07):66-76.

[2] Shardanand U,Maes P, Social Information Filtering: Algorithms for Automating, Word of Mouth[C].CHI '95 Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 1995: 210-217. (下轉第282頁)endprint

主站蜘蛛池模板: 在线观看欧美国产| 欧美特级AAAAAA视频免费观看| 极品私人尤物在线精品首页| 国产欧美另类| 国产毛片不卡| 四虎国产精品永久在线网址| 国产浮力第一页永久地址| 无码精品国产dvd在线观看9久| 狠狠ⅴ日韩v欧美v天堂| 日韩无码黄色网站| 欧美成人怡春院在线激情| 精品亚洲欧美中文字幕在线看 | 欧美专区在线观看| 欧美精品在线免费| 人人看人人鲁狠狠高清| 91福利免费| 波多野结衣第一页| 亚洲精品日产AⅤ| 热久久这里是精品6免费观看| 日本成人一区| 中文无码日韩精品| 色婷婷视频在线| 欧美成人a∨视频免费观看| 国产SUV精品一区二区6| 午夜国产不卡在线观看视频| 国产香蕉在线视频| 无遮挡国产高潮视频免费观看| 亚洲国内精品自在自线官| 亚洲午夜综合网| 女人18毛片一级毛片在线 | 亚洲天堂成人在线观看| 国产农村1级毛片| 亚洲毛片在线看| 欧美一区福利| 国产精品精品视频| 污污网站在线观看| 国产欧美日韩精品第二区| 国产精品成人久久| 日本午夜影院| 九九视频在线免费观看| 国产精品免费p区| 国产精品视频猛进猛出| 色网站免费在线观看| 国产三级毛片| 毛片网站观看| 久久中文字幕av不卡一区二区| 热re99久久精品国99热| 国产精品久久久久久久久kt| av无码久久精品| 亚洲另类国产欧美一区二区| …亚洲 欧洲 另类 春色| 国产精品夜夜嗨视频免费视频 | 欧美成人午夜视频免看| 国产一区二区精品福利| 亚洲精品无码人妻无码| 久久这里只有精品66| 国产美女自慰在线观看| 91麻豆精品国产91久久久久| 日韩欧美91| 野花国产精品入口| 国产网站在线看| 91福利一区二区三区| 午夜少妇精品视频小电影| 少妇精品久久久一区二区三区| 狠狠色狠狠色综合久久第一次| 亚洲成人77777| 农村乱人伦一区二区| 三级国产在线观看| 亚洲毛片在线看| 欧美成人综合在线| 欧美成a人片在线观看| 欧洲在线免费视频| 国产成人无码AV在线播放动漫| 精品伊人久久久香线蕉| 成人福利在线视频免费观看| 国产亚洲视频免费播放| 欧美激情一区二区三区成人| 亚洲天堂网视频| 天天色天天综合| 久久综合亚洲色一区二区三区| 国产av剧情无码精品色午夜| 亚洲资源在线视频|