999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于協同過濾決策樹的商品推薦算法的研究

2020-04-20 11:32:44常昊楊盛泉
價值工程 2020年9期
關鍵詞:大數據

常昊 楊盛泉

摘要: 大數據時代的到來,生活種每天都產生著大量的數據,對這些數據進行分析并推薦商品在電商領域就會顯得尤為的重要。協同過濾算法是目前發展比較成熟的,在各領域都取得了非常好的效果。但傳統的協同過濾算法在計算相似度和預測評分時太過粗糙,并且效率很低。我們將協同過濾算法與決策樹算法相結合,并對算法進行改進,創建一種協同過濾決策樹算法來對商品進行推薦,并將新的協同過濾決策樹算法運行在Hadoop平臺上。Hadoop是一種分布式的處理大規模數據的云計算平臺。實驗證明,改進后算法使得推薦的準確率有了顯著的提升。

Abstract: With the advent of the era of big data, daily life is generating a large amount of data. Analyzing and recommending these data will be particularly important in the field of e-commerce. Collaborative filtering algorithms are currently relatively mature and have achieved very good results in various fields. However, the traditional collaborative filtering algorithm is too rough and inefficient in calculating similarity and prediction score. We combine the collaborative filtering algorithm with the decision tree algorithm and improve the algorithm to create a collaborative filtering decision tree algorithm to recommend products and run the new collaborative filtering decision tree algorithm on the Hadoop platform. Hadoop is a distributed cloud computing platform for processing large-scale data. Experiments have shown that the improved algorithm has significantly improved the accuracy of recommendation.

關鍵詞:大數據;推薦算法;協同過濾;Hadoop

Key words: big data;recommendation algorithm;collaborative filtering;Hadoop

中圖分類號:TP311.5? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2020)09-0127-03

0? 引言

隨著科技的發展,互聯網技術也隨之迅速發展和普及,這就使得網絡上的數據每天高速增長,豐富用戶生活消費的同時,大量信息資源膨脹迅速的問題也隨之出現,“信息過載”也是目前互聯網正面對的難題。“信息過載”指的是用戶難以從海量數據中準確并且迅速地定位到自己所需要的信息。推薦系統的出現大大地緩解了“信息過載”這一難題。推薦系統根據用戶的歷史行為,預測并且推薦使用戶滿意的物品,實現個性化的服務。推薦系統是自動智能的為用戶推薦物品,而且還會根據用戶行為的變化,動態的調整推薦的物品類型,真正意義上避免了“信息過載”的困擾。

推薦算法是推薦系統的核心,本文主要研究了在Hadoop平臺下的推薦算法,該推薦算法將決策樹和協同過濾算法相結合,并對傳統的協同過濾算法進行改進,來克服傳統算法可擴展性差、新用戶和新項目冷啟動等缺點,提高推薦的時效性[1]。

1? 傳統的協同過濾算法簡介

協同過濾算法算是目前的推薦系統中運用最為成功的信息過濾算法,主要做法是提取用戶所產生的歷史行為做出推薦[2]。傳統的協同過濾算法主要分為基于物品的協同過濾算法(ItemCF)和基于用戶的協同過濾算法(UserCF)[2]。本文將會選取基于物品的協同過濾算法做為主研究方向,其核心流程如下:收集用戶偏好、找到相似的用戶或物品、計算推薦,其中最為核心部分為相似度的計算。本文將采用Cosine相似度方法,也就是余弦相似度方法來計算物品或用戶的相似度。如公式(1)所示

(1)

2? 推薦算法設計

協同過濾有它自身所存在的難題,比如“冷啟動”和“稀疏性”。本文為解決此難題,設計了一種混合推薦算法。

2.1 人口統計學推薦的提出

“冷啟動”問題,指的是在新用戶剛注冊賬號的時,并沒有生成提供信息的行為數據,從而導致協同過濾算法無法有效的實施。如何解決這個問題,各國學者專家提出了不同的方案,如隨機推薦法、平均值法等[3]。本文將采用人口統計學推薦的方法來解決“冷啟動”的問題。首先對用戶進行判斷,如果是新用戶,算法走人口統計學推薦的分支,如果不是,則走協同過濾混合推薦的分支。目前的電商網站在用戶注冊的時候,都會對相關信息以及喜好進行相應的登記和調查,根據這些信息即可進行人口統計學推薦,有效的解決了協同過濾算法“冷啟動”的問題。

2.2 協同過濾算法的改進

相似度的計算是協同過濾算法最關鍵的一步,物品相似度的精準程度將會直接影響著整個算法的可靠性,所以本文將對算法相似度的計算進行改進。

我們推薦系統中的用戶行為主要劃分為點擊、加入購物車、收藏和購買4種行為,在矩陣中購買的權重肯定是最高的(假定點擊為1,加入購物車為2,收藏為3,購買為10),根據公式3,我們計算如表1的矩陣。

其中縱坐標代表商品的編號,橫坐標代表每個用戶行為的權重值。將此代入協同過濾算法的余弦相似度公式中,可得物品x和物品y的相似度很接近于1,但如果用戶U5對x物品很滿意,對y物品卻給了差評,兩者對商品的喜愛程度與相似度完全不符,所以我們對公式進行了如下改造,將購買用戶對商品的評分結合余弦相似度中,得出如公式(2):

(2)

算法中的a(x)和a(y)分別代表著用戶對物品x和y的評分,這個公式計算方式如圖1所示。

其中avgall指的是整個電商網站所有用戶的所有評分,avgu指的是用戶u的平均評分,ux指的是用戶u對商品x的評分。

在物品自身的特征中,關鍵的一個信息即物品面世的時間。如兩個物品面世的時間越近,其基于時間的相似性就越大,可知物品之間的相似度和物品面世的時間成反比,如果將其相似度放在[0,1]區間的話,其公式如公式(3)所示:

(3)

其中t1和t2表示物品x和y面世的時間,ρ為歸一化系數。

根據研究和分析可知,可以從兩個方面得到物品的相似度,然后對此取平均值得到物品最終的相似度(即公式2和公式3求平均),如公式(4)所示。

(4)

2.3 決策樹的加權

通過數據集,可以分析得出不同性別用戶的偏好,如果不把這些主觀因素考慮進去,推薦的物品準確率就會受到一定的影響。為此,我們將用戶注冊時的信息(年齡、興趣等)當做決策樹的特征值,并計算每個特征值所對應的熵值,建立兩個關于性別的決策樹模型,即男性決策樹和女性決策樹。并將協同過濾推薦的物品,帶入決策樹,得到其每個物品對應的權值,進行計算后,重新進行排序,進行推薦。則算法最終的流程圖如圖2所示。

3? 實驗結果

實驗運行環境是Hadoop集群。該集群擁有1個Master節點和3個Slave節點,集群中所有的機器的配置完全相同。集群安裝配置在CentOS-6.7操作系統下。實驗的測試主要從準確率召回率兩個方面入手。

①準確率。

算法的準確率測試的是推薦列表中用戶所占物品,用戶實際喜歡物品的比例,其推薦率可描述為公式(5):

(5)

其中Lu為用戶U喜歡的物品,Bu是推薦算法為用戶推薦的商品列表。測試樣本從真實樣本中進行抽取,分別選用排序top1、top5、top10進行測試,測試結果如表2所示。

在準確率的測試中,可直觀的看出本文提出的算法比傳統的基于物品的協同過濾算法的準確率更高,效果更明顯。

②召回率。

召回率指在推薦列表中,有多少物品是用戶喜歡的,其召回率可描述為公式(6):

(6)

其中Lu為用戶U喜歡的物品,Bu是推薦算法為用戶推薦的商品列表。同樣選擇返回結果的top1、top5和top10來進行對比測試。測試結果如表3所示。

由表可知,算法隨著測試集返回結果的增加而增加,也可知本文設計的算法在召回率方面也是領先于傳統的基于物品的協同過濾算法,在top10中體現最為明顯,超出傳統協同過濾12%。

4? 結論

本文設計的推薦算法模型在計算物品相似度之前采用了判斷語句,有效的解決了系統的冷啟動問題,提升了算法的可行性。在計算物品相似度時增加了物品面世時間的條件,并且在傳統的余弦相似度算法上做出了進一步的改進,使得算法的準確率得到了有效的提升。最后通過數據集驗證了改進后算法的在整體上都優于傳統的協同過濾算法,并在Hadoop分布式系統中運行,充分發揮了在大數據環境下,Hadoop分布式系統計算數據的優勢。

參考文獻:

[1]冀曉巖.基于Hadoop的電子商務個性化推薦研究與實現[D].蘭州交通大學,2017.

[2]劉暢,吳清烈.基于協同過濾的大規模定制個性化推薦方法[J].工業工程,2014,17(04):24-28,34.

[3]張磊.基于遺忘曲線的協同過濾研究[J].電腦知識與技術,2014,10(12):2757-2762.

作者簡介:常昊(1994-),男,陜西榆林人,碩士。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 一本色道久久88综合日韩精品| 欧美日韩亚洲综合在线观看| 亚洲成人手机在线| 8090成人午夜精品| 97久久精品人人| 欧美亚洲日韩中文| 精品国产欧美精品v| 亚洲第一黄色网址| 97se亚洲综合在线韩国专区福利| 久久网欧美| 一本色道久久88| 中文字幕av一区二区三区欲色| 国产激情国语对白普通话| 国产精品xxx| 色婷婷在线播放| 亚洲国产亚综合在线区| 久久精品66| 色香蕉影院| 美女一区二区在线观看| 老司国产精品视频| 亚洲成在线观看 | 国产精品yjizz视频网一二区| 久久精品免费看一| 国产99视频免费精品是看6| 99这里只有精品在线| 日韩在线成年视频人网站观看| 国产成人精品一区二区不卡| 欧美高清三区| 亚洲V日韩V无码一区二区| 最新国产在线| 无码国产偷倩在线播放老年人| 国产精品久久自在自2021| 免费一级成人毛片| 国产麻豆精品在线观看| 亚洲最大情网站在线观看| 欧美成人午夜在线全部免费| 国产免费久久精品99re丫丫一| 色综合婷婷| 欧美午夜网站| 欧美日韩激情| 亚洲天堂伊人| 美女啪啪无遮挡| 国产另类乱子伦精品免费女| 欧美精品xx| 成年人久久黄色网站| 成人va亚洲va欧美天堂| 国产亚洲精品自在久久不卡| 巨熟乳波霸若妻中文观看免费| 91福利在线观看视频| 亚洲a级毛片| 亚洲香蕉在线| 国产精品亚洲αv天堂无码| av一区二区人妻无码| 色噜噜中文网| 色窝窝免费一区二区三区| 中字无码精油按摩中出视频| 国产欧美日韩另类| 亚洲AV成人一区国产精品| 久久99国产综合精品女同| 欧美成人日韩| 国产精品自在自线免费观看| 天天综合色天天综合网| 亚洲欧美成人在线视频| 91精品国产麻豆国产自产在线 | 波多野结衣无码视频在线观看| 久久五月天综合| 日本免费a视频| 在线观看无码a∨| 国产18在线| 亚洲成人精品久久| 色精品视频| 久久夜色精品| 国产 在线视频无码| 精品福利国产| 亚洲无码高清一区| 日韩高清成人| 亚洲,国产,日韩,综合一区| 久久国产精品电影| 一本色道久久88| 亚洲无码一区在线观看| 亚洲成A人V欧美综合| 午夜限制老子影院888|