999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ALS協(xié)同過濾算法的個性化推薦研究與應(yīng)用

2016-05-28 09:09:15董銀
無線互聯(lián)科技 2016年6期

董銀

摘要:隨著大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展和成熟,個性化推薦越來越發(fā)揮著重要作用。為了能夠更有效地向用戶推薦其感興趣的產(chǎn)品,文章研究了在Spark平臺架構(gòu)基礎(chǔ)上使用ALS協(xié)同過濾算法在個性化推薦系統(tǒng)中的應(yīng)用,并對該系統(tǒng)作了性能和效果的評估。根據(jù)實驗表明,基于Spark平臺的ALS算法能有效地為用戶推薦其所感興趣的產(chǎn)品,從而達到個性化推薦的目的。

關(guān)鍵詞:個性化推薦;協(xié)同過濾;Spark;ALS

隨著互聯(lián)網(wǎng)數(shù)據(jù)的不斷增加,如何快速而高效地從如此豐富而復(fù)雜的大量數(shù)據(jù)中為用戶挑選出自己真正感興趣和喜歡的信息變得越來越緊迫。近年來隨著個性化推薦系統(tǒng)的興起和發(fā)展,為解決這些問題提供了重要手段。推薦系統(tǒng)通過記錄和分析用戶所產(chǎn)生的日志數(shù)據(jù)構(gòu)建用戶的興趣模型,再通過用戶的興趣模型為用戶推薦其喜歡和感興趣的產(chǎn)品。目前個性化推薦系統(tǒng)在購物網(wǎng)站和新聞網(wǎng)站等領(lǐng)域得到了廣泛的應(yīng)用,比如Amazon購物網(wǎng)站、豆瓣、今日頭條等。目前在推薦系統(tǒng)中應(yīng)用最為成功和廣泛的推薦技術(shù)是協(xié)同過濾。

協(xié)同過濾是指收集用戶過去的行為以獲得其對產(chǎn)品的顯式或隱式信息,即根據(jù)用戶對物品或者信息的偏好,發(fā)現(xiàn)用戶的相關(guān)性或者物品本身的相關(guān)性,然后再基于這些相關(guān)性進行推薦。目前,基于協(xié)同過濾的推薦分為基于物品的協(xié)同過濾(ItemCF)、基于用戶的系統(tǒng)過濾(UserCF)和基于模型的協(xié)同過濾(ModelCF)。為了更加快速、有效和準確地為用戶推薦其喜歡的產(chǎn)品,本文主要研究了基于Spark平臺上的ALS協(xié)同過濾算法的個性化推薦系統(tǒng)。

1 Spark簡介

Spark是一個基于內(nèi)存計算的分布式框架,提高了在大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理的實時性,同時保證了高可伸縮性和高容錯性。Spark中的計算模型和Hadoop中的MapReduce類似,不同于Hadoop的是,Spark的計算過程是在內(nèi)存中進行的,從而減少了硬盤的讀寫操作,可以將多個操作進行合并后計算,因此提升了計算速度。

圖1為Spark架構(gòu)圖,其整體流程為:Client作為客戶端將應(yīng)用程序提交到Driver中,Driver則向Master(即ClusterManager)申請資源,然后將應(yīng)用程序轉(zhuǎn)換為RDD Graph,再由DAGScheduler將RDD Graph轉(zhuǎn)換為Stage的有向無環(huán)圖提交給TaskScheduler,由TaskScheduler將任務(wù)分發(fā)給Woker節(jié)點中的Exeutor執(zhí)行。

2 ALS算法研究

ALS是Alternating Least Squares的縮寫,意為交替最小二乘法。該方法常用于基于矩陣分解的推薦系統(tǒng)中。例如:將用戶(user)對商品(item)的評分矩陣分解為2個矩陣:一個為商品所包含的隱含特征矩陣,一個為用戶對商品隱含特征的偏好矩陣。在這個矩陣分解的過程中,評分缺失項得到了填充,因此可以基于這個填充的評分給用戶作商品推薦了。以下就ALS算法理論做一個介紹。

3 ALS算法在個性化推薦上的應(yīng)用

為了實現(xiàn)ALS算法在Spark平臺上的具體應(yīng)用。本文的系統(tǒng)結(jié)構(gòu)主要由3個模塊組成,分別為輸入模塊、推薦模塊和輸出模塊。輸入模塊主要將用戶的行為數(shù)據(jù)轉(zhuǎn)換成用戶偏好數(shù)據(jù),再運用數(shù)字表示用戶對產(chǎn)品的偏好。推薦算法模塊主要是通過ALS模型的協(xié)同過濾算法生成推薦結(jié)果。輸出模塊是將通過推薦算法產(chǎn)生的推薦結(jié)果(去除掉一些用戶已購買過的產(chǎn)品),生成最終的推薦列表從而為用戶進行推薦。如圖2所示,為本文中個性化推薦系統(tǒng)的處理流程。

3.1 用戶偏好數(shù)據(jù)處理

通過解析用戶訪問網(wǎng)站所產(chǎn)生的行為日志,對用戶行為數(shù)據(jù)進行數(shù)據(jù)預(yù)處理操作(即ETL操作),得到用戶對某產(chǎn)品的瀏覽、購買、評論、加入購物車和加入心愿單行為數(shù)據(jù),作為用戶畫像模型的5組向量,再結(jié)合實際生活情況按5種不同行為分別賦予不同的權(quán)值。通過對用戶的行為進行加權(quán)處理后得到用戶對某產(chǎn)品的偏好得分。其中,偏好得分計算公式為:S =購買*0.4 +評論*0.15+購物車*0.25+心愿單*0.15+瀏覽*0.05,依此方法,最終形成用戶對所有產(chǎn)品的偏好得分,從而生成用戶的偏好模型。

3.2 構(gòu)建ALS推薦模型

通過(1)中建立的用戶偏好模型是ALS的輸入樣本,其后的處理過程是:首先輸入用戶的偏好數(shù)據(jù)(偏好數(shù)據(jù)格式為:用戶ID、產(chǎn)品ID、偏好得分),然后初始化ALS權(quán)值,計算通過ALS預(yù)測的偏好得分和訓練樣本中的偏好得分的均方差,使其RMSE小于預(yù)定值,若未小于預(yù)定值則繼續(xù)訓練增加的模型,最后為用戶產(chǎn)生推薦列表。

3.3 Spark平臺上的實現(xiàn)

ALS算法在Spark平臺上的實現(xiàn)過程是:首先將用戶偏好數(shù)據(jù)從數(shù)據(jù)庫中導(dǎo)出上傳到HDFS(Hadoop Distribute File System)上,再使用SparkContext類中的textFile函數(shù)加載HDFS上的偏好數(shù)據(jù)文件并創(chuàng)建RDD(Resilient Distributed Datasets),作為ALS訓練的輸入數(shù)據(jù)。其次,輸入迭代次數(shù)向量I=(5,8,10,15,20)T和隱含因子向量R=(5,10,20,30,40,50,60,70)T,通過不斷初始化參數(shù)即循環(huán)選擇I和R的值,代入ALS類中的train(ratings,rank,numIterations,lambda)(其中:ratings為用戶的偏好數(shù)據(jù),rank為R中的隱含因子,numIterations為I中的迭代次數(shù),lambda為正則化參數(shù)本文中取0.01)函數(shù)中,生成用戶偏好的預(yù)測結(jié)果,計算每次更新參數(shù)后模型的RMSE,最終通過獲取最小的RMSE來確定最優(yōu)參數(shù)的取值。最后使用最優(yōu)的ALS模型為用戶做推薦,使用MatrixFactorizationModel中的recommendProductsForUsers方法為每個用戶生成推薦結(jié)果,并使用RDD中的saveAsTextFile函數(shù)將結(jié)果保存到HDFS上。

4 實驗和結(jié)論

4.1 實驗環(huán)境

本實驗組建的Spark集群由1臺Master主機、7臺Slaver主機組成。實驗中使用的數(shù)據(jù)為用戶每天在網(wǎng)站中產(chǎn)生的行為數(shù)據(jù),通過分析用戶的行為日志和ETL操作將其轉(zhuǎn)換為用戶對產(chǎn)品的偏好得分。其中共有11924653行用戶對產(chǎn)品的偏好數(shù)據(jù)、662926個用戶和75288個產(chǎn)品構(gòu)成。

4.2 性能評估

為了驗證基于Spark 平臺下ALS協(xié)同過濾算法對推薦性能的影響,本文使用不同數(shù)目的Spark集群節(jié)點來做實驗以獲得較優(yōu)的效果。圖4為推薦模型訓練時間隨工作節(jié)點數(shù)目變化的情況。

由圖3可以看出隨著集群節(jié)點的增多,Spark ALS模型訓練時間不斷減少,但其處理速度并不是隨著節(jié)點增加而線性減少的。從圖4可知當工作節(jié)點增加到4個時,模型訓練速度的變化開始沒有那么明顯了,根據(jù)Amdahl定律,并行化的程序所獲得的加速比和程序中可并行執(zhí)行的代碼有直接關(guān)系,因此,處理時間并不是隨著節(jié)點線性變化的。

4.3 推薦效果評估

本文中通過調(diào)整隱含因子數(shù)量(rank)和計算的迭代次數(shù)(numIterations)來減小RMSE的值,從而達到最好的推薦效果。由圖4可以得出隨著隱含因子的增大,其模型均方差越小,表示其預(yù)測的模型越接近真實的偏好模型。

5 結(jié)語

本文首先對Spark和ALS協(xié)同過濾算法作了介紹和原理推導(dǎo),然后研究了基于Spark平臺下的ALS協(xié)同過濾算法在個性化推薦上的性能和效果,發(fā)現(xiàn)基于Spark平臺下的ALS推薦模型可以為用戶合理、有效地推薦其感興趣的產(chǎn)品,從而可以提高用戶的體驗度和網(wǎng)站的轉(zhuǎn)換率等。

[參考文獻]

[1]李宇澄.協(xié)同過濾算法研究[D].上海:復(fù)旦大學,2005.

[2] Koren Y,Bell R,Volinsky C.Maxtrix factorization techniques for recommender systems[J].Computer,2009(8):30-37.

[3]Apache Spark.[EB/OL].[2013-12-20].http://spark.apache.org/.

[4]Wbite T.Hadoop權(quán)威指南[M].3版.北京:清華大學出版,2010.

[5]Pilaszy I,Zibriczky D,Tikk D.Fast ALS-based Matrix Factorization for Explicit and Implicit Feedback Datasets[C]// Proceedings of the fourth ACM conference on Recommender systems.New York:ACM,2010.

[6]李改,李磊.,基于矩陣分解的協(xié)同過濾算法[J].計算機工程與應(yīng)用,2011(30):4-7.

[7]Hill M D,Mary M R.Amdahls law in the multicore era[J].Computer,2008(7):33-38.

Research and Application of Personalized Recommendation Based on ALS Collaborative Filtering Algorithm

Dong Yin

(School of Computer Science, Wuyi University, Jiangmen 529020, China)

Abstract: With the continuous development of big data and data mining technology, more personalized recommendation system has played an important role. In order to more effectively to recommend interesting products for user, this paper studies the application that using ALS collaborative filtering algorithm in personalized recommendation system on the spark paltform and evaluating the performance and effectiveness of the system. According to the experimental results show that the ALS algorithm based on Spark platform can effectively recommend the products they are interested in, so as to achieve the goal of personalized recommendation.

Key words: personalized recommendations; collaborative filtering; Spark; ALS

主站蜘蛛池模板: 亚洲日韩高清在线亚洲专区| 久久久久久久久18禁秘| 欧美视频在线不卡| 五月激情婷婷综合| 在线欧美a| 日韩在线影院| 欧美国产菊爆免费观看| 国产日韩欧美在线视频免费观看| 广东一级毛片| 午夜福利亚洲精品| 亚洲爱婷婷色69堂| 欧美日韩午夜| 久久91精品牛牛| 国产成人精品一区二区三在线观看| 伊人久久久大香线蕉综合直播| 国产一二三区在线| 亚洲天堂日韩av电影| 久热中文字幕在线| 亚洲激情区| 1769国产精品免费视频| 精品视频在线观看你懂的一区| 国产成人91精品| 欧美精品影院| 波多野结衣一级毛片| 亚洲欧美另类中文字幕| 欧类av怡春院| 亚洲婷婷在线视频| 污视频日本| 日韩不卡免费视频| 91精品国产无线乱码在线| 久草性视频| 日韩免费毛片| 国产精选小视频在线观看| 婷婷亚洲最大| 日韩精品无码免费一区二区三区| 免费国产在线精品一区| 亚洲IV视频免费在线光看| 东京热av无码电影一区二区| 91福利国产成人精品导航| 国产一级小视频| vvvv98国产成人综合青青| 亚洲欧洲天堂色AV| 日本高清有码人妻| 久操线在视频在线观看| 四虎永久在线精品国产免费| 欧美、日韩、国产综合一区| 在线另类稀缺国产呦| 97超级碰碰碰碰精品| 亚洲精品国产精品乱码不卞| 91丝袜美腿高跟国产极品老师| 经典三级久久| 亚洲av日韩综合一区尤物| 亚洲日韩日本中文在线| 国产伦精品一区二区三区视频优播 | 97成人在线观看| 国产精品亚欧美一区二区三区| 91在线丝袜| 青草精品视频| 青青草原国产av福利网站| 中文国产成人精品久久| 久久精品亚洲中文字幕乱码| 亚洲美女视频一区| 欧美亚洲一二三区| 日韩精品亚洲一区中文字幕| 看av免费毛片手机播放| 无码精油按摩潮喷在线播放| 狼友视频国产精品首页| 欧美怡红院视频一区二区三区| 欧美一级夜夜爽| 国产91熟女高潮一区二区| 国产91导航| 国产特一级毛片| 粗大猛烈进出高潮视频无码| 91午夜福利在线观看精品| 国产无码性爱一区二区三区| 亚洲天堂日本| av无码一区二区三区在线| 久久香蕉国产线看观看精品蕉| 日韩美毛片| 亚洲娇小与黑人巨大交| 国产性生大片免费观看性欧美| 青青操视频在线|