許挺娟


摘要:傳統(tǒng)的協(xié)同過濾推薦((Collaborative Filtering,CF)算法是目前應(yīng)用最廣泛的一種推薦算法,但是由于CF存在稀疏性、冷啟動等問題,所以本文提出了基于mahout的CF算法。結(jié)果表明,相比較傳統(tǒng)的兩種CF算法,使用基于mahout的CF算法能夠提升推薦時間和推薦精度。
關(guān)鍵詞:協(xié)同過濾;mahout;推薦算法;Taste引擎
中圖分類號:TP312 文獻標識碼:A 文章編號:1007-9416(2019)06-0133-02
0 引言
目前,由百度、谷歌所推出的推薦引擎已經(jīng)被廣泛應(yīng)用,但是推薦引擎是大眾性的,不具有個性化特點。所以推薦系統(tǒng)就由此產(chǎn)生。推薦方法主要包括三種:基于內(nèi)容的推薦算法、基于模型的推薦和協(xié)同過濾推薦。協(xié)同過濾方法是上述推薦方法中應(yīng)用最為廣泛的,但是它還是有很多問題需要解決的。如稀疏性問題(Sparsity)、可擴展性問題(Scalability)等。本文提出了基于Ambari平臺的協(xié)同過濾推薦算法。基于MovieLens數(shù)據(jù)集的實驗表明,本文算法很好地解決了協(xié)同過濾的問題,同時提高了推薦精度及響應(yīng)時間。
1 相關(guān)技術(shù)
1.1 Ambari
Ambari是Apache下的一種基于Web的工具,所以他支持Apache下的大多數(shù)服務(wù),就本文來說,最重要的是mahout框架,mahout提供了一系列經(jīng)典的機器學(xué)習(xí)算法。其中Taste引擎提供了一系列的組件,這樣我們就可以使用Mahout中的Taste幫助構(gòu)建推薦系統(tǒng)。
1.2 協(xié)同過濾算法
協(xié)同過濾推薦算法主要分為基于用戶的協(xié)同過濾技術(shù)(user-cf)和基于項目(item-cf)的協(xié)同過濾技術(shù)。user-cf在于考慮的是用戶之間的相似性。首先,識別出與目標用戶具有高度相似性的鄰居用戶,然后向用戶推薦鄰居最喜歡的項目。而item-cf是從項目角度出發(fā)的,主要通過計算項目之間的相似性。……