999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據稀疏背景下基于協同過濾的推薦算法綜述

2023-05-30 10:48:04朱夢婷
計算機應用文摘 2023年9期

朱夢婷

關鍵詞:推薦系統;協同過濾;數據稀疏;相似度

1引言

隨著移動互聯網的迅速發展,人們獲取大量信息十分便捷。與此同時,如何從海量信息中高效篩選出所需內容變得十分困難。推薦系統能夠在用戶需求不明確或是信息量過大時,根據用戶的行為判斷其興趣,提供個性化的信息以滿足用戶需求。另外,為提高轉化率,推薦系統還能主動將有效信息推送至目標用戶。因此,推薦系統既是引導用戶獲取需要信息的助手,又是公司驅動業務發展的重要動力。

推薦系統最早被應用于電子商務網站,通常是根據用戶的訂單和評價來推測偏好和需求,從而向用戶推薦可能感興趣的項目。例如亞馬遜、淘寶等平臺,其中亞馬遜網站上約35%的銷售額來自個性化推薦,可見推薦系統在電商平臺的意義重大。一個好的推薦系統可以提高用戶的購買轉化率,從而進一步提升企業的收益并增強其用戶黏性。近年來,推薦系統在其他領域也有非常廣泛的應用,如社交網絡、短視頻、教育、智慧醫療等。

傳統的推薦方法在一定程度上可以有效解決推薦問題,主要有基于內容的推薦、協同過濾的推薦和混合推薦方法。基于內容的推薦主要通過機器學習的方法在內容信息中挖掘用戶偏好,不涉及評分數據。而基于協同過濾的推薦核心是計算用戶或項目間的相似度,需要用到“用戶一項目”評分數據。混合推薦是融合多種推薦技術,充分利用輔助信息,實現優缺點互補。然而,隨著數據爆發式增長,推薦系統面臨十分嚴重的數據稀疏問題。具體地,用戶通常只對極少部分項目有過交互行為(如瀏覽,收藏,加車,購買,評價等),這為精確建立用戶畫像并推薦合適的項目造成巨大困難。例如,電影推薦網站Movielens中“用戶一項目”矩陣近95%的數據是缺失的,在電子商務網站Amazon、新聞推薦平臺Mind數據中,這種缺失程度更是達到了99.9%以上,這嚴重影響了推薦的效果[1-3]。因此,如何進一步挖掘用戶和項目之間的特征來提升算法準確率變得尤為重要。

下文將對基于協同過濾的推薦算法進行詳細的梳理與分析,針對面臨的數據稀疏問題,提出解決方法與對策,并預測未來研究的幾個發展方向。

2基于協同過濾的推薦

2.1基于內存的協同過濾

基于內存的推薦方法核心是利用“用戶一項目”評分矩陣、用戶信息和項目信息來計算對象之間的相似度,然后根據相似對象的評分加權值來預測目標用戶對特定項目的評分,最后按評分高低進行推薦。按照相似性度量對象,這類算法可分為基于用戶和基于項目的推薦:前者主要依據評分情況衡量不同用戶間的相似性,進而將相似用戶的偏好項目推薦給目標用戶,能夠發現其潛在的偏好,更能體現社會性;而基于項目的推薦則是依據評分情況衡量項目間的相似性,進而將已知偏好項目的相似項目推薦給目標用戶,更能反映自身的興趣和個性。二者的性能和適用場景對比如表1所列。

基于內存的協同過濾技術的核心是相似度計算,包括常用的余弦相似度、皮爾遜相關系數、歐式距離、杰卡德相關系數等,統一符號后具體如表2所列,可以根據實際場景和數據特點做選擇。

2.2基于模型的協同過濾

基于模型的協同過濾推薦主要通過訓練數學模型的方式挖掘用戶和項目之間的特征和潛在聯系,模擬用戶的評分行為,從而得到未交互項目的評分并作為推薦依據。模型通常為聚類模型、矩陣分解模型、貝葉斯模型等,其中基于矩陣分解的推薦應用較為廣泛[4-6]。

聚類算法是經典的無監督機器學習算法,原理是尋找一種劃分,使得類內距離小,并盡可能地相似,同時類間距離盡可能大,以保證差異和區分度。算法過程是先隨機指定若干個聚類中心,然后依據對象的歐式距離聚成若干簇,并重新計算每簇對象的均值,將其作為新的聚類中心,不斷重復以上步驟,直至聚類中心穩定下來。聚類是相對直接的方法,對象可以是用戶、項目,也可以是二者聯合,最后還需在聚類結果的基礎上進行推薦對象的選擇。

矩陣分解是推薦系統協同過濾方法中最常用的模型之一,原理是從“用戶一項目”評分矩陣中學習用戶潛在信息和項目潛在信息,進而預測未評分部分的分值。目標函數一般形式如下:

貝葉斯模型用于解決分類問題,屬于有監督的機器學習,原理是基于條件概率和貝葉斯定理,用決策樹表示用戶和項目間的概率關系。

2.3推薦過程

協同過濾的推薦過程主要分為三個步驟:第一步,根據定義的度量和已知數據,形成“用戶一項目”評分矩陣;第二步,通過協同過濾算法預測未評分數據,補全“用戶一項目”評分矩陣:第三步,根據評分做出項目推薦。基于內存的協同過濾可解釋性強,易于操作實現,但缺少提取特征的方法,無法得到推薦對象和被推薦對象的潛在信息。相比之下,基于模型的協同過濾可以同時得到這些潛在信息,但解釋性相對較弱,也難以處理大規模的推薦。除了這兩類推薦方法,還有融合多種方法揚長避短的混合推薦,其克服了普通方法的缺點,但過程較為復雜,難以用顯式的數學模型表示。

推薦系統常用的數據集涵蓋電影、電商、音樂、圖書等領域,其中MovieLens是電影評分數據,分為3種大小的數據集,包含用戶個人信息和電影信息:Epinions包含商品和匿名用戶信息,商品至少被評價過一次;Amazon包含商品數量、價格,用戶瀏覽記錄、購買情況等信息;Last. fm是音樂播放數據,包含最受歡迎的歌手列表和播放量;Book-Crossing是圖書評分數據。具體規模和稀疏度如表3所列。

3面臨的數據稀疏問題

協同過濾的推薦方法僅需依據用戶對項目的評分數據,以挖掘用戶偏好,其解釋性強,操作簡便,能夠很大程度上解決推薦問題。然而現實場景中,用戶和項目并不是固定不變的,各大平臺為占領市場份額,會花費大量資金和精力在用戶拉新和產品上新上。當有新用戶或新項目出現時,數據庫中沒有相關的歷史數據,無從判斷用戶的偏好,也沒法預估項目的交互情況,進而使推薦系統難以做出合理的推薦,這種問題稱為冷啟動。

另外,當項目數量遠大于用戶數量時,有大部分的項目未經交互和評價,導致“用戶一項目”評分矩陣嚴重稀疏,為提取用戶和項目的潛在特征帶來挑戰。在信息飛漲的時代,以電子商務為例,隨著達人直播帶貨、短視頻引流等新形式的出現,規模不斷擴大,用戶信息、商家信息、項目信息、交互信息急劇增長,用戶間共同評分的項目數量相對不足。在時間分秒游走的同時,指尖滑動產生的數據激增,導致用戶與項目間的評分矩陣變得愈發稀疏,推薦效果差強人意。因此,協同過濾的推薦方法面臨嚴峻的數據稀疏問題。

融合多種技術的混合推薦方法雖然可以利用輔助信息(如社交信息)在一定程度上緩解冷啟動和數據稀疏問題,但輔助信息形式多樣,普適性較差。另外,相似度計算在協同過濾推薦方法中尤為關鍵,易受數據稀疏的影響,直接影響推薦效果。大多數相似度為兩個用戶之間的相似性關系賦予相等的值,這意味著和用戶之間的相似性。這樣刻畫的相似度無法區分兩個具有不同評級配置文件的用戶,即二者交集占各自體量比重差距較大的用戶。

4解決方法與對策

為解決冷啟動和數據稀疏問題,協同過濾推薦方法有三條路徑可以嘗試。

(1)補全評分數據。針對多數場景,“用戶一評分”矩陣極度稀疏的困境,可以應用數學模型和算法預測缺失值。例如矩陣分解技術,常用于基于模型的協同過濾,核心是將“用戶一項目”評分矩陣分解成兩個低秩矩陣,一個代表用戶潛在信息,另一個代表項目潛在信息,然后根據分解后的兩個矩陣乘積做預測。另外,可以將傳統協同過濾算法和深度學習的神經網絡算法進行結合,以計算分析用戶和項目之間隱含的復雜非線性關系。深度學習能夠通過訓練集學習較為復雜的內在聯系,深層次地挖掘推薦對象的特征,并模擬用戶評分過程,從而進行更為準確的預測。

(2)添加輔助信息。為提高推薦效果,可以考慮除評分矩陣以外的數據,如用戶的詳細信息、社交信息、商品的詳細信息等。當有新用戶日寸,根據性別、年齡等基本信息聚類,將所屬聚類的評分平均值作為新用戶的評分數據。另外,好友之間興趣偏好相似的概率較高,來自好友的推薦更精準,也更易獲得信任,所以社交關系可以有效輔助推薦效果的提升。

(3)遷移知識學習。由于實際場景有生態化發展的趨勢,通常涉及不同領域。例如,美團外賣和本地生活、美團電商等打通,雖然美團電商起步較晚,但用戶基數大,可以根據外賣數據和線下團購數據推薦線上商品,這里外賣和本地生活是源域,電商是目標域。因此,可以將多個源域的知識遷移到目標域,以取得更好的效果,解決數據稀疏的問題。

另外,相似度矩陣通常潛藏用戶之間的關系,在特征挖掘和興趣發現中十分關鍵。為避免對稱相似度在一些場景中的局限性和矛盾,可以使用不對稱相似度,通過用戶之間共同評分項目占各自評分項目的比例將原有計算結果標準化。非對稱的用戶相似度計算方法,可以區分每一用戶對其相似用戶的影響和相似用戶對該用戶的影響。

5未來的研究方向

近年來,推薦系統的深度研究和廣泛應用為用戶帶來了便捷,為企業帶來了收益,為行業帶來了進步。雖然基于協同過濾的推薦技術已取得不錯的效果,但隨著其他技術的研究和發展,以及用戶體驗需求的上升,未來仍有許多方面值得研究。其一,將知識圖譜、圖神經網絡等深度學習技術與推薦系統結合,以符合用戶的個性化追求。其二,增強推薦模式的動態性和交互性。在實際生活中,用戶的偏好和興趣會隨外部環境改變,如果能考慮環境因素提供實時動態推薦,并給予用戶反饋優化的機會,推薦算法會更加精準和智能。其三,數據安全與隱私保護。挖掘用戶特征時會用到多維度的信息,用戶希望得到準確推薦的同時并不愿意公開隱私。一般通過數據模糊和扭曲來保護隱私,但會降低推薦準確性。因此,兼顧效果和隱私的方法會是眾望所歸。

6結束語

通過對基于協同過濾的推薦算法的研究,整理常用相似度和數據集,分析基于內存和模型的推薦方法及過程,易見用戶或項目間的相似性度量尤為重要,且協同過濾推薦面臨著嚴重的數據稀疏問題和冷啟動問題。目前的工作主要是通過模型和深度學習算法補全評分數據,添加社交關系等輔助信息,遷移學習其他領域的知識到目標領域,定義非對稱的相似性度量等提升推薦效果。未來可以在多技術結合、增強推薦的動態性和交互性、兼顧效果和隱私保護方面進行更深入的研究。

主站蜘蛛池模板: 国产精品偷伦视频免费观看国产 | 国产产在线精品亚洲aavv| 亚洲一区免费看| 人妻丰满熟妇av五码区| 中文字幕资源站| 国产欧美日韩在线一区| 亚洲国产精品人久久电影| 欧美成一级| 亚洲精品第1页| 丁香婷婷在线视频| 日本成人福利视频| 免费看美女毛片| 国产高清又黄又嫩的免费视频网站| 国产视频你懂得| AV在线天堂进入| 丁香六月综合网| 亚洲美女一级毛片| 全部免费特黄特色大片视频| 国产大全韩国亚洲一区二区三区| 欧美亚洲欧美| 在线a视频免费观看| 蝴蝶伊人久久中文娱乐网| 欧美成人综合视频| 内射人妻无码色AV天堂| 99在线视频精品| …亚洲 欧洲 另类 春色| 亚洲精品人成网线在线| 黄色网址免费在线| 91 九色视频丝袜| 777国产精品永久免费观看| 亚洲色图欧美视频| 国产成人亚洲欧美激情| 第一页亚洲| 国产电话自拍伊人| 久久一本日韩精品中文字幕屁孩| 亚洲第一区在线| 综1合AV在线播放| av一区二区三区高清久久| 久久香蕉欧美精品| 91精品国产情侣高潮露脸| 亚洲精品第1页| 日韩精品无码一级毛片免费| 欧美色伊人| 69视频国产| 久久永久视频| 人人爽人人爽人人片| 国产精品女人呻吟在线观看| 99999久久久久久亚洲| 国产成人综合日韩精品无码首页| 自拍中文字幕| 波多野结衣久久高清免费| 国产丰满成熟女性性满足视频| 99热这里都是国产精品| 亚洲Aⅴ无码专区在线观看q| 日本a级免费| 成人福利在线视频| 亚洲五月激情网| 欧美日韩激情在线| 色呦呦手机在线精品| 又黄又湿又爽的视频| 女人18毛片一级毛片在线| 女人18一级毛片免费观看| 久视频免费精品6| 亚洲天堂视频在线免费观看| 996免费视频国产在线播放| 91精品综合| 精品一區二區久久久久久久網站| 国产精品无码久久久久AV| 久久这里只有精品66| 91美女视频在线观看| 国产一区二区三区视频| 91娇喘视频| 国产人人干| 亚洲视频无码| 亚洲一区第一页| 久久精品国产精品一区二区| 国产精品漂亮美女在线观看| 欧美啪啪一区| 国产成人亚洲精品无码电影| 国产日本欧美在线观看| 午夜精品久久久久久久无码软件| 中文字幕亚洲第一|