楊倩 梁艷 王艷娥 司海峰 張拓

摘要:隨著互聯網的快速發展,網絡信息也呈指數級增長,用戶面臨著信息過載(information overload)的難題。如何能夠從海量信息中幫助用戶找到有價值的信息,這使得個性化推薦系統具有越來越重要的作用。本文首先簡要概述了用戶偏好,然后分析了用戶偏好的建模過程及方法,最后對基于用戶偏好的個性化推薦算法進行了重點分類闡述,并分析了不同推薦算法的優勢與不足,對推薦系統更好地挖掘用戶的興趣偏好,提升個性化用戶服務起到促進作用。
關鍵詞:推薦系統;用戶偏好;用戶偏好建模;個性化推薦算法
中圖分類號:TP391.3 文獻標識碼:A
文章編號:1009-3044(2020)13-0279-02
1引言
如今,我國的域名規模已超過千萬,網頁數量數以億計,互聯網應用在生活中的方方面面,如QQ,微信方面的通信服務;直播、短視頻等娛樂服務;滴滴、共享單車等外出服務;各種手機支付的金融服務等。那么對于用戶來說,如何在能夠快速地找到自己所需要的信息,這是一個非常重要的問題,也是近年來學術界的研究熱點。以往解決信息過載有兩種方法:第一種是分類目錄展示,第二種是搜索引擎。但是操作非常耗時,且效果不理想。而個性化推薦系統是一種解決信息過載的有效方法。它將傳統的“人找信息”變為“信息找人”,對人實現了“按需服務”。通過對用戶的行為數據進行分析和整理,進而能對用戶的偏好進行定位,最終滿足對用戶的需求。對于提取用戶偏好是來說,方法是不一樣的,有的是根據統計學理論相關知識,有的根據關聯規則的挖掘知識,有的是根據聚類相關數據挖掘技術。盡管方法各式各樣,但思想基本是相同的:都是通過收集整理用戶以往的行為數據,再對數據進行預處理操作后,進而找到用戶的偏好信息,為用戶提供更快速精準的體驗。
2相關研究
個性化服務系統的關鍵問題是用戶偏好提取技術,用戶體驗質量的好壞取決于它。于歡研究了用戶偏好模型和用戶偏好提取技術,并且對基于用戶偏好特征的驚喜度評估準則和推薦策略問題進行了分析。何慧嘲針對目前推薦算法中的數據稀疏性問題,基于商品類別屬性和用戶評分矩陣,建立了一種混合推薦算法。陳云峰從顯式(用戶的評論)和隱式(用戶的瀏覽行為)來分析用戶的偏好,進而給用戶提供所需信息。姜書浩針對不同人對多樣性偏好的不同,提出一種能夠在尋優精度和多樣性之間權衡的個性化多樣性優化方法。胡川根據傳統的用戶偏好融合方法,提出另一種融合方法,此方法不但包含了用戶偏好融合方法,同時也包含了推薦融合與模型融合的特點。這些研究成果,對本文研究基于用戶偏好的個性化推薦系統具有良好的指導作用。
3用戶偏好概述
用戶偏好也就是相比較而言用戶更喜歡某一個事物,這是一種心理傾向,和用戶的興趣、思維等有很大的關系。近年來對用戶偏好的研究已經滲入到經濟學、計算機科學等領域。如當當網等網絡平臺通過收集用戶的瀏覽和購買記錄,進而給用戶推薦圖書;美團推薦服務基于用戶評分記錄,向用戶推薦所需的商品。這些都是根據收集和分析用戶的偏好信息,給用戶推薦所需商品,既提高了用戶的購買效率,也為公司帶來更大的利益。而用戶偏好并非是一成不變的,它伴隨著時間而發展變化,類似于拋物線的變化關系,可將用戶偏好分為兩類,一類是長期偏好,另一類是短期偏好。而短期偏好在一定的條件下會發展為長期偏好。如當用戶由于某種原因對一件事物產生了偏好,這種由于一定刺激產生的偏好為短期偏好,此時其處于活躍狀態,用戶會連續收集與此事物相關的信息,因此短期偏好會慢慢地發展為長期偏好。
4偏好建模方法
用戶偏好建模是通過對收集到用戶行為信息進行分析,構建出數據偏好模型的過程,目的是為了了解用戶的需求。它是一種利用數據來表達用戶不同偏好的模型,并且此模型會根據用戶偏好的變化而更新。建模過程分為兩個階段:第一階段:獲取用戶信息。用戶有大量的數據,包括顯式數據和隱式數據。顯式數據一般指用戶在系統中注冊或者提交的數據信息;隱式數據不是用戶主動提交的信息,比如瀏覽痕跡、購買記錄等。第二階段:建立用戶偏好模型:根據收集到的用戶信息,分析并研究其偏好,并且將數據用適當的結構模型來表示,并且根據用戶的數據變化而更新模型。
建模方法可分為兩種:定性分析和定量分析。所謂定性分析是指通過構建候選集的排序關系來構建用戶偏好模型;而定量分析是指用賦予各個候選項一個確定的數值來構建用戶的偏好模型。用戶偏好是一種用戶的個人感受,讓計算機能夠感知并了解用戶的情感,從而做出相應的操作,進而使用戶獲得自己所需要的東西,提升個性化服務水平。
5用戶偏好的個性化推薦分析
個性化服務系統的代表就是推薦系統,它根據收集到的用戶行為數據,分析用戶的偏好,生成能夠供其選擇的信息排列。這種過濾系統與傳統的檢索系統的區別是:其所有的結果都是根據用戶偏好而產生的,同時根據反饋結果快速更新。由于不同的推薦策略,所以對應不同的推薦算法,大致可分為三類:
(1)根據內容進行推薦的算法
根據內容推薦也稱為基于內容的過濾系統(Content-BasedFiltering,CBF)。其思想是:對某個個人而言,對以前感興趣的事物會表現出更大的興趣偏向。它主要是衡量備選內容與個人偏好的相近程度,進而預測用戶對備選內容偏好的程度,二者采用一致的方式,可以是向量空間、貝葉斯模型或者神經網絡模型。根據內容進行推薦的模型,方法簡易,并且結果的解釋性較強,但是由于用戶偏好模型和項目模型的表征具有局限性,因此產生某種效果后不會有提升的空間,所以用戶新的偏好就很難被收集到,也很難產生新的推薦信息。
(2)協同過濾推薦算法
協同過濾推薦算法(Collaborative Filtering,CB)是一種非常通用的方法。它基于“物以類聚,人以群分”的觀點,認為:如果興趣一致的用戶都選擇了某個商品,那么和大家興趣一致的用戶大概也可能會對該商品有較強的偏好;如果用戶對某個商品產生了一定的興趣,那么他也會更傾向于選擇和該商品相近的商品。協同過濾推薦有不同的實現方式,因此分為:根據用戶產生、根據項目產生和基于模型產生。
根據用戶產生指的是:給定一個用戶,評分數據,評分項目。有的項目用戶沒有產生評分,而此時可以利用和該用戶有相近的其他用戶的評分結果來進行預測。如用戶a和用戶b的相似度用函數表示為:
根據項目產生的算法思路和根據用戶產生的思路是相同的。但隨著時間的推遲,用戶偏好會發生相應的變動,所以根據用戶的算法會產生推薦結果不精確。而根據項目的相似性算法則有較高的準確度,并且較穩定。當獲得相似性時,由于每個用戶的思維不用,評價標準也不同,有的傾向于打較高的分數,有的則打的分數較低,所以根據項目的算法利用余弦相似性來進行分析,項目a和項目b的相似性計算如下:
根據用戶產生的算法和根據項目產生的算法,都會采用選近鄰的方法。通常根據用戶的算法和根據項目的算法計算量都較大,但是評分只來自其中一小部分,因此又導致了數據稀疏問題,使準確度非常低,效果非常差。再者如果有新的用戶進來,但是之前沒有相應的評分,所以無法使用根據近鄰的方法進行處理,這就是所謂的“冷啟動”,這個問題也會影響推薦結果。而根據模型的算法則利用和根據近鄰的算法不同的思想,根據內存中原來的評分,采用公式計算、預估評分進而得出結果,這屬于全局推薦。它利用離線計算收集用戶一項目的評分結果,然后用此模型對候選項目實施預測。但需消耗大量的資源進行訓練,而且要經常對模型進行更新。
(3)混合推薦算法
不同的推薦算法都有其優缺點。混合模型則是一種融合了內容過濾方法和協同過濾方法的優點,如果有大量數據的前提下,混合模型的推薦結果更好。它的設計形式可以分為三種,分別是整體混合、并行混合及流水線混合。其中,整體混合又包含特征組合混合和特征補充混合兩種方法,并行式混合設計又包含交叉混合、加權混合和切換混合,流水線混合設計又包含串聯混合和分級混合。這些都是不同的混合算法,在不同的情況下,采用不同的方法。
6結束語
本文首先對用戶偏好作了簡要概述,然后分析了用戶偏好的建模過程及方法,最后重點對基于用戶偏好的個性化推薦算法進行了分類闡述,并分析了不同推薦算法的優勢與不足,幫助推薦系統更好地挖掘用戶的興趣偏好,對提升個性化用戶服務起到促進作用。