鄭紹振 鄭東霞



摘 ?要:社交網絡發展迅猛,社會網絡環境下的信息量驟增,如何在大數據下向用戶推薦感興趣的項目是當前研究的熱點問題之一。目前的推薦系統在用戶反饋數據稀疏的情況下和向新用戶推薦中存在推薦不準確的問題,為了提高推薦質量,提出了一種融合社會標簽的聯合概率矩陣分解推薦模型TaSoRec,該模型運用社交網絡的用戶、項目、標簽三者信息進行推薦,通過對訓練模型參數優化,從而提升推薦效果。
關鍵詞:社會標簽;聯合概率矩陣;推薦方法;社交網絡
中圖分類號:TP181 ? ? 文獻標識碼:A
Incorporating Social Tagging for Unified Probabilistic
Matrix Factorization Recommendation
ZHENG Shaozhen1, ZHENG Dongxia2
(1. Liaoning Jinyang Group Information Technology Co., Ltd., Dandong 118000, China;
2.School of Computer and Software, Dalian Neusoft University of Information, Dalian 116023, China)
94225621@qq.com; zhengdongxia@neusoft.edu.cn
Abstract: With the development of social network, the explosive growth of information makes a hot issue to recommend attractive resources to users based on big data. In order to improve the quality of recommendation, this paper proposes a joint probability matrix factorization recommendation model called TaSoRec (Tag Social Recommendation) which integrates social tags. The model uses information of users, resources and tags of social network, and optimizes the parameters of the training model to achieve better recommendation results.
Keywords: social tagging; unified probability matrix; recommendation method; social network
1 ? 引言(Introduction)
社交網絡發展迅猛,開放的網絡環境下,數據在爆發式的增長,在海量的數據中,用戶通常很難找到自己感興趣的信息。Web 2.0時代允許用戶對網絡上的信息進行標注,比如對喜歡的電影、音樂等標注,
本文主要研究社交網絡中的項目推薦問題,向用戶推薦用戶可能感興趣的項目。現有的推薦方法在用戶顯示反饋數據稀疏的情況下,推薦準確度下降;如果是新用戶,沒有反饋數據時,推薦效果不理想,即存在冷啟動問題。本文使用的是協同過濾推薦技術,提出了一種融合社會標簽的聯合概率矩陣分解推薦算法(TaSoRec),算法研究用戶、項目和標簽的兩兩關系,并使用概率矩陣分解方法進行求解,得到三個特征矩陣的隱含特征向量,進而對項目進行最優推薦。
2 ? 相關工作分析(Related Work)
現有的協同過濾推薦方法很難解決在大數據環境下用戶給予較少反饋信息或無反饋信息情況下的推薦,為了解決這種數據稀疏問題,文獻[1]中,Ruslan Salakhutdinov和Andriy Mnih提出的一種概率矩陣分解方法,這種方法將一個高維矩陣分解為兩個或多個低維度的矩陣,即用同一個空間的維度來描述推薦過程中兩個實體(用戶、項目)的隱語義的特征,這種算法目前被應用于當數據很少時對于缺失數據的預測,以提高推薦質量。文獻[2]提出了一種聯合概率矩陣分解算法(UMPF),傳統的概率矩陣分解算法結合兩個實體進行兩維的矩陣分解,而聯合概率矩陣分解算法結合三方面的實體,考慮三者中的兩兩關系,進行矩陣分解。文獻[3]提出一種AdRec框架模型,將聯合概率分解算法首次應用于上下文廣告的推薦中,實驗表明,推薦效果好于傳統的單一概率矩陣分解算法;但是這種方法并不能簡單地應用到社會網絡環境下,社交網絡中用戶與用戶之間存在關系,此方法并沒有考慮到用戶之間的聯系。以上使用概率矩陣分解方法或聯合概率矩陣的算法,對于社交網絡中用戶之間的聯系及項目標簽沒有受到關注。文獻[4]中,在協同過濾推薦模型中使用了標簽信息,通過標簽信息正則化概率矩陣分解的矩陣分解過程。文獻[5]中通過標簽選擇每個用戶的鄰居和每個項目的鄰居,然后在矩陣分解中為每個用戶和每個項目的潛在特征向量填加唯一的高斯分布,使相似的用戶或項目具有相似的潛在特征。
3 ? 問題描述(Problem description)
3.1 ? 現存問題
目前的推薦系統大部分只從用戶對項目的評分和用戶與用戶之間的信任關系兩個方面考慮來預測推薦,但是忽略了用戶對項目標簽的使用問題,比如用戶通常會對喜歡的項目加標簽標注,也會對自己加各種標簽。將用戶對項目的評分,又考慮用戶對標簽的使用,項目與標簽的關系等融入推薦中,考慮兩兩關系勢必能增強推薦的準確度。
目前大部分的推薦系統只考慮了用戶的顯式反饋信息,而忽略了用戶的隱式反饋信息,隱式反饋信息具有數據量大、易收集、應用廣的特點,放棄隱式反饋信息的推薦系統浪費了寶貴的數據項目,隱式反饋信息雖然不直接表現出用戶的傾向,但是跟蹤用戶的隱式反饋信息,將隱式反饋信息融合到推薦系統中并不困難,用戶對項目進行標注標簽,標簽被標注的次數能夠隱式地反饋出用戶對哪些項目的喜好程度。因此本文探討了一種融合社會標簽的聯合概率矩陣分解的推薦算法。
3.2 ? 符號定義
本文結合用戶、項目、標簽三個方面的信息進行項目的推薦,主要是用戶對項目的評分信息和用戶對項目的隱式反饋信息,用戶使用社會標簽的信息,項目與標簽的關聯信息。當用戶瀏覽網頁,訪問音樂項目時,向目標用戶推薦其可能感興趣的其他音樂項目。
假定一組有個用戶的用戶集合為,一組有個項目的項目集合為,一組有個標簽的標簽集合為,其中,維的用戶潛在特征矩陣用表示,維的項目潛在特征矩陣用表示,維的標簽潛在特征矩陣用表示,用戶對項目的評分矩陣為,標簽與用戶的關聯矩陣為,項目與標簽的對應矩陣為。
4 ?使用標簽信息的聯合概率矩陣分解推薦模型(Unified probabilistic matrix factorization recommendation model ?incorporated social tagging)
本文提出一種使用社會標簽的語義分析和概率矩陣分解的推薦方法。該方法根據用戶標簽的歷史信息得到不同用戶間的相似性,然后建立用戶—標簽、用戶—項目和標簽—項目得分矩陣,最后計算獲得這些矩陣的隱含特征向量;其中在用戶—項目評分矩陣中加入了用戶相似性的正則化參數,以避免過擬合;最后討論推薦方法的求解過程。
4.1 ? 用戶相似性計算
本文認為具有相似標簽標注行為的用戶,其興趣愛好在很大程度上是具有相似性的,因此通過用戶對項目進行標注的歷史行為得到標簽矩陣,本文提出的模型是在矩陣的基礎上使用皮爾森相似性計算用戶的相似性。假設表示用戶和用戶對項目進行標注的標簽指數集,兩個用戶間的皮爾森相關系數定義如式(1):
(1)
其中,。從而,皮爾森相似性定義如下:
。用戶相似性正則化參數的求解函數如式(2):
(2)
其中,是通過對用戶和用戶標注的標簽歷史記錄計算所得,并通過拉普拉斯矩陣,為對角矩陣,對角元素,表示矩陣的跡。
利用上面的方法計算用戶間的相似權重,進一步獲得三個矩陣的特征向量。
4.2 ? 用戶—項目評分矩陣
假設={}表示個用戶給個項目打分,其中矩陣中各元素的值在[0,1]區間,即,可由式(3)計算得到:
(3)
其中,為邏輯斯蒂函數,,用于將值映射在[0,1]的區間。表示用戶訪問項目的次數。
如果相關用戶具有相似的標簽歷史記錄,那么這些用戶的隱含特征向量極有可能具有相似性,在用戶—項目概率矩陣中,考慮了用戶間的相似性。假定用戶和項目的隱含特征向量為、,維數均為維。則用戶—項目評分概率矩陣的條件分布如式(4)所示。
(4)
其中,為概率密度函數,滿足均值為,方差為的高斯分布;為指示函數,當用戶訪問了項目,則=1;否則=0;為附加的正則化參數用來調整標簽貢獻率。矩陣中假設用戶的特征向量、項目的特征向量均滿足均值為0的球形高斯先驗分布,如式(5)和式(6)所示。
(5)
(6)
通過貝葉斯推理,可以得到式(7)。
(7)
在式(7)中,通過用戶對項目的訪問來估算用戶對項目的興趣指數,但這個過程未考慮項目被用戶所標注的標簽語義信息,下面進一步討論用戶對感興趣項目標注標簽的概率,以提高推薦準確率。
4.3 ? 用戶—標簽概率矩陣
假設表示個用戶對個標簽標注的概率矩陣,其中矩陣中各元素的值為用戶對標簽標注的次數,值在[0,1]區間,即。表示項目被用戶標注的標簽。如果用戶頻繁使用某類標簽,說明用戶對這類標簽標注的項目感興趣,可由式(8)計算得到。
(8)
其中,表示用戶使用標簽的頻率。
用戶—標簽關聯矩陣中,假設用戶的隱含特征向量為,假設標簽的隱含特征向量為,維數均為維。則用戶—標簽概率矩陣的條件分布如式(9)所示。
(9)
其中,為概率密度函數,滿足均值為,方差為的高斯分布;為指示函數,當用戶使用了標簽,則=1;否則=0。矩陣中假設用戶特征向量、標簽特征向量均滿足均值為0的高斯先驗分布如式(10)和式(11)。
(10)
(11)
通過貝葉斯推理,可以得到式(12)。
(12)
4.4 ? 項目—標簽概率矩陣
假設表示個項目被標注個標簽的概率矩陣,其中矩陣中各元素的值為項目被標注標簽的次數,值在[0,1]區間,即。表示用戶對項目標注標簽的次數概率,假設某個項目,用戶頻繁對其標注標簽,說明這個項目受用戶的喜歡,可由式(13)計算得到:
(13)
其中,表示項目被用戶標注標簽的頻率。
項目—標簽概率矩陣中,假定項目和標簽的隱含特征向量為、,維數均為。則項目-標簽概率矩陣的條件分布如(14)所示。
(14)
其中,為概率密度函數,滿足均值為,方差為的高斯分布;為指示函數,當項目被標注了標簽,則=1;否則=0。矩陣中假設用戶特征向量、項目特征向量均滿足均值為0的球形高斯先驗分布如式(15)和式(16):
(15)
(16)
通過貝葉斯推理,可以得到式(17)。
(17)
4.5 ? TaSoRec推薦模型
用戶給項目標注標簽的個數,用戶使用某類標簽的頻率,項目與某類標簽的關聯程度,都是影響推薦的因素,這些因素由用戶直接行為顯示出來的,即用戶給出的顯示反饋信息。而用戶對項目的訪問次數、轉發行為等不是用戶直接給出的傾向,但用戶的這些行為隱式的反饋了用戶的喜好程度。因此,將隱式反饋信息融入推薦模型中,對推薦準確率的影響具有現實的積極意義。本文提出一種融合隱式反饋信息的TaSoRec模型,該模型通過聯合概率矩陣分解技術來進行推薦。TaSoRec模型的圖形表示如圖1所示。
由圖1可得出LaSoRec推薦的后驗分布函數的log函數,如式(18)。
(18)
其中,C是常量,最大化公式(18)可看作無約束優化問題,最小化公式(19)等價于最大化公式(18):
(19)
其中,,,,,,應用梯度下降法求出公式(19)的局部最小值。參數的梯度下降公式如式(20)所示。
(20)
的梯度下降公式如式(21)所示。
(21)
的梯度下降公式如式(22)所示。
(22)
5 ? 實驗分析(Experiment analysis)
本文采用推薦系統常用的數據集合MovieLens,該數據中包括標簽信息和評分信息,適用于我們提出的模型。實驗選取MovieLens數據集大規模庫中的數據進行試驗,有6040個獨立用戶對3900部電影作的大約100萬次評分。本文采用RMSE指標來評價本文提出模型的推薦效果。
為了驗證本文提出模型TaSoRec的推薦效果,進行了四組比較實驗,第一組、第二組、第三組、第四組的訓練數據分別使用實驗數據的90%、70%、20%、10%,分別對本文提出的TaSoRec模型、文獻[6]提出的推薦模型(TPR)、文獻[7]提出的MsRec進行實驗驗證,實驗結果如表1和表2所示。
多次實驗表明,設置特征維數為10和20,,,,,時,實驗效果最優。
6 ? 結論(Conclusion)
本文提出的模型考慮了社會網絡環境下用戶與用戶之間的關系,并認為具有相似行為的用戶之間存在相似性,通過分析用戶標注的標簽語義信息來識別相似用戶,融合用戶相似度的情況下,利用聯合概率矩陣分解方法進行推薦。經過反復實驗表明:本模型適用于數據稀少的情況及新用戶情況下的推薦,推薦效果具有很大優勢,能夠對社會網絡環境下的推薦提供算法支持。
參考文獻(References)
[1] Hernando A, Bobadilla J, Ortega F. A non negative matrix factorization for collaborative filtering recommender systems based on a Bayesian probabilistic model[J]. Knowledge-Based Systems, 2016, 97(C): 188-202.
[2] 王永貴,宋真真,肖成龍.基于改進聚類和矩陣分解的協同過濾推薦算法[J].計算機應用,2018,038(004):1001-1006.
[3] 涂丹丹,舒承椿,余海燕.基于聯合概率矩陣分解的上下文廣告推薦算法[J].軟件學報,2013,24(3):454-464.
[4] Zhen Y, Li W J, Yeung D Y. TagiCoFi: Tag informed collaborative filtering[C]. Proceedings of the 2009 ACM Conference on Recommender Systems, RecSys, 2009.
[5] Le Wu, Enhong Chen, Qi Liu, et al. Leveraging Tagging for Neighborhood-aware Probabilistic Matrix Factorization[C]. the 21st ACM Conference on Information and Knowledge Management(CIKM 2012), 2012.
[6] 吳燎原,蔣軍,王剛.科研社交網絡中基于聯合概率矩陣分解的科技論文推薦方法研究[J].計算機科學,2016,43(9):213-217.
[7] 熊麗榮,劉堅,湯穎.基于聯合概率矩陣分解的移動社會化推薦[J].計算機科學,2016,43(009):255-260.
作者簡介:
鄭紹振(1980-),男,本科,工程師.研究領域:智能交通,推薦系統.
鄭東霞(1978-),女,碩士,副教授.研究領域:數據分析,推薦系統.