翁星星
合肥工業大學管理學院,安徽合肥 230009
隨著網絡和電子商務的迅猛發展,用戶可以在網上隨意尋找自己感興趣的商品,但隨著信息爆炸式增長,用戶在這過程中浪費了很多時間,個性化推薦系統對電子商務網站的業績有很深的影響,其主要作用表現在以下幾方面:可以把隨意瀏覽網站的潛在客戶轉變為實際購買者;提升電子商務網站交叉銷售能力;提升客戶對網站的忠誠度。其中協同過濾技術是目前運用最廣泛的個性化推薦技術。
協同過濾技術是通過收集整理過去用戶產生的數據來尋找鄰居用戶,其基本原理是根據相似用戶的興趣來推薦當前用戶沒有參與但是很有可能會感興趣的項目,所基于的假設是如果兩個用戶興趣類似,那么很有可能當前用戶會喜歡另一個用戶所喜歡的項目。協同過濾推薦技術分為3 個階段:評分數據表示;最近鄰居形成;推薦項目集產生
1)評分數據表示:將用戶對于項目的評分收集整理后描述成一個的用戶-項評分矩陣,其中m 表述用戶數,n 表式項目數。矩陣中元素表述用戶 對項目的評分;
2)最近鄰居形成:指根據項目評分矩陣來發現目標用戶的最近鄰居。協同過濾技術是通過計算用戶之間的相似性來找到目標用戶的最近鄰,所以算法的關鍵就在于如何準確找到目標用戶的最近鄰。常用的用戶之間的相似度算法有Pearson 相關系數和余弦相似性;
3)推薦項目集產生:目標用戶的最近鄰居集產生后,可以得出目標用戶對未評分項的預測分,將分值按照高低排列,產生TOP-N 的推薦項目集合;
這就導致了協同過濾技術過分依賴于用戶評分,但目前電子商務網站的用戶和商品數量一直在上升,同時用戶對商品項的評分卻非常稀少,通常在1%以下,使得用戶-項目評分矩陣過于稀疏,導致個性化推薦質量下降:
1)評分矩陣稀疏使得尋找最近鄰的準確度降低;
2)冷啟動(cold-start)問題,此問題是稀疏性的極端情況,指當新用戶或新項目進入到推薦系統中時,由于沒有歷史數據,導致無法產生推薦集。
針對評分矩陣稀疏性問題許多研究人員對協同過濾算法提出了改進,本文系統的歸納和分析了各算法的研究情況,同時為協同過濾算法提供了幾點研究方向。
劉芳先等分析傳統協同過濾算法的局限于以下三點:
1)傳統算法對于用戶之間的相似度是通過兩用戶共同給予的項目評分來計算的,卻沒有考慮項目是否相關,如一用戶對于某書籍的興趣可能跟他看過的書有關,而跟他評價過的服裝沒關系;2)隨著時間變化用戶的興趣也會變化的,這點傳統算法卻沒有考慮到;3)傳統的協同過濾算法在計算項目間相似性,沒能將項目特征考慮在內,導致相似性度量不夠準確。
在此基礎上劉芳先提出來改進算法,其主要思想是將項目的相關性引入到用戶相似性的計算公式中,同時在預測新目標項的得分時引入了時間加權函數,時間加權函數能反映出用戶對最近點擊的項目興趣較大,新數據對于預測得分影響大,而舊數據體現的是用戶之前的興趣,所以在預測上占權重較小。
這種改進算法在計算用戶相似性的時候引入項目相似度,這樣可以在一定程度上減少不相關的項目對于推薦結果的影響,同時將時間函數引入了預測得分的公式中,一定程度上反映出隨用戶趣變化得到推薦集也不同。但是這算法依然對用戶-項目評分矩陣依賴性太大,不利于解決數據稀疏性問題。
劉勇在分析了計算項目相似度時碰到的問題:當兩項目只有很少用戶給予評分,同時給予評分的用戶所關注的項目特征可能不是目標用戶所關注的特征,這會導致推薦質量下降。基于這類問題,劉勇提出了改進的相似度計算公式:

Mutual_num 表示對于項目i、j 都評分的用戶數目,item_num 表示對項目i,j 中任何一個有評分的用戶集合數目。
文獻[7] 為了降低項目評分矩陣的稀疏性, 提升推薦精度,提出了一種基于主成分降維技術和K-means 聚類的混合協同過濾新算法。算法先對用戶-項目矩陣進行缺失值填充,然后運用主成分分析技術提取主成分因子,在降低矩陣的維數同時保證大部分信息沒有損失,在降維后的向量空間上進行K-m eans 聚類, 找到目標用戶的最近鄰,最后得到目標用戶對于未評分項目的預測值,從而產生推薦集。該算法在一定程度上緩解超高維空間尋找最近鄰問題。
文獻[8]提出了基于項目聚類的協同過濾,算法主要思想是結合項目評分與項目屬性的項目相似度,再對項進行聚類。聚類可以通過一些聚類算法將項和用戶聚成若干子類,再在各小類中產生推薦集。張娜等先計算項目相似度再用k 劃分聚類算法進行項目聚類,產生k 個用戶-項目子矩陣,然后對已有的項目聚類結果用k 劃分算法進行客戶聚類,最后在目標用戶所在的幾個矩陣中尋找最近鄰。
文獻[10]在分析了傳統協同過濾在處理新項目和新用戶問題上的瓶頸提出了結合基于內容推薦的協同技術。協同過濾算法過分依賴于用戶評分,而對于新項目和新用戶沒能產生評分數據,推薦集中就不會出現,但基于內容的推薦算法對于每個用戶都有用戶描述,其中記錄了用戶感興趣的內容。可以根據用戶喜好和項目的特征信息,推薦給與目標用戶特征相似的項目,這就能較好的解決這一問題。
雖然這算法可以一定程度上解決“新項目”問題,但也存在一定的局限:用戶或項目特征提取能力有限,目前只能進行簡單的提取,對于項目特征不能做到準確的定位,基于內容的推薦現階段只能對文本內容提取,而對于一些影像,圖像很難做到提取特征。
文獻[11]提出了一種結合關聯規則和協同過濾的算法,其主要思想是:先通過關聯規則在商品項中找到頻繁項,再將這些頻繁項捆綁在一起對目標用戶進行推薦,這就可以更好更多的產生推薦集了。但是目前這方面算法研究還處于初級階段,可以從以下幾方面進行進一步的研究:1)如何將Web 日志預處理更好的融入到協同過濾中去;2)面對數據快速更新速度,如何剔除無用的信息,保證推薦及時性和準確性;3)如何更好的將這一推薦技術應用到實踐中。
傅鶴崗[12]等在分析了傳統協同過濾算法在用戶數量快速增長的時代下所需要付出的代價很大,提出了基于模范用戶的協同過濾算法。其主要思想是:用戶的興趣常集中在某幾個特定區域,可以先對用戶進行聚類,使得類內相似度高而類間相似度低,再在這基礎上產生推薦集。施鳳仙[13]等提出了結合項目區分用戶興趣度的協同過濾算法,其主要思想是在計算用戶相似度時對于不同的項目所占的權重不同,因為用戶對于很多大眾流行產品評分很高但不能真正反映用戶的興趣度,
隨著電子商務迅速發展,用戶及商品項都呈現爆炸式增長,同時用戶對商品項的評分又過于稀少,導致數據過分稀疏,對于未來個性化推薦系統發展來說這是個瓶頸。本文總結了大量研究人員提出的改進算法,這些算法在一定程度上能解決數據稀疏性問題。但這一問題一直都存在,因此對該算法如何改進還需要進一步研究探討,下一步的工作可以從以下幾方面進行:
1)建立一套完善的評分激勵制度。這可以從根本上解決數據稀疏性問題,完善的激勵制度可以使得用戶愿意客觀的去給予商品項評分,通過這項制度,可以得到更多準確,可信度高的評分項,從而利于推薦系統產生推薦集;
2)與政府及企業部門共享客戶資料。目前的政府和企業都有一套完善的管理系統,其中包含了很多個人信息,如果可以將這些信息和電子商務網站上的客戶信息整合,那數據稀疏性問題可以得到一定程度的解決;
3)如何將新的評價替代舊的評價。用戶的興趣會隨著時間變化,用戶對于某商品項的評價也會改變,在推薦系統中如何快速有效的用新評價來替代舊評價有待于進一步的研究。
[1]趙亮,胡乃靜,張守志.個性化推薦算法設計[J].計算機研究與發展,2002,39(8):986-990.
[2]Sarwar BM.Sparsity,scalability,and distribution in recommender systems[D].Minneapolis, USA: University of Minnesota,2001.
[3]Park ST,Pennock D,Madani O,et al.Na? ve filterbots for obust cold-start recommendations[A]. In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C]. New York,USA: ACM Press,2006: 699-705.
[4]劉芳先,宋順林.改進的協同過濾推薦算法[J].計算機工程與應用,2011,47(8):72-75.
[5]張丙奇.域知識的個性化推薦算法研究[J].計算機工程,2005,31(21):7-9.
[6]劉勇.基于項目相似度計算改進的協同過濾算法[J].商場現代化,2007,520:84-85.
[7]郁雪,李敏強.一種結合有效降維和K-means聚類的協同過濾推薦模型[J].計算機應用研究,2009,26(10):718-3720.
[8]魯培.一種改進的基于項目聚類的協同過濾推薦算法[J].科技傳播,2011,1 :205-206.
[9]張娜,何建民.基于項目與客戶聚類的協同過濾推薦方法[J].合肥工業大學學報,2007,30(9) : 1160 -1162.
[10]Adomavicius G,Tuzhilin A.Toward t he Next Generation of Recommender Systems: A Survey of the St ate-of-the-art and Possible Extensions[J].IEEE Transaction on K now ledge and Data Engineering, 2005,17(6): 734-749.
[11]裘立波,姜元春,林文龍.基于關聯規則和協同過濾的網絡商品捆綁方法研究[J].計算機與現代化,2009,9:169-172.
[12]傅鶴崗,彭晉. 基于模范用戶的改進協同過濾算法[J].計算機工程,2011,39(3):70-72.
[13]施鳳仙,陳恩紅. 結合項目區分用戶興趣度的協同過濾算法[J].小型微型計算機系統,2012,7(33):1533-1536.