鄭 茹
(山西大學,太原 030006)
在互聯網及相關技術迅猛發展的時代,越來越多的網民在進行網購的同時也積極推動著電子商務化的進程。但對普通客戶而言,在享受網購的同時,對接觸到的海量信息也感到迷茫,如淘寶網上數千萬以上的各類商品。面對如此多的信息,傳統的搜索方式已經無法幫助客戶快速定位感興趣的商品,而個性化推薦就是為解決網上信息過載問題而提出的一種智能代理系統。它能根據客戶的興趣特點和購買行為,向客戶推薦其感興趣的信息和商品,目的是增加商品的交叉銷售,提高企業銷售額;能夠增強客戶購買興趣,構建客戶的忠誠度,提高客戶對網站的訪問頻率和依賴程度[1]。現在的網站運用多種技術向客戶推薦產品,已給電商領域帶來了巨大利潤,但在數據挖掘過程中仍存在不少問題,推薦效果仍待提高。在各種方法的研究中,協同過濾和基于內容的推薦是運用最為廣泛的兩種推薦方法。但現今的研究過程中存在未考慮用戶隨時間變化興趣變化問題及推薦產品陳舊問題,本文將提出新的推薦方法加以解決。
最早研究起源于明尼蘇達大學的研究小組對一個電影推薦系統的研究。該研究設計系統讓用戶對自己喜歡的電影評分,然后通過分析用戶的評分預測用戶的興趣,給用戶推薦他們沒有評分但可能會喜歡的電影。1995年美國人工智能協會上,CMU的Robert等人提出了個性化導航系統,同期Marko等人推出LIRA,不久Henry在國際人工智能聯合大會上提出個性化導航智能體。這三個經典的系統標志了個性化推薦服務的開始。而21世紀初亞馬遜等電商網站的迅速崛起使個性化推薦系統逐步發展起來。我國是從2000年正式開始此項研究的,雖然起步較晚,但也取得了一定的成果,如路海明等提出的“基于多agent混合智能實現個性化推薦”、陳國青等人提出的ELCM等。
推薦對象隨應用領域的不同而不同。目前推薦系統算法有許多,有學者將其分為被動式和主動式推薦。被動式推薦有分類瀏覽式和關鍵詞查詢式。主動式推薦有基于內容、協同過濾、混合等推薦。隨著數據量的不斷增加,對數據挖掘要求也不斷提高,許多學者結合計算機領域知識對推薦方法進行改進,也提出了基于圖的推薦、基于矩陣分解的推薦等。現今研究最常用的是基于內容推薦和協同過濾,本文也是基于此二者推薦的改進。
基于內容推薦的基本思想:利用信息與用戶興趣相似性來過濾信息。簡單說就是為用戶推薦和該用戶之前喜歡的項目在內容上相似的其他項目。基于內容的推薦算法需要首先提取項目的內容特征,并把提取的內容特征與用戶模型中的用戶興趣愛好進行匹配,最后把匹配度較高的項目推薦給用戶[2]。一般用向量空間模型,該模型先抽取描述項目的關鍵詞,后利用TF-IDF計算關鍵詞權重。此技術運用時可以脫機進行,所以響應時間短。缺點是對項目內容的依賴性過高,難區分商品品質和風格,缺乏新穎性。
協同過濾的基本思路:首先找到與此客戶有相似興趣的其他客戶,然后將他們感興趣的商品內容給此客戶進行推薦。其分為基于用戶的協同過濾和基于項目的協同過濾。基于用戶的協同過濾假設,一個用戶會喜歡和他有相似興趣愛好的用戶喜歡的項目。推薦過程:用戶c,系統通過其歷史記錄如:瀏覽行為、評分記錄等。利用函數為用戶c尋找n個最相似的用戶作為他的最近鄰居集,且將c的n個最近鄰居感興趣而c未表現出興趣的項目列為候選推薦集,推薦系統用算法計算為c推薦的候選集中項目的推薦度或評分,選取推薦度排序最高的N個項目為對c的推薦集。而基于項目的協同過濾推薦算法,其主要思想是通過“用戶一項目”矩陣來識別不同項目之間的關聯,利用這一關聯計算用戶對特定項目的評分從而產生推薦集。該算法比較好地解決了傳統協同過濾算法的可擴展性問題。
傳統的推薦研究忽略以下幾個問題的存在:(1)用戶-項目矩陣稀疏問題。(2)用戶興趣隨時間的變化而變化的情況。(3)項目內容陳舊問題。為解決以上三個問題,本文從以下幾個方面入手:(1)用戶—項目稀疏導致的推薦精度問題可以通過用戶聚類改善。(2)用戶興趣的改變可以在傳統協同過濾方法中引入非線性遺忘函數,將用戶對項目屬性的興趣度通過函數形式表示出來。(3)以往的推薦中不考慮項目內容問題,會使推薦內容陳舊,新穎性不大,所以,可以引入產品生命周期的計算方式,對已進入衰退期的產品進行剔除,不僅可以緩解U-I矩陣稀疏帶來的問題還能提高推薦新穎性。
本文提出考慮時間因素的推薦方法,具體推薦步驟如下:Step1-建立用戶興趣模型:首先構建用戶—評分矩陣、商品—屬性矩陣,通過在計算中加入非線性遺忘函數得到考慮時間因素的用戶-商品屬性評分矩陣。Step2—通過person相關系數計算出用戶間相似性,運用社區劃分法劃分用戶社區,形成帶有社區性質的用戶關系網。Step3—通過產品生命周期計算方式對已進入衰退期的產品進行剔除。Step4—在每個社區內通過評分預測算法為每位用戶形成項目推薦集。Step5—向用戶推薦排在推薦集前10位的產品。
伴隨推薦系統的產生,推薦系統衡量指標也隨之產生。通常,定性描述的指標需要對用戶調查才能獲得,主要方式是調查問卷。定量實驗預測準確度,計算指標通過離線實驗獲得。根據推薦目的,推薦算法為用戶估計特定項目的評分,或為用戶產生一個推薦項目列表。前者常采用平均絕對誤差、均方根誤差評價估計的準確性,后者多采用信息檢索領域常用的查全率和查準率評價推薦列表的準確性。而一些推薦系統也會通過評分預測、Top-K推薦、覆蓋率等評價推薦系統發覺長尾能力。我們可以運用以上指標來衡量本文提出的新方法。
參考文獻:
[1]姜有輝,高琳琦.電子商場中的個性化推薦研究與應用[J].商場現代化,2006,(6):121-122.
[2]楊博,趙鵬飛.推薦算法綜述[J].山西大學學報,2011,(6):337-350.