張龍飛

摘 要:該文在國內外推薦算法研究基礎上,基于用戶的訪問web記錄與服務使用記錄,采用OB-Mine算法提取用戶頻繁訪問路徑,利用改進的PrefixSpan算法篩選具有相似偏好的用戶簇,利用改進的CF算法進行個性化服務推薦,有效克服了數據高維性和稀疏性,最后實例驗證了該推薦算法性能優于傳統的CF算法。
關鍵詞:相似度計算 服務推薦 個性化推薦
中圖分類號:TP3;D630 文獻標識碼:A 文章編號:1672-3791(2016)03(c)-0159-02
現有服務推薦技術并不成熟,面對海量重復的Web服務,用戶難以識別并且尋找到所需的服務,因此提高服務推薦質量已成為Web服務體系的迫切需求。服務推薦的研究焦點是新推薦算法的探索和新推薦模型的發現。Dell'Amico和Capra[1]定義了以社會導向和品味相似為特征的用戶可信性標準,提出了一種新的信息過濾方法。Vallet等[2]利用社區隱性用戶信息,提出了一種基于圖的交互式視頻檢索系統,有效增強了視頻檢索能力。
該文以web日志中的用戶瀏覽行為與服務使用記錄為依據,利用OB-Mine算法[3]提取用戶頻繁訪問路徑;然后,利用改進的PrefixSpan算法[4]篩選具有相似用戶偏好的用戶簇;最后,使用改進的CF算法,對目標用戶做出推薦。該文以“××中小企業網”的相關數據,實證表明該推薦算法優于傳統的CF算法。
1 服務推薦算法分析
1.1 提取用戶頻繁訪問路徑
利用OB-Mine算法對預處理數據集挖掘代表用戶興偏好的用戶頻繁訪問路徑。
1.2 篩選相似偏好的用戶簇
利用改進的PrefixSpan算法[5]尋找用戶偏好,篩選出具有相似偏好的用戶簇。
1.3 服務推薦
1.3.1 建立用戶-服務類評分矩陣
設用戶評分Rij,按照瀏覽或者使用某種服務的次數計算用戶評分。
1.3.2 尋找最近相似鄰居集
相似性的計算方法主要有余弦相似度、Pearson相似度和修正的余弦相似度。
1.3.3 生成推薦結果
計算目標用戶對未評分服務項的預測評分,并且設定閾值r,推薦用戶r值以上的服務類。
2 實證分析
以“××中小企業網”為研究對象,根據該網站web日志文件,計算推薦結果。
2.1 提取用戶頻繁訪問路徑
2.1.1 數據預處理
對web日志中的用戶訪問行為數據進行預處理,獲取用戶訪問路徑。
2.1.2 提取用戶頻繁訪問路徑
利用OB-Mine算法對用戶的多條訪問路徑進行聚類,生成每個用戶的頻繁訪問路徑。
2.2 篩選具有相似用戶偏好的用戶簇
利用改進PrefixSpan算法篩選具有相同或者相似用戶偏好的用戶簇,如表1所示。
2.3 用戶個性化推薦
2.3.1 建立用戶-服務評分矩陣
通過訪問頻次與使用服務頻次計算用戶對服務的評分。
2.3.2 確定最近相似鄰居集
設定鄰居集容量為N,選取與目標用戶相似度最高的N個用戶形成最近相似鄰居集。
2.3.3 生成推薦結果
計算目標用戶對未評價服務預計評分值,設定好閾值m,對目標用戶推薦評分高于閾值的服務項目。對目標用戶的推薦結果如表2。
3 實證結果分析
3.1 評價標準
MAE的值越小,表明算法的評分預測越準確,推薦質量越高。
3.2 實證結果分析
實驗中設步長間隔為5,鄰居集容量大小分別取5,10,15,20,25,30,35,40,使用該文改進的CF算法與傳統的CF算法作對比,其服務推薦質量比較如圖1所示。
從圖中可以看到:(1)在鄰居集容量大小發生變化時,該算法下MAE值均小于傳統的CF算法,說明該推薦算法具有較好的推薦質量;(2)與傳統的CF算法相比,改進的CF算法下MAE值隨著鄰居集容量的增加迅速減小并趨于穩定,說明改進的CF算法性能優于傳統的CF算法,計算效率更高,有效緩解了由冷啟動引起的數據高維性和數據稀疏性等問題;(3)兩種算法下,MAE值隨著鄰居集容量增加而減小,當鄰居集容量增大到一定數值時,MAE值趨于穩定時,但是CF算法下的趨于穩定的MAE值要小于傳統的CF算法,說明改進的CF算法計算精度優于傳統的CF算法。
4 結語
該文通過提取用戶頻繁訪問路徑,篩選相似偏好的用戶簇和個性化服務推薦,克服了單一推薦算法的不足,克服了數據高維性和稀疏性,提高了計算效率與計算精度。
參考文獻
[1] Dell'Amico M,Capra L.Dependable filtering:Philosophy and realizations [J].ACM Transactions on Information Systems(TOIS),2010,29(1):364-371.
[2] Vallet D, Hopfgartner F, Jose J M, et al. Effects of usage-based feedback on video retrieval: a simulation-based study [J].ACM Transactions on Information Systems (TOIS),2011,29(2):219-230.
[3] 曹忠升,唐曙光,楊良聰.Web-Logs中連續頻繁訪問路徑的快速挖掘算法[J].計算機應用,2006(1):216-219.
[4] 姬浩博,王俊紅.一種改進的PrefixSpan算法及其在Web用戶行為模式挖掘中的應用[J].計算機科學,2016(1):25-29.
[5] 業寧,李威,梁作鵬,等.一種Web用戶行為聚類算法[J].小型微型計算機系統,2004,25(7):1364-1367.
[6] 王海艷,楊文彬,王隨昌,等.基于可信聯盟的服務推薦方法[J].計算機學報,2014(2):301-311.