南京工業職業技術學院 陳 敏
一種改進的基于標簽推薦方法
南京工業職業技術學院 陳 敏
大眾分類網絡已允許用戶根據自身喜好自由的加入標簽,因此結合標簽的推薦算法能增加推薦的個性化和準確度,文章將用戶打分分數轉移到標簽上,同時結合用戶興趣易發生轉移的特點,提供更精確的用戶偏好模型,提出一種基于標簽和項目評分的混合推薦算法。實驗結果證明,該算法在命中率、平均排序分和推薦多樣性等方面都獲得更好的表現。
推薦系統;標簽;時間加權
Web2.0的發展讓社會標簽系統得到廣泛應用,用戶在標簽系統中可以隨意添加關鍵詞標注,這使得用戶的個性偏好更加具體化,因此通過標簽進行個性資源推薦將大大提高推薦的精度。基于標簽的推薦系統的關鍵點在于如何利用標簽集為目標用戶建立偏好模型。通常,標簽的使用頻率、詞義特點等作為建立偏好模型的著手點。文獻[1]建立用戶-項目-標簽三維網絡,提出個性化的協同標簽算法。文獻[2]提出了重要性傳遞論,加強了標簽系統中網絡結構的三維關系。文獻[3]利用標簽的關聯規則進行標簽預測。本文提出一種改進的衡量標簽重要性的方法。將基于標簽和項目評分及評分時間進行加權,使得待推薦項目獲得更好的偏好度。
協同過濾算法將用戶對項目的評分都視為平等,沒有先后的區別,并且忽略時間的影響,不利于準確分析用戶偏好。如某用戶在大學時可能喜歡小說,而有了孩子以后更喜歡育兒方面的書。所以很久之前選擇的資源對當前的預測貢獻度不大。用戶對項目的評分和添加過的標簽及時間三者都影響著推薦的準確度,因此,如何有效的利用這三者關系是本文的研究重點。文中所需的數據集有:
1.1 基于標簽和打分偏好度的用戶偏好模型建立
本文將用戶對項目的打分轉移到標簽上,即用戶使用過的標簽都具獲得了一定的偏好度,其值定義為:



1.2 時間加權因子
一個高效的推薦系統需要考慮到時間對推薦結果的影響,本文引入時間衰減因子,改善用戶對項目的偏好度的預測。定義為:

1.3 基于標簽和打分偏好度的用戶偏好模型建立
本文將用戶對項目的評分轉移到項目標簽上,將用戶-項目-標簽的三維結構轉變成用戶-項目的二維結構,同時綜合考慮用戶評分的時間進行加權處理,可以得到改進后的待測項目推薦能力公式:

2.1 數據集
本文算法測試流行的MovieLens數據集。數據集采取5分評分制,并具備添加標簽功能。先對數據集進行精簡,然后分割實驗數據,測試集和訓練集按不同比例劃分,共劃分成9組,進行多次取樣實驗分析結果。
實驗中,將本文提出的改進的基于標簽的推薦算法(AIR),與協同過濾算法(CF)和基于網絡結構的推薦算法(NBI)[4]進行比較分析。
2.2 實驗結果
本文從命中率、平均排序分和多樣性[5]三個指標來分析算法性能。實驗測試推薦列表長度分別取為20、60和100。
(1)命中率
命中率的定義是命中次數與推薦列表長度的比值。結果如表2所示。

表2 典型推薦列表長度下的命中率
由表2中數據對比可以得到,在推薦列表長L=60時,AIHR推薦算法命中率相比CF和NBI推薦算法分別提高了28.57%和35.81%。
(2)平均排序分
用于衡量推薦算法的排序準確度的推薦指標,值越小說明推薦算法的排序準確度越高。平均排序分的測試結果如圖2所示,本文提出的AIR推薦方法在精確度上明顯好于其他幾個方法。

圖2 幾種算法對應的平均排序分比較
(3)多樣性
推薦列表的多樣性可以利用平均海明距離來衡量海明距離的定義為:

由表3不同推薦算法在不同列表長度下的多樣性結果可以看出,在列表長度為20時,AIHR算法的多樣性比CF和NBI兩種算法分別提高了73.52%和14.80%。

表3 不同推薦列表長度下的多樣性
本文的算法目的是將用戶打分及打分時間和添加標簽的行為結合起來,為用戶構建更精確的資源偏好模型。因此,將用戶對項目的評分轉移到項目標簽上,將用戶-項目-標簽的三維結構轉變成用戶-項目的二維結構,同時綜合考慮用戶評分的時間進行加權處理,提出一種改進的基于標簽的推薦方法。實驗結果表明,在準確度、命中率和多樣性方面等評價指標上都有更好的表現,提高推薦算法的精度,改善了用戶興趣改變帶來的推薦準確率的問題。
[1]Zhou T,Ren J,Medo M.,et al.Bipartite network projection and personal recommendation[J].Phys Rev E,2007,76:046-115.
[2]CLAYPOOL M,GOKHALE A,et al.Combining contentbased and collaborative filters in an online newspaper[C].Proceeding of ACM SIGIR Workshop on Recommender Systems,1999.
[3]Cattuto C,Loreto V,Pietronero L.Semiotic dynamics and collaborative tagging[J].PNAS,2007,104(5):1461-1464
[4]Zhang Z K,Liu C,Zhang Y C,Zhou T.Solving the cold-start problem in recommender systems with social tags[J].EPL,2010,92(2):28002.
[5]劉建國,周濤,汪秉宏.個性化推薦系統研究進展[J].自然科學進展,2009,19(1):1-15.