曹秀秀
【摘 要】 協同過濾推薦系統根據近鄰偏好產生相應的推薦,惡意的用戶將設法影響推薦系統的行為,使其無法產生有用的推薦結果。討論了惡意用戶攻擊協同過濾推薦系統的不同方式,評估了近期研究中不同推薦方法的效果,并討論了相應的有關對策。
【關鍵詞】 推薦系統 協同過濾 攻擊 效果評估
隨著互聯網的不斷發(fā)展,海量信息已充滿整個網絡,從而產生了信息過載問題,推薦系統是解決這一問題的有效工具。推薦系統是根據用戶興趣愛好產生推薦結果的智能化軟件,目前已被廣泛應用于諸多領域如電子商務、社交網絡、音樂、書籍、電影和廣告等。其中協同過濾推薦系統是應用最廣泛的。實際情況中,推薦系統的建議可以影響用戶的購買行為,惡意的用戶會設法影響推薦系統的行為使其無法產生有用的推薦結果,這種現象稱之為針對推薦系統的攻擊。本文介紹了推薦系統攻擊的內容,討論了基于社區(qū)協同過濾推薦系統用戶惡意攻擊的不同方式,分析了不同攻擊方式的弱點及相應的對策。
1 引言
協同過濾技術是當前研究推薦系統的一個熱點,它并不需要分析推薦對象的特征屬性。基于社區(qū)協同過濾推薦系統最能涉及到用戶的誠實、公平和友善,因為只有它們才會被操縱的用戶評分集影響。基于內容和基于知識的系統只會受到與系統配置有關的信息的操控,除非需要從公共數據挖掘知識源。所以本文只對基于社區(qū)推薦系統惡意攻擊進行了討論。下面簡單的典型例子概述了插入記錄攻擊的基本思想,其是基于內存協同過濾方法的一個簡化版本,使用皮爾遜系數作為相似度度量方法,近鄰規(guī)模為1。表1為評分矩陣,最后一行為偽造記錄,在沒有該偽造記錄情況下,用戶2是最相似的用戶,該用戶對目標物品的評分2(不喜歡)將被作為針對Alice的預測值。然而,在系統被攻擊的情況下,如表1所示,偽造記錄成為最相似的用戶,這意味著目標物品的較高評分將被作為針對Alice的預測值。
2 攻擊類型
各種攻擊類型之間最大的不同就是攻擊的目的不同,也就是說,目的是要提高目標物品的預測值即推舉攻擊,還是降低其預測值即打壓攻擊[1]。能否高效地攻擊推薦系統也取決于攻擊者對有關評分數據集知識的掌握程度。
2.1 隨機攻擊
隨機攻擊由Lam和Riedl(2004)提出[2]。根據這一方式,插入記錄的所有物品評分會被賦以隨機值,隨機值服從數據庫中所有評分平均值和標準差決定的正態(tài)分布。其直觀思想是,生成的記錄應該包含“常見”的評分,這樣才會被看作許多其他真實記錄的近鄰。
2.2 均值攻擊
均值攻擊比隨機攻擊稍復雜些。在這種方法中,每個物品的平均評分被用來確定插入記錄的評分值,根據這種策略生成的記錄應該有更多的近鄰,因為它考慮了已有評分數據集的更多詳細內容。實驗證明,這種攻擊類型應用在基于內存的用戶-用戶協同過濾系統上的效果更明顯,代價是需要額外的知識來確定評分值[3]。
2.3 造勢攻擊
造勢攻擊利用了領域內評分數據庫的其他外部知識,目的是提高插入記錄擁有更多近鄰的機會。其攻擊的思想是除了對目標物品的高評分或低評分之外,讓插入記錄只包含非常熱門物品的高評分[4]。這樣更有可能找到許多有類似主流選擇的近鄰。其典型例子是將一條對《哈利·波特》叢書高度評價的記錄(2007)插入到圖書推薦系統中。這種攻擊類型代價較低,可以很容易確定熱銷物品集合或當前的熱門大片。
2.4 局部攻擊
局部攻擊由Mobasher(2005)提出,只針對單個細分市場的促銷活動會更加有效[5]。當設計推舉攻擊物品A時,主要的問題是識別出對與物品A相似的物品感興趣的用戶群體。局部攻擊會被專門設計用來誤導基于物品的協同過濾方法,總的來說,這種類型攻擊隊基于用戶的協同過濾方法也有效。
3 效果評估
推舉攻擊。基于用戶的協同推薦系統情況下,通過在MovieLens數據集上評估各種攻擊的結果可以看出,均值攻擊和造勢攻擊都能顯著誤導推薦系統的輸出結果[6]。攻擊規(guī)模也是影響攻擊效果的一個因素。均值攻擊效果好一些,但它比造勢攻擊需要更多有關平均物品評分的知識 。基于模型協同的推薦系統情況下,采用相同的操作記錄集合攻擊標準的算法時,實驗證明這類算法遠遠比基于用戶的算法更穩(wěn)定。采用相同的數據集時,觀察到的預測值變化只有0.15分,而且還是在15%的數據項被偽造的情況下。
打壓攻擊。Mobasher et al.(2007)[7]得出的另一個觀察結論是,大多數攻擊類型在抬舉物品時很有效,但用于打壓物品時影響卻很小。專門設計的打壓攻擊方法卻很有效。同樣,造勢攻擊在打壓物品時比其他方法更有效,但當目標是要抬高物品時效果就不明顯。雖然能夠觀察到某些預測值上的變化,但基于物品的方法抵御攻擊的表現還是更為有效。
4 對策
4.1 提高插入成本
讓自動插入變得更加困難是一種直接的防御措施。防止自動生成賬號的 標準方法包括使用Captcha(Von Ahn et al.2003)。Captcha是“區(qū)分計算機還是人類的完全自動的公開圖靈測試”的縮寫,是一種詢問-響應測試,目的是找出系統用戶究竟是計算機還是人。
4.2 利用基于模型的技術和額外的信息
選擇能夠對插入記錄攻擊更為魯棒的推薦技術可能是一種防御的方法。此外,要注意盡量采用那種非依賴評分信息的推薦系統,因為評分會在偽造記錄的幫助下被操縱。Massa和Avesani(2007)提出推薦系統也可以利用群體中不同參與者之間的信任信息[8]。
4.3 自動探測攻擊
自動探測攻擊的目標是自動探測出評分數據庫中的可疑記錄。Su等(2005)提出一種方法能夠識別群托攻擊,這種攻擊指的是系統中的多個用戶聯合起來抬高或打壓某個物品[9]。Zhang等(2006)采用了不同的方法,思想是每種攻擊類型都會隨著時間推移影響某些物品評分值的分布,建議檢測一段時間某些物品的評分值來探測異常并特別構造和分析了以下兩個屬性的時間序列:樣本均值,描述物品隨時間變化的可能性;樣本熵,表明物品評分值分布的變化[10]。endprint
5 結語
推薦系統可以通過互聯網訪問,是一種基于私人用戶數據的智能化應用軟件。因此會成為惡意用戶的攻擊對象,尤其是在基于社區(qū)協同推薦系統的情況下。因為在很多情況下可以從中獲得金錢利益,比如操縱推薦系統的推薦結果或者獲取有價值客戶數據的訪問權限。針對不同的攻擊類型制定相應的防御辦法是值得關注的問題,未來的研究需要業(yè)界的廣泛合作,對研究成果的合理性進行驗證,從而提高推薦系統的可靠性和安全性。
參考文獻:
[1]Dietmar Jannach,Markus Zanker,Alexander Felfernig and Gerhard Friedrich.Recommender System [M].2013.
[2]K.Lam and J.Riedl,Shilling recommender systems for fun and profit,Proceedings of the 13th International Conference on World Wide Web,ACM,2004,pp.393-402.
[3]張富國,徐升華.推薦系統安全問題及技術研究綜述.計算機應用研究,2008,25:656-659.
[4]伍之昂,王有權,曹杰.推薦系統托攻擊模型與檢測技術[J].科學通報,2014.551-560.
[5]Mobasher,R.Bhamik,and C.Williams,Effective attack models for shilling item-based collaborative filtering systems,Proceedings of the 2005 WebKDD Workshop,ACM,2005,pp.13-23.
[6]伍之昂,莊毅,王有權,等.基于特征選擇的推薦系統托攻擊檢測算法.電子學報,2012,40:1687-1693.
[7]Mobasher,R.Bhamik,and C.Williams,Toward trustworthy recommender systems:An analysis of attack models and algorithm robustness,ACM Transactions on Internet Techonoldy 7 (2007),no.4,23.
[8]Massa and P.Avesani,Trust-aware recommender systems. Proceedings of the 2007 ACM Conference on Recommender Systems(RecSys07) (Minneapolis,MN),ACM,2007,pp.12-24.
[9]X.F.Su,H.-J.Zeng,and Z.Chen,Finding group shilling in recommendation system,Special Interest Tracks anf Posters of the 14th International Conference on World Wide Web(WWW05)(Chiba,Japan),ACM.2005.pp.960-961.
[10]Zhang,A.Chakrabarti,J.Ford and F.Makedon,Attack detection in time series for recommender systems,Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD06) (Philadelphia),ACM,2006,pp.809-814.endprint