推薦系統(tǒng)安全問題及技術(shù)研究綜述

2008-01-01 00:00:00張富國徐升華

計算機應(yīng)用研究 2008年3期

摘要：從托（shilling）攻擊的分類、攻擊模型、影響程度評價、檢測和防御等幾個方面進行系統(tǒng)評述，著重分析了托攻擊所面臨的關(guān)鍵議題。最后指出了推薦系統(tǒng)托攻擊的研究難點和研究方向。

關(guān)鍵詞：推薦系統(tǒng)；安全；托攻擊；檢測；防御

中圖分類號：TP391文獻標(biāo)志碼：A

文章編號：1001－3695(2008)03－0656－04

推薦系統(tǒng)的出現(xiàn)為用戶提供了一個解決信息過載問題的強大工具，許多電子商務(wù)網(wǎng)站已經(jīng)充分領(lǐng)略到了推薦系統(tǒng)帶來的好處。但推薦也正面臨著嚴(yán)峻的安全問題。生產(chǎn)商為了使自己生產(chǎn)的商品能夠暢銷，總是希望推薦系統(tǒng)頻繁推薦自己的商品，而減少或不推薦競爭對手的產(chǎn)品。某些不良生產(chǎn)商為了達(dá)到這個目的，不是想辦法提高自己產(chǎn)品的質(zhì)量，而是采取欺騙手法來提高推薦系統(tǒng)推薦自己產(chǎn)品的頻率。例如2001年6月Sony Pictures公司承認(rèn)利用偽造電影評論家評論的手法向客戶推薦許多新發(fā)行的電影[1]；2002年，Amazon公司接到投訴后發(fā)現(xiàn)網(wǎng)站在推薦一本基督教方面的名著時還會一起推薦一本性方面的書籍，經(jīng)過調(diào)查發(fā)現(xiàn)，并不是大多數(shù)顧客一起購買了這兩本書，相反地，是不良人員使用欺騙手段導(dǎo)致的推薦結(jié)果[2]。

由于Web站點的開放性和推薦算法的用戶參與性，推薦系統(tǒng)易受到攻擊。隨著電子商務(wù)競爭的日趨激烈，推薦系統(tǒng)的安全性也會越顯重要。最近幾年，國外不少研究學(xué)者已從致力于對推薦算法的研究轉(zhuǎn)向?qū)ν扑]系統(tǒng)安全性的研究，但國內(nèi)還未見有此類文獻介紹。本文主要分析和探討推薦系統(tǒng)的托攻擊安全問題以及可能的應(yīng)對措施。推薦系統(tǒng)Web服務(wù)器所面臨的中間人攻擊、DoS攻擊和黑客攻擊等安全共性問題，因為與一般的Web站點沒有什么區(qū)別，不在本文的討論之列。

1托攻擊安全問題

1．1協(xié)同過濾推薦算法

推薦系統(tǒng)在預(yù)測某個用戶對未評分商品的評分基礎(chǔ)上，把預(yù)測評分值最高的多項商品作為該用戶的推薦列表。協(xié)同過濾算法被認(rèn)為是目前個性化推薦系統(tǒng)最成功、最有前途的推薦算法[3]。最常用的協(xié)同過濾算法是基于鄰居用戶（userbased）的協(xié)同過濾算法[4~6]和基于項目(itembased)的協(xié)同過濾算法[7]。

基于鄰居用戶的協(xié)同過濾算法關(guān)鍵是為一個需要推薦服務(wù)的目標(biāo)用戶尋找最相似的最近鄰居集(nearestneighbor)，即對一個用戶a，要產(chǎn)生一個根據(jù)相似度大小排列的鄰居集合N={N1，N2，…，Ns}，a不屬于N，以N1~NS相似度從大到小排列；然后根據(jù)這些鄰居的意見推測用戶對目標(biāo)商品感興趣程度。

基于項目的協(xié)同過濾算法的基本思想是根據(jù)目標(biāo)用戶已經(jīng)評價過的項目與目標(biāo)項目i的相似性，選擇k個最相似的項目{i1，i2， …，ik}，同時得到對應(yīng)的相似度{si1，si2，…，sik}；然后將目標(biāo)用戶對這k個最相似的項目評分及以這k個最相似的項目與目標(biāo)項目的相似度加權(quán)平均值作為對目標(biāo)項目的評分。

1．2托攻擊定義和相關(guān)概念

用戶概貌(user profile)是指推薦系統(tǒng)中用于記錄用戶喜好及興趣的個人數(shù)據(jù)[8]。由于推薦系統(tǒng)是基于相似用戶或相似商品來產(chǎn)生推薦列表的，惡意用戶可以通過向推薦系統(tǒng)注入編造的用戶概貌信息來改變推薦結(jié)果。這種注入編造的概貌信息的方法稱為托攻擊。

1）攻擊的目的如果托攻擊的目的是提高目標(biāo)項目的推薦頻率，則稱為推攻擊（push attack）；如果托攻擊的目的是減少目標(biāo)項目的推薦頻率，則稱為核攻擊（nuke attack）[9]。表1是一個基于鄰居用戶的協(xié)同推薦系統(tǒng)遭受推攻擊的示例，攻擊的目的是為了提高item6的預(yù)測評分值。在沒有注入編造的attack1~3概貌之前，與Alice最相似的用戶是user3，但user3對item6的評分值為0分；在注入attack1~3之后，與Alice最相似的用戶變成了attack1。由于attack1~3對item6的評分值均為最高分1，系統(tǒng)計算得到的Alice對item6的預(yù)測評分值大為提高[10]。另外一個可能的托攻擊目的就是為了擾亂整個推薦系統(tǒng)的推薦準(zhǔn)確性，從而使顧客喪失對系統(tǒng)的信任，最終停止使用該推薦系統(tǒng)。

2)攻擊所需知識在進行托攻擊前，需要一定程度地知道被攻擊推薦系統(tǒng)的相關(guān)知識，如項目信息、用戶信息、評分信息和使用的推薦算法等知識。一般來說，對推薦系統(tǒng)的進一步了解，如評分的稀疏性、評分的分布情況以及推薦算法的參數(shù)等信息有助于選擇使用哪類攻擊算法、攻擊算法的參數(shù)調(diào)整以及減少被檢測出來的可能性。

3）攻擊的成本包括知識成本和執(zhí)行成本[11]。知識成本是指獲取進行攻擊所需的推薦系統(tǒng)及其用戶的相關(guān)信息。攻擊所需的相關(guān)信息越多說明攻擊所需的成本越高。執(zhí)行成本是指為了提交攻擊所需的概貌信息，與系統(tǒng)進行交互所付出的努力。只需要輸入少量概貌的攻擊比需要輸入大量概貌的攻擊更具可操作性，也更難以被察覺和防御。

1．3攻擊模型

攻擊模型是指在推薦系統(tǒng)及其數(shù)據(jù)庫、產(chǎn)品和用戶等相關(guān)知識基礎(chǔ)上構(gòu)建攻擊概貌的方法[11]。一個攻擊概貌是m維的向量。其中m是推薦系統(tǒng)的項目數(shù)。圖1是一個攻擊概貌的一般形式。一個概貌分成裝填項目、未評分項目和目標(biāo)項目三個部分，其中未評分項目是指不填評分值的項目。設(shè)推薦系統(tǒng)的最高評分值是Rmax，最低評分值是Rmin，則目標(biāo)項評分預(yù)定值Rm在推攻擊時為最高分Rmax，而核攻擊時為最低分Rmin。

目前主要的攻擊模型有以下幾種：

a）隨機攻擊（random attack）[9，12，13]。這種模型的攻擊概貌如圖1所示。目標(biāo)項賦予預(yù)定值，而裝填項目則賦予圍繞所有項目評分均值在評分范圍內(nèi)的隨機值。雖然攻擊者不知道評分的分布情況，但他可以相對容易地估計這個值，如可以通過觀察其他用戶評分，或得到一個評分的樣本等。這種攻擊所需知識少，但由于攻擊時需要裝填的項目l比較大，它的執(zhí)行成本高。實驗證明這種攻擊效率較低。

b）均值攻擊（average attack）[9，12，13]。這種模型要求攻擊者知道每個項目的評分平均值，很多推薦系統(tǒng)都樂于告訴用戶這個信息。另外，攻擊者還有可能從其他渠道得知這些聚集數(shù)據(jù)，如有些網(wǎng)站或評論會經(jīng)常公布某個電影的平均評分。均值攻擊與隨機攻擊模型在攻擊概貌上的區(qū)別是前者的各裝填項評分值為各個項目的平均值；其他都一樣。從攻擊的效果來看，均值攻擊模型對基于鄰居用戶的協(xié)同過濾算法比較有效，而對基于項目的協(xié)同過濾算法效果則較差。

c）流行攻擊（bandwagon attack）[14]。它的基本思想是根據(jù)齊普夫定律（Zip’s law），即少數(shù)項目可以吸引大多數(shù)人的注意。在推薦系統(tǒng)里，攻擊者選擇那些流行的或暢銷的占全部項目少部分的項目作為攻擊概貌的選擇項目，將它們賦予最高分，并把目標(biāo)攻擊項目賦予預(yù)定值。這樣就有很大可能性與許多用戶相似，以達(dá)到推攻擊或核攻擊的目的。圖2是對流行攻擊模型的描述。把裝填項目分成選擇裝填和未選擇裝填兩個部分。其中，選擇裝填項目就是那些流行的項目，它們均被賦予最高分；未選擇裝填項目是那些非流行的裝填項目，它們按照隨機攻擊模型中的裝填項目一樣安排評分。目標(biāo)項目按照攻擊目的，設(shè)置最高分（推攻擊）和最低分（核攻擊）。

d）細(xì)分攻擊（segment attack）[13]。前面提到的三種模型由于不是針對某類用戶的，在推攻擊時很可能出現(xiàn)推薦的目標(biāo)項目對某些用戶而言，根本不可能購買的情形。細(xì)分攻擊模型的目標(biāo)是針對特定用戶群推薦目標(biāo)項目。例如，某個作家寫了一本兒童讀物，他希望能夠把他的書推薦給那些喜歡看兒童讀物的用戶，像《哈利·波特》的購買者之類，而不是《C++》或《摩托車修理》的購買者。細(xì)分攻擊模型的概貌也可以用圖2來說明。攻擊者首先要知道哪些項目既與他的攻擊目標(biāo)項同類又比較受歡迎，把這些項目作為選擇裝填項目，賦予最高分；目標(biāo)項目賦予預(yù)定值；非選擇裝填項目則賦予最低分。細(xì)分攻擊對基于項目的協(xié)同過濾算法比較有效。

2托攻擊對推薦結(jié)果影響的評價

傳統(tǒng)的推薦系統(tǒng)評價方法，如mean average error（MAE）[15，25]，能較好地反映系統(tǒng)推薦算法的準(zhǔn)確性，但文

獻[9]的實驗結(jié)果顯示攻擊前后MAE的變化很小，不能有效反映攻擊的影響程度。所以從推薦系統(tǒng)的安全來評價應(yīng)更關(guān)注于系統(tǒng)在攻擊前后的性能變化。對于攻擊影響的評價可以分為預(yù)測值變化和推薦列表變化兩種方法。

1）預(yù)測值變化度量（predShift）

文獻[16，17]提出了用魯棒性和穩(wěn)定性來度量推薦系統(tǒng)的安全性。魯棒性是通過比較攻擊前后推薦系統(tǒng)的性能變化來整體反映攻擊對系統(tǒng)的影響程度；穩(wěn)定性則是查看受攻擊目標(biāo)項目在攻擊前后的預(yù)測值變化。

單個項目的平均預(yù)測值變化（average prediction shift）定義如下[18]：

其中：I為項目集合。

2）推薦列表變化度量

由于攻擊者的目的是改變推薦系統(tǒng)的推薦列表內(nèi)容，但相同的預(yù)測變化值對推薦結(jié)果的影響卻不一定相同，僅僅考慮預(yù)測評分值變化是不夠的。例如在評分為1~5的情況下，預(yù)測值從2變到3與從4變到5對推薦結(jié)果的影響是不一樣的。一般來說，3分的預(yù)測值很難讓目標(biāo)項目出現(xiàn)在推薦列表，5分則不然。所以，從推薦列表的變化來評價攻擊的效果會更加準(zhǔn)確。

文獻[9]提出了用ExpTopN（expected topN occupancy）來作為度量指標(biāo)。expTopN表示目標(biāo)項目集在前N推薦列表中的出現(xiàn)個數(shù)，用攻擊前后expTopN值的變化百分比來體現(xiàn)攻擊對推薦列表的影響，定義為

ΔexpTopN=(expTopN′-expTopN)/expTopN×100%(3)

其中：expTopN′表示攻擊后的expTopN值；expTopN表示攻擊前的expTopN。

式（3）要求攻擊前的expTopN不等于0，也就是在用expTopN指標(biāo)度量攻擊影響程度時，一定要保證在攻擊前就有目標(biāo)項目集的一部分出現(xiàn)在推薦列表中。如果評價時，目標(biāo)項目在攻擊前都不出現(xiàn)在推薦列表中，文獻[18]提出用命中率（hitRatio）來作為評價指標(biāo)。項目命中率定義為

hitRatioi=(u∈UHu，i)/|U|(4)

其中：Hu，i為項目i對用戶u推薦列表的命中值。Hu，i=1表示項目i屬于用戶u的推薦列表；Hu，i=0則相反。在項目命中率的基礎(chǔ)上，定義項目平均命中率為

hitRatio=(i∈IhitRatioi)/|I|(5)

3攻擊的檢測與防御

對于托攻擊的檢測和防御，大都是建立在目前已知的攻擊模型之上。隨著時間的推移，新的攻擊模型還會出現(xiàn)，所以構(gòu)建適應(yīng)性良好的檢測和防御方法是研究的重點也是難點。

3．1攻擊的檢測

文獻[18，19]基于攻擊概貌和真實用戶的概貌具有不同的統(tǒng)計特性這個假設(shè)，分別定義多個新的度量方法來檢測隨機攻擊和細(xì)分攻擊。文獻[20]通過計算低維模型下每個概貌的概率來檢測隨機攻擊，那些概率異常低的概貌被認(rèn)為是攻擊概貌。文獻[21]基于任何攻擊模型都會導(dǎo)致目標(biāo)項目的評分分布的改變，推攻擊時呈現(xiàn)高評分，核攻擊時則呈現(xiàn)低評分的思想，把目標(biāo)項目評分用時間序列方法劃分成若干個樣本。比較這些樣本的樣本均值和樣本熵，把其中的異常點作為攻擊概貌所在序列。這種方法比之前提到的幾種檢測方法更具適應(yīng)性，但它假定攻擊是在短期內(nèi)完成的。一般可用檢測率和誤報率來評價檢測方法的優(yōu)劣，定義如下：

檢測率=檢測出的攻擊事件次數(shù)/總攻擊事件次數(shù)

誤報率=正常概貌被誤檢為攻擊概貌的數(shù)值/正常概貌的數(shù)值

3．2攻擊的防御

攻擊的防御一方面致力于提高攻擊的成本，更重要的是要尋求抗攻擊能力強的推薦算法。

提高攻擊的成本也就是提高攻擊的執(zhí)行成本和知識成本。為了防御托攻擊，推薦系統(tǒng)可以采取控制輸入概貌信息速度的措施，如目前流行的在數(shù)據(jù)輸入界面上添加驗證碼的方法，可以防止攻擊者利用自動化手段快速地輸入概貌信息，以提高其執(zhí)行成本。在提高知識成本方面要適當(dāng)加強推薦系統(tǒng)算法、評分的稀疏性、分布情況等知識的保密，增加獲取知識的難度。

在推薦算法研究方面，既要保證推薦系統(tǒng)的準(zhǔn)確性、伸縮性等系統(tǒng)性能，又要努力尋求算法的強抗攻擊能力。文獻[20，22]的實驗結(jié)果都顯示基于模型的潛在語義檢索算法比基于內(nèi)存的算法[23]有更好的抗攻擊能力。目前，對于信任管理的研究逐漸趨熱，文獻[24]分析了信任和用戶相似性之間的關(guān)系；文獻[26，27]則提出了結(jié)合信任的推薦算法，并用實驗驗證了它們的準(zhǔn)確性要高于傳統(tǒng)的推薦算法。

4結(jié)束語

推薦系統(tǒng)安全問題作為一個新問題，是最近兩年由于電子商務(wù)的迅猛發(fā)展才引起國外研究學(xué)者的廣泛關(guān)注。雖然目前已取得了一定的成果，但仍有很多問題需要研究，如推薦算法是否能夠抵御新的攻擊模型問題；如果推薦系統(tǒng)受到攻擊，系統(tǒng)應(yīng)該如何應(yīng)對問題；推薦系統(tǒng)的用戶是否能參與到阻止或檢測托攻擊問題等。未來推薦系統(tǒng)托攻擊安全問題的研究有以下方向和熱點：

a）現(xiàn)有推薦算法的托攻擊防御能力比較分析。目前此類研究還主要集中在基于內(nèi)存的推薦算法和基于模型的推薦算法，尚未分析結(jié)合協(xié)同推薦和內(nèi)容推薦的組合推薦等算法的性能。

b）對推薦算法的進一步改進。在改進推薦算法時，要考慮不能僅局限于目前所發(fā)現(xiàn)的幾類攻擊。把信任模型引入到推薦過程將成為研究的一個熱點。一種好的思路是在保持個性化的基礎(chǔ)上進一步探索將信任和信譽機制融入推薦過程的新算法。

c）托攻擊檢測工具的開發(fā)。對于托攻擊入侵，一方面要提高系統(tǒng)的防御性能；另一方面還需要檢測工具的幫助。評判檢測工具優(yōu)劣除了檢測率、誤警率這兩項指標(biāo)之外，還要考慮檢測的速度。

d）研究用戶在托攻擊防御中的作用。主要研究問題包括用戶在托攻擊中能起什么樣的作用，如何有效發(fā)揮他們的作用以及如何處理系統(tǒng)安全與用戶隱私保護的關(guān)系問題[28]。

e）新項目的保護。新項目由于用戶的評分少，攻擊者可以用較低的攻擊成本來達(dá)到自己的目的，檢測和防御也會更加困難。如何保護新項目也是研究的一個難點。

參考文獻：

［1］Sony admits using fake reviewer[EB/OL].[20061112].http://newsvote.bbc.co.uk/2/hi/entertainment/1368666.stm.

[2]OLSEN S.Amazon blushes over sex link gaffe[EB/OL].[20061115].http://news.com.com/21001023 976435.html.

[3]ADOMAVICIUS G，TUZHILIN A.Toward the next generation of recommender systems: a survey of the state of the art and possible extensions[J].IEEE Trans on Knowledge and Data Engineering，2005，17(6):734－749.

[4]RESNICK P，IACOVOU N，SUSHAK M，et al.GroupLens:an open architecture for collaborative filtering of netnews[C]//Proc of ACM Conference on Computer Supported Cooperative Work.New York:ACM Press， 1994:175－186.

[5]GOOD N，SCHAFER B，KONSTAN J，et al.Combining collaborative filtering with personal agents for better recommendations[C]//Proc of the 16th Conference of the American Association of Artificial Intelligence.Orlando，F(xiàn)L:AAAI Press， 1999:439－446.

[6]HERLOCKER J，KONSTAN J，BORCHERS A，et al.An algorithmic framework for performing collaborative filtering[C]//Proc of the 22th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press，1999:230－237.

[7]SARWAR B，KARYPIS G，KONSTAN J，et al.Itembased collaborative filtering recommendation algorithms[C]//Proc of the 10th International World Wide Web Conference.New York:ACM Press，2001:285－295.

[8]LI Q，KIM B M.Constructing user profiles for collaborative recommender system[C]//Proc of the 6th Asia Pacific Web Conference.Berlin：Springer， 2004:100－110.

[9]LAM S K，RIEDL J.Shilling recommender systems for fun and profit[C]//Proc of the 13th International Conference on World Wide Web.New York:ACM Press，2004：393－ 402.

[10]BURKE R，MOBASHER B，ZABICKI R，et al.Identifying attack models for secure recommendation[C]//Proc of the International Conferece on Intelligent User Interfaces.2005:347－361.

[11]MOBASHER B，BURKE R，BHAUMIK R，et al.Effective attack models for shilling itembased collaborative filtering systems[C]//Proc of the WebKDD Workshop.Berlin:Springer，2005.

[12]BURKE R，MOBASHER B，BHAUMIK R.Limited knowledge shilling attacks in collaborative filtering systems[C]//Proc of the 3rd IJCAI Workshop in lntelligent Techniques for Personalization.2005.

[13]BURKE R，MOBASHER B，WILLIAMS C，et al.Segmentbased injection attacks against collaborative recommender systems[C]//Proc of the International Conference of Data Mining.2005:577－580.

[14]BURKE R，MOBASHER B，WILLIAMS C，et al.Classification features for attack detection in collaborative recommender systems[C]//Proc of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press，2006:542－547.

[15]BREESE J S，HECKERMAN D，KADIE C.Empirical analysis of predictive algorithms for Collaborative filtering[C]//Proc of the 14th Conference on Uncertainty in Artificial Intelligence.1998:43－52.

[16]O’MAHONY M，HURLEY N，KUSHMERICK N，et al.Collaborative recommendation:a robustness analysis[J].ACM Trans on Internet Technology，2004，4(4): 344－377.

[17]O’MAHONY M，HURLEY N，SILVESTRE G.Promoting recommendations:an attack on collaborative filtering[C]//Proc of the 13th International Conference on Database and Expert Systems Applications.Berlin:Springer，2002:494－503.

[18]MOBASHER B，BURKE R，WILLIAMS C，et al.Analysis and detection of segmentfocused attacks against collaborative recommendation[C]//Proc of WebKDD Workshop.Berlin:Springer，2006.

[19]CHIRITA P A，NEJDL W，ZAMFIR C.Preventing shilling attacks in online recommender systems[C]//Proc of ACM International Workshop on Web Information and Data Management.New York:ACM Press， 2005:67－74.

[20]ZHANG S，F(xiàn)ORD J，MAKEDON F.Lowdimensional linear model under analysis of a lowdimensional recommendation attacks[C]//Proc of the 29th ACM SIGIR.New York:ACM Press，2006:517524.

[21]ZHANG S，CHAKRABARTI A，F(xiàn)ORD J，et al.Attack detection in time series for recommender systems[C]//Proc of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press，2006:809－914.

[22]MOEASHEA B，BUAKE R，SANDVIG J.Modelbased collaborative filtering as a defense against profile injection attacks[C]//Proc of the 21st National Conference on Artificial Intelligence.2006.

[23]BREESE J S，HECKERMAN D，KADIE C.Empirical analysis of predictive algorithms for collaborativefiltering[C]//Proc of the 14th Annual Conference on Uncertainty in Artificial Intelligence.1998：43－52.

[24]ZIEGLER C，LAUSEN G.Analyzing correlation between trust and user similarity in online communities[C]//Proc of the 2nd International Conference on Trust Management.Berlin:Springer，2004:251－265.

[25]HERLOCKER J，KONSTAN J，TERVIN L G，et al.Evaluating collaborative filtering recommender systems[J].ACM Trans on Information Systems，2004，22(1): 5－53.

[26]O’DONOVAN J，SMYTH B.Is trust robust?an analysis of trustbased recommendation[C]//Proc of the 11th International Conference on Intelligent User Interfaces.New York:ACM Press，2006:101－ 108.

[27]MASSA P，BHATTACHARJEE B.Using trust in recommender systems: an experimental analysis[C]//Proc of the 2nd International Conference on Trust Management.Berlin:Springer，2004:221－235.

[28]LAM S K，RIEDL J.Privacy，shilling， and the value of information in recommender systems[C]//Proc of User Modeling Workshop on Privacy.2005:393－402.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”

計算機應(yīng)用研究2008年3期

計算機應(yīng)用研究的其它文章: 綜合ＭＰＥＧ－７中紋理和顏色特征的圖像檢索方法; 打印文件鑒別打印機型的文字圖像模糊識別; 視頻中遮擋情況下目標(biāo)的跟蹤; 輪廓波消噪中消噪效果與噪聲強度的關(guān)系; 一種新的圖像圓環(huán)點坐標(biāo)求解方法; 旋轉(zhuǎn)、縮放、位移不變的小波域圖像水印算法