基于時(shí)間序列分析的客戶項(xiàng)目狀態(tài)篡改識(shí)別算法

2017-10-19 09:16:35陳超凡林書(shū)新

河北大學(xué)學(xué)報(bào)(自然科學(xué)版) 2017年5期

陳超凡，林書(shū)新

(1.海南大學(xué) 信息科學(xué)技術(shù)學(xué)院，海南 ?？?570228;2.海南經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院工程技術(shù)學(xué)院，海南 ?？?571127)

陳超凡1，林書(shū)新2

(1.海南大學(xué) 信息科學(xué)技術(shù)學(xué)院，海南 ?？?570228;2.海南經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院工程技術(shù)學(xué)院，海南海口 571127)

為了解決現(xiàn)有客戶項(xiàng)目狀態(tài)篡改識(shí)別算法中不能自適應(yīng)識(shí)別篡改類型和無(wú)法同時(shí)識(shí)別出多個(gè)項(xiàng)目狀態(tài)遭受篡改的問(wèn)題，給出了基于時(shí)間序列分析的客戶項(xiàng)目狀態(tài)篡改識(shí)別算法，即先劃分系統(tǒng)內(nèi)的評(píng)分時(shí)間序列區(qū)間段，運(yùn)用 PCA VarSelect算法得出項(xiàng)目狀態(tài)篡改可疑名單，再進(jìn)一步縮小識(shí)別范圍,具體方法是,根據(jù)被篡改的時(shí)間段,結(jié)合評(píng)分偏差度確定被篡改狀態(tài)的項(xiàng)目，在此基礎(chǔ)上進(jìn)一步分析被篡改時(shí)間段內(nèi)的評(píng)分，以確定篡改類型，最后識(shí)別出相應(yīng)的被篡改狀態(tài)的項(xiàng)目．仿真顯示，該算法識(shí)別精度較高,不僅能識(shí)別單個(gè)項(xiàng)目的篡改狀態(tài),還能同時(shí)識(shí)別多個(gè)項(xiàng)目的篡改狀態(tài)．

項(xiàng)目狀態(tài)篡改識(shí)別；時(shí)間序列分析；PCA；識(shí)別精度

隨著商業(yè)競(jìng)爭(zhēng)的日益激烈以及推薦系統(tǒng)其自身存在的開(kāi)放性及交互式等特點(diǎn)，少數(shù)客戶出于自身利益的考慮，極其容易利用這些特性對(duì)推薦系統(tǒng)進(jìn)行篡改，破壞推薦系統(tǒng)的公平性．其中，客戶狀態(tài)杜撰篡改[1]或托篡改則是最常見(jiàn)的一種篡改方式，篡改者通過(guò)人為地杜撰虛假的客戶信息來(lái)篡改推薦系統(tǒng)，提高自己項(xiàng)目被推薦的機(jī)會(huì)或降低競(jìng)爭(zhēng)對(duì)手項(xiàng)目被推薦的機(jī)會(huì)．因此，如何提高推薦系統(tǒng)抵御這種篡改的能力對(duì)保障系統(tǒng)的推薦質(zhì)量至關(guān)重要．

最近幾年，關(guān)于客戶狀態(tài)篡改識(shí)別問(wèn)題受到了不少國(guó)內(nèi)外研究學(xué)者的關(guān)注．Chirita等[2]最早設(shè)計(jì)出了一種篡改識(shí)別算法，提出一系列識(shí)別屬性來(lái)分析少數(shù)客戶中的評(píng)分信息，并識(shí)別了這些屬性對(duì)不同篡改模型的識(shí)別性能，該算法在篡改狀態(tài)密度大的時(shí)候識(shí)別效果較好，但是當(dāng)填充規(guī)模較小或者篡改狀態(tài)稀疏的情況下識(shí)別效果非常差．Lee等[3-4]進(jìn)一步提出了分類識(shí)別模型，采用平均項(xiàng)目差異和相符權(quán)重度指標(biāo)識(shí)別篡改狀態(tài)，但在實(shí)際驗(yàn)證中對(duì)于篡改規(guī)模高的篡改狀態(tài)，識(shí)別效果并不理想．Mrhta等[5]提出了基于主成分分析(PCA VarSelect)的識(shí)別算法，根據(jù)篡改狀態(tài)之間的高相關(guān)性特征進(jìn)行識(shí)別．該算法對(duì)于幾種基本篡改模型的識(shí)別效果較好，但由于需要預(yù)先設(shè)定參數(shù)方可確定篡改客戶的數(shù)量，顯然，在實(shí)際應(yīng)用中很難準(zhǔn)確估計(jì)參數(shù)值，自然會(huì)影響識(shí)別精度．李聰，于洪濤等[6-7]提出了一種無(wú)監(jiān)督的UnRAP篡改識(shí)別算法，在為每個(gè)客戶計(jì)算Hv-score值的基礎(chǔ)上，測(cè)算出客戶狀態(tài)被篡改的可疑度，再設(shè)計(jì)聚類算法識(shí)別客戶狀態(tài)是否被篡改，該算法用于識(shí)別一般狀態(tài)項(xiàng)目是否被篡改效果明顯，但當(dāng)出現(xiàn)有對(duì)客戶項(xiàng)目狀態(tài)施行了流行性篡改和核篡改的情形時(shí),識(shí)別準(zhǔn)確率明顯下降，且存在一定程度的誤判，還需要提前給出篡改形式，降低了算法的實(shí)用性.近幾年，融合其他領(lǐng)域的新方法也產(chǎn)生了不少篡改客戶項(xiàng)目狀態(tài)的識(shí)別方法，見(jiàn)文獻(xiàn)[8-12]．

本文針對(duì)目前客戶狀態(tài)杜撰、篡改客戶狀態(tài)信息的識(shí)別算法在確認(rèn)精度方面存在的不足，重點(diǎn)針對(duì)篡改類型的識(shí)別和篡改客戶狀態(tài)信息的多個(gè)項(xiàng)目2方面進(jìn)行了研究，首先，采用 PCA 識(shí)別算法替代Hv-score ，可以有效識(shí)別出具有篡改意圖的客戶,即可以提高對(duì)那些已經(jīng)實(shí)施篡改項(xiàng)目的客戶的識(shí)別率；其次,結(jié)合時(shí)間序列分析,巧妙地避免了UnRAP算法中需要預(yù)知道篡改類型的不足；通過(guò)分析客戶所篡改項(xiàng)目的評(píng)分偏差及評(píng)分分布，采用多項(xiàng)目篡改客戶識(shí)別的策略，克服了UnRAP 1次只能識(shí)別1個(gè)篡改項(xiàng)目的弊端．

1 入侵推薦系統(tǒng)類型

由于推薦系統(tǒng)是靠在網(wǎng)上獲取客戶經(jīng)營(yíng)狀態(tài)的相關(guān)信息的，所以其設(shè)計(jì)原則具有開(kāi)放性和互動(dòng)性，這也給部分不良客戶以可乘之機(jī)，為達(dá)到提高自身項(xiàng)目評(píng)分，或者打壓降低競(jìng)爭(zhēng)對(duì)手的同類項(xiàng)目評(píng)分，采用各種手段，杜撰虛假評(píng)分，以低廉的成本入侵到推薦系統(tǒng)中，直接導(dǎo)致評(píng)分結(jié)構(gòu)的改變．根據(jù)入侵推薦系統(tǒng)的方法方式，大體可分為2類：1)以提高客戶自身項(xiàng)目評(píng)分為目的，稱為推篡改(push attack)，見(jiàn)表1中的i1；2)以降低競(jìng)爭(zhēng)對(duì)手同類項(xiàng)目評(píng)分為目的，稱為核篡改(nuke attack)，見(jiàn)表1中的i5．

表1 客戶評(píng)分矩陣Tab.1 Customer score matrix

圖1 篡改狀態(tài)的組成結(jié)構(gòu)Fig.1 tampered state of the composition of the structure

2 識(shí)別算法與改進(jìn)思路

2.1 UnRAP篡改識(shí)別算法

算法的關(guān)鍵是計(jì)算客戶的Hv-score值,該值在一定程度上反映了篡改客戶項(xiàng)目的可疑度，然后利用聚類算法識(shí)別篡改狀態(tài),分3個(gè)步驟完成.

1) 計(jì)算篡改客戶可疑度通常用評(píng)分矩陣中客戶的Hv-score值代替，以識(shí)別協(xié)同過(guò)濾推薦系統(tǒng)中的篡改客戶狀態(tài).Hv-score值計(jì)算方法如下：

(1)

其中，客戶u對(duì)項(xiàng)目i的評(píng)分為ru,i，rU,j表示客戶u對(duì)所有項(xiàng)目評(píng)分的均分，項(xiàng)目i得到的平均分為ru,I，rU,I表示評(píng)分矩陣的平均分．

2) 計(jì)算客戶項(xiàng)目偏離度計(jì)算篡改客戶可疑度(Hv-score值)較高的客戶的各個(gè)項(xiàng)目評(píng)分的偏離值(deviation)，顯然，偏離值越大，被篡改的可能性越大，項(xiàng)目評(píng)分的偏離值計(jì)算公式為

(2)

3) 確定篡改狀態(tài)為確定項(xiàng)目篡改狀態(tài)，先以可疑度前若干名的客戶建立一個(gè)滑動(dòng)窗口，并計(jì)算窗口中被篡改項(xiàng)目的偏離值，如果窗口的偏離值大于零，則屬于推篡改，于是讓窗口向后滑動(dòng)一個(gè)客戶，即去掉可疑度第一的客戶，增加可疑度排名緊鄰窗口更低的客戶，構(gòu)成新窗口，繼續(xù)計(jì)算新窗口的偏離值，依此類推，直到偏離值小于等于零后窗口右端的客戶為終止客戶，在所有窗口中該客戶可疑度最小.再?gòu)目梢啥茸罡叩目蛻舻娇梢啥茸钚〉慕K止客戶這個(gè)窗口內(nèi)，確認(rèn)篡改項(xiàng)目的客戶，很自然,如果項(xiàng)目評(píng)分高于窗口平均分的對(duì)應(yīng)客戶，就可被認(rèn)定為篡改客戶．運(yùn)用同樣的方法，從相反角度尋找核篡改客戶．

UnRAP算法識(shí)別普通篡改時(shí)效果比較好，但是識(shí)別流行篡改和核篡改時(shí)效果比較差，誤判情況比較嚴(yán)重，并且需提前獲知篡改方式，大大降低了算法的實(shí)用性．

2.2 PCA VarSelect篡改識(shí)別算法

PCA VarSelect篡改識(shí)別算法是基于主成分分析方法，把客戶作為變量，如果客戶變量間相關(guān)性低，則說(shuō)明客戶正常，反之，如果客戶變量間相關(guān)性高，則說(shuō)明篡改項(xiàng)目狀態(tài)的可能性高，因此，將客戶變量相關(guān)度高的項(xiàng)目篡改狀態(tài)過(guò)濾掉．

為計(jì)算客戶變量的相關(guān)性，首先對(duì)客戶評(píng)分矩陣做主成分分析，可獲得每個(gè)客戶對(duì)應(yīng)的前1～3個(gè)主成分?jǐn)?shù)值，以該數(shù)值作為指標(biāo)，進(jìn)行客戶項(xiàng)目狀態(tài)篡改的識(shí)別數(shù)值，再計(jì)算他們的間隔距離，取值最小的r個(gè)客戶作為客戶項(xiàng)目篡改狀態(tài)，r為可調(diào)．

算法流程如下：

UλVT=SVD(D)

PCA1←U(∶,1)

PCA2←U(∶,2)

for all columned user in D d

Distance(user)←PCA1(user)2+PCA2(user)2

end for

sort Distance

retum r users with smallest Distance values

不足之處在于算法需要預(yù)先知道篡改項(xiàng)目狀態(tài)的客戶規(guī)模r，實(shí)際應(yīng)用中該規(guī)模值難以預(yù)估，預(yù)置不準(zhǔn)將可能影響識(shí)別精度．

綜合比較上述2種算法發(fā)現(xiàn)各有利弊，是否可以在利用他們的優(yōu)勢(shì)的基礎(chǔ)上，再設(shè)法克服其弊端？比如預(yù)估，預(yù)置不準(zhǔn)將可能影響識(shí)別精度．

1)利用PCA VarSelect算法代替HV-score，提高識(shí)別精度；

2)增加時(shí)間序列分析，通過(guò)劃分推薦系統(tǒng)中的時(shí)間區(qū)間，初步確認(rèn)客戶開(kāi)始實(shí)施篡改項(xiàng)目狀態(tài)的時(shí)間，以此縮小識(shí)別范圍，再對(duì)該時(shí)間段內(nèi)客戶的評(píng)分矩陣進(jìn)行分析，進(jìn)一步確定客戶篡改項(xiàng)目的類型.通過(guò)這個(gè)環(huán)節(jié)可以彌補(bǔ)UnRAP算法中需預(yù)知道客戶項(xiàng)目篡改類型的不足；

3)為實(shí)現(xiàn)對(duì)多個(gè)項(xiàng)目的篡改狀態(tài)同時(shí)進(jìn)行識(shí)別,在分析被篡改項(xiàng)目評(píng)分偏差的基礎(chǔ)上,再分析評(píng)分的分布．

3 改進(jìn)的篡改項(xiàng)目狀態(tài)識(shí)別算法

客戶篡改項(xiàng)目狀態(tài)常帶有急功近利心態(tài)，就是希望經(jīng)過(guò)短時(shí)間的篡改，使得項(xiàng)目狀態(tài)表現(xiàn)的評(píng)分值直線提高.這就需要在有限時(shí)間段內(nèi)，篡改量要達(dá)到一定規(guī)模，否則，對(duì)項(xiàng)目在推薦系統(tǒng)中的推薦名次與影響勢(shì)必達(dá)不到期望目標(biāo)．特別是篡改客戶在篡改項(xiàng)目狀態(tài)的初期，或者一段時(shí)間內(nèi)，沒(méi)有能改變?cè)谕扑]系統(tǒng)中的排名，那么這段時(shí)間的努力將會(huì)隨著時(shí)間逐漸被淹沒(méi)甚至消失．因此，篡改客戶需要在一段時(shí)間加大篡改項(xiàng)目狀態(tài)的力度，以保持篡改后項(xiàng)目狀態(tài)變化處于上升態(tài)勢(shì)，并具有連續(xù)性和緊密性，這就是說(shuō)，急功近利篡改項(xiàng)目狀態(tài)的心態(tài)會(huì)導(dǎo)致再短時(shí)間內(nèi)項(xiàng)目狀態(tài)評(píng)分會(huì)有一個(gè)突變并持續(xù)上升．因此，可以通過(guò)對(duì)時(shí)間序列進(jìn)行的分區(qū)，分析每個(gè)時(shí)間區(qū)域的客戶項(xiàng)目評(píng)分變化特征，以減小計(jì)算量并提高識(shí)別精度．

具體按照以下步驟操作.

1)確定客戶項(xiàng)目篡改時(shí)間段

首先是確定時(shí)間序列，時(shí)間序列的起始時(shí)間自然定為推薦系統(tǒng)開(kāi)始獲取客戶數(shù)據(jù)的某個(gè)時(shí)間，然后按照給定的時(shí)間長(zhǎng)度分割時(shí)間序列，技巧在于使得時(shí)間分割點(diǎn)的間距盡可能的小，再運(yùn)用UnRAP算法篩選出被篡改項(xiàng)目的可疑客戶，最后選取被篡改項(xiàng)目的前10%的可疑客戶，依次計(jì)算出這些客戶在每個(gè)時(shí)間段篡改項(xiàng)目的評(píng)分與正常評(píng)分的偏離值，把評(píng)分偏離值最大的時(shí)間段對(duì)應(yīng)的區(qū)間作為項(xiàng)目狀態(tài)篡改的區(qū)間段.這樣明顯縮小了可疑篡改項(xiàng)目狀態(tài)客戶的范圍．計(jì)算方法如下：

(3)

2)確定項(xiàng)目篡改類型與對(duì)應(yīng)的篡改客戶集

運(yùn)用前述方法選定的項(xiàng)目篡改時(shí)間段有一個(gè)顯著的特征，就是在該時(shí)間段內(nèi)，推薦系統(tǒng)中存在較多的項(xiàng)目狀態(tài)篡改評(píng)分，所以該時(shí)間段內(nèi)的客戶項(xiàng)目狀態(tài)評(píng)分與其他時(shí)間段內(nèi)的客戶項(xiàng)目狀態(tài)評(píng)分會(huì)有較大的偏差，利用這個(gè)時(shí)間段客戶評(píng)分偏差的特征，可進(jìn)一步確定項(xiàng)目狀態(tài)篡改類型．在項(xiàng)目篡改時(shí)間段內(nèi)如果某客戶項(xiàng)目狀態(tài)的評(píng)分，大于所有客戶項(xiàng)目狀態(tài)評(píng)分的平均值3分及以上的，則可認(rèn)定該項(xiàng)目狀態(tài)可能被推篡改，反之則可認(rèn)為是遭到核篡改．

篡改類型確定了之后，可以通過(guò)所有客戶項(xiàng)目狀態(tài)評(píng)分的平均值確定篡改可疑客戶集合．對(duì)于被推篡改類型，該時(shí)間段內(nèi)，凡是項(xiàng)目評(píng)分大于或等于所有客戶項(xiàng)目狀態(tài)均評(píng)分的客戶，均可認(rèn)定為被推篡改客戶；反之，項(xiàng)目評(píng)分值小于所有客戶項(xiàng)目狀態(tài)均評(píng)分的客戶，可被認(rèn)定為核篡改客戶．

3)對(duì)項(xiàng)目狀態(tài)篡改客戶進(jìn)行進(jìn)一步篩選確認(rèn)

通過(guò)前述2個(gè)步驟獲得了篡改可疑客戶集合，對(duì)于被推篡改類型，可疑客戶集合中每個(gè)項(xiàng)目的評(píng)分均大于或等于所有客戶項(xiàng)目狀態(tài)評(píng)分的平均值，以此均作為可疑篡改客戶難免會(huì)出錯(cuò)，為此，為了進(jìn)一步提高識(shí)別精度，求可疑篡改客戶集與識(shí)別到的篡改客戶集的交集，篩選一部分被誤判的正?？蛻?/p>

C=A∩B，

(4)

其中，A表示運(yùn)用時(shí)間序列分析算法篩選出來(lái)的全部篡改客戶集，B為基于時(shí)間段區(qū)間篩選出的可疑篡改客戶集．C為給定時(shí)間段對(duì)應(yīng)區(qū)間內(nèi)項(xiàng)目狀態(tài)篡改客戶集．

4 多個(gè)項(xiàng)目狀態(tài)篡改的識(shí)別

客戶項(xiàng)目狀態(tài)篡改識(shí)別算法是針對(duì)單一同類項(xiàng)目的，但客戶經(jīng)營(yíng)項(xiàng)目往往是多個(gè)，此時(shí)，客戶篡改項(xiàng)目狀態(tài)也必定是多個(gè)項(xiàng)目同時(shí)進(jìn)行篡改.但是，到目前為止，針對(duì)多個(gè)項(xiàng)目狀態(tài)同時(shí)受到篡改的問(wèn)題還未見(jiàn)有相關(guān)成果．雖然UnRAP算法通過(guò)分析可疑篡改客戶對(duì)項(xiàng)目狀態(tài)的評(píng)分分布，但由于該方法是將最大評(píng)分偏離值作為狀態(tài)篡改項(xiàng)目，即1次只能篩選出1個(gè)被篡改的項(xiàng)目，如果有多個(gè)項(xiàng)目被篡改，則需在去掉篩選出的項(xiàng)目后，再重復(fù)前面的算法，顯然，計(jì)算量明顯增加.

為此，考慮設(shè)置一個(gè)閾值，將最大評(píng)分偏離值，改為評(píng)分偏離值超過(guò)給定閾值，則對(duì)應(yīng)考察的項(xiàng)目就可以是多個(gè).

多個(gè)項(xiàng)目狀態(tài)篡改的識(shí)別想法并不復(fù)雜，這里不詳細(xì)描述.

考慮同時(shí)篡改3個(gè)項(xiàng)目狀態(tài)的篡改模型，如圖2所示，利用公式(2)可求得項(xiàng)目偏離值的分布圖，仔細(xì)觀察不難發(fā)現(xiàn)，正常項(xiàng)目狀態(tài)變化不是很大，與平均值的差距處在較低的區(qū)間，而項(xiàng)目狀態(tài)受到篡改的基本上都與正常項(xiàng)目具有較大的偏離值．

不過(guò)，因?yàn)樯婕暗捻?xiàng)目多，超過(guò)設(shè)定閾值的偏離度也不一樣，為便于統(tǒng)一比較，需要利用下式(5)對(duì)偏離值進(jìn)行歸一化處理：

(5)

其中D集合為項(xiàng)目的偏離值，D(i)則表示項(xiàng)目i的偏離值，HE則為歸一化后的偏離值集合．

項(xiàng)目ID/103圖2 項(xiàng)目偏離值分布Fig.2 Project deviation value map

隨后，設(shè)置一個(gè)適當(dāng)?shù)拈撝?，以確定項(xiàng)目狀態(tài)被篡改的客戶名單和數(shù)量，仍運(yùn)用基于時(shí)間序列分析的項(xiàng)目狀態(tài)篡改識(shí)別算法，計(jì)算每個(gè)客戶對(duì)應(yīng)的篡改項(xiàng)目狀態(tài)，最后對(duì)每個(gè)相應(yīng)篡改項(xiàng)目狀態(tài)的篡改客戶取交集，篩選掉重復(fù)的客戶，最終確定篡改客戶狀態(tài)，如圖3所示.

項(xiàng)目ID/103圖3 變換后的偏離值分布Fig.3 Transformed deviation value map

算法流程見(jiàn)圖4.

5 實(shí)驗(yàn)分析

5.1 數(shù)據(jù)集

采用Movie lens網(wǎng)站(http://movilens.umn.edu/)提供的一組客戶評(píng)價(jià)項(xiàng)目狀態(tài)的數(shù)據(jù)，數(shù)據(jù)涉及到900多個(gè)客戶，1 600多個(gè)項(xiàng)目，評(píng)分?jǐn)?shù)據(jù)更是高達(dá)10萬(wàn)條，數(shù)據(jù)顯示，客戶對(duì)項(xiàng)目狀態(tài)評(píng)價(jià)的活躍度也較高．通?？蛻粼u(píng)分采用五級(jí)制，分別記為1、2、3、4、5分，分值越大表示客戶對(duì)項(xiàng)目的評(píng)價(jià)越高．

5.2 評(píng)判標(biāo)準(zhǔn)

為便于統(tǒng)一比較，采用如下評(píng)判標(biāo)準(zhǔn)：

1)對(duì)于篡改項(xiàng)目項(xiàng)的識(shí)別，采用識(shí)別率Ti和誤判率Fi作為評(píng)價(jià)指標(biāo)．其計(jì)算公式為

其中，TPi表示正確識(shí)別的項(xiàng)目總數(shù)，F(xiàn)Ni表示未被識(shí)別的項(xiàng)目總數(shù).

2)采用準(zhǔn)確率Pu與召回率Ru作為識(shí)別項(xiàng)目狀態(tài)是否被篡改的評(píng)價(jià)指標(biāo)

其中，TPu表準(zhǔn)確篩選出被篡改狀態(tài)的總數(shù)，F(xiàn)Gu表本屬正?？蛻簦瑓s被篩選為篡改狀態(tài)的客戶數(shù)，F(xiàn)Pu表沒(méi)有被篩選出的篡改狀態(tài)客戶數(shù)．

5.3 實(shí)驗(yàn)比較

為比較算法的性能，使得實(shí)驗(yàn)具有一定的真實(shí)性，采用3種篡改模型生成不同的篡改項(xiàng)目狀態(tài)，3種項(xiàng)目狀態(tài)篡改模型分別用均值篡改、隨機(jī)篡改、流行篡改方法獲得．

5.3.1 1個(gè)項(xiàng)目狀態(tài)的篡改篩選分析

僅選取1個(gè)項(xiàng)目的狀態(tài)作為篡改對(duì)象，分別按照1%、2%、5%、7%、9%、10%的項(xiàng)目狀態(tài)篡改規(guī)模生成篡改項(xiàng)目狀態(tài)．

具體實(shí)驗(yàn)過(guò)程中，先隨機(jī)抽取20個(gè)項(xiàng)目作為篡改狀態(tài)的項(xiàng)目，對(duì)每個(gè)項(xiàng)目重復(fù)10次實(shí)驗(yàn)，10次實(shí)驗(yàn)的平均值作為項(xiàng)目狀態(tài)的篡改識(shí)別結(jié)果．

從3種篡改模型識(shí)別精確度比較圖5可以看出，T-UnRAP算法識(shí)別精度比UnRAP算法要高，特別地，當(dāng)項(xiàng)目狀態(tài)是受到核篡改，或流行篡改時(shí)，篩選準(zhǔn)確率也較高，不僅如此，算法還具有一定的自適應(yīng)能力，即可以自動(dòng)識(shí)別篡改項(xiàng)目狀態(tài)的類型．

5.3.2 多項(xiàng)目的篡改狀態(tài)識(shí)別

選取篡改項(xiàng)目群的項(xiàng)目個(gè)數(shù)分別為1、3、5、10，填充規(guī)模為1%，篡改規(guī)模為1%、2%、5%、10%．識(shí)別率為對(duì)項(xiàng)目的識(shí)別度的識(shí)別結(jié)果評(píng)價(jià)，精確度和召回率是對(duì)相應(yīng)的篡改狀態(tài)的識(shí)別結(jié)果評(píng)價(jià)．仍然采用先隨機(jī)抽取若干項(xiàng)目作為篡改狀態(tài)的項(xiàng)目，對(duì)每個(gè)項(xiàng)目重復(fù)10次實(shí)驗(yàn)，10次實(shí)驗(yàn)的平均值作為項(xiàng)目狀態(tài)的篡改識(shí)別結(jié)果．

從表2、表3、表4可以看出，無(wú)論項(xiàng)目狀態(tài)的篡改模型，篡改類型，和篡改規(guī)模如何改變，對(duì)項(xiàng)目狀態(tài)是否被篡的識(shí)別率均較高，且準(zhǔn)確度都在90%以上，召回率有時(shí)甚至達(dá)到99%．

圖5 3種篡改模型識(shí)別精確度比較Fig.5 Comparison of three tampering model recognition accuracy

表2 不同項(xiàng)目個(gè)數(shù)和篡改規(guī)模的隨機(jī)篡改模型的篩選準(zhǔn)確率Tab.2 Number of different projects and tampering the size of the random tampering model of the screening accuracy

續(xù)表2Continued Tab.2

表3 不同項(xiàng)目個(gè)數(shù)和篡改規(guī)模的均值篡改模型的篩選準(zhǔn)確率Tab.3 Number of different projects and tampering the scale of the mean tampering model of the screening accuracy

表4 不同項(xiàng)目個(gè)數(shù)和篡改規(guī)模的流行篡改模型的篩選準(zhǔn)確率Tab.4 Number of different projects and tampering the scale of the popular tampering model screening accuracy

6 結(jié)論

準(zhǔn)確識(shí)別客戶項(xiàng)目狀態(tài)是否被篡改是推薦系統(tǒng)安全性的一個(gè)熱點(diǎn)研究方向．本文在流行篡改客戶項(xiàng)目狀態(tài)識(shí)別算法的基礎(chǔ)之上，融入時(shí)間序列分析方法，利用客戶評(píng)分分布的差異性與時(shí)間序列的關(guān)聯(lián)關(guān)系，實(shí)現(xiàn)自動(dòng)識(shí)別項(xiàng)目狀態(tài)篡改類型，改進(jìn)后的項(xiàng)目狀態(tài)篡改算法不僅識(shí)別準(zhǔn)確率和召回率都有明顯提高，且對(duì)多項(xiàng)目及其所對(duì)應(yīng)的項(xiàng)目狀態(tài)篡改也可以進(jìn)行有效的識(shí)別．

[1] BURKE R,MOBASHER B,WILLIAMs C,et al.Classification features for attack detection in collaborative recommender Systems[C]//Proceedings of the 12th ACM SIGKDD International Conference,ACM Press,2006:542-547.

[2] CHIRITA P A,NEJDL W,ZAMFIR C.Preventing shilling attacks in online recommender systems[C]//Proceedings of The 7th annual ACM international workshop on Web information and data management,ACM Press,2005:67-74.

[3] LEE J S,ZHU D.Shilling attack detection-A new approach for a trustworthy recommender system[J].Informs Journal on Computing,2011,3(10): 1-15.

[4] SHI Z W,YANG S,JIANG Z G,et al.Hyperspectral target detection using regularized high-order matched filter[J].Optical Engineering,2011,50(5):057201-1-057201-10.

[5] MRHTA B,HOFMANN T,FANKHAUSER P.Lies and propaganda: detecting spam users in collaborative filtering[C]//Proceedings of The 12th international Conference on Intelligentuer Interfaces,ACM Press,2007:14-21.

[6] 李聰,駱志剛,石金龍.一種探測(cè)推薦系統(tǒng)托篡改的無(wú)監(jiān)督算法[J].自動(dòng)化學(xué)報(bào),2013.39(10):1681-1690.DOI:10.3724/sp.J.1004.2013.01681.

LI C,LUO Z G,SHI J L.Detecting shilling attacks in recommender systems based on Non-random-missing Mechanism [J].ACTA AUTOAMTICA SINICA,2013.39(10):1681-1690.DOI:10.3724/sp.J..1004.2013.01681.

[7] 于洪濤,魏莎,張付志，等.基于多項(xiàng)目項(xiàng)目檢索的無(wú)監(jiān)督客戶狀態(tài)篡改識(shí)別算法[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(9):2120-2124.DOI:10.3969/j.issn.1000-1220.2013.09.031.

YU H T,WEI S,ZHANG F Z ,et al.An unsupervised algorithm for detecting user profile attack based on multi-target items retrieval[J].Journal of Chinese Computer Systems,2013,34(9):2120-2124.DOI:10.3969/j.issn.1000-1220.2013.09.031.

[8] TAN Z,JAMDAGNI A，HE X,et al.A system for denial-of-service attack detection based on multivariate correlation analysis[J].Parallel and Distributed Systems IEEE Transactions on,2014,25(2):447-456.

[9] DACER M C,KARGL F,KONIGH,et al.Network attack detection and defense:securing industrial control systems for critical infrastructures(Dagstuhl Seminar 14292)[J].Dagstuhl Report,2014,4(7):62-79.

[10] 于洪濤,李鵬,張付志.基于多維風(fēng)險(xiǎn)因子的推薦篡改識(shí)別方法[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(5):971-975.

YU H T,LI P,ZHANG F Z.Method for detecting recommendation attack based on multiple risk factors [J].Journal of Chinese Computer Systems,2015,36(5):971-975.

[11] 郝志峰,牛曉龍,蔡瑞初,等.融合信息熵與信任機(jī)制的防篡改推薦算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(3):284-288.DOI:3969/j.issn.1000-386x.2015.03.067.

HAO Z F,NIU X L,CAI R C,et al.Research compiter applications and sortware anti-attack recommendation algorithm with fusion of information entropy and trust mechanism[J].Computer Application and Software,2015,32(3):284-288.DOI:3969/j.issn.1000-386x.2015.03.067.

[12] 岳猛,吳志軍,姜軍.云計(jì)算中基于可用帶寬歐式距離的LDoS篡改識(shí)別方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2016,51(9):92-100.DOI:10.6040/j.issn.1671-9352.3.20.090.

YUE M,WU Z J,JIANG J.An approach of detecting LDOS attacks based on the euclidean distance of available bandwidth in cloud computing[J].Journal of Shandong Universty(Natural Science),2016,51(9):92-100.DOI:10.6040/j.issn.1671-9352.3.20.090.

(責(zé)任編輯：孟素蘭)

Customerprojectstatustamperingalgorithmbasedontimeseriesanalysis

CHENChaofan1,LINShuxin2

(1.College of Information Science and Technology,Hainan University,Haikou 570228,China;2.Collegeof Engineering and Technology,Hainan College of Economics and Business,Haikou 571127,China)

The existing customer project status recognition algorithm can not adaptively identify the tampering type and can not simultaneously identify the tampering of multiple project states,the algorithm of tampering recognition based on time series analysis is given.The PCA VarSelect algorithm is used to derive the suspicious list of project status and further reduce the recognition range.The method is to determine the tampering state according to the tampering time period and the score deviation degree.On this basis，this method can further analyze the tampering period of time to determine the type of tampering and finally identify the corresponding tampered state of the project.Simulation shows that the algorithm has high recognition accuracy.It not only can identify the tampering state of a single project,but also can identify the tampering state of multiple projects at the same time.

project status tampering algorithm；time series analysis；PCA；recognition accuracy

TP391

1000-1565(2017)05-0545-10

10.3969/j.issn.1000-1565.2017.05.015

2016-12-01

國(guó)家自然科學(xué)基金資助項(xiàng)目(71361008)

陳超凡 (1993—)，男，江蘇南京人，海南大學(xué)在讀碩士研究生，主要從事算法理論與軟件工程研究.E-mail:75181146@qq.com

林書(shū)新(1973—)，男，海南?？谌?，海南經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院副教授，主要從事算法理論與計(jì)算機(jī)應(yīng)用研究.E-mail：38860058@qq.com

河北大學(xué)學(xué)報(bào)(自然科學(xué)版)2017年5期

河北大學(xué)學(xué)報(bào)(自然科學(xué)版)的其它文章: 云環(huán)境下密文策略的權(quán)重屬性多中心加密方案; 可產(chǎn)木聚糖酶的蕙蘭根內(nèi)生細(xì)菌的篩選與鑒定; 蒙古沙冬青根系DSE定殖與土壤因子典范對(duì)應(yīng)分析; 基于可傳遞性的公平的外包計(jì)算協(xié)議; 一種基于分類改進(jìn)的LARS調(diào)度算法及其動(dòng)態(tài)參數(shù)性能分析; 強(qiáng)非線性杜芬系統(tǒng)的周期解及其分岔