999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于卷積自動編碼器的推薦系統(tǒng)攻擊檢測方法

2021-05-10 07:14:54繆騫云劉學軍
小型微型計算機系統(tǒng) 2021年5期
關鍵詞:特征用戶檢測

費 艷,繆騫云,2,劉學軍

1(南京工業(yè)大學 計算機科學與技術學院,南京 211816)

2(南瑞集團有限公司(國網(wǎng)電力科學研究院),南京 210003)

1 引 言

基于協(xié)同過濾的推薦已經(jīng)成為解決現(xiàn)代互聯(lián)網(wǎng)上信息過載的有效途徑之一,目前已經(jīng)被廣泛應用于電子商務領域.但是,協(xié)同過濾推薦系統(tǒng)本身所具有的高度開放性,使得惡意攻擊用戶極容易利用這一點,為攻擊系統(tǒng)而注入大量的虛假用戶概貌,一方面極力偽裝成正常用戶的鄰居用戶,另一方面?zhèn)卧煊脩魧τ陧椖康奶摷僭u分信息,試圖令推薦系統(tǒng)有利于攻擊用戶,產(chǎn)生虛假的推薦.

目前大多托攻擊檢測方法都是采用人工方式來提取用戶特征,認為攻擊概貌與真實概貌在評分方式上有著顯著的差異,并將其作為特征屬性來區(qū)分出攻擊用戶并剔除,但是,人工特征往往有很大局限性:1)攻擊者為了避免被檢測出來,往往會模仿真實用戶的評分行為,使得人工特征的區(qū)分能力降低;2)不同的攻擊類型往往需要采用不同的特征指標,而構建合適的特征指標往往是非常困難的,而且,也需要較高的知識成本.在混合攻擊、類型未知的攻擊中,構建人工特征就更為困難,但是,特征工程的質(zhì)量卻很大程度上決定了檢測性能.因此,采用自動、半自動策略提取用戶特征已經(jīng)引起人們的關注.

深度神經(jīng)網(wǎng)絡具有非常強的計算能力以及非線性映射等優(yōu)點,在手寫數(shù)字識別、模式識別等分類問題中有著廣泛的應用,同時也適用于多變的攻擊檢測環(huán)境.因此,本文引入卷積自動編碼器從原始的評分矩陣中自動提取特征,降低分析和設計特征指標的難度,尤其適用于混合攻擊、類型未知的攻擊.實際上,如果能夠人工設計出有效的特征檢測指標,對于提高檢測性能會產(chǎn)生非常大的作用.因此,本文將自動提取特征和人工設計特征指標相結合,以提高攻擊檢測的性能.人工設計的特征指標只考慮通用的檢測指標,不同攻擊類型的特征指標由評分矩陣自動提取,提高了算法的魯棒性.

本節(jié)將原始用戶評分矩陣與人工設計的特征指標矩陣合并為新的數(shù)據(jù)矩陣,利用卷積自動編碼器(CAE)進行特征提取,通過全連接層的分類來實現(xiàn)攻擊檢測.本節(jié)的主要工作可歸納如下:

1)提出了一種自動特征提取和人工設計特征相結合的攻擊檢測特征構造方法;

2)將自動編碼器與卷積神經(jīng)網(wǎng)絡相結合,以卷積神經(jīng)網(wǎng)絡的卷積操作完成自動編碼器的編碼和解碼功能,形成卷積自動編碼器神經(jīng)網(wǎng)絡結構,實現(xiàn)特征自動提取和有效攻擊檢測的功能.

2 相關工作

結合人工提取的特征屬性在傳統(tǒng)的托攻擊檢測方法中,Williams[1]等學者提出了一種基于逆向工程攻擊模型的屬性生成方法,結合RDMA等六種通用特征及KNN、SVM、C4.5 3種分類方法實現(xiàn)托攻擊檢測.論文驗證了這些屬性的組合優(yōu)勢以及分類器的選擇對提高推薦系統(tǒng)的魯棒性的影響.Wu[2,3]等學者基于Williams等學者提出的特征,利用期望最大化的方法對特征進行篩選,同時針對篩選的特征利用貝葉斯分類器實現(xiàn)托攻擊的檢測.彭飛[4]等學者提出KCI興趣峰度系數(shù)這一特征屬性用來描述用戶興趣集中程度,并與已有的用戶特征屬性相結合,提出一種特征子集的無監(jiān)督檢測方法.李文濤[5]等人提出區(qū)分正常用戶和攻擊用戶基于流行度的分類特征屬性MUD,RUD,QUD,得到基于流行度的托攻擊檢測方法.以上這些方法都需要人工從用戶的評分或者項目的流行度等方面,使用不同的數(shù)據(jù)分析方法特區(qū)特征,這些方法普適性不強,因此面對新的攻擊類型時會出現(xiàn)不太理想的檢測效果.

深度神經(jīng)網(wǎng)絡學習技術近年來在自然語言處理、計算機視覺、個性化推薦等領域都取得了巨大成功[6].目前,已有學者將這些技術應用到推薦系統(tǒng)的攻擊檢測領域.Tong等人[7]等人提出了一種基于卷積神經(jīng)網(wǎng)絡和社會感知網(wǎng)絡(SAN)的新方法CNN-SAD,由于所實現(xiàn)的深層特性能夠比人工設計的特征更準確地描述用戶的評分行為,該方法能夠更有效地檢測托攻擊;Hao等人[8]從用戶評分矩陣、用戶鄰接矩陣等多個角度分析用戶的行為,利用利用堆疊的去噪自編碼器自動提取用戶特征,在主成分分析的基礎上對多視圖提取的特征進行有效的組合,利用SVM作為分類器生成檢測結果;Xu等人[9]針對誹謗性用戶在評分和評論之間給出相反評價的行為,設計了雙注意遞歸神經(jīng)網(wǎng)絡(HDAN),利用改進的GRU網(wǎng)絡來計算評論是積極或是消極,在此基礎上提出了聯(lián)合過濾的方法捕捉評分與評論之間的差距從而檢測出攻擊.郝耀軍[10]等人基于用戶評分項目的時間偏好信息,提出了一種利用深度稀疏自編碼器自動提取特征的托攻擊集成檢測方法.但是,總的來說,這方面的工作還剛剛開始.

3 基于CAE推薦系統(tǒng)托攻擊檢測方法

本節(jié)詳細介紹了基于卷積自編碼器的推薦系統(tǒng)托攻擊檢測方法(A Attack Detection Method based on Convolutional Autoencoder,簡寫ADM-CAE),包括特征的提取、模型的構建和算法的描述等.ADM-CAE攻擊檢測的框架結構如圖1所示,主要分為訓練學習以及預測分類兩部分,訓練學習主要包括如下步驟:注入攻擊后,首先為了捕捉托攻擊用戶的潛在屬性特征以便于更好地構造分類模型,本文首先將電影按照類型分類,將相同類型的電影分到一起,這樣分到同一個簇集的操作便于后續(xù)捕捉數(shù)據(jù)的二維相關性,然后對分類好的數(shù)據(jù)進行分析,參考現(xiàn)有的用戶評分屬性特征從多個角度提取不同用戶的屬性特征;其次將提取到的用戶屬性以特征矩陣的形式,與原評分矩陣一起合并為最終的數(shù)據(jù)矩陣,類似于一個二維圖像的輸入,將得到的數(shù)據(jù)矩陣輸入卷積自編碼器托攻擊檢測模型,完成正常用戶與虛假用戶的分類操作.本節(jié)的最后部分會給出本文所使用的ADM-CAE算法的卷積自編碼器結構和算法的詳細描述.

圖1 算法整體框架

3.1 特征選取

在推薦系統(tǒng)領域,龐大的用戶行為數(shù)據(jù)可以用來描繪用戶,例如用戶對某項電影的評分通常可以反應用戶對這部電影的喜好.但是一個用戶的行為數(shù)據(jù)可能涉及各種各樣成千上萬條信息,同時面對極其稀疏的用戶高維數(shù)據(jù),處理起來也十分復雜,這種情況加大了數(shù)據(jù)分析處理的難度,而特征提取(Feature Extration)技術的出現(xiàn)就恰恰緩解了這樣的現(xiàn)狀,它能夠通過變換將原始數(shù)據(jù)轉換為一系列具有統(tǒng)計意義的用戶特征,這些特征可以用來區(qū)分正常用戶和攻擊用戶.而正常用戶和攻擊用戶的差異性通常可以通過評分反映出來,本文根據(jù)相關研究者們提出的人工特征,從用戶之間的評分差異性角度,分析原始評分矩陣,提取5個通用的用戶屬性特性[11],包括平均評分偏離度(RDMA)、評分向量長度方差(LengthVar)、加權平均評分偏離度(WDMA)、加權評分偏離度(WDA),以及與其他用戶的評分偏離度(DAOU),進一步結合原始評分矩陣,采用卷積自編碼器結構實現(xiàn)攻擊檢測.

通過統(tǒng)計用戶評分數(shù)據(jù),可以得到上述5種通用特征屬性.將5種通用特征屬性與評分矩陣組合,即在用戶-項目評分矩陣增加5列,每列表示一個通用特征屬性.為了后續(xù)更好地發(fā)揮卷積神經(jīng)網(wǎng)絡的作用,依據(jù)項目類型的不同,將相同類型的項目劃分到相同的簇集中,將原始的用戶-項目評分矩陣按簇重新排序,相同簇集的項目列相鄰.生成最終的數(shù)據(jù)矩陣用于神經(jīng)網(wǎng)絡的輸入,特征矩陣以及最終的數(shù)據(jù)矩陣的構造過程如圖2所示.

圖2 特征矩陣以及最終數(shù)據(jù)矩陣構造過程

3.2 CAE模型結構和算法描述

在卷積神經(jīng)網(wǎng)絡中,卷積層是核心,同樣也是卷積自編碼器的核心.網(wǎng)絡對輸入數(shù)據(jù)利用卷積核執(zhí)行卷積計算,提取攻擊特征.卷積核相當于一個濾波器,卷積計算就是通過將卷積核作用于輸入數(shù)據(jù)并沿著寬度方向及高度方向滑動,每次滑動都計算卷積核與其覆蓋部分的內(nèi)積.在本文提出的模型中,用戶useru對電影itemi的評分矩陣表示為R,rui表達的是用戶u對項目i的評分,則rui∈R,特征矩陣用Q表示,則R、Q合并后的數(shù)據(jù)矩陣為T,大小設為(H,W),每次卷積同時還需要以下超參數(shù):filter的大小f1×f2,filter數(shù)量為k,步幅s,zero Padding的填充數(shù)為p,矩陣T作為輸入會首先經(jīng)過卷積層的特征提取,轉換為(OH,OW)大小,則:

(1)

假設有k個卷積核Wk,則輸入x經(jīng)過卷積后形成的第k個feature maphk為:

hk=F(x?Wk+bk)

(2)

其中,x代表輸入,?符號表示卷積計算,bk是偏置,是一個實數(shù).本文的零填充p設為1,步幅s設為1,則經(jīng)過公式計算后,輸出的feature maphk的大小OH=H,OW=W,則發(fā)現(xiàn)可通過卷積實現(xiàn)自動編碼器尺寸無損的特征提取效果.卷積操作后的feature map會受到下面一層激勵層的激勵作用.該層是一種非線性的激活函數(shù),通過在模型中引入非線性因素,解決了線性模型表達能力不夠的的問題,激活函數(shù)能夠?qū)⑻卣鞅A舨⒂成涞较乱粚?通常的激活函數(shù)有Sigmoid函數(shù)函數(shù),Relu函數(shù),以及Tanh函數(shù),如式(3)所示:

Relu(x)=max(0,x)

(3)

本文所選用的激活函數(shù)是Relu函數(shù),令pk表示第k個經(jīng)過卷積操作后的特征圖的激活結果,即:

pk=max(0,x×Wk+bk)

(4)

編碼部分為3層卷積層以及2層激勵函數(shù)層的疊加.經(jīng)過編碼部分一層層地卷積提取特征以及激活函數(shù)的作用后,卷積自編碼器的編碼部分就結束.得到的數(shù)據(jù)特征的間接表示輸入解碼部分.首先進入解碼器進行反卷積操作,則經(jīng)過第k′個卷積核反卷積后的feature maphk′可表示為:

(5)

(6)

loss=-∑xm(x)logq(x)

(7)

網(wǎng)絡結構如圖3所示.

圖3 CAE網(wǎng)絡結構

ADM-CAE托攻擊檢測算法具體描述如下:

算法.托攻擊檢測算法(ADM-CAE)

輸入:用戶評分矩陣R;特征矩陣Q;兩者合并后的數(shù)據(jù)矩陣T;所有的輸入記作x.

輸出:攻擊檢測算法的召回率(Recall)、準確率(Precision)

過程:

1.data preprocessing

2.for e<=epoch do

3. for eachuserido

4.hk=F(x?Wk+bk)//卷積操作

5.pk=max(0,x*Wk+bk)//激活操作

……

8. loss=-∑xm(x)logq(x)

9. 計算損失并反向傳播更新網(wǎng)絡權值,優(yōu)化模型

10. end for

11.end for

第2步的e代表設置的迭代次數(shù),第4步和第5步是模型的編碼階段,卷積操作的目的是提取特征并通過激活函數(shù)的作用加入非線性因素,從而提高模型的表達能力.中間省略了一部分的卷積操作以及激活操作.第6步和第7步是模型的解碼階段,反卷積還原數(shù)據(jù),第8步是計算損失,通過反向傳播算法優(yōu)化模型,不斷地參數(shù)更新優(yōu)化,直至迭代數(shù)不滿足迭代條件.最終經(jīng)過不同情況下實驗的對比,分析召回率(Recall)以及準確率(Precision)的差異評價該模型.

4 實驗與評價

4.1 實驗數(shù)據(jù)集

本次實驗采用的數(shù)據(jù)集為MovieLens100k(1)https://grouplens.org/datasets/movielens/數(shù)據(jù)集,包含了943個不同用戶對1682部不同電影的評分,評分區(qū)間為[1,5],分數(shù)由低到高分別表示用戶對電影的喜愛程度的不同.其中,既包括普通的用戶如一般的大學生或者上班族等,也包括專業(yè)的影評用戶,且每個用戶在這1682部電影中至少有20條評分記錄,數(shù)據(jù)真實可靠,所以我們假定這數(shù)據(jù)集中的用戶全部為真實用戶.

4.2 實驗配置

實驗中數(shù)據(jù)的處理、特征的提取、托攻擊檢測模型的訓練以及測試過程均采用Python環(huán)境來實現(xiàn).具體硬件環(huán)境為:i7-6800k,16G DDR4,單路1080ti;軟件環(huán)境為Window10,pytorch1.0,Cuda9.0,Cudnn7.0.

在實驗中,為了確定CAE的結構,對卷積核的大小,卷積層層數(shù)以及步幅等大小進行了多次試驗對比,最終確定設置ADM-CAE托攻擊檢測模型的參數(shù)為:filter為大小始終是3×1的一維卷積核,每一層的filter數(shù)量為分別設置為1->16->32->64->32->16->8,步幅s始終為1,zero Padding的填充數(shù)p也始終為1.實驗中,為了驗證該算法檢測能力的有效性,將前期經(jīng)過數(shù)據(jù)預處理后的數(shù)據(jù)矩陣T在輸入CAE模型前劃分為訓練集與測試集,其之比為7∶3,利用訓練集訓練好的CAE模型作用在測試集上,并輸出測試集的檢測結果.

在機器學習、推薦系統(tǒng)或者數(shù)據(jù)挖掘完成建模后一般會需要對模型的效果進行評價,目前常常采用的評價指標有準確率(Precision)、召回率(Recall)、F值(F-Measure)等.本節(jié)采用召回率以及準確率作為評價指標.

4.3 實驗結果分析

4.3.1 精確性和有效性分析

在MovieLen100k的數(shù)據(jù)集上,通過比較ADM-CAE算法在對數(shù)據(jù)集注入不同攻擊規(guī)模和不同填充規(guī)模下的檢測能力來評價模型性能,結果如圖4和圖5所示.

圖4 攻擊規(guī)模為5%時的3種攻擊對比

圖4(a)和圖4(b)為ADM-CAE托攻擊檢測模型采用注入攻擊規(guī)模為5%的同時,分別注入不同填充率(3%、5%、10%和25%)的均值攻擊、流行攻擊以及隨機攻擊的攻擊檢測結果.以準確率和召回率為評價準則,可以看出ADM-CAE算法隨著攻擊概貌的填充規(guī)模的增大,召回率和準確率會逐漸提高,檢測效果逐漸增強.我們也可以看出較高的填充率更容易檢測出攻擊行為.

圖5(a)和圖5(b)為ADM-CAE算法對不同攻擊規(guī)模的3種攻擊在兩種評價標準下檢測效果的對比.在一般的系統(tǒng)中,注入3%的的攻擊已經(jīng)很不容易,有些攻擊的攻擊成本更是高.這里選擇的攻擊強度分別為1%、2%、5%以及10%,填充規(guī)模選擇5%.可以看出在較低的攻擊強度下,該算法依然具有較高的檢測能力,這也驗證了算法的有效性.

圖5 填充率為5%時的3種攻擊對比

相對于流行攻擊和均值攻擊,隨機攻擊更容易被識別,這是因為隨機攻擊所需的知識成本最低,知識成本越低越容易檢測.

4.3.2 與多種攻擊檢測算法比較

為了更好地體現(xiàn)出本文提出的檢測算法的優(yōu)越性,決定與以下算法進行對比:

1)DSAE-EDM[10]一種深度學習托攻擊集成檢測方法,該方法則直接消除了本文前期所采用的的傳統(tǒng)的人工特征工程,采用深度學習技術深度自動編碼器自動提取特征以達到攻擊檢測的效果.

2)PCA VarSelect[12,13]作為典型的無監(jiān)督托攻擊檢測算法,該算法可自動構建用戶特征,該方法通過PLSA找到具有相似偏好的用戶群體,結合PCA VarSelect從多元統(tǒng)計學角度重新描述評分矩陣,這種方法的泛用性很好,但是需要預先知道攻擊規(guī)模.

實驗參數(shù)設置如下:注入的攻擊規(guī)模分別是1%、2%、5%和10%;注入的填充規(guī)模分別是1%、3%、5%、10%和25%;攻擊類型分別是流行攻擊和均值攻擊.以準確率為評價指標,實驗結果如表1和表2所示.

表1 流行攻擊對比

通過表1和表2可以看出,ADM-CAE算法的攻擊檢測效果優(yōu)于PCA VarSelect方法,這是因為傳統(tǒng)的攻擊檢測算法PCA VarSelect對數(shù)據(jù)的降維是線性的,在恢復數(shù)據(jù)的時候會有一定程度的失真,而ADM-CAE是非線性的,信息丟失得更少,特征學習得效果也更好,所以取得更優(yōu)的攻擊檢測的效果.且與DSAE-EDM算法相比,無論是哪種攻擊,本文的檢測算法都比DSAE-EDM表現(xiàn)地更有優(yōu)勢,這是因為ADM-CAE算法在前期添加了DSAE-EDM算法所沒有的傳統(tǒng)的人工特征工程,達到了強化數(shù)據(jù)特征,增加數(shù)據(jù)分類的準確性的效果,再與深度學習技術卷積自編碼器的自動學習特征相結合,不但使得人工特征在面對不同的攻擊時所表現(xiàn)出來的普適性不強的特征可以忽略不計,更是增加了攻擊識別的準確性.

表2 均值攻擊對比

4.3.3 ADM-CAE中反卷積層的效果

此外,為了理解與評估ADM-CAE中的反卷積層給實驗帶來的效果與影響,本文在有反卷積層作用和無反卷積層的作用下,在攻擊規(guī)模為5%,填充規(guī)模為5%的情況下進行了對比實驗,圖6給出了在隨機攻擊,均值攻擊以及流行攻擊3種攻擊下的Precision值的對比情況.

圖6 ADM-CAE在有無反卷積層作用下的查準率對比

從圖6可以看出,在3種不同類型的攻擊檢測中,沒有反卷積層的ADM-CAE查準率位于92%-94%之間,而有反卷積層的ADM-CAE查準率位于97%-98%之間,沒有反卷積層的檢測效果并沒有在有反卷積層進一步學習特征的作用下效果顯著.由此可見反卷積層在ADM-CAE中的重要作用,它可以進一步學習特征,提高整體的攻擊檢測能力.

5 小 結

本文結合使用了傳統(tǒng)的人工特征提取和深度神經(jīng)網(wǎng)絡方法,利用RDMA等屬性首先分析出用戶評分的顯著特征,得到用戶特征屬性數(shù)據(jù)集,再結合原始的評分構造新的數(shù)據(jù)矩陣作為數(shù)據(jù)集輸入.利用卷積層代替全連接層,完成自動編碼器的編碼以及解碼功能,為了實現(xiàn)自動編碼器的輸出數(shù)據(jù)矩陣的大小與輸入相同的目標,從卷積層的卷積核尺寸、步幅、填充以及激活函數(shù)等方面選擇恰當?shù)腃AE結構,結合了卷積神經(jīng)網(wǎng)絡權值共享以及自動編碼器無監(jiān)督快速提取的優(yōu)點,最后通過全連接層實現(xiàn)二分類,實現(xiàn)攻擊檢測.

猜你喜歡
特征用戶檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
小波變換在PCB缺陷檢測中的應用
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产精品网址在线观看你懂的| 91毛片网| 亚洲天堂精品视频| 国产精品亚洲欧美日韩久久| 91视频首页| 国产成人一区免费观看| 欧美一级特黄aaaaaa在线看片| 国产日本欧美亚洲精品视| 欧美国产日韩在线| 亚洲综合国产一区二区三区| 欧美精品色视频| 自拍亚洲欧美精品| a网站在线观看| 精品视频一区在线观看| 国产午夜精品一区二区三| 国产成人一级| 久久国产毛片| 久久这里只有精品国产99| 亚洲天堂视频在线观看| 亚洲成在人线av品善网好看| 亚洲国产精品日韩专区AV| 三上悠亚在线精品二区| 国产在线第二页| 欧美区国产区| 久久亚洲综合伊人| 午夜视频免费一区二区在线看| 日韩成人午夜| 亚洲综合在线最大成人| 国产亚洲视频免费播放| 国产真实乱子伦精品视手机观看| 伊人久久综在合线亚洲2019| 亚洲丝袜中文字幕| h网站在线播放| 国产肉感大码AV无码| 99久久精品国产自免费| 亚洲欧美一级一级a| 欧美a在线视频| 亚洲色图综合在线| 国产成人啪视频一区二区三区| 99爱在线| 亚洲国产成人在线| 中文字幕无码av专区久久| 91精品国产自产在线老师啪l| 欧美成人一区午夜福利在线| 国产欧美日韩专区发布| 在线精品亚洲国产| 乱人伦中文视频在线观看免费| 国产va欧美va在线观看| 久草视频福利在线观看| 久久精品国产精品一区二区| 欧美国产三级| 久久公开视频| 自慰网址在线观看| 亚洲伦理一区二区| 成人午夜视频网站| 中文字幕久久波多野结衣| 国产一区二区三区免费| 国产sm重味一区二区三区| 欧美日韩一区二区在线播放| 妇女自拍偷自拍亚洲精品| 99在线视频网站| 老司机午夜精品视频你懂的| 国产免费人成视频网| 亚洲侵犯无码网址在线观看| 国产精品入口麻豆| 五月婷婷综合色| 日本道综合一本久久久88| 一本大道在线一本久道| 波多野结衣国产精品| 成人无码区免费视频网站蜜臀| 五月婷婷导航| 2021天堂在线亚洲精品专区| 日本一本正道综合久久dvd| 思思热精品在线8| 99热精品久久| 九九热精品在线视频| 青青久视频| 波多野吉衣一区二区三区av| 国产日韩精品欧美一区灰| 爆乳熟妇一区二区三区| 91在线视频福利| 中文字幕资源站|