999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合密度聚類與集成學(xué)習(xí)的數(shù)據(jù)庫(kù)異常檢測(cè)

2021-03-21 05:12:00劉昕禹高明慧
關(guān)鍵詞:數(shù)據(jù)庫(kù)用戶檢測(cè)

李 勃,壽 曾,劉昕禹,高明慧,馬 力,徐 劍

1(南瑞集團(tuán)有限公司(國(guó)網(wǎng)電力科學(xué)研究院有限公司),南京 210061) 2(北京科東電力控制系統(tǒng)有限責(zé)任公司,北京 100192) 3(國(guó)網(wǎng)遼寧省電力有限公司,沈陽 110003) 4(東北大學(xué) 軟件學(xué)院,沈陽 110169)

1 引 言

在網(wǎng)絡(luò)空間安全領(lǐng)域,數(shù)據(jù)庫(kù)系統(tǒng)是對(duì)攻擊者最有吸引力的目標(biāo)之一,許多網(wǎng)絡(luò)攻擊的最終目的就是獲取數(shù)據(jù)庫(kù)中的敏感信息.為此,數(shù)據(jù)庫(kù)安全一直為企業(yè)界和學(xué)術(shù)界所關(guān)注[1,2].根據(jù)相關(guān)研究顯示,數(shù)據(jù)庫(kù)安全的最大威脅來自于系統(tǒng)內(nèi)部,而不是外部攻擊者[3].然而,傳統(tǒng)的數(shù)據(jù)庫(kù)安全技術(shù)更多的是采用被動(dòng)防御的思想,無法有效地檢測(cè)并阻止數(shù)據(jù)庫(kù)系統(tǒng)內(nèi)部用戶的攻擊行為.因此,研究數(shù)據(jù)庫(kù)系統(tǒng)內(nèi)部攻擊檢測(cè)方法就變得尤為重要[4-6].

異常檢測(cè)是入侵檢測(cè)研究領(lǐng)域中的一個(gè)重要課題,也是針對(duì)系統(tǒng)內(nèi)部攻擊的有效方法[7-9].但是,目前的異常檢測(cè)方法主要是面向操作系統(tǒng)和計(jì)算機(jī)網(wǎng)絡(luò),針對(duì)數(shù)據(jù)庫(kù)系統(tǒng)的研究成果相對(duì)較少.在早期的數(shù)據(jù)庫(kù)異常檢測(cè)研究中,是將數(shù)據(jù)庫(kù)系統(tǒng)中數(shù)據(jù)、語義等特征和異常檢測(cè)系統(tǒng)研究結(jié)合起來.Hu等人[10]利用數(shù)據(jù)依賴性挖掘器挖掘數(shù)據(jù)庫(kù)日志中的數(shù)據(jù)關(guān)聯(lián)關(guān)系,將不符合所挖掘的數(shù)據(jù)依賴性的行為識(shí)別為惡意行為;Kamra等人[11]構(gòu)建了一種面向DBMS的異常用戶請(qǐng)求檢測(cè)方法.該方法的核心思想是對(duì)與數(shù)據(jù)庫(kù)交互的用戶配置文件進(jìn)行學(xué)習(xí),將偏離這些配置文件的用戶請(qǐng)求視為異常;Panigrahi等人[12]提出一種融合信息源和信度更新的數(shù)據(jù)庫(kù)異常檢測(cè)方法,使用事務(wù)間和事務(wù)內(nèi)特征進(jìn)行異常檢測(cè),并使用了3種不同的表屬性敏感度級(jí)別,以便跟蹤高度敏感屬性的惡意修改行為.但是,早期的數(shù)據(jù)庫(kù)用戶行為異常檢測(cè)方法的誤報(bào)率和漏報(bào)率都比較高.

為此,部分學(xué)者將機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法引入到數(shù)據(jù)庫(kù)入侵檢測(cè)中來.Ronao等人[13]提出了面向關(guān)系數(shù)據(jù)庫(kù)的基于加權(quán)投票隨機(jī)森林的異常查詢檢測(cè)方法.利用加權(quán)投票對(duì)隨機(jī)森林進(jìn)行改進(jìn),使整個(gè)系統(tǒng)的性能得到進(jìn)一步提升.但是,該方法僅針對(duì)的是關(guān)系數(shù)據(jù)庫(kù)中的查詢請(qǐng)求,在通用性方面有一定限制.Bu等人[14]提出基于深度學(xué)習(xí)和學(xué)習(xí)分類器的數(shù)據(jù)庫(kù)入侵檢測(cè)系統(tǒng).但是,該系統(tǒng)的建模過程復(fù)雜,并且不能很好地支持動(dòng)態(tài)更新.Brahma等人[15]利用人工神經(jīng)模糊推理系統(tǒng)來獲取用戶行為特征,并以此為基礎(chǔ)構(gòu)建了數(shù)據(jù)庫(kù)入侵檢測(cè)系統(tǒng).在該系統(tǒng)中,利用模糊推理方法和人工神經(jīng)網(wǎng)絡(luò)來生成了一些if-then規(guī)則.對(duì)于不符合這些模糊規(guī)則,用戶行為則被標(biāo)記為惡意的.Singh等人[16]利用關(guān)聯(lián)規(guī)則和聚類分析在數(shù)據(jù)庫(kù)使用模式中發(fā)現(xiàn)異常行為.在該方法中,通過聚類算法,根據(jù)用戶的角色生成常規(guī)配置文件.如果新的用戶行為不符合現(xiàn)有規(guī)則,則會(huì)被標(biāo)記為異常.Bu等人[17]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和學(xué)習(xí)分類器系統(tǒng)(Learning Classifier System,LCS)提出了一種混合的數(shù)據(jù)庫(kù)入侵檢測(cè)系統(tǒng).在該系統(tǒng)中,LCS用來設(shè)計(jì)新的事務(wù)規(guī)則,以便識(shí)別數(shù)據(jù)庫(kù)審計(jì)日志中的任何異常事件,而CNN則用于分類.Guevara等人[18]利用了Markov鏈,通過分析用戶執(zhí)行的操作序列,構(gòu)建出用戶的行為模式.但是,該方法需要大量的用戶操作記錄作為訓(xùn)練集.Sallam等人[19]采用樸素Bayesian分類和二分類兩種方法進(jìn)行數(shù)據(jù)庫(kù)異常檢測(cè),該方法檢測(cè)準(zhǔn)確率較高,但是誤報(bào)率較高.Jayaprakash等人[20]提出基于樸素貝葉斯監(jiān)督分類器的數(shù)據(jù)庫(kù)入侵檢測(cè)系統(tǒng),通過對(duì)具有侵入性的SQL語句進(jìn)行分析來檢測(cè)異常行為.

密度聚類[21]能夠根據(jù)數(shù)據(jù)集的稠密度來實(shí)現(xiàn)任意形狀的聚類,并能有效處理噪聲點(diǎn),這些特點(diǎn)較好地符合數(shù)據(jù)庫(kù)用戶行為特征,可以用于數(shù)據(jù)庫(kù)用戶行為異常檢測(cè)[22].但是,密度聚類受監(jiān)測(cè)樣本的穩(wěn)定性影響較大,如果監(jiān)測(cè)樣本出現(xiàn)一定程度的隨機(jī)性突變,則聚類效果不佳,進(jìn)而導(dǎo)致異常檢測(cè)方案出現(xiàn)較高的誤報(bào)率.

集成學(xué)習(xí)方法以學(xué)習(xí)過程中的良好性能而著稱,相比于單分類器,其在異常檢測(cè)工作過程中具有更高的檢測(cè)精度.目前,已有不少學(xué)者將其應(yīng)用到入侵檢測(cè)中來.Gaikwad等人[23]利用Bagging方法實(shí)現(xiàn)網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng).之后,Gaikwad等人[24]又將改進(jìn)后的決策樹REPTree作為Bagging方法的基類,從數(shù)據(jù)集中選擇相關(guān)特征以提高分類準(zhǔn)確性并減少檢測(cè)的誤報(bào)率.

綜述所述,目前數(shù)據(jù)庫(kù)異常檢測(cè)方法所使用的技術(shù)方案相對(duì)單一,例如僅應(yīng)用聚類或僅應(yīng)用機(jī)器學(xué)習(xí)分類器,缺少多種方法的融合運(yùn)用,進(jìn)而導(dǎo)致已有方案的效率和檢測(cè)準(zhǔn)確率較低.為此,提出了一種基于密度聚類與集成學(xué)習(xí)的數(shù)據(jù)庫(kù)異常檢測(cè)方案.在該方案中利用OPTICS聚類算法[25]對(duì)數(shù)據(jù)庫(kù)用戶的SQL操作進(jìn)行聚類,獲取用戶的異常行為特征,并形成先驗(yàn)知識(shí);對(duì)于未能獲得簇標(biāo)簽的行為數(shù)據(jù),交由集成學(xué)習(xí)作進(jìn)一步分析,集成學(xué)習(xí)中采用使用Bagging、Boosting和Stacking方法組合多種個(gè)體分類器(樸素貝葉斯(Naive Bayes,NB)分類器、決策樹(Decision Trees,DT)分類器、k-近鄰(k-NearestNeighbor,kNN)分類器、多層感知器(Multilayer Perceptron,MLP)分類器進(jìn)行分類,并創(chuàng)建用戶行為特征庫(kù).以用戶行為特征庫(kù)為基礎(chǔ),在盡可能減少誤報(bào)的情況,實(shí)現(xiàn)異常檢測(cè).

2 預(yù)備知識(shí)

2.1 OPTICS算法

OPTICS是一種不需要用戶提供特定密度閾值的密度聚類算法,是對(duì)DBSCAN算法(Density-Based Spatial Clustering of Applications with Noise)的改進(jìn),其并不顯式地產(chǎn)生數(shù)據(jù)集聚類,通過對(duì)輸出簇進(jìn)行排序,來表達(dá)數(shù)據(jù)的基于密度的聚類結(jié)構(gòu).和DBSCAN不同,OPTICS算法可以獲得不同密度的聚類,因?yàn)镺PTICS算法輸出的是樣本的一個(gè)有序隊(duì)列,從這個(gè)隊(duì)列可以獲得任意密度的聚類.

OPTICS算法的核心思想是:對(duì)于簇Ci中任意對(duì)象p,在其ε鄰域Nε(p)中,至少存在MinPts-1個(gè)其他對(duì)象,其中ε代表歐里幾何距離半徑,MinPts表示使得對(duì)象p作為核心對(duì)象在它的ε鄰域中至少應(yīng)含有的對(duì)象數(shù)量.

OPTICS算法中,存在核心距離core-distance(cd)和可達(dá)距離reachability-distance(rd)兩個(gè)重要信息.

定義1.對(duì)象p的核心距離cdε,MinPts(p).設(shè)半徑參數(shù)為ε′,使得p的ε′-鄰域剛好包含MinPts個(gè)對(duì)象,若p不是關(guān)于ε′和MinPts的核心對(duì)象,則p的核心距離沒有定義,如式(1)所示.

(1)

定義2.對(duì)象p到對(duì)象q的可達(dá)距離rdε,MinPts(p,q).是使p從q密度可達(dá)的最小半徑值,其中q必須是核心對(duì)象,并且p必須在q的領(lǐng)域內(nèi),如式(2)所示.

(2)

OPTICS聚類算法,最終將根據(jù)識(shí)別結(jié)果輸出數(shù)據(jù)集的簇排序,該排序給出了對(duì)數(shù)據(jù)結(jié)構(gòu)化和聚類的一般觀察.

2.2 局部離群因子

局部離群因子(Local Outlier Factor,LOF)通過計(jì)算樣本點(diǎn)在局部的分布情況,以數(shù)值方式反映其離群程度,是一種基于密度的離群點(diǎn)檢測(cè)算法.該算法會(huì)給出數(shù)據(jù)集中的每個(gè)點(diǎn)計(jì)算一個(gè)離群因子LOF,通過判斷LOF大于或小于1來判定是否是離群因子.若LOF遠(yuǎn)大于1,則認(rèn)為是離群因子,接近于1,則是正常點(diǎn).

定義3.局部可達(dá)距離lrd.該距離被描述為對(duì)于對(duì)象p,其MinPts鄰域中其他元素平均可達(dá)距離的倒數(shù),如式(3)所示.

(3)

其中NMinPts(p)表示在所有被聚類元素中,鄰近元素p的MinPts個(gè)元素序列.

LOF值計(jì)算,如式(4)所示.

(4)

若LOF值小于1時(shí),則表明該點(diǎn)所在位置相對(duì)稠密,不是離群點(diǎn).LOF值更能描述一個(gè)點(diǎn)的離群程度,但由于其計(jì)算量較高,因此通常先采用聚類算法粗略計(jì)算出離群點(diǎn),再對(duì)離群點(diǎn)進(jìn)行LOF值的計(jì)算.

3 方案構(gòu)建

3.1 檢測(cè)流程設(shè)計(jì)

本文提出的數(shù)據(jù)庫(kù)異常檢測(cè)方案,基于OPTICS算法與集成學(xué)習(xí)來實(shí)現(xiàn)異常檢測(cè),檢測(cè)流程如圖1所示.具體檢測(cè)過程包括:數(shù)據(jù)預(yù)處理、訓(xùn)練、學(xué)習(xí)模型構(gòu)建以及異常檢測(cè).

圖1 檢測(cè)流程Fig.1 Detection process

方案的具體業(yè)務(wù)流程如下:

Step 1.數(shù)據(jù)預(yù)處理.在數(shù)據(jù)預(yù)處理階段,首先,對(duì)數(shù)據(jù)庫(kù)用戶的SQL操作日志進(jìn)行數(shù)據(jù)預(yù)處理,提取用戶行為特征值,并轉(zhuǎn)化為[0,1]區(qū)間的數(shù)值型數(shù)據(jù),以便后續(xù)的聚類算法與集成學(xué)習(xí)模型所使用.

Step 2.訓(xùn)練.在訓(xùn)練階段,訓(xùn)練數(shù)據(jù)被劃分為兩個(gè)集合,即SmallSet和BigSet,SmallSet包含規(guī)模較小的訓(xùn)練數(shù)據(jù),BigSet包含規(guī)模較大的訓(xùn)練數(shù)據(jù).采用OPTICS算法,分別對(duì)上述兩個(gè)集合進(jìn)行聚類.SmallSet聚類后的結(jié)果作為集成學(xué)習(xí)模型的先驗(yàn)知識(shí);對(duì)于BigSet中,經(jīng)聚類后未形成簇的數(shù)據(jù),利用局部離群因子計(jì)算離群程度,對(duì)于仍然離群的訓(xùn)練數(shù)據(jù),則交由集成學(xué)習(xí)模型進(jìn)行處理.

Step 3.學(xué)習(xí)模型構(gòu)建.在學(xué)習(xí)模型構(gòu)建階段,使用集成學(xué)習(xí)方法進(jìn)行識(shí)別,選用NB、DT、K-NN和MPL作為個(gè)體分類器,使用Bagging、Boosting和Stacking作為組合模型,由訓(xùn)練階段產(chǎn)生的聚類結(jié)果作為先驗(yàn)知識(shí)完成分類計(jì)算,對(duì)最終的分類結(jié)果進(jìn)行特征存儲(chǔ).

Step 4.檢測(cè).在檢測(cè)階段,將新的用戶行為與特征庫(kù)中的已有特征進(jìn)行匹配,從而實(shí)現(xiàn)對(duì)用戶的異常行為檢測(cè).

3.2 數(shù)據(jù)預(yù)處理

本方案分析的用戶行為數(shù)據(jù)來自于用戶產(chǎn)生的數(shù)據(jù)庫(kù)SQL操作日志.這些操作日志,需要進(jìn)行預(yù)處理才可以進(jìn)行分析.本文利用由元組User_behavior< u_id,query_type,query_num,table_list,attr_list,time_slot,ip_seg >來描述用戶行為.User_behavior元組的元素含義如表1所示.

表1 User_behavior元組中的元素含義Table 1 Meaning of elements in User_behavior

為使User_behavior所表示的用戶行為數(shù)據(jù)可以為密度聚類、集成學(xué)習(xí)所能夠處理,需要將User_behavior元組中的元素映射為數(shù)值型數(shù)據(jù),并進(jìn)行歸一化處理,轉(zhuǎn)化為[0,1]之間的數(shù)值.對(duì)于不同類型的數(shù)據(jù),具體的處理方式如下:

1)對(duì)于連續(xù)性數(shù)據(jù),保留其數(shù)據(jù)原樣;

2)對(duì)于離散型、非數(shù)值型數(shù)據(jù)則通過建立全局的散列表,對(duì)數(shù)據(jù)進(jìn)行一個(gè)整型數(shù)值的映射,該映射值僅需要保證在同一元素下唯一即可.

3)對(duì)于元組型數(shù)據(jù),元組內(nèi)部元素采用整數(shù)數(shù)值進(jìn)行映射后,再對(duì)元組本身進(jìn)行數(shù)值映射.

下面通過一個(gè)示例進(jìn)行說明.

某元組型數(shù)據(jù)由兩條SQL查詢語句構(gòu)成:

SQL1:SELECT x,y from
Table T1 where z=1

SQL2:DELETE from T2 where n =2

共涉及兩個(gè)數(shù)據(jù)庫(kù)表table_list ,兩個(gè)數(shù)據(jù)庫(kù)表字段attr_list ,兩種查詢類型query_type,將非數(shù)值類型的元組映射為數(shù)字表示形式,每個(gè)數(shù)值將唯一表示一種元素的狀態(tài).

假設(shè)query_type ={1,4},table_list ={2,4},attr_list ={1,6}.若本次請(qǐng)求發(fā)生的時(shí)間段為上午8:00-8:30之間,則time_slot為16,用戶請(qǐng)求源IP網(wǎng)段歸屬于部門3,則本次請(qǐng)求描述為:<3,{1,4},2,{2,4},{1,6},16,3>,而對(duì)于{1,4}、{2,4}、{1,6}這些數(shù)據(jù)繼續(xù)使用散列表映射為具體的單個(gè)數(shù)值,如1、3、6,使得整個(gè)元組由7個(gè)數(shù)值型數(shù)據(jù)所描述.

3.3 訓(xùn) 練

在訓(xùn)練階段,利用OPTICS算法分別對(duì)SmallSet和BigSet進(jìn)行聚類.

在SmallSet上應(yīng)用OPTICS算法來構(gòu)建先驗(yàn)知識(shí).首先,將參數(shù)ε與MinPts作為輸入,根據(jù)式(1)和式(3)計(jì)算出每個(gè)數(shù)據(jù)點(diǎn)的核心距離和可達(dá)性距離值后,以升序方式產(chǎn)生數(shù)據(jù)點(diǎn)cd的rd值,通過累積具有相鄰rd值的數(shù)據(jù)點(diǎn)來形成聚類簇.

在BigSet上同樣應(yīng)用OPTICS算法,那些被成功標(biāo)記為簇標(biāo)簽的訓(xùn)練數(shù)據(jù)將被標(biāo)記為正常的用戶行為;而對(duì)于未能獲得簇標(biāo)簽的訓(xùn)練數(shù)據(jù),將利用局部離群因子計(jì)算其離群程度LOF,對(duì)于LOF值小于1的訓(xùn)練數(shù)據(jù)同樣被標(biāo)記為正常的用戶行為,而對(duì)于其他的訓(xùn)練數(shù)據(jù)將交給下一階段處理.

訓(xùn)練過程如算法1所示.

算法1.訓(xùn)練算法

輸入:SmallSet S1與BigSet S2,|S1|≥|S2|;聚類參數(shù)ε、MinPts

輸出:不確定行為集合Su、可供集成學(xué)習(xí)模塊使用的先驗(yàn)集合Sk

1.Sk=OPTICS(S2,ε,MinPts)

2.S1c=OPTICS(S1,ε,MinPts)

3.for k=1 to |S1c| do //遍歷Sn

4. if S1c[k]沒有簇標(biāo)號(hào) then

5. LOFSk=LOF(S1c[k])

6. if LOFSk<1 then

7. S1c[k]列入正常行為表GHT

8. Output(“正常行為”)

9. else

10. S1c[k]列入不確定行為集合Su

11. end if

12. else

13. S1c[k]列入正常行為表GHT

14. Output(“正常行為”)

15. end if

16.end for

17.返回[Sk,Su]

3.4 學(xué)習(xí)模型

本方案的集成學(xué)習(xí)模型基于Bagging、Boosting和Stacking模型,同時(shí)選擇樸素貝葉斯(Naive Bayes,NB)分類器、決策樹(Decision Trees,DT)分類器、k-近鄰(k-Nearest Neighbor,kNN)分類器、多層感知器(Multilayer Perceptron,MLP)分類器作為集成學(xué)習(xí)模型的個(gè)體分類器.

在Bagging、Boosting和Stacking的復(fù)合分類器中,將使用NB、DT、kNN和MLP分類器進(jìn)行分別測(cè)試.Bagging模型中通過投票方式獲得最終的分類結(jié)果,能夠有效降低使用單一分類器時(shí)的方差;在Boosting模型中,通過迭代修正測(cè)試數(shù)據(jù)集權(quán)重的方式,提升模型的精確度.Stacking模型中將分為兩層學(xué)習(xí)器,如圖2所示,在第0層(基學(xué)習(xí)器)通過k折分段的方式拆分原始數(shù)據(jù),交由其他個(gè)體分類器進(jìn)行分類預(yù)測(cè),再將結(jié)果遞交至第1層(元學(xué)習(xí)器)獲得最終的結(jié)果,從而實(shí)現(xiàn)更高的準(zhǔn)確性與較低的誤報(bào)率.

圖2 集成學(xué)習(xí)模型Fig.2 Ensemble learning model

學(xué)習(xí)模型構(gòu)建算法如算法2所示.

算法2.學(xué)習(xí)模型構(gòu)建算法

輸入:訓(xùn)練階段輸出的集合Sk,Su

輸出:正常行為、異常行為表.

1.Bag=Bagging(Su,Sk)

2.Boost=Boosting(Su,Sk)

3.Stack=Stacking(Su,Sk)

4.for k=1 to |Su| do

5. if(Su[k]∈Bag)‖(Su[k]∈Boost)‖(Su[k]∈Stack)then

6. Su[k]列入正常行為表GHT

7. Output(“正常行為”)

8. else

9. Su[k]列入異常行為表MHT

10. Output(“異常行為”)

11. end if

12.end for

3.5 異常檢測(cè)

對(duì)于各階段已經(jīng)正確識(shí)別的用戶行為進(jìn)行特征提取,并將正常行為特征保存到正常行為記錄表(Normal Behavior Table,NBT)中,將異常行為特征保存到異常行為記錄表(Abnormal Behavior
Table,ABT).在OPTICS與LOF計(jì)算中給出的正常請(qǐng)求都將更新至NBT中.同時(shí),若集成學(xué)習(xí)模塊中識(shí)別出的正?;虍惓5恼?qǐng)求,也相應(yīng)的保存到NBT或ABT中.對(duì)于應(yīng)用系統(tǒng)新產(chǎn)生的數(shù)據(jù)集,將優(yōu)先向NBT與ABT中進(jìn)行匹配.表2給出NBT的存儲(chǔ)格式,表3給出ABT的存儲(chǔ)格式.對(duì)于未能準(zhǔn)確匹配的新的數(shù)據(jù)集,交由集成學(xué)習(xí)模塊繼續(xù)進(jìn)行識(shí)別.

表2 正常行為記錄表Table 2 Recordof normal behavior

圖3 異常檢測(cè)流程Fig.3 Anomaly detection process

圖3給出了異常檢測(cè)的流程.

表3 異常行為記錄表Table 3 Recordofabnormal behavior

4 實(shí)驗(yàn)分析

本實(shí)驗(yàn)環(huán)境是在CPU:Intel(R)Core(TM)i7-67003.40GHz,內(nèi)存:16G,操作系統(tǒng)為Windows 10的計(jì)算機(jī)上進(jìn)行.

4.1 測(cè)試數(shù)據(jù)集

由于已有的公開數(shù)據(jù)集無法滿足本實(shí)驗(yàn)的測(cè)試需求,因此,參照Charissa等人[26]所提出的數(shù)據(jù)生成原理模擬產(chǎn)生了本實(shí)驗(yàn)所需的測(cè)試數(shù)據(jù)集.

首先,構(gòu)建可以模擬生成符合高斯分布的數(shù)據(jù)產(chǎn)生模擬器,分別產(chǎn)生用戶正常行為與異常行為數(shù)據(jù).

1)對(duì)于用戶正常行為,通過隨機(jī)創(chuàng)建多個(gè)簇中心,以該簇中心模擬的創(chuàng)建符合標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)樣本點(diǎn)來模擬用戶一類的正常行為,但此類行為并不完全重合,存在微小的差異.

2)對(duì)于用戶異常行為,假設(shè)這種行為相對(duì)于大量的正常用戶行為而言是少量存在的.因此通過數(shù)據(jù)產(chǎn)生模擬器,創(chuàng)建少量、高方差的記錄.通過增大方差,使得這些行為數(shù)據(jù)表現(xiàn)的更加分散.

圖4 模擬器生成的一組二維數(shù)據(jù)集的分布情況Fig.4 Distribution of a set of two-dimensional data sets generated by the simulator

為驗(yàn)證模擬器產(chǎn)生實(shí)驗(yàn)數(shù)據(jù)的效果,創(chuàng)建一組由30000個(gè)二維數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,其分布如圖4所示,在圖4中圓狀點(diǎn)對(duì)應(yīng)大量的正常行為,“x”狀點(diǎn)對(duì)應(yīng)異常行為.其中可以直觀的觀測(cè)到異常行為中有少部分存在于密集的正常行為中,且也有少部分正常行為分散在簇中心較遠(yuǎn)區(qū)域,該模擬結(jié)果恰好符合數(shù)據(jù)庫(kù)用戶行為的實(shí)際情況.

4.2 實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)使用本文所設(shè)計(jì)的模擬器來產(chǎn)生30000條測(cè)試數(shù)據(jù)集.在測(cè)試數(shù)據(jù)集的每條記錄中包含7個(gè)屬性元組,以及其對(duì)應(yīng)的“正?!被颉爱惓!睒?biāo)簽.

采用準(zhǔn)確度(Accuracy,Acc)、精度(Precision,Pre)、真陽率(True Positive Rate,TPR)、假陽率(False Positive Rate,F(xiàn)PR)、F-measure 對(duì)本方案進(jìn)行實(shí)驗(yàn)分析.Acc表示正確檢測(cè)請(qǐng)求占全部請(qǐng)求的百分比,如式(5)所示;Pre表示在全部樣本中正確檢測(cè)的請(qǐng)求百分比,如式(6)所示;TPR表示在實(shí)際為正常請(qǐng)求中,檢測(cè)為正常請(qǐng)求的百分比,如式(7)所示;FPR表示在實(shí)際為惡意請(qǐng)求中,檢測(cè)為惡意請(qǐng)求的百分比,如式(8)所示;F-measure是Pre與FPR的加權(quán)調(diào)和平均數(shù),如式(9)所示,當(dāng)F-measure較高時(shí)則能說明實(shí)驗(yàn)方法有效.

(5)

(6)

(7)

(8)

(9)

OPTICS聚類對(duì)于本文所提出方案的性能有著非常重要的影響.而OPTICS聚類的性能主要由參數(shù)ε與MinPts決定.為獲得最優(yōu)的聚類效果,對(duì)參數(shù)ε與MinPts的不同取值情況下的OPTICS聚類性能進(jìn)行測(cè)試,測(cè)試結(jié)果如表4所示.

表4 OPTICS聚類在ε與MinPts不同取值情況下的性能Table 4 Performance of OPTICS clustering under different values of ε and MinPts

觀察表4中1、2、5、6對(duì)照組可知,參數(shù)ε越小,其FPR值越來越小,F(xiàn)-measure越來越大,整體性能得到提升;但參數(shù)ε小到超過數(shù)據(jù)閾值時(shí),將無法完成聚類.觀察2、5、7對(duì)照組,整體識(shí)別效果良好,但由2-4、6-7對(duì)照組數(shù)據(jù)可知,MinPts值越大,其聚類準(zhǔn)確率有所下降.綜述上,對(duì)照組2,即ε=0.01且MinPts=10時(shí),聚類效果最優(yōu).

表5 個(gè)體分類器在單一使用與復(fù)合模式下的性能Table 5 Performance of individual classifier in single use and composite mode

因此,后續(xù)實(shí)驗(yàn)是在ε=0.01且MinPts=10的情況下完成的.

表5與圖5給出了當(dāng)ε=0.01,MinPts=10時(shí),在集成學(xué)習(xí)模塊中各個(gè)體分類器在單獨(dú)分類和復(fù)合模式下分類的性能情況.

圖5 個(gè)體分類器在單一使用與復(fù)合模式下的性能對(duì)比Fig.5 Performance comparison of individual classifier in single use and compound mode

由表5與圖4可知,使用復(fù)合模型相比于個(gè)體分類器在性能結(jié)果上有不同程度的提高.在不同分類器模型之間,MLP分類器具備較高的Pre、TPR以及較低的FPR,其F-measure分值也是最高的,該分類器在Bagging與Boosting模型下,提高Pre的同時(shí)也大幅度降低了FPR.

表6 4種個(gè)體分類器在Stacking模式下不同搭配的性能Table 6 Performance of four individual classifiers with different combinations in Stacking mode

表6給出了當(dāng)ε=0.01,MinPts=10時(shí),使用NB、DT、kNN和MLP分類器,在Stacking模型下的性能.其中在NB作為元分類器時(shí),其他3種分類器為基分類器時(shí),各項(xiàng)指標(biāo)表現(xiàn)最好.

表7 系統(tǒng)檢測(cè)結(jié)果Table 7 System detection results

通過上述實(shí)驗(yàn)結(jié)果表明,當(dāng)聚類參數(shù)ε=0.01,MinPts=10時(shí),集成學(xué)習(xí)中Bagging、Boosting復(fù)合模式情況下采用MLP個(gè)體分類器,Stacking模式下采用NB個(gè)體分類作為元學(xué)習(xí)器相比于其他組合而言具備更好的系統(tǒng)識(shí)別準(zhǔn)確率和更低的誤報(bào)率,可作為系統(tǒng)最優(yōu)的實(shí)現(xiàn)策略,實(shí)現(xiàn)后的系統(tǒng)異常檢測(cè)結(jié)果如表7所示.

表8 與同類方案的對(duì)比分析結(jié)果Table 8 Comparative analysis results with similar scheme

Gaikwad等人[24]所提出的方案是目前數(shù)據(jù)庫(kù)異常檢測(cè)領(lǐng)域中的典型方案,與本文所提出的方案屬于同類方案,因此將兩種方案進(jìn)行對(duì)比,對(duì)比結(jié)果如表8所示.由表8可知,本文所提出的方案在所有指標(biāo)方面均具有一定的優(yōu)勢(shì).

5 結(jié)束語

本文提出了一種基于OPTICS聚類與集成學(xué)習(xí)的數(shù)據(jù)庫(kù)異常檢測(cè)方法.對(duì)用戶的SQL操作日志數(shù)據(jù)集進(jìn)行預(yù)處理,由OPTICS聚類算法構(gòu)建用戶行為特征,利用Bagging、Boosting和Stacking算法組合的集成學(xué)習(xí)模塊對(duì)用戶行為作進(jìn)一步分析,并創(chuàng)建用戶行為特征庫(kù).基于用戶形成特征庫(kù),實(shí)現(xiàn)數(shù)據(jù)庫(kù)異常檢測(cè).通過模擬數(shù)據(jù)庫(kù)用戶行為數(shù)據(jù),對(duì)本方案進(jìn)行測(cè)試,結(jié)果表明本方案能以較高的效率和準(zhǔn)確率檢測(cè)出數(shù)據(jù)庫(kù)用戶的異常行為,具有一定的實(shí)際應(yīng)用價(jià)值.

猜你喜歡
數(shù)據(jù)庫(kù)用戶檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
數(shù)據(jù)庫(kù)
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
數(shù)據(jù)庫(kù)
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
數(shù)據(jù)庫(kù)
主站蜘蛛池模板: 国产一区二区三区免费| 伊人久久婷婷五月综合97色| 67194成是人免费无码| 国产精品浪潮Av| 97人妻精品专区久久久久| 第一区免费在线观看| 成人在线不卡视频| 婷婷激情五月网| 青青草欧美| 欧美成人免费| 久久综合伊人 六十路| 亚洲综合经典在线一区二区| 国产精品所毛片视频| a毛片在线免费观看| 久久香蕉国产线看观| 亚洲自偷自拍另类小说| 中文字幕在线看视频一区二区三区| 九九香蕉视频| 精品无码视频在线观看| 亚洲成AV人手机在线观看网站| 亚洲色图欧美视频| 日韩欧美国产精品| 国产精品第一区| 熟妇人妻无乱码中文字幕真矢织江 | 999国内精品视频免费| 日本一区二区三区精品视频| 超薄丝袜足j国产在线视频| 国产综合另类小说色区色噜噜| 亚洲成人精品在线| 欧美成人一级| 久久精品国产精品一区二区| 在线观看av永久| 亚洲无码高清一区二区| 国产小视频网站| 97人妻精品专区久久久久| 亚洲精品免费网站| 日韩最新中文字幕| 日韩精品无码免费专网站| 欧美亚洲国产视频| 欧美在线精品怡红院| 日韩无码一二三区| 国产亚洲欧美日韩在线一区| 亚洲天堂免费在线视频| 国产天天射| 久久精品丝袜| 中文字幕 欧美日韩| 久久综合色播五月男人的天堂| 日韩国产黄色网站| AV色爱天堂网| 99久久免费精品特色大片| 91精品综合| 亚洲成a人在线观看| 一本久道热中字伊人| 在线观看免费黄色网址| 日本免费高清一区| 精品国产自在在线在线观看| 国产95在线 | av一区二区人妻无码| 亚洲a级在线观看| 国产又粗又猛又爽| 久久综合丝袜日本网| 国产在线麻豆波多野结衣| 国产三区二区| 国产在线精品99一区不卡| 成人久久精品一区二区三区| 久久人午夜亚洲精品无码区| 91精品国产麻豆国产自产在线| 欧美在线天堂| 久久精品国产国语对白| 日韩在线视频网| 在线观看亚洲成人| 亚洲综合色区在线播放2019| 国产原创自拍不卡第一页| 久久香蕉国产线看精品| 国产精品原创不卡在线| 在线观看网站国产| 国产色网站| 国产成人一二三| 岛国精品一区免费视频在线观看 | 久99久热只有精品国产15| av一区二区人妻无码| 国产乱子伦精品视频|