999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

類圖像處理面向大數(shù)據(jù)XSS入侵智能檢測研究

2020-03-11 12:51:20張海軍陳映輝
計算機(jī)應(yīng)用與軟件 2020年2期
關(guān)鍵詞:實驗檢測

張海軍 陳映輝

1(嘉應(yīng)學(xué)院計算機(jī)學(xué)院 廣東 梅州 514015)2(嘉應(yīng)學(xué)院數(shù)學(xué)學(xué)院 廣東 梅州 514015)

0 引 言

隨著互聯(lián)網(wǎng)技術(shù)的大力發(fā)展以及網(wǎng)絡(luò)用戶的大量增加,產(chǎn)生了大量蘊(yùn)含較高價值的大數(shù)據(jù)。從服務(wù)器的交易系統(tǒng)和業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)到各個終端的數(shù)據(jù),如各種流水操作、網(wǎng)購記錄、網(wǎng)絡(luò)瀏覽歷史、播放的音視頻、微博數(shù)據(jù)、微信數(shù)據(jù)等,因而基于WEB應(yīng)用的攻擊逐漸成為主要攻擊,如跨站腳本攻擊(Cross-Site Scripting,XSS)[1-2],表現(xiàn)為:① 網(wǎng)絡(luò)釣魚,盜取用戶的賬號和密碼;② 盜取用戶Cookie數(shù)據(jù),獲取用戶隱私,或者利用用戶身份進(jìn)一步進(jìn)行操作;③ 劫持瀏覽器會話,從而冒充用戶執(zhí)行任意操作,如非法轉(zhuǎn)賬、強(qiáng)制發(fā)表博客;④ 強(qiáng)制彈出頁面廣告,刷流量;⑤ 進(jìn)行惡意操作,如纂改頁面信息、刪除文章、傳播跨站蠕蟲腳本、網(wǎng)掛木馬;⑥ 進(jìn)行基于大量的客戶端攻擊,如DDoS攻擊;⑦ 聯(lián)合其他漏洞,如CSRF漏洞;⑧ 進(jìn)一步滲透網(wǎng)站等。傳統(tǒng)的計算機(jī)病毒檢測方法主要是利用病毒特征庫中的已有特征,通過提取相應(yīng)樣本的特征,用病毒庫搜索比較是否存在相匹配的特征來確定病毒。這種方法主要是基于已知的病毒檢測,難以檢測新出現(xiàn)的病毒,特別是對于變形病毒更加無能為力,而且效率低,特別是對于大數(shù)據(jù)。當(dāng)前安全防護(hù)措施也已經(jīng)由過去的“80%防護(hù)+20%檢測及響應(yīng)”變成了“20%防護(hù)+80%檢測及響應(yīng)”。深度學(xué)習(xí)在語音、圖像、自然語言處理等方面都展現(xiàn)出了比傳統(tǒng)機(jī)器學(xué)習(xí)方法更強(qiáng)的學(xué)習(xí)能力,取得了非常好的效果,特別是對于大數(shù)據(jù)。為此,本文進(jìn)行類圖像處理面向大數(shù)據(jù)XSS入侵智能檢測研究。

1 大數(shù)據(jù)處理和建模

Web異常檢測本質(zhì)上就是基于日志文本的分析,即對訪問流量語料庫進(jìn)行數(shù)值化的特征提取和分析,如:URL參數(shù)個數(shù)、均值和方差、字符分布和訪問頻率等。當(dāng)前基于安全防護(hù)的樣本數(shù)據(jù)比較缺乏,標(biāo)注好標(biāo)簽的樣本少之又少,因而需要進(jìn)行數(shù)據(jù)處理和建模,包括數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理(數(shù)據(jù)清洗、數(shù)據(jù)抽樣、特征提取)、數(shù)值分析、行為決策等。

在計算機(jī)里,任何信息都是以0和1二進(jìn)制序列表示,如所有的字符(包括字母、漢字、英語單詞等語言文字)都有一個編碼,而圖像也是以數(shù)字化信息表示。因而本文把大數(shù)據(jù)日志文本轉(zhuǎn)換成數(shù)值數(shù)據(jù)并以矩陣表示,從而利用圖像處理的方法進(jìn)行數(shù)據(jù)處理和分析。即將攻擊報文轉(zhuǎn)換成類似于圖像數(shù)據(jù)即像素的矩陣,也將字符串序列樣本轉(zhuǎn)換成具有相應(yīng)維度值的向量,如圖1所示,進(jìn)一步可求矩陣相關(guān)性、維數(shù)約減、聚類和主元素分析法PCA等運(yùn)算,然后利用人工智能方法進(jìn)行用戶行為分析、網(wǎng)絡(luò)流量分析和欺詐檢測等。

圖1 類圖像處理大數(shù)據(jù)日志文本向量化原理圖

1.1 語料大數(shù)據(jù)獲取

用于實驗的數(shù)據(jù)包括兩類大數(shù)據(jù):① 正樣本大數(shù)據(jù)(帶有攻擊行為),利用爬蟲工具從網(wǎng)站http://xssed.com/爬取獲得,由Payload數(shù)據(jù)組成;② 負(fù)樣本大數(shù)據(jù)(正常網(wǎng)絡(luò)請求),為了體現(xiàn)特殊性和普遍性,共收集了兩份數(shù)據(jù),一份來自本單位網(wǎng)絡(luò)中心從去年5月份到12月份的訪問日志大數(shù)據(jù),另一份是從各網(wǎng)絡(luò)平臺通過網(wǎng)絡(luò)爬蟲獲得,它們都是未處理的語料大數(shù)據(jù)。

1.2 大數(shù)據(jù)處理

利用基于神經(jīng)網(wǎng)絡(luò)的詞向量化(Word2vec)[3-4]工具——連續(xù)詞袋模型(Continous Bag of Words Model,CBOW)實現(xiàn)大數(shù)據(jù)語料處理,進(jìn)行數(shù)據(jù)切割、分詞、詞向量化,把獨(dú)熱編碼(One-hot Encoded)的詞向量映射為分布式形式的詞向量,降低了維數(shù),減少了稀疏性,同時通過求向量間的歐氏距離或夾角余弦值可以得出任何詞間的關(guān)聯(lián)度。具體處理過程如下:

(1) 首先,遍歷數(shù)據(jù)集,把數(shù)字都用“0”替換,把http/、HTTP/、https/、HTTPS用“http://”替換;其次,按照html標(biāo)簽、JavaScript函數(shù)體、http://和參數(shù)規(guī)則進(jìn)行分詞;基于日記文檔構(gòu)建詞匯表,再對單詞進(jìn)行獨(dú)熱編碼。

(2) 構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的詞向量化模型結(jié)構(gòu)[5-9],包括輸入層、投射層和輸出層,利用輸入樣本,訓(xùn)練模型,獲得分布式詞向量,相應(yīng)模型及訓(xùn)練過程如圖2所示。

圖2 CBOW模型及訓(xùn)練過程圖

(3) 統(tǒng)計正樣本詞集,用詞頻最高的3 000個詞構(gòu)成詞庫,其他標(biāo)記為“COM”,本文設(shè)定分布式特征向量為128維度,當(dāng)前詞與預(yù)測詞最大窗口距離為5,64個噪聲詞,進(jìn)行5次迭代。

因為每條數(shù)據(jù)所占字符長度各不相同,以所占字符長度最多為標(biāo)準(zhǔn),不足則以-1填充,在為數(shù)據(jù)集設(shè)計標(biāo)簽時,使用One-Hot編碼,正樣本標(biāo)簽即屬于攻擊樣本的以1表示,負(fù)樣本標(biāo)簽即正常網(wǎng)絡(luò)請求以0表示。

通過以上方法處理,共獲得正樣本數(shù)據(jù)集40 637條,負(fù)樣本數(shù)據(jù)集分別為105 912條和200 129條,它們數(shù)量大、計算復(fù)雜性高[10-13]。為了提高訓(xùn)練效果,將正樣本集和兩類負(fù)樣本集分別進(jìn)行合并,隨機(jī)劃分為訓(xùn)練集和測試集,數(shù)量比為7∶3。

2 算法設(shè)計

2.1 詞向量化算法設(shè)計

利用CBOW實現(xiàn)詞向量,即已知上下文詞語預(yù)測當(dāng)前詞語出現(xiàn)的概率。為此,需要最大化對數(shù)似然函數(shù):

(1)

式中:w表示語料庫C中的詞,這可以看作多分類問題,而多分類是由二分類組合而成,因而可以使用Hierarchical Softmax方法。先計算w的條件概率,公式如下:

(2)

(3)

由于d只取0和1,所以式(3)可以以指數(shù)的形式表示:

(4)

將式(4)代入式(1)可得:

(5)

對式(5)中的每一項可以記為:

(6)

(7)

式中:σ(x)為sigmoid函數(shù)。所以σ′(x)=σ(x)[1-σ(x)],代入式(7)可得:

(8)

(9)

(10)

由于Xw是上下文的詞向量和,在處理時把整個更新值應(yīng)用到上下文每個單詞的詞向量上去:

(11)

基于上面的主要算法建立模型,把原始語料作為輸入,可以得到詞向量。

2.2 深度神經(jīng)網(wǎng)絡(luò)算法設(shè)計

深度神經(jīng)網(wǎng)絡(luò)相對于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)或其他ML算法顯示出了優(yōu)異的性能,特別是對于大數(shù)據(jù),具有更高的識別率、更強(qiáng)魯棒性、更好的泛化性等優(yōu)點(diǎn)[14-22]。為此,設(shè)計深度神經(jīng)網(wǎng)絡(luò)算法來實現(xiàn)安全防護(hù)檢測,通過大數(shù)據(jù)訓(xùn)練模型。訓(xùn)練時的均方誤差可以表示為:

(12)

(13)

接下來可求l=nl-1,nl-2,…,2時,各個層的單元的殘差,如l=nl-1層的各單元的殘差為:

(14)

式中:W表示權(quán)值,b表示偏置,(x,y)表示訓(xùn)練樣本,hW,b(x)表示最后的輸出量,f(·)表示激活函數(shù)。將式中的nl-1與nl的關(guān)系替換為l與l+1的關(guān)系,就可以得到:

(15)

利用以上公式可以求出每個單元的殘差,從而進(jìn)一步求出基于權(quán)值等變量的偏導(dǎo)數(shù):

(16)

由此可以得到權(quán)值的改變過程:

(17)

偏置項的改變過程為:

(18)

由此可以實現(xiàn)DNN的學(xué)習(xí)和訓(xùn)練。

3 實 驗

3.1 實驗數(shù)據(jù)

第2節(jié)實現(xiàn)了語料大數(shù)據(jù)的獲取、處理、建模、分詞和詞向量化處理。共獲得正樣本數(shù)據(jù)集40 637條,負(fù)樣本數(shù)據(jù)集分別為105 912條和200 129條,數(shù)量大、計算復(fù)雜性高。為了提高訓(xùn)練效果,將兩類負(fù)樣本集分別同正樣本集進(jìn)行合并,都以7∶3的比例隨機(jī)劃分為訓(xùn)練集和測試集,記為第Ⅰ和第Ⅱ大數(shù)據(jù)集。

3.2 實驗結(jié)果與分析

基于DNN,分別構(gòu)建3、4、5、6、7層等深度,設(shè)計不同的超參數(shù),包括樣本塊大小、學(xué)習(xí)率以及各層包含的不同神經(jīng)元數(shù)等,利用詞向量大數(shù)據(jù)集樣本進(jìn)行訓(xùn)練和測試實驗。為了檢驗系統(tǒng)的穩(wěn)定性,對每類數(shù)據(jù)分別進(jìn)行了20次實驗,結(jié)果如下:

(1) 基于各深層DNN設(shè)計不同的超參數(shù),對第Ⅰ類大數(shù)據(jù)集進(jìn)行20次實驗得到的識別率如表1所示??梢钥闯?,最低識別率為0.983 9,最高識別率為0.995 5,識別率隨著訓(xùn)練次數(shù)的增加而增加,最后趨于穩(wěn)定。曲線展示如圖3所示。

表1 各深層DNNs對第Ⅰ類大數(shù)據(jù)集進(jìn)行20次實驗 得到的識別率

圖3 對第Ⅰ類大數(shù)據(jù)集進(jìn)行20次實驗時 得到的識別率曲線圖

(2) 基于各深層DNN設(shè)計不同的超參數(shù),對第Ⅱ類大數(shù)據(jù)集進(jìn)行20次實驗得到的識別率如表2所示??梢钥闯?,最低識別率為0.986 4,最高識別率為0.999 0,識別率隨著訓(xùn)練次數(shù)的增加而增加,最后也趨于穩(wěn)定。曲線展示如圖4所示。

表2 各深層DNNs對第Ⅱ類大數(shù)據(jù)集進(jìn)行20次 實驗時得到的識別率

圖4 對第Ⅱ類大數(shù)據(jù)集進(jìn)行20次實驗時 得到的識別率曲線圖

另外,通過實驗,得到各深層DNN對第Ⅰ類大數(shù)據(jù)集的平均識別率為99.44%左右,方差為0.000 002左右,標(biāo)準(zhǔn)差為0.001 589左右,如表3所示。

表3 各深層DNNs對第Ⅰ類大數(shù)據(jù)集進(jìn)行20次實驗時 得到的平均識別率、方差和標(biāo)準(zhǔn)差

續(xù)表3

同樣,通過實驗得到各深層DNN對第Ⅱ類大數(shù)據(jù)集的平均識別率為99.77%左右,方差為0.000 006左右,標(biāo)準(zhǔn)差為0.002 427左右,如表4所示。

表4 各深層DNNs對第Ⅱ類大數(shù)據(jù)集進(jìn)行20次實驗時 得到的平均識別率、方差和標(biāo)準(zhǔn)差

對于第Ⅰ和Ⅱ類大數(shù)據(jù)集的識別率均值條形圖展示如圖5所示,標(biāo)準(zhǔn)差條形圖展示如圖6所示。

圖5 對于第Ⅰ和Ⅱ類大數(shù)據(jù)集的識別率均值條形圖

圖6 對于第Ⅰ和Ⅱ類大數(shù)據(jù)集的標(biāo)準(zhǔn)差條形圖

為了描述系統(tǒng)的識別變化過程,得到識別率變化過程曲線如圖7所示,可以看出識別率隨著訓(xùn)練的進(jìn)行不斷增加并趨于穩(wěn)定。

圖7 識別率變化曲線圖

同樣,得到平均絕對誤差變化過程曲線,如圖8所示,可以看出隨著訓(xùn)練的進(jìn)行,平均絕度誤差不斷減小并趨于最小的穩(wěn)定值,這同圖7中的識別率的變化是一致的。

圖8 平均絕對誤差變化曲線圖

4 結(jié) 語

本文利用類圖像處理方法對訪問流量語料庫大數(shù)據(jù)進(jìn)行詞向量化處理,結(jié)合提出的智能算法實現(xiàn)了面向大數(shù)據(jù)XSS入侵智能檢測。首先,基于流量語料數(shù)據(jù)的非結(jié)構(gòu)化特點(diǎn),巧妙地利用類圖像處理方法進(jìn)行數(shù)據(jù)獲取、清洗、抽樣及特征提取等預(yù)處理;其次,設(shè)計基于神經(jīng)網(wǎng)絡(luò)的算法實現(xiàn)了語料大數(shù)據(jù)的詞向量化;然后,通過理論分析和驗證提出了多種不同的深層神經(jīng)網(wǎng)絡(luò)智能檢測算法;最后,進(jìn)行反復(fù)的實驗,設(shè)計不同的超參數(shù),取得了最大識別率、最低識別率、識別率均值、方差、標(biāo)準(zhǔn)差、識別率變化過程曲線圖和平均絕對誤差變化過程曲線圖等結(jié)果,證明了本文研究的類圖像處理面向大數(shù)據(jù)XSS入侵智能檢測系統(tǒng)具有識別率高,穩(wěn)定性好,總體性能優(yōu)良等優(yōu)點(diǎn)。為了更好地處理大數(shù)據(jù),未來將繼續(xù)探討基于云計算集群并行化的入侵智能檢測。

猜你喜歡
實驗檢測
記一次有趣的實驗
微型實驗里看“燃燒”
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
做個怪怪長實驗
NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 亚洲一区黄色| 五月婷婷综合网| 日本亚洲成高清一区二区三区| 国产精品亚欧美一区二区| 妇女自拍偷自拍亚洲精品| 欧美在线国产| 一区二区三区四区精品视频| 国产成人亚洲综合a∨婷婷| 国产激情无码一区二区三区免费| 日韩少妇激情一区二区| 91久久夜色精品国产网站| 久久无码高潮喷水| 国产97区一区二区三区无码| 欧美国产日产一区二区| 日韩欧美中文字幕在线精品| 国产美女丝袜高潮| 免费在线国产一区二区三区精品| 中文字幕在线永久在线视频2020| 老司机aⅴ在线精品导航| 亚洲精品手机在线| 国产91精选在线观看| 女人毛片a级大学毛片免费| 婷婷色一二三区波多野衣| 国产成人毛片| 国产成人精品18| 91精品国产情侣高潮露脸| 中文国产成人精品久久| 日韩经典精品无码一区二区| 欧美一区二区啪啪| 国产精品久久久免费视频| 国产成人免费视频精品一区二区 | 天天做天天爱夜夜爽毛片毛片| 日韩免费无码人妻系列| 激情成人综合网| 免费一级毛片在线播放傲雪网| 亚洲精品在线影院| 国产伦精品一区二区三区视频优播| 这里只有精品在线| 久久99这里精品8国产| 亚洲天堂久久新| 国产成人高清精品免费| 最新国产麻豆aⅴ精品无| 日韩无码视频播放| 91精品日韩人妻无码久久| 黄片在线永久| 亚洲无码91视频| 黄色污网站在线观看| 2019年国产精品自拍不卡| 亚洲日韩精品无码专区| 亚洲成人黄色在线| 99re在线免费视频| 狠狠色综合网| 亚洲精品无码人妻无码| 亚洲无码一区在线观看| igao国产精品| 97国产精品视频自在拍| 理论片一区| 国产精品任我爽爆在线播放6080| 亚洲高清资源| 国产在线精品美女观看| 国产91高清视频| 国产精品jizz在线观看软件| 波多野结衣视频一区二区| 久久香蕉欧美精品| 中文字幕久久亚洲一区| 极品私人尤物在线精品首页| 97久久超碰极品视觉盛宴| 国产在线日本| 日韩毛片基地| 国产无吗一区二区三区在线欢| 国产探花在线视频| 91香蕉国产亚洲一二三区| 亚洲精品黄| 中文字幕天无码久久精品视频免费 | 永久免费av网站可以直接看的| 精品国产香蕉在线播出| 国产精品手机在线观看你懂的| 久草美女视频| 99热这里都是国产精品| 国产sm重味一区二区三区| 欧美人人干| 国产在线视频自拍|