999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習和半監(jiān)督學習的webshell檢測方法

2018-08-27 12:40:36斌,趙
關鍵詞:分類監(jiān)督檢測

吳 斌,趙 力

(北京網(wǎng)思科平科技有限公司,北京 100089)

0 引言

隨著互聯(lián)網(wǎng)的發(fā)展,基于B/S架構(gòu)的Web應用迅速普及,包括應用在政府、銀行、運營商、電商以及各大門戶網(wǎng)站。由于不同的Web系統(tǒng)研發(fā)人員水平差異,在設計過程中難免對安全問題欠缺考慮,造成Web安全問題頻發(fā)。常見的安全威脅有:SQL注入漏洞、上傳文件漏洞、提交表單漏洞、跨站腳本攻擊等。入侵者在獲得Web系統(tǒng)漏洞后,會通過上傳webshell來獲得Web服務器的操作權(quán)限。對于入侵者來說,webshell就是一個后門程序,通常是ASP、PHP、JSP等網(wǎng)頁腳本。入侵實施后,首先在網(wǎng)頁服務器的Web目錄下面放置腳本文件,然后可以通過Web頁面對網(wǎng)站服務器進行控制[2]。由于webshell操作不會在系統(tǒng)安全日志中留下記錄,并且與正常網(wǎng)頁文件混在一起,一般管理員很難看出入侵痕跡[3]。

在Web安全檢測領域,由于缺少樣本,很難建立精準的監(jiān)督學習模型,而無監(jiān)督學習會造成誤報率高的問題,需要大量的安全工程師分析過濾機器學習的警告,分析結(jié)果存在人工誤差。由于Web攻擊方式多變,傳統(tǒng)的預測方式難以應對復雜的真實環(huán)境。本文利用深度學習提取特征完備性高的特點,結(jié)合半監(jiān)督學習,將機器學習應用于webshell本地檢測,使用github公開樣本數(shù)據(jù)[4-5],采用單分類和增量學習方式,不斷優(yōu)化模型,經(jīng)過多次試驗效果證明,本文方法能夠有效降低誤報率和提高檢測率。

1 深度學習

在機器學習領域,學者公認“數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已”。本文webshell檢測的測試數(shù)據(jù)來源于github上整理的webshell樣本,具有一定的代表性。特征選擇使用卡方檢驗和神經(jīng)網(wǎng)絡相結(jié)合,先用卡方檢驗選取前K個重要特征,過濾測試文本,進一步使用神經(jīng)網(wǎng)絡算法,獲得每一個樣本的文本向量。

1.1 卡方檢驗

卡方檢驗是一種常見的特征選擇方法。其基本思想是根據(jù)樣本數(shù)據(jù)推斷總體的分布與期望分布是否有顯著差異,或者推斷兩個分類變量是否相關。

一般可以設原假設為H0:觀察頻數(shù)與期望頻數(shù)沒有差異,或者兩個變量相互獨立不相關。實際應用中,先假設H0成立,計算出χ2值。根據(jù)χ2分布、χ2統(tǒng)計量以及自由度,可以確定在H0成立的情況下獲得當前統(tǒng)計量的概率P。如果P很小,說明觀察值與理論值的偏離程度大,應該拒絕原假設。否則不能拒絕原假設。

χ2的計算公式為:

(1)

其中,A為實際值,T為理論值。

在本文的github樣本中,使用卡方檢驗剔除與webshell攻擊相關性較小的詞,例如:“is”、“the”、“是”等。選取前500個特征詞,例如“shell”、“package”等。

1.2 神經(jīng)網(wǎng)絡

深度學習是機器學習的重要分支,目前深度學習在圖像、語音、自然語言等取得巨大突破。在文本分析領域,word2vec[6]和doc2vec是深度學習的重要研究成果,doc2vec與word2vec相似,只是word2vec在基于詞的語義分析基礎上,添加基于上下文的語義分析能力。

doc2vec是將詞表征為實數(shù)值向量的一種高效的算法模型,利用深度學習的思想,構(gòu)建兩層神經(jīng)網(wǎng)絡,即輸入層-隱藏層-輸出層,通過訓練,把對文本內(nèi)容的處理簡化為K維向量空間中的向量運算。其訓練和預測過程如圖1所示。

圖1 文檔向量學習框架圖

在本文的測試樣本中,經(jīng)過卡方檢驗篩選之后,運用doc2vec模型,訓練得到樣本的文本向量:[-2.083 977 50×10-2,-4.902 341 22×10-2,-2.033 572 83×10-2,-7.650 934 16×10-2,…]。

2 半監(jiān)督學習

傳統(tǒng)的機器學習通常分為有監(jiān)督學習和無監(jiān)督學習。有監(jiān)督學習是通過訓練標記的樣本,盡可能正確地對訓練之外的未標記樣本進行預測;無監(jiān)督學習是通過訓練無標記的樣本,以發(fā)現(xiàn)未標記樣本之間的內(nèi)部特征。半監(jiān)督學習是介于有監(jiān)督學習和無監(jiān)督學習之間的機器學習方式,同時運用標記樣本和無標記樣本,訓練機器學習模型。

在實際應用中,有標記的webshell樣本數(shù)量極少,人為手動標記代價大,少量有標記的webshell樣本極其珍貴,而樣本中未標記的樣本大量存在。本文的webshell檢測模型,由于正常樣本數(shù)量相對于webshell樣本數(shù)量占絕對優(yōu)勢,因此首先把未標記的樣本全部當作正常樣本,使用無監(jiān)督方式訓練單分類SVDD模型;再運用有標記的樣本,修正單分類SVDD模型,達到增量學習的目的。

本文充分運用現(xiàn)有少量有標記的webshell和大量無標記的樣本數(shù)據(jù),使用半監(jiān)督學習,利用先驗單分類SVDD模型信息和新的標記樣本更新模型,一方面能夠繼承先前學習到的知識,讓整個學習具有可積累性;另一方面可以實現(xiàn)在線學習,不斷更新webshell檢測模型。

2.1 單分類SVDD模型

支持向量數(shù)據(jù)描述(Support Vector Domain Description,SVDD)是由TAX D M J和DUIN R PW[7]提出并發(fā)展起來的一種單值分類算法,標準的SVDD模型屬于無監(jiān)督學習,把要描述的對象作為一個整體,建立一個封閉而緊湊的超球體,使得描述對象全部或盡可能多地包在這個球體內(nèi)。

圖2 單分類SVDD模型圖

(2)

其中,R為待求的球的最小半徑,C為懲罰系數(shù),ξi為懲罰項,a為超球體的球心。

訓練結(jié)束后,需要判斷新的數(shù)據(jù)點Z是否屬于這個類,即:

(z-a)T(z-a)≤R2

(3)

至此已經(jīng)用未標記樣本訓練了單分類SVDD模型,對于測試數(shù)據(jù)可以用該模型直接進行判斷。但是未標記樣本中存在少量的webshell攻擊樣本,直接使用單分類SVDD模型存在一定誤差。接下來使用標記樣本,通過有監(jiān)督學習方式增量訓練SVDD模型,修正已經(jīng)訓練好的單分類SVDD模型。

2.2 增量學習SVDD模型

webshell攻擊方式多變,腳本更新速度快,攻擊的特征也不是一成不變的。使用當前的webshell樣本訓練單分類SVDD模型,難以適應webshell入侵方式不斷更新的現(xiàn)狀。而增量學習是一種在線學習方式,指的是一個學習系統(tǒng)能不斷地從新樣本中學習新的知識,并能保存大部分以前已經(jīng)學習到的知識。準確地說,增量學習并不是一種模型,而是一種模型的訓練更新方式。

本文提出的增量學習SVDD模型,在單分類SVDD模型的基礎上,運用有標記的樣本,更新單分類SVDD模型,達到增量學習的目的。在這個過程中,以前處理過的大部分樣本不需要重復處理,只選取作為支持向量的樣本,結(jié)合新的有標記的樣本,重新學習并更新SVDD模型,一旦學習完成之后,訓練的樣本被丟棄。學習系統(tǒng)沒有關于整個訓練樣本的先驗知識。

3 基于深度學習和半監(jiān)督學習的webshell檢測算法

3.1 webshell檢測算法流程

基于深度學習和半監(jiān)督學習的webshell檢測算法主要包含卡方檢驗、深度學習、半監(jiān)督學習、單分類SVDD、增量學習SVDD等。其中算法結(jié)構(gòu)如圖3所示。

3.2 webshell檢測算法描述

(1)對有標記樣本進行分詞處理,再用卡方檢驗分析各個特征詞與樣本標記之間的相關性,選擇前K個重要特征詞作為篩選特征詞;

(2)對于未標記樣本,用(1)中獲取的篩選特征詞獲得未標記樣本特征;

圖3 webshell檢測算法流程圖

(3)對于(2)中獲取的未標記樣本特征,使用神經(jīng)網(wǎng)絡訓練獲得各個未標記樣本的文本向量及doc2vec;

(4)利用(3)中獲取的文本向量,使用無監(jiān)督學習方法訓練單分類SVDD模型,最小化超球體半徑,最大情況包含未標記樣本;

(5)對于新的標記樣本,運用在線學習方式訓練增量學習SVDD模型,修正單分類SVDD模型,提高現(xiàn)有模型的識別能力。

4 實驗與分析

為了驗證本文中基于深度學習和半監(jiān)督學習的webshell算法檢測性能,使用github中數(shù)據(jù)進行實驗,數(shù)據(jù)樣本分布情況如下表1所示。

表1 數(shù)據(jù)的類別分布表

4.1 數(shù)據(jù)預處理

原始的webshell訓練樣本是直接在github上下載的webshell腳本文件,在進行樣本訓練之前,需要進行數(shù)據(jù)預處理。為了獲得高質(zhì)量的特征集,在所有的數(shù)據(jù)集合中選取有標記樣本作為卡方訓練樣本,其中選取增量訓練集W1中50份樣本,增量訓練集W2中50份樣本,正常測試集W3中50份樣本,webshell樣本集W4中50份樣本,組合成200份有標記卡方訓練樣本。

經(jīng)過卡方檢驗之后,選取前500個特征作為樣本的重要特征,其中前7個特征結(jié)果如表2所示。

表2 前7個卡方檢驗特征表

通過卡方檢驗選擇的特征是與標記樣本相關性較高的特征詞。為簡化樣本復雜程度,需要進一步使用卡方檢驗獲取的前500個特征值,過濾初始訓練集W0。然后使用神經(jīng)網(wǎng)絡訓練過濾后的樣本,獲取訓練樣本的文本向量,即doc2vec。其中最終獲得文本向量示例如下

X1=[-2.083 977 50×10-2,-4.902 341 22×10-2,-2.033 572 83×10-2,-7.650 934 16×10-2,…]

X2=[0.340 425 997 972,-0.016 084 445 640 4,

-0.757 030 189 037,0.497 053 474 188,…]

X3=[0.256 792 724 133,0.113 478 787 243,

-0.708 586 812 019,0.289 009 481 668,…]

4.2 實驗結(jié)果和分析

在有少量有標記樣本和大量無標記樣本情況下,半監(jiān)督學習是能夠同時兼顧訓練樣本和提高訓練結(jié)果的學習方法。在無監(jiān)督學習階段,本文使用初始訓練集W0獲得的文本向量訓練單分類SVDD模型M0。在有監(jiān)督學習階段,首先在單分類SVDD模型M0的基礎上,使用增量訓練集W1訓練增量SVDD模型M1;然后在增量SVDD模型M1的基礎上,使用增量訓練集W2訓練增量SVDD模型M2。對于每個模型,均使用正常測試集W3和webshell樣本集W4樣本混合測試。對于本文的webshell檢測方法,使用漏報率和誤報率來驗證模型分類效果,測試結(jié)果如表3所示。

表3 測試結(jié)果表

從實驗結(jié)果可以看出,對于相同的W3+W4測試樣本,使用增量SVDD訓練的模型在漏報率和誤報率上均優(yōu)于單分類SVDD模型,并且使用增量樣本修正的次數(shù)越多,模型的效果越好。說明基于深度學習和半監(jiān)督學習方法在webshell檢測中的優(yōu)越性,充分利用少量有標記樣本,使用在線學習方法訓練增量SVDD模型,不斷優(yōu)化最終模型,降低檢測的漏報率和誤報率。

5 結(jié)論

經(jīng)過多次的實驗結(jié)果可知,本文提出的基于深度學習和半監(jiān)督學習webshell檢測方法,在webshell檢測中一定程度上改善了系統(tǒng)的性能,有效降低了漏報率和誤報率,并在增量學習框架下,通過不斷學習新增標記樣本,能夠持續(xù)優(yōu)化系統(tǒng)。在深度學習領域,本文使用文本向量的方式獲得樣本特征,此后的重點研究方向在于如何獲取更有價值的樣本特征。在半監(jiān)督學習領域,本文使用單分類SVDD模型和增量SVDD模型,此后的重點研究方向在于如何優(yōu)化模型提高漏報率和誤報率。

猜你喜歡
分類監(jiān)督檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
突出“四個注重” 預算監(jiān)督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
監(jiān)督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監(jiān)督之基
人大建設(2017年9期)2017-02-03 02:53:31
主站蜘蛛池模板: 粉嫩国产白浆在线观看| 91麻豆国产精品91久久久| 97se亚洲综合在线天天| 欧洲亚洲欧美国产日本高清| 亚洲国产av无码综合原创国产| 免费高清毛片| 国产精品99在线观看| 97国产在线播放| 国产美女91视频| 中文国产成人精品久久| 欧美有码在线观看| 99资源在线| 四虎永久在线视频| 亚洲视频色图| 亚洲午夜天堂| 一级毛片不卡片免费观看| 婷婷五月在线| 午夜啪啪网| 欧洲欧美人成免费全部视频| 国产粉嫩粉嫩的18在线播放91| 园内精品自拍视频在线播放| 国产手机在线观看| 91小视频在线播放| 97免费在线观看视频| 日韩精品一区二区三区视频免费看| 精品无码一区二区在线观看| 香蕉视频国产精品人| 久久综合成人| 亚洲国产综合精品中文第一| 九九热这里只有国产精品| 国产在线一二三区| 99热免费在线| 免费在线观看av| 熟妇人妻无乱码中文字幕真矢织江| 网友自拍视频精品区| 日本黄色a视频| 一区二区日韩国产精久久| 91小视频在线观看| 国产一区二区三区日韩精品| 亚洲视频免| 国产高清自拍视频| 国产精品久久久精品三级| 熟女日韩精品2区| 国产特一级毛片| 国产激情第一页| 国产精品粉嫩| 国产视频欧美| 久久综合五月婷婷| 美女被操91视频| 欧美日韩精品综合在线一区| 欧美乱妇高清无乱码免费| 国产亚洲美日韩AV中文字幕无码成人| 国产a在视频线精品视频下载| 亚洲国产精品无码久久一线| 欧美国产在线一区| 少妇被粗大的猛烈进出免费视频| 天天摸夜夜操| 小说区 亚洲 自拍 另类| 老司机aⅴ在线精品导航| 国产精品手机在线播放| 国产日韩欧美一区二区三区在线| 精品国产自在在线在线观看| 亚洲最大综合网| 91小视频版在线观看www| 亚洲综合精品第一页| 99久久精品视香蕉蕉| 精品三级在线| 亚洲视频无码| 日韩天堂网| 夜夜爽免费视频| 国产精品免费久久久久影院无码| 亚洲无码A视频在线| 99精品久久精品| 四虎成人免费毛片| 无码专区在线观看| 99在线观看视频免费| 亚洲首页国产精品丝袜| 欧洲熟妇精品视频| 国产jizzjizz视频| 女人18毛片水真多国产| 久久狠狠色噜噜狠狠狠狠97视色| 91精品专区国产盗摄|