朱書(shū)林 李松州

【摘 要】本文基于輕檢測(cè)、重檢測(cè)與深度學(xué)習(xí)目標(biāo)識(shí)別算法,利用嵌入式設(shè)備開(kāi)發(fā)平臺(tái)開(kāi)發(fā),以設(shè)計(jì)一個(gè)惡意風(fēng)險(xiǎn)網(wǎng)站過(guò)濾系統(tǒng)為目標(biāo)進(jìn)行了一個(gè)研究,并進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果表明該系統(tǒng)滿(mǎn)足上述要求并有較好的穩(wěn)定性。
【關(guān)鍵詞】層次化檢測(cè)方法;目標(biāo)識(shí)別;深度學(xué)習(xí);網(wǎng)站過(guò)濾系統(tǒng)
Abstract: Based on the algorithm of light detection, heavy detection and deep learning target identification, this paper USES the embedded device development platform to design a malicious risk website filtering system as the target to carry out a study, and carried out a test. The experimental results show that the system satisfies the above requirements and has good stability.
Keywords: Hierarchical detection method, target recognition, deep learning, website filtering system
一、層次化檢測(cè)方法簡(jiǎn)介
輕檢測(cè)
輕檢測(cè)算法需要輕便、快速、盡量準(zhǔn)確,并達(dá)到最少數(shù)量的漏報(bào),以達(dá)到對(duì)巨大輸入進(jìn)行預(yù)處理和數(shù)據(jù)篩選的作用。針對(duì) A 的每一個(gè) URL,若符合以下任意一個(gè)條件,則進(jìn)入到重檢測(cè),否則丟棄。
(1)IP 地址曾經(jīng)被惡意網(wǎng)站使用根據(jù)實(shí)踐經(jīng)驗(yàn),一個(gè)曾經(jīng)被用于惡意網(wǎng)站的 IP地址再次被利用做惡意的可能性較大。
(2)域名注冊(cè)信息曾經(jīng)用于注冊(cè)過(guò)惡意網(wǎng)站同 IP 地址一樣,同樣的域名注冊(cè)信息可以用來(lái)注冊(cè)多個(gè)惡意網(wǎng)站。
(3)域名曾被惡意網(wǎng)站使用過(guò)如果域名之前被惡意網(wǎng)站使用過(guò),那么其再次被利用的可能性也比較大。
(4)與 B 中任意 URL 含有相同的資源鏈接惡意網(wǎng)站在設(shè)計(jì)時(shí),為了簡(jiǎn)單,其中的圖片等元素經(jīng)常會(huì)使用合法網(wǎng)站中的資源鏈接。
(5)與 B 中任意 URL 的標(biāo)題一致惡意網(wǎng)站為了達(dá)到仿冒的目的,一般都會(huì)和合法網(wǎng)站具有相同的標(biāo)題。
(6)含有 B 中某些重要的關(guān)鍵字
因?yàn)閻阂饩W(wǎng)站是仿冒正常的合法網(wǎng)站,所以頁(yè)面內(nèi)容一般具有和合法網(wǎng)站一樣的文字內(nèi)容。
二、黑白名單技術(shù)
黑白名單的主要作用是,讓GMSC有權(quán)限允許或禁止由特定源點(diǎn)發(fā)起,或到特定目的地的電話(huà)。簡(jiǎn)單地說(shuō),黑名單英語(yǔ)禁止呼叫,白名單允許呼叫。GMSC的判斷標(biāo)準(zhǔn)是預(yù)先在WEM傷配置好的Trunk Group,號(hào)馬前綴或?qū)傩缘忍匦浴?/p>
黑白名單有三個(gè)工作模式,黑名單,白名單
在黑名單模式下,只有設(shè)置為黑名單的配置生效,白名單同理。需要特別說(shuō)明的是,在黑白模式下,黑名單和白名單的配置都生效,但是白名單的優(yōu)先級(jí)高于黑名單,如果在同一個(gè)呼叫中,主叫或被叫有一方是白名單,呼叫允許。
三、深度學(xué)習(xí)模型設(shè)計(jì)
深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類(lèi)別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。
深度學(xué)習(xí)的概念由Hinton等人于2006年提出。基于深信度網(wǎng)(DBN)提出非監(jiān)督貪心逐層訓(xùn)練算法,為解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來(lái)希望,隨后提出多層自動(dòng)編碼器深層結(jié)構(gòu)。此外Lecun等人提出的卷積神經(jīng)網(wǎng)絡(luò)是第一個(gè)真正多層結(jié)構(gòu)學(xué)習(xí)算法,它利用空間相對(duì)關(guān)系減少參數(shù)數(shù)目以提高訓(xùn)練性能。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像,聲音和文本。
四、實(shí)驗(yàn)過(guò)程
(一)實(shí)驗(yàn)環(huán)境
1.基于深度學(xué)習(xí)中的深度信念網(wǎng)絡(luò)采用一種無(wú)監(jiān)督訓(xùn)練方式使得整個(gè)網(wǎng)絡(luò)能以最大概率來(lái)生成訓(xùn)練數(shù)據(jù),我們可以使用它來(lái)進(jìn)行數(shù)據(jù)分類(lèi)。如下:圖一為網(wǎng)絡(luò)結(jié)構(gòu)圖
通過(guò)對(duì)比分歧算法逐層訓(xùn)練每個(gè)RBM,最終每一層的RBM的參數(shù)集w、o6構(gòu)成DBN網(wǎng)絡(luò)中的所有參數(shù)集,并用來(lái)初始化整個(gè)深度信念網(wǎng)絡(luò)。預(yù)訓(xùn)練之后,通過(guò)在深度信念網(wǎng)絡(luò)頂層疊加分類(lèi)器,例如反向傳播算法、支持向量機(jī)等,使用帶標(biāo)簽的數(shù)據(jù)來(lái)對(duì)網(wǎng)絡(luò)中參數(shù)進(jìn)行微調(diào),調(diào)整DBN的判別性能。
2.使用欠采樣常常會(huì)導(dǎo)致丟失一些有用的多數(shù)類(lèi)樣本信息,而使用過(guò)采樣則會(huì)增大過(guò)分?jǐn)M合的可能性,充分考慮算法的復(fù)雜性和在整個(gè)惡意網(wǎng)站檢測(cè)系統(tǒng)的應(yīng)用場(chǎng)景,我們最終選擇使用Borderline-Smote過(guò)采樣方法[49]Borderline-Smote是基于Smote算法(Sybthetyc Minority Over-samplingTechnique),此算法是使用過(guò)采樣小類(lèi)樣本來(lái)生成合成小類(lèi)實(shí)例。不同于己經(jīng)存在的過(guò)采樣方法,Borderline-Smote過(guò)采樣方法只富化邊界小類(lèi)實(shí)例(Borderline MinorityExample)。首先我們找到邊界小類(lèi)實(shí)例,然后從邊界小類(lèi)中生成合成小類(lèi)實(shí)例,并添加到原始訓(xùn)練集中。基于Borderline-Smote DBN的分析模型,通過(guò)混合釆用Borderline-Smote1和Borderline-Smote2兩種方法,對(duì)數(shù)據(jù)進(jìn)行采樣生成合成樣本時(shí),先后使用這兩種方法。也即可以生成2s個(gè)合成樣本。
3.惡意網(wǎng)站檢測(cè)的基礎(chǔ)也是最重要的一個(gè)環(huán)節(jié)就是特征值的提取,特征值的提取將很大程度上決定了惡意網(wǎng)站檢測(cè)模型的準(zhǔn)確度。網(wǎng)站頁(yè)面在惡意網(wǎng)站識(shí)別中的關(guān)鍵特征包括URL(Uniform Resource Locator,統(tǒng)一資源定位符)特征、頁(yè)面內(nèi)容特征以及圖像特征,綜合考慮特征的重要程度以及提取效率等因素。
4.而特征提取則主要分為URL特征提取、HTML特征提取、以及特征向量的預(yù)處理
1).URL特征提取:
URL是網(wǎng)站的唯一定位符,通過(guò)在瀏覽器輸入網(wǎng)站URL,用戶(hù)可以進(jìn)入訪(fǎng)問(wèn)該網(wǎng)站。其擁有統(tǒng)一的傳輸協(xié)議、數(shù)據(jù)格式、資源類(lèi)型以及語(yǔ)法等。互聯(lián)網(wǎng)上所有訪(fǎng)問(wèn)的圖片、視頻、文章都稱(chēng)為數(shù)據(jù)資源,每個(gè)資源都有唯一的一個(gè)URL地址,用戶(hù)可以通過(guò)對(duì)應(yīng)的URL地址找到需要訪(fǎng)問(wèn)的資源。攻擊者通過(guò)在對(duì)應(yīng)正規(guī)網(wǎng)站域名上進(jìn)行操作,構(gòu)造出與正規(guī)網(wǎng)站相似的域名或利用漏洞直接在正常網(wǎng)站地址后添加自己的惡意鏈接,從而誘導(dǎo)網(wǎng)民落入惡意網(wǎng)站。因此我們可以從URL路徑級(jí)數(shù)、URL長(zhǎng)度、域名是否為IP形式、域名級(jí)數(shù)、URL是否使用長(zhǎng)詞、URL中是否含有敏感詞、URL中頂級(jí)域名出現(xiàn)在異常位置、URL中是否含有端口、URL中是否有“@”符、域名存活時(shí)間等方面來(lái)進(jìn)行URL特征提取。
2)HTML特征提取
通過(guò)深入分析網(wǎng)頁(yè)HTML文檔特征、結(jié)構(gòu)特征可以更加精確判斷惡意網(wǎng)站。惡意網(wǎng)站為了更逼真仿冒真實(shí)網(wǎng)站,常常會(huì)加上真實(shí)網(wǎng)站的版權(quán)信息。而網(wǎng)站的版權(quán)所有者和網(wǎng)站是一一對(duì)應(yīng)的,通過(guò)比對(duì)當(dāng)前訪(fǎng)問(wèn)網(wǎng)站的版權(quán)信息可以判斷是否為惡意網(wǎng)站。如:空鏈接的數(shù)目、外部鏈接數(shù)目、內(nèi)部鏈接數(shù)目、表單數(shù)量、注冊(cè)時(shí)間、版權(quán)所有者。
(二)實(shí)驗(yàn)過(guò)程
步驟 1:獲取網(wǎng)站的多維屬性,利用集合對(duì)多
維屬性進(jìn)行表示。
①提取網(wǎng)站首頁(yè)超文本標(biāo)記語(yǔ)言 HTML 標(biāo)題、HTML 正文和層疊樣式表 CSS 主題色彩;
②對(duì)所述 HTML 標(biāo)題和 HTML 正文進(jìn)行分詞處理,得到單詞向量集合 B={w1,w2…wn},n 為正整數(shù);'
③對(duì)每一個(gè)向量 B 的單詞 wi,統(tǒng)計(jì)其在網(wǎng)頁(yè)HTML 的 標(biāo) 簽 <a>、<h1>-<h6><title>、<em>、<strong> 中出現(xiàn)的次數(shù)。按出現(xiàn)的次數(shù)加權(quán)后排名,得到排名后新單詞向量集合 B'={w1,w'2…w'm},其中i=0,1…n,m 為正整數(shù),且 m ≤ n;
④統(tǒng)計(jì)所述 CSS 主題色彩中使用最多的 3 種顏色類(lèi)別,得到色彩向量描述集合 C,C={c1,c2,c3};
⑤獲取屬性值,建立屬性描述集合 S,其中屬性值包括下述中的一項(xiàng)或多項(xiàng):網(wǎng)站務(wù)器類(lèi)型、Poweredby 信息(驅(qū)動(dòng)信息)、腳本語(yǔ)言類(lèi)型、返回狀態(tài)碼、跳轉(zhuǎn)次數(shù)、網(wǎng)處、外域個(gè)數(shù)、內(nèi)域個(gè)數(shù)和頁(yè)面大小;
⑥根據(jù)集合 B'、C 和 S,建立網(wǎng)站多維屬性樣本集合 V,V=B'∪ C ∪ S,其中∪表示并集。
步驟 2:針對(duì)表示多維屬性的集合,進(jìn)行自編碼特征學(xué)習(xí)。
①構(gòu)建三層神經(jīng)網(wǎng)絡(luò) N,其輸入特征數(shù)量等于輸出數(shù)量,且輸入特征數(shù)量等于網(wǎng)站多維屬性集合V 的特征數(shù)量;
②用網(wǎng)站多維屬性集合 V 作為三層神經(jīng)網(wǎng)絡(luò) N的輸入值 Input,計(jì)算當(dāng)前三層神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值 Output;
③比較輸入值 Input 與輸出值 Output,計(jì)算二者之差是否達(dá)到目標(biāo)閾值;如果達(dá)到目標(biāo)閾值,則完成學(xué)習(xí),中間隱層節(jié)點(diǎn)向量 V '即為自編碼學(xué)習(xí)結(jié)果;如果沒(méi)有達(dá)到目閾值,則根據(jù)梯度下降法調(diào)整三層神經(jīng)網(wǎng)絡(luò) N 的參數(shù),重新計(jì)算。
步驟 3:利用自編碼學(xué)習(xí)結(jié)果進(jìn)行網(wǎng)站聚類(lèi)學(xué)習(xí),得到用于進(jìn)行網(wǎng)站分類(lèi)的支持向量 SVM 構(gòu)建支持向量機(jī) SVM,這里使用向量 V '作為輸入。1014388653驟 1 和步驟 2,得到與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果;然后,將與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果輸入到步驟 3,得到用于進(jìn)行網(wǎng)站分類(lèi)的支持向量機(jī)SVM進(jìn)行網(wǎng)站分類(lèi),從而得到網(wǎng)站類(lèi)別。本方法對(duì)于具有惡意特征的惡意網(wǎng)頁(yè),能快速偵測(cè);采用多維屬性描述方式,增加了系統(tǒng)的便利性與通用性;采用機(jī)器學(xué)習(xí)的方法且采樣樣本較為廣泛,因此系統(tǒng)具有極強(qiáng)的穩(wěn)定性。
(三)實(shí)驗(yàn)結(jié)果
最后我們可以通過(guò)層次化檢測(cè)方法保證檢測(cè)的準(zhǔn)確性,以及極大地提升系統(tǒng)的運(yùn)行效率。成功用深度學(xué)習(xí)實(shí)現(xiàn)了惡意風(fēng)險(xiǎn)網(wǎng)站過(guò)濾。