基于深度學(xué)習(xí)的惡意風(fēng)險(xiǎn)網(wǎng)站過(guò)濾系統(tǒng)

2020-09-10 07:22:44朱書(shū)林李松州

客聯(lián) 2020年11期

朱書(shū)林李松州

【摘要】本文基于輕檢測(cè)、重檢測(cè)與深度學(xué)習(xí)目標(biāo)識(shí)別算法，利用嵌入式設(shè)備開(kāi)發(fā)平臺(tái)開(kāi)發(fā)，以設(shè)計(jì)一個(gè)惡意風(fēng)險(xiǎn)網(wǎng)站過(guò)濾系統(tǒng)為目標(biāo)進(jìn)行了一個(gè)研究，并進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果表明該系統(tǒng)滿(mǎn)足上述要求并有較好的穩(wěn)定性。

【關(guān)鍵詞】層次化檢測(cè)方法;目標(biāo)識(shí)別;深度學(xué)習(xí);網(wǎng)站過(guò)濾系統(tǒng)

Abstract： Based on the algorithm of light detection， heavy detection and deep learning target identification， this paper USES the embedded device development platform to design a malicious risk website filtering system as the target to carry out a study， and carried out a test. The experimental results show that the system satisfies the above requirements and has good stability.

Keywords： Hierarchical detection method， target recognition， deep learning， website filtering system

一、層次化檢測(cè)方法簡(jiǎn)介

輕檢測(cè)

輕檢測(cè)算法需要輕便、快速、盡量準(zhǔn)確，并達(dá)到最少數(shù)量的漏報(bào)，以達(dá)到對(duì)巨大輸入進(jìn)行預(yù)處理和數(shù)據(jù)篩選的作用。針對(duì) A 的每一個(gè) URL，若符合以下任意一個(gè)條件，則進(jìn)入到重檢測(cè)，否則丟棄。

（1）IP 地址曾經(jīng)被惡意網(wǎng)站使用根據(jù)實(shí)踐經(jīng)驗(yàn)，一個(gè)曾經(jīng)被用于惡意網(wǎng)站的 IP地址再次被利用做惡意的可能性較大。

（2）域名注冊(cè)信息曾經(jīng)用于注冊(cè)過(guò)惡意網(wǎng)站同 IP 地址一樣，同樣的域名注冊(cè)信息可以用來(lái)注冊(cè)多個(gè)惡意網(wǎng)站。

（3）域名曾被惡意網(wǎng)站使用過(guò)如果域名之前被惡意網(wǎng)站使用過(guò)，那么其再次被利用的可能性也比較大。

（4）與 B 中任意 URL 含有相同的資源鏈接惡意網(wǎng)站在設(shè)計(jì)時(shí)，為了簡(jiǎn)單，其中的圖片等元素經(jīng)常會(huì)使用合法網(wǎng)站中的資源鏈接。

（5）與 B 中任意 URL 的標(biāo)題一致惡意網(wǎng)站為了達(dá)到仿冒的目的，一般都會(huì)和合法網(wǎng)站具有相同的標(biāo)題。

（6）含有 B 中某些重要的關(guān)鍵字

因?yàn)閻阂饩W(wǎng)站是仿冒正常的合法網(wǎng)站，所以頁(yè)面內(nèi)容一般具有和合法網(wǎng)站一樣的文字內(nèi)容。

二、黑白名單技術(shù)

黑白名單的主要作用是，讓GMSC有權(quán)限允許或禁止由特定源點(diǎn)發(fā)起，或到特定目的地的電話(huà)。簡(jiǎn)單地說(shuō)，黑名單英語(yǔ)禁止呼叫，白名單允許呼叫。GMSC的判斷標(biāo)準(zhǔn)是預(yù)先在WEM傷配置好的Trunk Group，號(hào)馬前綴或?qū)傩缘忍匦浴?/p>

黑白名單有三個(gè)工作模式，黑名單，白名單

在黑名單模式下，只有設(shè)置為黑名單的配置生效，白名單同理。需要特別說(shuō)明的是，在黑白模式下，黑名單和白名單的配置都生效，但是白名單的優(yōu)先級(jí)高于黑名單，如果在同一個(gè)呼叫中，主叫或被叫有一方是白名單，呼叫允許。

三、深度學(xué)習(xí)模型設(shè)計(jì)

深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類(lèi)別或特征，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。

深度學(xué)習(xí)的概念由Hinton等人于2006年提出。基于深信度網(wǎng)（DBN）提出非監(jiān)督貪心逐層訓(xùn)練算法，為解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來(lái)希望，隨后提出多層自動(dòng)編碼器深層結(jié)構(gòu)。此外Lecun等人提出的卷積神經(jīng)網(wǎng)絡(luò)是第一個(gè)真正多層結(jié)構(gòu)學(xué)習(xí)算法，它利用空間相對(duì)關(guān)系減少參數(shù)數(shù)目以提高訓(xùn)練性能。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域，其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù)，例如圖像，聲音和文本。

四、實(shí)驗(yàn)過(guò)程

（一）實(shí)驗(yàn)環(huán)境

1.基于深度學(xué)習(xí)中的深度信念網(wǎng)絡(luò)采用一種無(wú)監(jiān)督訓(xùn)練方式使得整個(gè)網(wǎng)絡(luò)能以最大概率來(lái)生成訓(xùn)練數(shù)據(jù)，我們可以使用它來(lái)進(jìn)行數(shù)據(jù)分類(lèi)。如下：圖一為網(wǎng)絡(luò)結(jié)構(gòu)圖

通過(guò)對(duì)比分歧算法逐層訓(xùn)練每個(gè)RBM，最終每一層的RBM的參數(shù)集w、o6構(gòu)成DBN網(wǎng)絡(luò)中的所有參數(shù)集，并用來(lái)初始化整個(gè)深度信念網(wǎng)絡(luò)。預(yù)訓(xùn)練之后，通過(guò)在深度信念網(wǎng)絡(luò)頂層疊加分類(lèi)器，例如反向傳播算法、支持向量機(jī)等，使用帶標(biāo)簽的數(shù)據(jù)來(lái)對(duì)網(wǎng)絡(luò)中參數(shù)進(jìn)行微調(diào)，調(diào)整DBN的判別性能。

2.使用欠采樣常常會(huì)導(dǎo)致丟失一些有用的多數(shù)類(lèi)樣本信息，而使用過(guò)采樣則會(huì)增大過(guò)分?jǐn)M合的可能性，充分考慮算法的復(fù)雜性和在整個(gè)惡意網(wǎng)站檢測(cè)系統(tǒng)的應(yīng)用場(chǎng)景，我們最終選擇使用Borderline-Smote過(guò)采樣方法[49]Borderline-Smote是基于Smote算法（Sybthetyc Minority Over-samplingTechnique），此算法是使用過(guò)采樣小類(lèi)樣本來(lái)生成合成小類(lèi)實(shí)例。不同于己經(jīng)存在的過(guò)采樣方法，Borderline-Smote過(guò)采樣方法只富化邊界小類(lèi)實(shí)例（Borderline MinorityExample）。首先我們找到邊界小類(lèi)實(shí)例，然后從邊界小類(lèi)中生成合成小類(lèi)實(shí)例，并添加到原始訓(xùn)練集中。基于Borderline-Smote DBN的分析模型，通過(guò)混合釆用Borderline-Smote1和Borderline-Smote2兩種方法，對(duì)數(shù)據(jù)進(jìn)行采樣生成合成樣本時(shí)，先后使用這兩種方法。也即可以生成2s個(gè)合成樣本。

3.惡意網(wǎng)站檢測(cè)的基礎(chǔ)也是最重要的一個(gè)環(huán)節(jié)就是特征值的提取，特征值的提取將很大程度上決定了惡意網(wǎng)站檢測(cè)模型的準(zhǔn)確度。網(wǎng)站頁(yè)面在惡意網(wǎng)站識(shí)別中的關(guān)鍵特征包括URL（Uniform Resource Locator，統(tǒng)一資源定位符）特征、頁(yè)面內(nèi)容特征以及圖像特征，綜合考慮特征的重要程度以及提取效率等因素。

4.而特征提取則主要分為URL特征提取、HTML特征提取、以及特征向量的預(yù)處理

1）.URL特征提取：

URL是網(wǎng)站的唯一定位符，通過(guò)在瀏覽器輸入網(wǎng)站URL，用戶(hù)可以進(jìn)入訪(fǎng)問(wèn)該網(wǎng)站。其擁有統(tǒng)一的傳輸協(xié)議、數(shù)據(jù)格式、資源類(lèi)型以及語(yǔ)法等。互聯(lián)網(wǎng)上所有訪(fǎng)問(wèn)的圖片、視頻、文章都稱(chēng)為數(shù)據(jù)資源，每個(gè)資源都有唯一的一個(gè)URL地址，用戶(hù)可以通過(guò)對(duì)應(yīng)的URL地址找到需要訪(fǎng)問(wèn)的資源。攻擊者通過(guò)在對(duì)應(yīng)正規(guī)網(wǎng)站域名上進(jìn)行操作，構(gòu)造出與正規(guī)網(wǎng)站相似的域名或利用漏洞直接在正常網(wǎng)站地址后添加自己的惡意鏈接，從而誘導(dǎo)網(wǎng)民落入惡意網(wǎng)站。因此我們可以從URL路徑級(jí)數(shù)、URL長(zhǎng)度、域名是否為IP形式、域名級(jí)數(shù)、URL是否使用長(zhǎng)詞、URL中是否含有敏感詞、URL中頂級(jí)域名出現(xiàn)在異常位置、URL中是否含有端口、URL中是否有“@”符、域名存活時(shí)間等方面來(lái)進(jìn)行URL特征提取。

2）HTML特征提取

通過(guò)深入分析網(wǎng)頁(yè)HTML文檔特征、結(jié)構(gòu)特征可以更加精確判斷惡意網(wǎng)站。惡意網(wǎng)站為了更逼真仿冒真實(shí)網(wǎng)站，常常會(huì)加上真實(shí)網(wǎng)站的版權(quán)信息。而網(wǎng)站的版權(quán)所有者和網(wǎng)站是一一對(duì)應(yīng)的，通過(guò)比對(duì)當(dāng)前訪(fǎng)問(wèn)網(wǎng)站的版權(quán)信息可以判斷是否為惡意網(wǎng)站。如：空鏈接的數(shù)目、外部鏈接數(shù)目、內(nèi)部鏈接數(shù)目、表單數(shù)量、注冊(cè)時(shí)間、版權(quán)所有者。

（二）實(shí)驗(yàn)過(guò)程

步驟 1：獲取網(wǎng)站的多維屬性，利用集合對(duì)多

維屬性進(jìn)行表示。

①提取網(wǎng)站首頁(yè)超文本標(biāo)記語(yǔ)言 HTML 標(biāo)題、HTML 正文和層疊樣式表 CSS 主題色彩;

②對(duì)所述 HTML 標(biāo)題和 HTML 正文進(jìn)行分詞處理，得到單詞向量集合 B={w1，w2…wn}，n 為正整數(shù);'

③對(duì)每一個(gè)向量 B 的單詞 wi，統(tǒng)計(jì)其在網(wǎng)頁(yè)HTML 的標(biāo) 簽 <a>、<h1>-<h6><title>、<em>、<strong> 中出現(xiàn)的次數(shù)。按出現(xiàn)的次數(shù)加權(quán)后排名，得到排名后新單詞向量集合 B'={w1，w'2…w'm}，其中i=0，1…n，m 為正整數(shù)，且 m ≤ n;

④統(tǒng)計(jì)所述 CSS 主題色彩中使用最多的 3 種顏色類(lèi)別，得到色彩向量描述集合 C，C={c1，c2，c3};

⑤獲取屬性值，建立屬性描述集合 S，其中屬性值包括下述中的一項(xiàng)或多項(xiàng)：網(wǎng)站務(wù)器類(lèi)型、Poweredby 信息（驅(qū)動(dòng)信息）、腳本語(yǔ)言類(lèi)型、返回狀態(tài)碼、跳轉(zhuǎn)次數(shù)、網(wǎng)處、外域個(gè)數(shù)、內(nèi)域個(gè)數(shù)和頁(yè)面大小;

⑥根據(jù)集合 B'、C 和 S，建立網(wǎng)站多維屬性樣本集合 V，V=B'∪ C ∪ S，其中∪表示并集。

步驟 2：針對(duì)表示多維屬性的集合，進(jìn)行自編碼特征學(xué)習(xí)。

①構(gòu)建三層神經(jīng)網(wǎng)絡(luò) N，其輸入特征數(shù)量等于輸出數(shù)量，且輸入特征數(shù)量等于網(wǎng)站多維屬性集合V 的特征數(shù)量;

②用網(wǎng)站多維屬性集合 V 作為三層神經(jīng)網(wǎng)絡(luò) N的輸入值 Input，計(jì)算當(dāng)前三層神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值 Output;

③比較輸入值 Input 與輸出值 Output，計(jì)算二者之差是否達(dá)到目標(biāo)閾值;如果達(dá)到目標(biāo)閾值，則完成學(xué)習(xí)，中間隱層節(jié)點(diǎn)向量 V '即為自編碼學(xué)習(xí)結(jié)果;如果沒(méi)有達(dá)到目閾值，則根據(jù)梯度下降法調(diào)整三層神經(jīng)網(wǎng)絡(luò) N 的參數(shù)，重新計(jì)算。

步驟 3：利用自編碼學(xué)習(xí)結(jié)果進(jìn)行網(wǎng)站聚類(lèi)學(xué)習(xí)，得到用于進(jìn)行網(wǎng)站分類(lèi)的支持向量 SVM 構(gòu)建支持向量機(jī) SVM，這里使用向量 V '作為輸入。1014388653驟 1 和步驟 2，得到與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果;然后，將與該網(wǎng)站對(duì)應(yīng)的自編碼學(xué)習(xí)結(jié)果輸入到步驟 3，得到用于進(jìn)行網(wǎng)站分類(lèi)的支持向量機(jī)SVM進(jìn)行網(wǎng)站分類(lèi)，從而得到網(wǎng)站類(lèi)別。本方法對(duì)于具有惡意特征的惡意網(wǎng)頁(yè)，能快速偵測(cè);采用多維屬性描述方式，增加了系統(tǒng)的便利性與通用性;采用機(jī)器學(xué)習(xí)的方法且采樣樣本較為廣泛，因此系統(tǒng)具有極強(qiáng)的穩(wěn)定性。

（三）實(shí)驗(yàn)結(jié)果

最后我們可以通過(guò)層次化檢測(cè)方法保證檢測(cè)的準(zhǔn)確性，以及極大地提升系統(tǒng)的運(yùn)行效率。成功用深度學(xué)習(xí)實(shí)現(xiàn)了惡意風(fēng)險(xiǎn)網(wǎng)站過(guò)濾。