基于特征選擇模型的釣魚網站快速識別方法

2021-05-06 09:53:10李勇志余肖生

計算機技術與發展 2021年4期

陳鵬，李勇志，余肖生

(三峽大學計算機與信息學院，湖北宜昌 443002)

1 概述

網絡釣魚主要是利用社會工程學和技術欺騙手段來獲取用戶隱私信息，最典型的網絡釣魚攻擊將收信人引誘到一個通過精心設計與目標組織的網站非常相似的釣魚網站上，并獲取收信人在此網站上輸入的個人敏感信息，是當前增長最快的網絡攻擊之一[1]。

為了識別和預防網絡釣魚，人們提出了許多反網絡釣魚的檢測技術，主要分為基于搜索引擎、基于黑白名單、基于啟發式及機器學習算法等。對比這幾種技術可以發現，基于啟發式及機器學習算法的檢測方法是通過提取網站特征集，然后使用啟發式規則或者機器學習算法處理，達到分類的效果，具有依賴性小、反應速度更快的優點[2]。在處理特征集時，需要使用特征選擇技術篩掉一些已經不被釣魚者使用的特征。一般來說，常用的特征選擇主要有過濾式方法[3]和封裝式方法[4-5]，兩者相比，過濾式與分類階段相互獨立，因此過濾式方法計算量更小、速度更快，封裝式方法需要依賴分類器性能作為評價準則，多次迭代遍歷所有特征，因此封裝式方法分類效果更高[6]。文獻[7]提出了一種綜合考慮特征項類及類內分布均衡的信息增益算法IIGAIN，經過IIGAIN優化選取的特征項具有更好的分類能力。文獻[8]提出了一種過濾式方法和封裝式方法混合特征選擇模型FSIGR，在特征降維和提高分類精確度方面均有很好的表現。文獻[9]提出了一種基于機器學習的多種過濾式方法融合的特征選擇框架HEFS，提高了基于機器學習的釣魚檢測系統的檢測精度和計算效率，以及隨機森林始終優于其他分類器。

綜上，以往研究人員對特征選擇模型進行了優化，并得到了較為理想的效果，但是這些文獻所提出的特征選擇模型分別具有使用單一評價標準導致可能遺失一些重要特征、僅剔除不相關特征而忽略弱相關特征導致分類效率提升未達到最優、未考慮使用封裝式方法導致分類精確率略低的問題。

針對以上問題，該文提出了一種基于混合特征選擇模型的釣魚網站快速識別方法。混合特征選擇模型包含了三個主要部分。過濾方法部分使用信息增益和卡方檢驗兩種評價準則評估屬性特征與標簽特征的相關性并綜合排名，生成新的特征子集；封裝方法部分使用基于隨機森林的遞歸特征消除算法處理數據子集，得到最優特征子集；分類部分使用隨機森林算法對特征選擇后的數據集進行訓練并測試，提高釣魚網站識別的效率。

2 基礎理論

2.1 信息增益與卡方檢驗

2.1.1 信息增益

信息熵是一個變量的種類數量以及發生概率，記為H(X)。變量包含的可變信息越多，則此變量擁有的信息量就越大，即信息熵越大[10]。信息熵的求解如式(1)所示。

(1)

其中，X為變量，n為變量X發生的可能性，p(xi)為概率密度函數。

條件熵用來衡量兩個事件的相關性，記為H(X|Y)。若H(X)=H(X|Y)，則變量X與變量Y不相關；若H(X)>H(X|Y)，則變量X與變量Y相關。條件熵的求解如式(2)所示:

(2)

其中，X和Y為變量，n為變量Y發生的可能性，p(yi)為概率密度函數。

信息增益(information gain，IG)是機器學習中常用的一種度量，用于評估特征的優劣，其值越大，表明特征越重要[11]。通常，信息增益使用信息熵與條件熵的差值表示，信息增益的求解如式(3)所示:

IG(X,Y)=H(X)-H(X|Y)

(3)

其中，X為標簽特征，Y為屬性特征。

當數據集特征數量特別多時，使用信息增益劃分更容易得到純度更高的子集，劃分后子集的熵變低，而原始熵不變，信息增益的值變大，因此信息增益比較偏向于取值較多的特征[12]。

2.1.2 卡方檢驗

卡方檢驗(Chi-squared，CHI)是機器學習中另一種被廣泛使用的度量，用于判斷兩個特征之間的相互獨立性，值越大，表明兩個特征之間的獨立性越低，相關性越高[13]。為了計算卡方值，引用式(4)。

CHI(X,Y)=

(4)

其中，N表示訓練集大小，A表示特征X與特征Y同時存在的次數，B表示存在特征X但不存在特征Y的次數，C表示存在特征Y但不存在特征X的次數，D表示既不存在特征X也不存在特征Y的次數。

傳統卡方檢驗統計方法只考慮了屬性特征在所有樣本中出現的樣本數量，而沒有考慮屬性特征在某個樣本中出現的次數，因此卡方檢驗更偏向于出現頻率更低的特征[14]。

2.2 基于隨機森林的遞歸特征消除算法

2.2.1 隨機森林

隨機森林(random forest，RF)是一種基于樹的集成，每棵樹取決于一組隨機變量的集合，最終結果由所有樹投票產出[15]。隨機森林作為集成算法，相比于普通算法具有運行速度快、抗擬合能力強等優點。

由于每一次抽取樣本方式為隨機抽取的特點，所以會出現有些樣本被抽到很多次，而有些樣本從未被抽取到的情況，這部分從未被抽到的樣本稱為袋外數據(out of bag，OOB)，OOB數據可用來對隨機森林的泛化誤差、相關系數和強度進行估計。

2.2.2 基于隨機森林的遞歸特征消除算法

遞歸特征消除算法(recursive feature elimination，RFE)的主要思想是構建模型，如果初始特征集不為空，對每個初始特征賦予一個權值，然后去除權值最小的特征，將剩余特征繼續構建模型，通過不停重復構建模型-選擇特征的過程，直到剩余特征數量滿足所需特征數量[16]。相較于非遞歸的特征消除算法，遞歸特征消除算法不僅計算了屬性特征和標簽特征之間的相關性，還考慮了屬性特征之間的相關性，每次選擇特征后重新給予權值可以防止某些屬性特征的權值因為其他屬性特征被剔除后突然變大的現象。

基于隨機森林的遞歸特征消除算法(RF-RFE)把需要的特征集合初始化為整個數據集合，每次剔除一個排序分數最小的數據，直到獲得最后的特征集。因此RF-RFE是一個基于隨機森林的最大間隔原理的序列向后選擇算法[17]。算法主要步驟如下：

(1)設數據總樣本個數為N，采取有放回的方式隨機選取K個含有N個樣本的樣本子集，將選取的樣本子集構建為K棵決策樹，對于每棵決策樹，都會有一組袋外數據，這些袋外數據作為測試樣本。

(2)設每個樣本有M個屬性，在決策樹節點分裂時，選取整數m個屬性(0

(3)將步驟(1)生成的K棵決策樹集成為隨機森林，使用袋外數據的均方誤差(mean square error，MSE)對隨機森林的效果進行評價,均方誤差值越小，則預測效果越理想。其中均方誤差公式如下：

(5)

(4)采用后向迭代，根據均方誤差的變化，可以給予每個特征一個評分，然后刪除評價分數最低的特征，然后重復步驟(1)～步驟(3)，每課樹都可以得到一個特征子集，將K個特征子集合并，最終得到最優特征子集。

基于隨機森林的遞歸特征消除算法的優點可總結為以下四點：具有較高的特征選擇精確率；特征子集具有較高的一致性；特征選擇程序的迭代次數較少；對于大數據集的效果較好[18]。

由本節內容可知，雖然信息增益和卡方檢驗在特征選擇過程中效果較理想，但是卻對不同類型的特征具有偏好性，使用單一評價顯然不能保證特征子集的完整性，因此該文使用兩種算法綜合評價解決偏好性問題。

其次，即使基于隨機森林的遞歸特征消除算法能夠減少一定迭代次數，但是其作為封裝式方法，每次計算屬性特征評分的迭代過程對于計算機來說仍是極其耗費內存和時間的，對于大數據集的效果更好的優點僅僅體現在最終保留屬性特征的分類精確度上，當數據集初始維度過高時，使用這種封裝式方法進行特征選擇，龐大的計算復雜度依舊可能使計算機內存負載，該文使用降低輸入特征集維度的方法解決可能出現的計算機內存負載問題。

3 基于混合特征選擇模型的釣魚網站快速識別方法

針對現有特征選擇模型雖然精確率較高，但是分類結果片面、維度降低程度不足的缺點，在精確度低損失的前提下，提出新的混合特征選擇模型解決以上問題。基于混合特征選擇模型的釣魚網站快速識別方法框架如圖1所示。

圖1 基于混合特征選擇模型的釣魚網站快速識別方法框架

其中混合特征選擇模型主要包含3個主要部分。過濾方法部分使用信息增益和卡方檢驗兩種評價準則評估屬性特征與標簽特征的相關性并綜合排名，生成新的特征子集，這一處理過程不僅降低了過濾式方法的偏好性影響，還利用了過濾式方法相較于封裝式方法速度更快的優點，快速剔除一些不相關或者弱相關的屬性特征，減少了接下來使用封裝式給計算機帶來的負擔；封裝方法部分使用基于隨機森林的遞歸特征消除算法處理數據子集，這一處理過程由于輸入特征集維度的降低，迭代時間長和占用的計算機空間多的問題都有了明顯改善，由此方法得到的最優特征子集體現了封裝式方法相較于過濾式方法效果更好的優點；分類部分使用隨機森林算法作為分類器對使用混合特征選擇模型處理后的數據集進行訓練并測試，提高釣魚網站識別的效率。

(1)初次特征選擇。由于信息增益與卡方檢驗均對不同特點的特征有偏好，為了降低這種偏好性的影響，在此部分使用信息增益和卡方兩種過濾式方法對初始特征集進行綜合度量并排序，快速去除相關性較低的特征，得到特征子集Ff。設數據集為D，特征集為F={Fi|i=1,2,…,n}。首先計算每個特征和類別特征的IG值以及CHI值并標準化處理，如式(6)和式(7)。

(6)

(7)

其次依據這兩個度量標準建立二維坐標系，由此每個特征可以看作一個向量，記為V={Vi|i=1,2,…,n}，向量的模代表對應特征的綜合度量值，向量的模的計算如式(8):

(8)

(9)

其中，默認距離h=1，n表示綜合度量值降序后的排名。將Rmin映射的特征作為截斷閾值，并且為了防止局部最優，需要滿足式(10)。

(10)

其中，Loc(X)表示數據X的位置，最終得到特征子集Ff。由以上方法選出的特征子集有效地降低了信息增益的多分支偏好性以及卡方檢驗的低頻偏袒性的影響。該特征子集不僅具有與類別特征高相關性的特點，而且維度極大程度地降低，能夠更好地優化封裝式方法特征選擇過程。

(2)二次特征選擇。經過初次特征選擇過程，初始特征集維度已經降低，剩余特征組成的特征子集的維度可以降低封裝式方法所攜帶的迭代時間過長的影響，使用基于隨機森林的遞歸特征消除算法對特征子集Ff進行二次篩選，在盡可能保持精確率的同時去除一些特征，從而得到最優特征子集Ffw。將特征子集Ff作為輸入特征集，應用遞歸特征消除的迭代訓練方法，每次訓練過程移除一個最差的特征，然后基于新的特征子集進行新一輪的訓練，如此反復訓練，直到達到跳出迭代的條件，獲得最優特征子集Ffw。

(3)分類。基于兩次特征選擇后的最優特征子集Ffw與原始特征集相比極大地降低了維度，使用隨機森林算法作為分類器對降低維度后的數據集進行訓練和測試。

4 實驗及結果分析

4.1 實驗數據

文中使用的數據集由文獻[9]作者創建(可在網址: http://dx.doi.org/10.17632/h3cgnj8hft.1處獲取)。該數據集具備48個屬性特征、1個分類標簽、5 000個合法網站和5 000個釣魚網站。其中48個屬性特征是基于釣魚網站檢測的相關論文提出并均是從網頁的URL和HTML源代碼中提取出來的；10 000個網站是使用GNUWget工具和Python腳本爬取的，5 000個釣魚網站來自PhishTank和OpenPhish，5 000個合法網站來自Alexa和CommonCrawl。

特征集包含屬性名為NumDots、UrlLength、NumDash等16個離散型變量特征，屬性名為PctExtHyperlinks、PctNullSelfRedirectHyperlinks、PctExtResourceUrls的3個連續型變量特征，屬性名為NoHttps、IpAddress、InsecureForms等22個二分類變量特征以及屬性名為SubdomainLevelRT、PctExtNullSelfRedirectHyperlinksRT、ExtMetaScriptLinkRT等7個多分類變量特征，共計48個屬性特征。

4.2 實驗過程

實驗由兩個小實驗部分組成，使用降維程度、分類精確度和分類時間復雜度作為評價標準，使用隨機森林算法作為分類器對使用不同特征選擇模型處理后的數據集進行分類以及結果對比，充分驗證提出的混合特征選擇模型的有效性和適用性。此外，實驗使用了ROC曲線將兩個部分的真陽性率和假陽性率的關系進行直觀顯示，由曲線下區域面積數值均大于0.95，證明了模型具有良好的泛化能力。

(1)本部分對比無特征選擇、應用文獻[9]提出的HEFS框架以及應用文中混合特征選擇模型的分類結果，在降維程度相同以及分類時間復雜度相近的條件下，精確度得到提升，證明了文中混合特征選擇模型的有效性。

(2)使用所提出的混合特征選擇模型對其他釣魚網站數據集進行測試，在精確度相近的條件下，降維程度和分類時間復雜度方面得到優化，證明該模型具有一定的適用性，能夠靈活地適用于不同的數據集。

剔除不相關和弱相關的屬性特征，可以提高分類精確度并且降低分類時間復雜度。該實驗除剔除以上兩種屬性特征外，還需要剔除相關性相對小的屬性特征，隨著這種屬性特征的剔除，特征維度和分類時間復雜度降低，而分類精確度也會降低。因此以上兩個實驗部分綜合權衡分類時間復雜度和分類精確率，在保證精確率低損失的同時，減少特征數量，節約計算過程消耗。文中的分類器使用了sklearn框架中的隨機森林算法，將隨機森林算法的主要參數n_estimators設置為20，min_samples_split設置為4，min_samples_leaf設置為2，并使用10折交叉驗證方法作為評價指標，將訓練集與測試集比例設置為9∶1。由于10折交叉驗證的選取隨機性，每次選取作為訓練集和測試集的樣本不同，導致每次分類結果不同，因此選擇三次分類結果取平均作為最終結果。

4.3 結果分析

實驗一：在相同參數的隨機森林分類器基礎上，HEFS框架使用三種過濾式方法對特征集進行特征選擇，而文中提出的混合模型綜合了過濾式方法和封裝式方法的優點對相同特征集進行特征選擇，最終得到的最優特征子集包含了10個特征，如圖2所示。通過選取的10個最優特征發現，現有網絡釣魚檢測方法中一些常用的特征并未在其中。目前UrlLength、IpAddress、NoHttps、NumDot等特征仍然被用作識別釣魚網站的重要特征。然而實驗結果表明，由于近年釣魚網站趨勢的改變，網絡釣魚者正逐漸使用新的方法來逃避檢測，導致這些特征已經對識別釣魚網站沒有太多貢獻。因此需要及時更新檢測特征集，拋棄已經不被釣魚者使用的特征，提高檢測效率。

圖2 最優特征子集

表1給出了分類實驗精確率的結果以及分類時間復雜度的結果。其中FST表示所使用的特征選擇技術，NuF表示特征選擇過程后剩余的最優特征個數，AUC表示分類的精確率，CT表示分類時間復雜度。

表1 基于隨機森林不同模型的分類結果

從表1的結果可以得出，文中提出的混合特征選擇模型以及文獻[9]提出的HEFS框架均將數據集特征數量降低了79.2%。在分類時間復雜度方面，降低了32%的分類時間復雜度；在分類精度方面，具有極低的精確度損失。總體來說，評價結果驗證了所提出的混合特征選擇模型的有效性，并且該模型產生了一組較優的特征集，可用于反網絡釣魚工作的后續研究。

實驗二：為了進一步驗證該技術的適用性，將混合特征選擇模型應用于UCI機器學習庫中的大型釣魚數據集對其進行評價，該數據集由11 055個樣本和30個不同的特征組成，廣泛應用于網絡釣魚檢測，并將分類結果與文獻[10]中的FSIGR算法進行對比，如表2所示。

表2 文中模型與FSIGR模型[8]之間的性能基準測試

從表2結果表明，在精確率損失1.7%的可接受條件下，提出的模型在特征維度上降低了70%，并且分類時間復雜度也降低了41.1%，而FSIGR算法雖然保證了精確率，但并沒有有效降維。顯然地，在處理高維數據時，文中方法將更加有效地減少計算機壓力。由此表明，所提出的混合特征選擇模型具有較強的魯棒性，能夠靈活地適用不同的數據集，維度越高，降維效果越明顯。

受試者工作特征(receiver operating characteristic curve，ROC)曲線可以通過構圖的方法反映出真陽性率(靈敏度)和假陽性率(1-特異度)的相互關系。ROC曲線可以很輕易地查出任意界限值時的對性能的識別能力，作為橫坐標的假陽性率越小時，作為縱坐標的真陽性率越大，則ROC曲線越靠近左上角、曲線下面積越大，AUC(area under ROC curve)越大、模型的泛化能力越高、分類效果越好。圖3為使用文中提出的模型后兩個數據集的ROC曲線。

圖3 文中模型適用于不同數據集的ROC曲線

其中，ROC curve_1表示文中模型應用在釣魚網站數據集[17]上的曲線，ROC curve_2表示文中模型應用在UCI機器學習庫中的大型釣魚數據集上的曲線，area表示ROC曲線下區域面積。從圖中可以看出，當兩個ROC曲線假陽性率很小時，真陽性率數值已經接近1，曲線凸起位置靠近左上角，曲線下區域面積分別達到了0.98和0.96，二值均屬于較大的數值，從而證明了所提出的混合特征選擇模型作用于不同的數據集時，均有較高的泛化能力。

5 結束語

提出了一種基于混合特征選擇模型的釣魚網站快速識別方法，其中在隨機森林算法的基礎上，利用了過濾式方法和封裝式方法綜合度量，從而得到最優特征子集。此外，在模型中使用分布函數與梯度，獲取最佳截斷閾值。該模型的目的是在損失可接受程度的精確度的條件下，盡可能減少特征數量。實驗結果表明，使用該模型處理后得到的數據集，具有精確度低損失、分類高效率的優點，此外該模型能夠靈活地適應其他數據集。以上結論證明了提出的混合特征選擇模型的有效性和一定的適用性。考慮特征之間的關聯度，將模型轉變為線上可學習的模型，是筆者接下來工作的重點。