999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征集聚和卷積神經網絡的惡意PDF文檔檢測方法

2021-08-24 08:40:54俞遠哲王金雙
網絡安全與數據管理 2021年8期
關鍵詞:特征檢測方法

俞遠哲,王金雙,鄒 霞

(陸軍工程大學 指揮控制工程學院,江蘇 南京210001)

0 引言

PDF(Portable Document Format)文檔的使用非常廣泛,但隨著版本的更新換代,PDF文檔包含的功能也變得多種多樣,其中一些鮮為人知的功能(如文件嵌入、JavaScript代碼執行、動態表單等)越來越多地被不法分子利用,來實施惡意網絡攻擊行為[1]。APT(Advanced Persistent Threat)攻擊[2]常常借助惡意PDF文檔這一媒介,通過社會工程學、水坑攻擊、釣魚攻擊等手段,構造巧妙偽裝的惡意文檔,誘騙受害者下載,從而侵入或破壞計算機系統。相比傳統的可執行惡意程序攻擊,惡意文檔攻擊具有更強的迷惑性。

近年來,基于機器學習的惡意PDF文檔檢測技術被廣泛使用。相比于傳統簽名匹配檢測,它能夠及時發現新型惡意文檔且檢測模型更新方便迅速。其中基于靜態檢測的機器學習方法,具有高效、成本低、解釋性強等特點。而深度學習相較于機器學習算法,更強調學習數據中的隱藏信息,如特征的相關性。

前期研究利用傳統的機器學習模型如SVM、隨機森林等,對小規模的數據分類效果較好,但是當數據維度(包括特征維度及樣本維度)過大時,需要耗費大量的資源進行學習。而卷積神經網絡通過卷積核來實現高維數據的處理,提取局部特征;通過池化操作,來提取一塊區域內的主要特征,能降低參數數量,減少冗余,防止模型的過擬合;最后通過全連接層,將局部特征根據權值整合成完整的特征。但是實際應用中,文檔特征與圖像特征不同,因為文檔特征提取的順序不同,不相鄰的兩類特征之間也存在一定的相關性,而卷積核提取的是局部相鄰特征,損失了部分全局信息,降低了文檔特征的表征能力。

因此,本文設計了一個基于特征集聚和卷積神經網絡的訓練模型。首先通過特征集聚來挖掘特征間的潛在相似度,提升特征的表征能力。同時實現了特征降維,提高了模型訓練的效率。再利用卷積神經網絡挖掘聚合特征之間的關系,自動地從數據中學習訓練得到一個成熟的檢測模型。

本文的主要工作如下:

(1)以靜態檢測技術為基礎,提取文檔的常規特征和結構特征進行集聚,以Ward最小方差聚類方法評估兩類特征間的潛在相似度。Ward方法是一種層次聚類算法,它較于其他聚類的優勢在于不依賴于聚類初始點的選擇,并能最小化兩類特征合并時導致的平方誤差,使得每次合并的都是最相似的兩類特征。通過將潛在的相似特征以迭代的方式合并得到聚合特征,實現了特征的聚類,降低了特征空間維度,提升了模型的訓練效率和特征的表征能力。

(2)將文檔的特征值送入CNN模型,利用三個不同大小的卷積核來發掘特征空間里不同范圍的特征向量所包含的隱藏信息。將三者得到的特征圖合并,并采用最大值池化的方法將特征值整合,最后通過全連接輸出得到結果。同時在池化層與全連接層之間加入了Dropout層,起到減少特征冗余避免過擬合的發生。

1 相關工作

傳統的惡意PDF文檔檢測方法主要基于簽名識別和啟發式規則匹配[3],優點是誤報率低,但局限于對病毒庫中已有的惡意樣本進行檢測,面對未知惡意文檔反應遲緩,攻擊者可以通過偽造新的惡意文檔來繞過檢測。2003年,Goel[4]提出了基于Kolmogorov復雜度度量的簽名匹配技術,通過計算信息距離,用于惡意文檔的相似性度量,從而對未知文檔進行檢測;2010年,Baccas[5]通過分析惡意 PDF樣本,根據對象標簽建立了一個規則和特征庫,以篩選過濾惡意文檔。但是這類方法維護成本和周期長,制定的規則過于依賴專家經驗,容易漏報變異較大的或是新型惡意文檔。

基于機器學習的靜態檢測技術主要利用元數據[6]、JavaScript腳本特征[7]、文檔結構[8]等特征進行識別。它主要可以分為三類:

(1)對文檔進行二進制分析,使用N-gram方法提取特征送入分類器模型訓練預測。2013年Pareek等人[6]提出了基于熵和N-gram分析的PDF文檔檢測方法,通過將文檔轉化為一個二進制序列,計算其熵值,對于熵值不在置信區間內的可疑文檔進行N-gram分析檢測。研究表明惡意文檔的熵值普遍較低,該方法優勢在于無需解析文檔內容,但是對文檔的特征分析不夠,攻擊者可以通過在良性文檔嵌入惡意腳本的方式構造惡意文檔,使得文檔的熵值變化不大,從而逃避檢測。2018年,Kumar等人[9]提出使用圖像相似性技術將文件先轉化為二進制代碼,再轉化為灰度圖像使用卷積神經網絡進行分析。2020年Fettaya等人[10]將文檔字節序列特征送入卷積神經網絡進行檢測。該類方法無需任何預處理和特征提取,但是由于文檔大小不固定,文檔的二進制序列長度也不一致,當長度差異較大時,容易出現語義截斷的問題。

(2)對文檔內容中的標簽、頁數、編碼、JavaScript腳本等進行解析,如2018年Jason Zhang提出了MLPdf[11],它同時選取了PDF內容特征和結構特征,送入多層感知器(MLP)中進行學習檢測。

(3)根據文檔結構特征進行分析,如Srndic和Laskov提出了 Hidost[12],通過對象之間的引用關系構造了PDF結構樹,然后從PDF的結構樹中提取每個對象的最短結構路徑,并將這些路徑的二進制計數作為特征,送入決策樹模型和SVM模型進行訓練評估。

靜態檢測無需執行文檔程序,具有特征提取方便、檢測效率高的特點,但同時文檔的靜態信息也容易被攻擊者所混淆[13],影響分類器的檢測結果。

2 本文方法

2.1 檢測框架

本文提出了一種基于特征集聚和卷積神經網絡的惡意PDF文檔檢測方法CNN-FAG,其整體框架如圖1所示。首先,特征提取模塊使用PeePDF[14]對PDF文件進行結構解析,得到結構特征;使用PDFid[15]解析文檔獲得常規特征。其次,特征集聚模塊將兩大類特征依據Ward方法合并,得到特征向量。最后,學習檢測模塊基于CNN模型對特征學習檢測,并進行模型評價。

2.2 特征提取模塊

本文所選用的特征包括常規特征和結構特征,常規特征指描述PDF文檔本身的內容特征,如對象標簽、JavaScript代碼、壓縮數據等。這些特征能直接從文檔的靜態信息中抽取得到,無需分析代碼邏輯。

2.2.1 常規特征

基于對PDF格式的分析,本文涉及的常規特征主要包括 14個,包括 Page、Encrypt等,其含義及安全相關性如表1所示。這些特征單獨一個無法完全對惡意PDF文檔進行分類,但是綜合所有特征就會更容易進行分類。例如,大多數惡意文檔通常只包含一頁,惡意文檔越小越容易在網絡上進行快速的大規模擴散,但是也有一部分惡意文檔為了進行針對性的攻擊,通過在正常文檔的基礎上嵌入惡意腳本,使得具有惡意行為的特征很難被發現。因此需要綜合分析多個特征,來對文檔進行更有效的分類。

表1 14個常規數據特征的含義及其安全相關性

2.2.2 結構特征

PDF結構樹是以/Catalog標簽為根節點,根據引用對象號指向子對象節點,以此層層遞進直到沒有引用對象號,即到達葉子節點,最后形成的樹或森林結構如圖2所示。

圖2 PDF結構樹

結構特征反映了PDF文檔中各對象的相關性,但是無法像常規特征一樣直接反映文檔的惡意屬性,且特征分析相對復雜。本文依靠PeePDF工具得到文檔的結構樹,然后提取得到結構路徑,在此基礎上,設計了3類特征來標識文檔的屬性,具體如表2所示。

表2 3個結構特征的含義及其安全相關性

2.3 特征集聚模塊

通過分析前表提到的各特征的安全相關性,可知單一特征并不足以證明文檔的惡意性,比如含JavaScript標簽的路徑占比高可能是惡意文檔只包含了惡意JavaScript代碼,占比低也可能是正常文檔被嵌入了惡意代碼。考慮到各特征之間存在一定的內在相似性,通過相似性度量合并相似特征,有助于特征降維及消除冗余。因此,本文合并常規和結構兩大類特征進行集聚處理。本文使用的特征集聚方法是以各類特征作為聚類對象,使用層次聚類中的Ward方法評估兩類特征間的潛在相似度,來得到聚合特征。Ward方法將每一個特征看作一類簇,以兩個簇合并后其離差平方和(ESS)的增量作為兩個簇間合并成本C,合并成本C最小的兩個簇生成新的簇,迭代直到得到所需數目的特征簇。ESS的計算如下:

兩個簇x和y的合并成本C,是由合并后的總ESS減去合并前的總ESS得到的,計算公式如下:

Ward方法的算法偽代碼如下:

2.4 學習檢測模塊

本文使用的CNN模型結構如圖3所示,輸入層是樣本中提取得到的N維特征向量,然后使用3個不同的卷積層對特征向量矩陣進行卷積操作。每個卷積層都由128個寬度為N的卷積核構成,卷積核的深度分別為 8、16、32。通過三個擁有不同大小卷積核的卷積層,來發掘特征空間里不同范圍的特征向量所包含的隱藏信息。然后將三者得到的特征圖合并,并選擇最大值池化的方法將特征值整合,最后通過全連接輸出得到結果。為了防止模型的過擬合,采用了ReLU作為激活函數,減輕了參數之間的相互依賴關系。同時在池化層與全連接層之間加入了Dropout層,以減少特征冗余,避免過擬合的發生。

圖3 CNN模型結構

3 實驗結果與分析

3.1 數據、平臺和評價指標

實驗環境為CPU Intel(R)i7-9750H,32 GB內存,GPU為 GTX2060,硬盤為 120 GB SSD,使用 Ubuntu-16.04操作系統。實驗數據集中惡意PDF文檔來自于 VirusTotal[16]病毒數據庫以及 Contagio數據集[17],良性樣本來源于Contagio數據集。使用的良性樣本數為9 093個,惡意樣本數為 21 598個,統計樣本數為30 691個。

本文的分類模型使用了準確率Accuracy、精確率Precision、召回率 Recall、F-score以及模型訓練耗時time五個指標進行綜合衡量,前四個指標的計算方法如下:

其中tp為真正例,fp為假正例,tn為真反例,fn為假反例。

3.2 檢測性能測試

考慮到樣本比例失衡以及數據集樣本量小的情況,會更容易導致模型訓練不佳,因此,以樣本容量為2 000的數據集為基礎,在三組不同的樣本比例條件下,通過改變特征向量維度N的值,即N=2,4,6,8,10,12,17 時, 對分類器的分類準確率Accuracy、精確率Precision、召回率 Recall、F-score以及模型訓練耗時time五項參數進行統計,檢驗模型的綜合性能。

首先對樣本總數為 1 800,良性惡意樣本比例為1:1的數據集進行測試,測試結果如表3所示。

表3 樣本比1:1各指標數值表

對樣本總數為1 350,良性惡意樣本比例為2:1的數據集進行測試,測試結果如表4所示。

表4 樣本比2:1各指標數值表

對樣本總數為1 000,良性惡意樣本比例為9:1的數據集進行測試,測試結果如表5所示。

表5 樣本比9:1各指標數值表

F-score對于二分類模型的結果具有較為客觀的評價,為了更為直觀地呈現結果,本文基于表3、表4和表5中的 F-score結果繪制了圖4。

圖4 F-score對比

對圖4中的數據進行分析,可以發現隨著聚合特征數N的增加,F-score呈下降趨勢,且不同的良惡比下,聚合特征 N=2時,F-score值最高,說明模型的綜合性能最高,與N=17,即未聚合特征的分類模型相比,大約有20%的顯著提升。當N=10時,F-score發生了突變,為了深層次地探究影響F-score的因素,基于表 3、表 4和表 5,繪制了 Precision折線圖和 Recall折線圖,如圖 5、圖 6所示。

圖5 Precision對比

圖6 Recall對比

對圖5進行分析可知,在三種不同的樣本比例之下,Precision變化趨勢幾乎相同,幾乎均為 95%,說明Precision幾乎不受樣本比例的影響。當N=10時,各樣本比例下的Precision都有明顯下降,說明聚合特征數為10時,特征對模型預測的貢獻比較弱,導致 Precision偏低。

對圖6進行分析可知,Recall受樣本比例的影響較大,當良性樣本數多于惡意樣本數時,Recall明顯下降,也導致了F-score下降。同時可以看出,樣本比例失衡容易導致模型欠擬合。當良性惡意樣本比例為9:1時,初始模型的召回率只有甚至達到了5%,但是通過特征集聚,召回率提升到了 95%,說明該方法提升了模型的靈敏度和分類能力,有效緩解了模型的欠擬合問題。當聚合特征數為10,樣本比例為9:1時,圖像出現了拐點,召回率低則模型的分類能力差。說明此時得到的聚合特征使得模型產生了比較嚴重的欠擬合問題,樣本比例越失衡,該問題越明顯。同時因為召回率極低,導致了表5中N=10對應的F-score比較異常。綜上分析可得,當訓練良性惡意樣本比例為1:1,聚合特征數N為2時,分類模型的效果最好。縱向比較來看,分析表3數據可得,特征集聚前后模型的準確度提升了18%,召回率提升了 36%,F-score提升了 0.22,說明特征集聚的方法提高了特征的表征能力,緩解了模型的欠擬合問題,并提升了模型的綜合性能。

為檢測本模型的性能,本文使用樣本總數為30 691的數據集進行測試,將結果與近年來其他模型對比,如表6所示。對比可以得到,本文提出的分類模型較前人提出的方法在各指標上都有所提升。

表6 各方法指標比較

4 結論

針對PDF惡意文檔的傳統靜態檢測方法特征維度高、數據集樣本少導致過擬合等問題,提出了一種基于特征集聚和卷積神經網絡的惡意PDF文檔檢測方法CNN-FAG:通過整合常規特征和結構特征,將特征數據正則化,提高模型的泛化能力,以此構造一個初始特征集,然后使用層次聚類中的Ward最小方差聚類方法得到聚合特征,最后送入CNN模型進行訓練與檢測。通過縱向比較和橫向對比的方式對模型的檢測效果進行了驗證,取得了較為滿意的結果。CNN-FAG實現了特征降維,緩解了模型的過擬合問題,提升了模型的綜合性能。

下一步亟待改進的工作:選取更多的混淆不變特征加入初始特征集中,提高特征空間的表征能力;根據實際檢測偏好需要,改變F-score中的偏好值β;增加特征維度,進一步完善分類器模型,提升分類模型的魯棒性和綜合效能。

猜你喜歡
特征檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲精品视频网| 免费a在线观看播放| 久久亚洲黄色视频| 无码区日韩专区免费系列 | 国产地址二永久伊甸园| 青青草国产在线视频| yy6080理论大片一级久久| 国产亚洲精品无码专| 国产精品乱偷免费视频| 伊人蕉久影院| 亚洲天堂.com| 人人艹人人爽| 高清无码一本到东京热| 日本AⅤ精品一区二区三区日| 国产伦精品一区二区三区视频优播| 99久久精彩视频| 超级碰免费视频91| 91人人妻人人做人人爽男同| 国产一区免费在线观看| 国产 在线视频无码| 欧美在线伊人| 亚洲成人手机在线| 亚洲欧美国产视频| 2021亚洲精品不卡a| 2020精品极品国产色在线观看| 秘书高跟黑色丝袜国产91在线| 大学生久久香蕉国产线观看| 亚洲av无码成人专区| 青青国产成人免费精品视频| 日本久久免费| 一级毛片免费不卡在线视频| 国产理论一区| 无遮挡国产高潮视频免费观看 | 日韩毛片在线播放| 人妻丰满熟妇αv无码| 最近最新中文字幕免费的一页| 色偷偷综合网| 中文字幕在线看| 午夜电影在线观看国产1区| 国产高清无码麻豆精品| 午夜精品福利影院| 国产va在线| 无遮挡一级毛片呦女视频| 久久精品国产精品国产一区| 国产精品手机视频一区二区| 亚洲第一区精品日韩在线播放| 国产成人高清精品免费5388| 亚洲成人一区二区三区| 欧美国产日韩在线观看| 97se亚洲综合在线韩国专区福利| 亚洲精品麻豆| 97成人在线视频| 亚洲狼网站狼狼鲁亚洲下载| 日韩中文精品亚洲第三区| 欧美精品1区2区| 无码丝袜人妻| 尤物国产在线| 国产在线日本| 制服丝袜一区二区三区在线| 国产成熟女人性满足视频| 伊人丁香五月天久久综合| 国产激情无码一区二区免费| 亚洲精品第1页| 99久久精品免费观看国产| 国产精品成| 国产白浆一区二区三区视频在线| 国产午夜小视频| 亚洲日韩日本中文在线| 亚洲综合专区| 亚洲欧美日韩色图| 国产制服丝袜91在线| 伦伦影院精品一区| av在线5g无码天天| 波多野结衣第一页| 老汉色老汉首页a亚洲| 国产情精品嫩草影院88av| 她的性爱视频| 亚洲视屏在线观看| 亚洲无码高清一区| 国产电话自拍伊人| 四虎成人在线视频| 亚洲第一天堂无码专区|