基于雙流融合網絡的惡意軟件動態行為檢測

2024-12-31 00:00:00王玉勝毛子恒

現代信息科技 2024年8期

摘要：針對傳統靜態分析方法很難捕捉到惡意軟件復雜多變的動態行為問題，實驗基于動態特征分析技術，通過研究八種常見惡意軟件的WindowsAPI調用序列，發現了API調用序列的前后順序和調用頻率會直接反映惡意軟件的惡意行為，實驗使用TF-IDF技術將API調用序列向量化，設計基于CNN-BiLSTM雙流融合網絡的深度學習模型對這種API調用的前后依賴關系進行建模，實現對常見惡意軟件的動態檢測。實驗結果表明，該模型的測試準確率達到了95.99%，優于RF、SVM、LSTM、BiLSTM和CNN-LSTM模型，為惡意軟件的檢測提供了借鑒參考。

關鍵詞：API調用序列；動態檢測；深度學習；特征表示

中圖分類號：TP311.5；TP309 文獻標識碼：A 文章編號：2096-4706（2024）08-0177-06

DOI：10.19850/j.cnki.2096-4706.2024.08.038

0 引言

隨著互聯網和計算機設備的普及，網絡安全越來越受到人們的重視和關注。根據國家互聯網應急中心發布的網絡安全報告[1]，2021年上半年我國境內感染計算機惡意程序的主機數量約446萬臺，同比增長46.8%，位于境外的約4.9萬臺計算機惡意程序控制服務器控制我國境內約410萬臺主機，給國家、社會及個人帶來了巨大的財產損失。因此，如何快速準確地檢測和識別惡意軟件成為網絡安全領域的一個關鍵任務。

目前，靜態檢測和動態檢測是進行惡意軟件特征分析的兩種主流方法[2]。靜態檢測是指通過對惡意軟件代碼進行靜態分析，即在不運行程序的情況下從代碼層面提取靜態特征進行惡意軟件的識別和檢測。動態檢測是指通過運行惡意軟件實時監測程序的運行狀態和行為，再通過提取動態特征來檢測惡意軟件的惡意行為。

近年來，基于動態行為分析的惡意軟件識別逐漸成為發展趨勢，其主要思想是通過監測和分析惡意軟件在運行時所調用的系統API接口，提取相應的動態特征并利用機器學習和深度學習算法對惡意軟件進行分類和檢測。相比于傳統基于簽名匹配和啟發式規則的檢測方法，該技術具有不依賴于病毒庫、可檢測未知攻擊、難以被繞過等優勢，可以有效提高惡意軟件檢測的準確率[3]。

針對上述問題，本文通過使用在沙箱中運行軟件提取出的WindowsAPI調用序列，將API調用序列用TF-IDF（Term Frequency–Inverse Document Frequency）詞向量表示模型轉化為高維向量，最后使用CNN-BiLSTM雙流融合網絡結構進行詞向量訓練，從而實現識別惡意軟件的目的。本文的核心內容如下：

1）根據惡意軟件在API調用序列的前后順序和調用頻率中存在的特定依賴關系，提出一種使用雙流融合網絡模型（CNN-BiLSTM）對惡意軟件進行分類的方法，將惡意軟件檢測建模為文本分類問題，通過實驗驗證了模型的準確性。

2）通過實驗對比了基于API調用頻率和TF-IDF詞向量這兩種表征方法的分類性能，實驗結果表明采用TF-IDF詞向量的API序列表征方法具有更好的分類性能。

1 相關工作

現如今，基于機器學習與深度學習的惡意軟件檢測逐漸成為主流方法。其主要過程如圖1所示，首先對惡意軟件和良性軟件進行靜態或動態分析，然后選擇合適的表征方法將特征向量化，通過訓練分類模型檢測惡意軟件。

1.1 靜態檢測

對于通過靜態特征分析檢測惡意軟件而言，大多數的研究是從可執行文件中提取出惡意軟件的靜態特征，例如API調用序列、操作碼序列和字節序列。Ye等人[4]開發了基于可解釋性字符串的惡意軟件檢測系統，可解釋的字符串包含應用API調用序列和反映攻擊者意圖和目標的重要語義字符串，可通過使用集成學習Bagging對文件樣本進行分類并預測惡意軟件的確切類型。Ding等人[5]將惡意軟件表示為操作碼序列并使用DBN模型進行檢測，與其他常用分類算法SVM、KNN、DT相比，DBN的性能最好。Ding等人[6]提出一種用于提取可執行文件中操作碼行為特征的基于控制流的方法，通過該方法提取的行為能夠完整地表征可執行文件的行為特征，實驗結果表明，所提出的基于控制流的方法具有更高的準確率和更低的誤報率。Raff等人[7]使用惡意軟件完整的字節序列作為特征，通過詞嵌入技術將字節序列表示為固定長度的向量作為卷積神經網絡的輸入來進行惡意軟件的檢測。Saxe等人[8]使用PE文件信息、可閱讀字符串和字節序列作為特征，并使用卷積神經網絡進行惡意軟件分類。Santos等人[9]將操作序列碼出現的頻率用作特征來對惡意軟件進行檢測和分類。Kumar等人[10]使用PE文件頭中各個字段的原始值和派生值作為集成特征建立一個基于特征的集成模型，實驗表明使用集成特征集的模型分類性能明顯優于使用原始特征集的模型分類性能。Jeon等人[11]使用從二進制文件中提取的操作碼序列作為特征，通過構建卷積神經網絡來進行惡意軟件的識別與檢測，實驗表明該模型的檢測精度達到了96%。

隨著惡意軟件技術的不斷改進，惡意軟件開發者通過使用各種技術來混淆和加密其代碼，以此逃避靜態檢測，所以說靜態檢測方法在惡意軟件檢測上存在一定的局限性。

1.2 動態檢測

對于通過動態特征分析檢測惡意軟件而言，很多研究是將惡意軟件放在沙箱中運行的，基于沙箱動態來分析惡意軟件的行為特征。Huang等人[12]提出一種新的多任務前饋神經網絡，使用API調用序列作為特征用于惡意軟件的分類任務，該系統接受了450萬個文件的訓練，并在200萬個文件的保留測試集上進行了測試，實現了0.358%的錯誤率。Qiao等人[13]使用Cuckoo沙箱來捕獲惡意軟件在Windows系統中的API調用序列，引入了基于API調用序列頻繁項集的惡意軟件二進制文件聚類方法。在大型惡意軟件數據集上的實驗表明，僅使用API調用序列的頻繁項集就可以在顯著減少計算時間的同時達到較高的惡意軟件聚類精度。Tian等人[14]使用一個在虛擬環境中運行的自動化工具從可執行文件中提取API調用序列，然后應用模式識別算法和統計方法對惡意軟件進行分類，在由1 368個惡意軟件和456個良性軟件構成的數據集上進行實驗，分類準確率超過97%。Liu等人[15]使用從cuckoo沙箱中提取出的惡意軟件API調用序列作為特征，并構建BiLSTM模型進行惡意軟件分類，實現了97.85%的準確率。Catak等人[16]通過在隔離的沙箱環境中運行分析惡意軟件并記錄API調用序列，使用文本分類中常用的LSTM算法將惡意軟件建模為文本分類問題，模型的檢測準確率高達95%。Li等人[17]使用API調用序列構建基于馬爾科夫鏈的有序循環圖，然后使用圖卷積神經網絡來檢測惡意軟件，實驗表明，該方法在大多數檢測中具有較好的性能，準確率高達98.32%。

可以看出，與靜態檢測相比，動態檢測方法是直接提取惡意軟件行為特征進行分析，不存在代碼混淆和加密的問題，更有利于辨別惡意軟件的惡意行為。

2 基于動態行為的惡意軟件檢測

在惡意軟件的惡意性識別中深度學習技術表現出良好的效果。基于已有文本分類模型的參考，本實驗通過分析惡意軟件在沙箱中運行時產生的API調用序列，發現了API調用序列的前后順序和調用頻率會直接反映惡意軟件的惡意行為，因此基于CNN-BiLSTM雙流融合網絡模型對API調用序列的這種前后依賴關系進行建模，此模型既可以考慮到API調用概率的局部依賴關系，又可以考慮到API調用概率的長期依賴關系，通過分析惡意軟件的API調用行為來進行惡意軟件的識別。經過對數據集的統計，所有軟件共使用298種系統API調用函數，如圖2所示，實驗采用TF-IDF算法將API調用序列映射為一個固定長度的向量，首先計算出原始API調用序列的字典，然后根據字典計算出每條API調用序列的詞頻向量，再根據詞頻向量計算出相應位置的TF-IDF值，這樣就得到了最終的TF-IDF向量。

如圖3所示為實驗的具體流程，API調用序列在經過TF-IDF向量化后會形成一個298維的向量作為卷積層的輸入，首先經過卷積層對API調用序列的局部依賴關系進行提取，然后再經過雙向長短期記憶網絡層對API調用序列的長期依賴關系進行提取，最后經過全連接層的映射形成最終的預測結果。此外，還選擇了五種模型作為對比模型，并比較了不同模型組合對分類結果的影響。這五種模型為隨機森林（RF）、支持向量機（SVM）、LSTM、BiLSTM和CNN-LSTM。

分別對模型中用到的網絡層結構進行介紹：

1）卷積層的作用是通過局部特征映射來提取輸入數據的重要特征，并將其映射為更低維度的表示形式。這樣做不僅可以減少數據的復雜性，還可以提供更具辨識度和判別性的特征，使得后續的長短期記憶網絡能夠更好地處理和學習相關信息。

2）池化層一般接在卷積層之后，其本質其實就是下采樣操作，可以有效減少數據的維度，這樣可以降低計算復雜度，從而防止過擬合，提高計算效率。

3）雙向LSTM層在特征處理中起著重要的作用。雙向LSTM層通過添加一個反向傳輸層來提取API調用序列的前后依賴關系和上下文信息，這樣的設計允許模型同時對時間序列數據進行正向和逆向的分析，從而更加全面地理解和利用序列中的信息。

4）隨機丟失層的作用是通過隨機丟棄一定比例的神經元的輸出來減少神經網絡中的過擬合現象。在訓練過程中，Dropout層會隨機地將一些神經元的輸出設置為零，這些被丟棄的神經元會在下一次訓練中隨機選擇另外一些神經元進行替換，從而提高模型的泛化能力。

5）全連接層連接上一層所有的節點，通過學習適當的權重參數來提取特征、映射輸入數據、引入非線性變換以及產生最終的預測結果。

3 實驗結果分析

本節通過一系列的實驗對CNN-BiLSTM雙流融合網絡模型以及其他機器學習模型進行比較，分析卷積神經網絡（CNN）和雙向長短期記憶網絡（BiLSTM）融合的優勢，并提出API序列調用頻率和TF-IDF詞向量這兩種表征方法的選擇建議。

3.1 實驗數據集

本實驗所采用的數據集由兩個公開的數據集構成：公開數據集Mal-API-2019和阿里云天池安全算法挑戰賽所提供的公開數據集。公開數據集Mal-API-2019由7 107個8種不同惡意家族的惡意軟件在沙箱中運行時提取的API調用序列構成，這8種惡意家族分別為Spyware、Downloader、Trojan、Worms、Adware、Dropper、Virus和Backdoor。采用這7 107個惡意軟件的API調用序列作為本實驗的惡意數據集。阿里云天池安全算法挑戰賽所提供的公開數據集同樣也是由11萬個良性軟件在沙箱中運行時產生的API調用序列構成。本實驗從這些序列中清洗出7 005個序列作為本實驗的良性數據集。綜上所述，本實驗所采用的數據集由7 107個惡意軟件和7 005個良性軟件在沙箱中運行時提取的API調用序列構成，部分API調用序列如圖4所示，具體數據集構成如表1所示。

3.2 實驗結果分析

為了比較不同模型對惡意軟件的分類性能，本實驗比較了RF、SVM、LSTM、BiLSTM、CNN-LSTM、CNN-BiLSTM這6種模型的準確率性能。此外，本實驗還選用API調用頻率和TF-IDF詞向量作為模型輸入，評估不同表征方法在惡意軟件分類上的性能表現。

實驗結果分別展示了模型的準確率、精確率、召回率、F1值四組數據。下面分別給出使用API調用頻率和TF-IDF詞向量作為模型輸入的實驗結果。

從表2和表3的分類結果可以看出，CNN-BiLSTM雙流融合網絡模型相對于其他方法有更好的分類性能，在準確率、精確率、召回率和F1值這四個指標

上都優于RF、SVM、LSTM、BiLSTM和CNN-LSTM

模型。CNN-BiLSTM雙流融合模型能夠對時間序列進行多粒度特征提取。CNN在卷積層中使用不同大小的濾波器，可以捕捉API調用序列中的多尺度特征，這些特征對于理解API調用序列局部結構非常重要，而BiLSTM更擅長建模長期依賴關系，通過將CNN和BiLSTM相結合，CNN-BiLSTM能夠同時利用API調用序列的局部特征和全局特征，提取更豐富的特征表示，實現更好的惡意軟件檢測效果。

除了模型的準確率指標之外，實驗還對API調用頻率和TF-IDF詞向量這兩種表征方法進行了對比，圖3和圖4分別為API調用頻率在CNN-BiLSTM模型上的Accuracy值和Loss值，圖5和圖6分別為TF-IDF詞向量在CNN-BiLSTM模型上的Accuracy值和Loss值。

由圖5可以看出，基于API調用頻率特征表示的CNN-BiLSTM模型在經過第53個Epochs時因為過擬合而停止了迭代，由圖6可以看出，基于TF-IDF詞向量特征表示的CNN-BiLSTM模型在經過第38個Epochs時就已經停止了迭代，可以說明基于TF-IDF詞向量特征表示的模型比基于API調用頻率特征表示的模型擬合速度更快，且從圖5和圖6中Accuracy、Loss曲線來看，基于TF-IDF詞向量特征表示的模型比基于API調用頻率特征表示的模型在訓練集和測試集上的差距要小，說明基于TF-IDF詞向量特征表示的模型比基于API調用頻率特征表示的模型擬合效果要好。綜上所述，基于TF-IDF詞向量特征表示的方法更能夠體現API調用序列在前后順序和調用頻率上的依賴關系，能夠在使用API調用序列檢測惡意軟件的過程中達到更好的性能和表現。

4 結論

本文探索了如何利用深度學習技術進行動態惡意軟件檢測。通過研究惡意軟件API動態調用序列，引入CNN-BiLSTM雙流融合網絡模型對API調用序列的前后依賴關系進行建模。實驗結果表明，該方法能夠結合CNN和BiLSTM的優點，同時利用API調用序列的局部信息和全局信息進行上下文建模，從而提高模型的表達能力。本文還對API調用頻率和TF-IDF詞向量這兩種表征方法進行了對比，實驗證明基于TF-IDF詞向量特征表示的方法更能夠體現API調用序列的統計特征，在惡意軟件動態特征分類中的效果更好。后續的研究工作將會探究惡意軟件可視化檢測技術，以更有效地檢測出新型的惡意代碼。

參考文獻：

[1] 國家互聯網應急中心.2021年上半年我國互聯網網絡安全監測數據分析報告［R/OL］.[2023-07-23].https：//www.cert.org.cn/publish/main/upload/File/first-half%20%20year%20cyberseurity%20report%202021.pdf.

[2] 王志文，劉廣起，韓曉暉，等.基于機器學習的惡意軟件識別研究綜述 [J].小型微型計算機系統，2022，43（12）：2628-2637.

[3] YE Y F，LI T，ADJEROH D，et al. A Survey on Malware Detection Using Data Mining Techniques [J].ACM Computing Surveys （CSUR），2017，50（3）：1-40.

[4] YE Y F，CHEN L F，WANG D D，et al. SBMDS： an Interpretable String Based Malware Detection System Using SVM Ensemble With Bagging [J].Journal in Computer Virology，2009，5（4）：283-293.

[5] DING Y X，CHEN S，XU J. Application of Deep Belief Networks for opcode Based Malware Detection [C]//2016 International Joint Conference on Neural Networks （IJCNN）. Vancouver：IEEE，2016：3901-3908.

[6] DING Y X，DAI W，YAN S L，et al. Control Flow-based opcode Behavior Analysis for Malware Detection [J].Computers amp; Security，2014，44：65-74.

[7] RAFF E，BARKER J，SYLVESTER J，et al. Malware Detection by Eating a Whole EXE [J/OL].arXiv：1710.09435v1 [stat.ML].[2023-07-28].https：//arxiv.org/pdf/1710.09435.pdf.

[8] SAXE J，BERLIN K. Deep Neural Network Based Malware Detection Using Two Dimensional Binary Program Features [C]// 2015 10th International Conference on Malicious and Unwanted Software （MALWARE）.Fajardo：IEEE，2015：11-20.

[9] SANTOS I，BREZO F，UGARTE-PEDRERO X，et al. Opcode Sequences as Representation of Executables for Data-mining-based Unknown Malware Detection [J].Information Sciences，2013，231：64-82.

[10] KUMAR A，KUPPUSAMY K S，AGHILA G. A learning Model to Detect Maliciousness of Portable Executable Using Integrated Feature Set [J].Journal of King Saud University-Computer and Information Sciences，2019，31（2）：252-265.

[11] JEON S，MOON J. Malware-detection Method with a Convolutional Recurrent Neural Network Using Opcode Sequences [J].Information Sciences，2020，535：1-15.

[12] HUANG W Y，STOKES J W. MtNet： A Multi-task Neural Network for Dynamic Malware Classification [C]//DIMVA 2016： Proceedings of the 13th International Conference on Detection of Intrusions and Malware， and Vulnerability Assessment. Berlin：Springer-Verlag，2016：399-418.

[13] QIAO Y，YANG Y X，JI L，et al. Analyzing Malware by Abstracting the Frequent Itemsets in API Call Sequences [C]//2013 12th IEEE International Conference on Trust， Security and Privacy in Computing and Communications.Melbourne：IEEE，2013：265-270.

[14] TIAN R H，ISLAM R，BATTEN L，et al. Differentiating Malware from Cleanware Using Behavioural Analysis[C]//2010 5th International Conference on Malicious and Unwanted Software. Nancy：IEEE，2010：23-30.

[15] LIU Y Y，WANG Y W. A Robust Malware Detection System Using Deep Learning on API Calls [C]//2019 IEEE 3rd Information Technology， Networking， Electronic and Automation Control Conference （ITNEC）. Chengdu：IEEE，2019：1456-1460.

[16] CATAK F O，YAZI A F，ELEZAJ O，et al. Deep Learning Based Sequential Model for Malware Analysis Using Windows exe API Calls [J/OL].PeerJ Computer Science，2020[2023-07-08].https：//pubmed.ncbi.nlm.nih.gov/33816936/.

[17] LI S，ZHOU Q，ZHOU R，et al. Intelligent malware detection based on graph convolutional network [J].The Journal of Supercomputing，2022，78（3）：4182-4198.

作者簡介：王玉勝（1996—），男，漢族，甘肅武威人，碩士研究生在讀，研究方向：計算機信息安全技術與應用；毛子恒（1998—），男，漢族，江蘇宿遷人，碩士研究生在讀，研究方向：網絡與信息安全、惡意加密流量識別。

收稿日期：2023-09-19

Dynamic Behavior Detection for Malware Based on Dual-stream Converged Networks

WANG Yusheng， MAO Ziheng

（School of Electronics amp; Information Engineering， Liaoning University of Technology， Jinzhou 121001， China）

Abstract： To address the problem that traditional static analysis methods are difficult to capture the complex and changeable dynamic behavior of malware， the experiment is based on dynamic feature analysis techniques， through studying the WindowsAPI call sequences of eight common malware， it is found that the before-and-after order of API call sequences and the call frequency will directly reflect the malicious behavior of malware. The experiment uses TF-IDF （Term Frequency-Inverse Document Frequency） technique to vectorize the API call sequences， and designs a Deep Learning model based on CNN-BiLSTM dual-stream converged network to model the before-and-after dependency relationship of such API calls and realize the dynamic detection of common malware. The experimental results indicate that the test accuracy of this model reaches 95.99%， which is better than RF， SVM， LSTM， BiLSTM and CNN-LSTM models， and provides reference for malware detection.

Keywords： API call sequence; dynamic detection; Deep Learning; feature representation