


摘要:該研究探索了基于神經網絡的移動惡意軟件檢測方法,并通過優化策略提升了模型性能。研究在公開數據集上深入分析了惡意軟件的權限特征,比較了幾種常見模型在檢測中的表現,發現神經網絡在處理復雜數據時表現卓越。通過優化學習率,該模型的召回率提升至 97.81%,顯著增強了其在惡意軟件檢測中的敏感度。
關鍵詞:神經網絡;惡意軟件檢測;移動應用安全;學習率優化
中圖分類號:TP3 文獻標識碼:A
文章編號:1009-3044(2025)09-0048-03 開放科學(資源服務) 標識碼(OSID) :
惡意軟件的種類和復雜性日益增加。根據卡巴斯基實驗室的報告,2022年Android設備所遭受的惡意軟件攻擊比前一年增長了35%[1]。傳統的惡意軟件檢測方法主要有兩類:基于簽名的檢測和基于行為的檢測。基于簽名的方法依賴于已知樣本的簽名庫,雖然檢測速度快,但對于未知或變種惡意軟件則失效[2]。
相比之下,基于行為的檢測通過分析應用的行為模式來識別潛在威脅,盡管適應性更強,但在資源有限的移動設備上,高計算成本仍是顯著挑戰[3]。
神經網絡模型在惡意軟件檢測中逐漸受到關注。這是因為它在特征提取和復雜數據處理方面表現卓越,具有較高的準確性和魯棒性[4]。然而,訓練過程中通常涉及大量參數,如何有效優化以提升檢測性能仍是一個挑戰。
本研究的目的是探索神經網絡在移動惡意軟件檢測中的應用,并通過優化模型提升檢測性能。主要貢獻有兩點:一是探索神經網絡技術在移動應用安全領域的應用,提供一種高效的惡意軟件檢測解決方案;二是通過研究優化策略,探索如何在資源受限的移動環境中實現高效的深度學習模型,這對構建移動環境中的安全系統具有一定的指導意義。
1 數據集分析
本研究使用公開的 Android 應用程序權限數據集。該數據集包含多個 APK 文件及其對應的權限信息,以及每個APK 是否為惡意軟件的標簽。數據集共包含 5 654個樣本,惡意軟件占50.32%,良性應用占49.68%,這一均衡性為后續模型訓練和評估提供了可靠基礎。
數據集中的每個樣本包含72個權限,這些權限標識了應用程序在安裝或運行過程中可以請求的系統資源或功能。同時,標簽信息(即是否為惡意軟件) 為二元分類任務提供了明確的目標變量。
1.1 數據預處理
完成數據清洗后,進行特征分析。考慮到權限特征的重要性,我們計算了各權限與目標變量(是否為惡意軟件) 之間的相關性系數。通過相關性分析,識別出與惡意軟件高度相關的關鍵權限。這些權限通常在惡意軟件中被濫用,以實現信息竊取或發送惡意信息。
在數據的探索性分析中,我們發現一些權限特征間存在高度相關性。例如,READ_SMS 和 WRITE_SMS 權限通常同時出現在惡意軟件中,這反映了惡意軟件在竊取和修改用戶短信過程中的行為模式。為進一步分析這些特征的分布情況,我們繪制了不同類型應用在各權限請求數量上的分布圖(見圖1) 。
如圖1所示,惡意軟件與良性應用在權限請求數量上的分布存在顯著差異。為了執行復雜的惡意行為,惡意軟件通常會請求更多的權限,以便竊取用戶信息、發送高額短信。
1.2 權限特征分析
為了直觀理解惡意軟件與良性應用之間的權限請求差異,統計了最常請求的前十個權限。結果顯示,INTERNET權限在絕大多數應用中被請求,這表明網絡連接是現代移動應用的基礎功能。然而,SEND_SMS、READ_PHONE_STATE 等權限在惡意軟件中被請求的頻率明顯更高,這暗示這些權限可能是惡意軟件實施攻擊的關鍵手段。
1.3 權限與惡意標簽的相關性分析
為深入分析權限特征與惡意標簽的關系,計算了各權限與惡意軟件標簽的皮爾遜相關系數。結果顯示,SEND_SMS、RECEIVE_SMS 和READ_PHONE_STATE等權限與惡意標簽之間呈現較高的正相關性。這表明這些權限在惡意軟件中的使用頻率顯著高于良性應用。因此,在后續模型訓練中,這些權限將成為區分惡意軟件與良性應用的重要特征。同時,通過對數據集的深入分析,識別了可用于惡意軟件檢測的重要權限特征。
2 模型的選擇與實現
在惡意軟件檢測領域,傳統機器學習算法因其低計算成本和良好的可解釋性,常被用于早期研究。本研究選擇了幾種常用的機器學習算法進行對比分析,包括邏輯回歸、決策樹和隨機森林模型。之后,使用神經網絡的多層感知器(MLP) 對數據集進行訓練,以便對各模型性能進行對比。
模型性能評估指標包括準確率、精確率、召回率和F1分數。準確率衡量模型判斷應用為惡意軟件或良性應用的總體概率。高精確率表明模型在預測惡意軟件時誤判較少,有助于減少誤報,進而保護用戶體驗。召回率則衡量模型能夠檢測出更多惡意軟件的能力,這在惡意軟件檢測任務中至關重要。F1分數是精確率與召回率的調和平均值,平衡這兩個指標是評估模型性能的一項重要標準。
2.1 邏輯回歸
邏輯回歸是一種經典的二元分類算法,通過學習數據特征與目標變量的線性關系,輸出一個表示屬于某類別的概率值。由于模型簡單且易于解釋,邏輯回歸在早期惡意軟件檢測研究中得到了廣泛應用。在本研究數據集上,邏輯回歸模型的召回率達到96.72%,但在處理復雜非線性特征時表現有所欠缺。
2.2 決策樹
決策樹是一種基于樹狀結構進行分類的算法,通過遞歸分割數據,形成多層決策節點和葉節點的模型。決策樹具有較強的解釋性,并能夠處理非線性特征。然而,單一決策樹模型容易過擬合,特別是在樣本數據中存在噪聲的情況下。在本研究中,決策樹模型在惡意軟件檢測任務中的召回率為96.35%,略高于邏輯回歸模型。
2.3 隨機森林
隨機森林通過集成多棵決策樹,并利用多數投票的方式輸出最終的分類結果,從而提升模型的魯棒性和準確率。在本研究中,隨機森林模型的召回率達到96.72%,顯著高于邏輯回歸和單棵決策樹模型。
2.4 神經網絡模型的選擇與實現
神經網絡模型由于其強大的特征學習能力和非線性處理能力,逐漸成為惡意軟件檢測領域的研究熱點。通過多層神經元的連接及激活函數的作用,神經網絡能夠有效捕捉復雜模式和關系,實現更精準的分類。
多層感知器(MLP) 是基本的神經網絡結構,通常由輸入層、一個或多個隱藏層以及輸出層組成。每層神經元通過加權鏈接與上一層神經元相連,并通過激活函數引入非線性。本研究使用包含100個神經元的單隱藏層MLP模型進行惡意軟件檢測。該模型的準確率為96.02%,與隨機森林模型相當,但其召回率達到了97.08%,在處理高維和復雜數據時表現更為突出[5]。
各模型訓練后的性能指標對比如下:
隨機森林與神經網絡模型在多數指標上表現優異,尤其在準確率和F1分數方面,因此適合用于構建高效且可靠的惡意軟件檢測器。這些模型能夠在誤報和漏報之間實現良好平衡。
2.5 隨機森林與神經網絡模型的性能對比
在高維數據和復雜特征的場景下,神經網絡模型展現出更強的適應性與泛化能力。雖然隨機森林在精確率方面略優于神經網絡,但在處理復雜數據時,神經網絡的表現更為穩定。同時,雖然神經網絡模型在訓練階段的計算復雜性和內存占用高于隨機森林,但在推理階段的資源消耗較低,因此更適合移動應用場景。
3 模型的優化
在訓練過程中,學習率的選擇對神經網絡模型的收斂速度和最終性能至關重要。學習率過大可能導致模型訓練振蕩甚至發散,而學習率過小則會使訓練過程緩慢,難以收斂到全局最優解。為了找到合適的學習率,我們使用了學習率范圍測試(Learning RateRange Test) ,逐步增大學習率,觀察損失函數的變化,最終確定最佳學習率。
3.1 學習率范圍測試
我們將學習率從極小值逐步增大至1e-1,并記錄每個學習率下損失函數的變化(見圖2) 。圖中顯示,當學習率接近0.01時,模型的損失函數值最低且變化平穩,這表明該學習率有效地推動了模型向全局最優解收斂[6]。
3.2 優化后的模型性能
將學習率調整為0.01后,我們重新訓練了神經網絡模型,并將其性能與初始模型進行了對比(見表2) 。
觀察召回率的變化,優化后的模型在性能上有一定提升。優化后的模型的召回率提高至97.81%,表明其在檢測惡意軟件方面更為敏感。這里主要關注召回率指標的變化,是因為本研究的任務目標是盡可能捕獲所有的惡意軟件,即希望減少漏報(FN) 。即使準確率和精確率略有下降,也要先確保系統安全。
4 結束語
本研究旨在探索和優化基于神經網絡的移動惡意軟件檢測方法。通過與多種檢測技術的比較,發現神經網絡模型在檢測復雜惡意軟件樣本方面具有明顯優勢。經過學習率優化后,模型在惡意軟件檢測任務中更敏感,有效減少了漏報。然而,盡管本研究在優化神經網絡模型用于惡意軟件檢測方面取得了一定進展,但仍存在進一步改進的空間。未來的研究可以集中于開發更輕量化的神經網絡模型,并探討模型的剪枝和量化等技術,以使其更適合在資源有限的移動設備上部署。