



摘要:隨著移動互聯網的普及,利用App 進行電信網絡詐騙等違法犯罪活動日益猖獗,對社會安全構成嚴重威脅。為了有效打擊此類犯罪,文章提出了一種基于多模態特征融合神經網絡的App 智能檢測系統。該系統綜合利用App 圖標圖像、文本描述和用戶行為模式等多模態特征,構建了一個基于ViT-GPT2、ukrparaphrase-multilingual-mpnet-base 和雙向LSTM融合的深度學習模型,實現了對惡意App 的精準識別。實驗結果表明,該系統在測試集上取得了75% 的準確率,能夠有效識別涉黃、涉詐、涉賭等違法應用。未來,將進一步優化模型性能,提升檢測精度和效率。
關鍵詞:App 安全;惡意軟件檢測;深度學習;特征融合
中圖分類號:TP3 文獻標識碼:A
文章編號:1009-3044(2025)06-0057-03 開放科學(資源服務)標識碼(OSID):
0 引言
移動互聯網的快速發展為人們生活帶來便利的同時,也滋生了利用App進行電信網絡詐騙等違法犯罪活動。這些惡意App通常偽裝成正常的應用程序,竊取用戶隱私、傳播惡意信息,嚴重危害社會安全。因此,開發高效、智能的App檢測系統,對維護網絡安全至關重要。本文提出了一種基于多模態特征融合神經網絡的App智能檢測系統,旨在精準識別和打擊各類惡意App。
1 國內外研究現狀
近年來,針對App智能檢測系統的研究得到了廣泛關注,尤其是網絡詐騙和惡意軟件的檢測。國外在網絡安全相關領域,尤其是涉詐網站溯源和安卓惡意軟件檢測方面成果顯著。Sonya A等人[1]提出結合動靜信息的框架和模型,實現了對Android 惡意軟件可靠分類,測試結果良好,還助力防御URL 網絡釣魚,增強移動安全。在安卓惡意軟件檢測方面,FariaNawshin等人[2]提出DP - RFECV - FNN 模型,可保護隱私且檢測準確率高。Mahindru Arvind 等人[3]提出的特征選擇框架也有效提高了檢測率。
國內在網絡詐騙App 檢測、Android 平臺惡意軟件和惡意應用檢測、電信詐騙信息識別等方面深入研究。史曉蘇等人[4]提出基于機器學習算法的涉詐App識別檢測模型,支持向量機算法表現較好。王慶飛等人[5]提出的Android 惡意軟件檢測模型保障平臺安全。羅錦光等人[6]的GEP - NBC 模型提高了Android 惡意應用檢測效率。劉鑫等人[7]提出的文本分類技術識別模型對電信詐騙信息識別效果優良。
總體而言,國內外在App智能檢測系統方面的研究均顯示出不同的技術路徑和應用效果。盡管國內的研究起步稍晚,但隨著技術的發展,尤其是深度學習和大數據的結合,國內的研究水平正在逐步接近國際先進水平。未來,結合新興技術,App智能檢測系統必將在網絡安全領域發揮更大的作用。
2 相關技術應用綜述
2.1多模態特征融合
多模態學習能夠結合不同模態的信息,例如圖像、文本和行為數據,從而更全面地刻畫App的特征,提高識別準確率。本系統融合了App圖標圖像、應用描述文本和用戶行為數據等多模態特征,利用不同模態之間的互補性,提升檢測模型的魯棒性。
2.2神經網絡模型
本系統采用了多種神經網絡模型,包括視覺變換器(ViT)和長短期記憶網絡(LSTM)。ViT模型擅長處理圖像數據,能夠有效提取App 圖標的視覺特征。LSTM模型適用于處理序列數據,能夠捕捉應用描述文本中的上下文信息。此外,本文還使用了預訓練的語言模型ukrparaphrase-multilingual-mpnet-base,將文本特征轉化為數值化的詞向量表示,以便輸入LSTM模型中。
2.3 APK文件解析提取特征
為了獲取App的多模態特征,本系統采用自動化程序對APK文件進行解析。利用apktool反編譯APK文件,提取AndroidManifest.xml文件中的應用包名、標簽等信息,并提取應用圖標圖像。此外,還分析Smali代碼,提取代碼特征,用于后續模型訓練。
3 App智能檢測系統的設計
3.1數據收集
本研究從公開的App應用市場和第三方安全平臺收集了大量的APK文件,涵蓋了正常應用和各種類型的惡意應用,例如涉黃、涉詐、涉賭和黑灰產業等。為了保證數據的多樣性和代表性,收集了不同類別、不同版本的App。
3.2數據預處理
對收集到的APK文件進行預處理,包括以下步驟:1)使用apktool 反編譯APK 文件;2)提取應用圖標、文本描述和用戶行為數據等多模態特征;3)對文本數據進行清洗和分詞;4)對圖像數據進行縮放和歸一化;5)將特征數據轉換為模型可接受的輸入格式。
3.3模型構建與訓練
本系統采用ViT-GPT2模型提取圖標圖像特征,使用ukrparaphrase-multilingual-mpnet-base模型將文本特征轉化為詞向量,然后輸入雙向LSTM模型中進行分類。模型訓練過程中,采用交叉驗證等技術,防止過擬合,提高模型的泛化能力,如圖1所示。
3.4 App智能檢測
App檢測系統利用訓練好的模型對新上傳的APK文件進行實時分析與識別。系統首先監控指定目錄,自動檢測新APK文件并對其特征進行提取。通過預先訓練的模型,系統能夠快速識別應用的類型及其潛在的違法性質,包括涉黃、涉詐、涉賭及黑灰產業等。檢測結果將被即時傳輸App檢測模塊,以支持后續的分析和應對措施的制定。這一過程不僅提高了檢測的效率,還為網絡安全提供了有效的技術支撐,確保用戶在應用使用過程中獲得更高的安全保障。
3.5用戶界面與交互
用戶界面與交互為App檢測系統提供了一個直觀、友好的操作平臺。用戶可以通過該界面實時查看APK檢測結果,獲取關于潛在違法應用的警示信息和防范建議,并據此做出相應的操作決策,使用戶能夠快速掌握檢測信息,提升其安全意識和使用體驗。
4 系統實現與評估
4.1系統實現環境
本系統基于Python 3.8、JDK 1.8和apktool等工具搭建,運行環境為Windows 10操作系統,硬件配置為Intel Core" i7處理器,16 GB內存。
4.2模型構建與訓練
模型構建過程中,構建了一套綜合的模型體系,用于對提取的APK 特征進行處理與分析,以實現對APK 所屬類別的精準判別,以下是融合模型的結構圖,如圖2所示。
通過以上三個模型的融合使用和協同工作,對提取到的APK 特征進行逐步處理與分析,實現了對APK 所屬類別的準確判別,為相關應用場景提供了有效的技術支撐與解決方案。
4.3模型評估
評估指標說明:主要依據準確率、精確度、召回率、F1 分數及支持度等指標衡量模型性能,各指標有其特定含義及計算方式。
評估結果分析:不同類別上模型表現差異顯著,類別0 和4 表現較好,類別1 和2 精確率高但召回率低,類別3 完全失效。針對模型表現不佳的情況,需通過調整參數、增加數據等方法優化性能,如表1所示。
4.4 混淆矩陣
混淆矩陣如圖3所示:
混淆矩陣表現:模型在white 和scam 類別表現較好,black 類別表現最差,sex 和gamble 類別表現相對較好但存在誤判情況。
誤差原因探討:數據不平衡、特征選擇與表達不佳、類別間存在混淆等因素可能共同導致分類結果出現誤差,需進一步分析以優化模型。
4.5系統部署與實測效果
通過以上三個模型的融合使用和協同工作,對提取到的APK 特征進行逐步處理與分析,實現了對APK 所屬類別的準確判別,并將其部署在Web端頁面,展示出結論,可以為后期相關應用場景提供了有效的參考,如圖4所示。
5 結束語
本文提出了一種基于多模態特征融合神經網絡的App智能檢測系統,通過融合圖像、文本和用戶行為等多模態特征,實現了對惡意App的有效識別。實驗結果表明,該系統具有較高的檢測精度和效率。未來,將進一步研究如何提高模型的魯棒性和泛化能力,例如引入對抗訓練、遷移學習等技術,并探索如何應對不斷變化的惡意App,以期為構建更安全的網絡環境做出貢獻。