999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學習的安卓惡意軟件特征提取與檢測方法

2025-07-19 00:00:00馮志峰
科技創新與應用 2025年18期
關鍵詞:特征檢測模型

中圖分類號:TP311.5 文獻標志碼:A 文章編號:2095-2945(2025)18-0045-05

Abstract:Android,asthemostpopularoperatingsystemtodayofersconvenience tousersthroughitsopennessandwide application.However,thissameopennessalsoprovidesopportunitiesformalwaredevelopment,posingsignificantthreatstousers personalprivacyanddatasecurity.Toaddressthisisue,thisstudyproposesanintegratedlearning-basedmethodforfeature extractionanddetectionofAndroidmalware.TheauthorizationrequestofAndroidAPKisextractedasfeaturepointsthrough automatedscripts,combinedwithanenhancedsupportvector machine(E-SVM)modelandaconvolutionalneuralnetwork (CNN)modelforintegratedlearningtraining,generatedahybridmodel,andusedtoimprovethedetectionrateofAndroid malware.Final experimental data shows that the detection accuracy rate for malware reaches more than 96%

Keywords:malware;machinelearning;deep learning;inheritancelearning;feature extractionand detection

現如今,Android作為全世界最為流行的作業系統,占有著全世界百分之八十的市場份額,已經擁有了成千上萬的用戶。同時Android也是世界上最大的開源碼程序之一,使用者以及開發者都可以通過Google提供的原始碼了解整個系統的運作流程。這種開源的作業系統所帶來的優點即廠商可以根據自己的需求來制定自己想要的作業系統及軟件,但是缺點也很顯而易見,就是各種惡意流氓軟件的橫行。在各大應用商店中,充斥了各種類型不同的惡意軟件或者是流氓軟件,這些軟件表面上看過去和普通的軟件并沒有什么區別,但是內藏了很多惡意的程序和后門,直接或者間接地危害著使用者的手機安全。本文提出了一種基于集成學習的特征提取與檢測方法,首先采用目前市面上最為成熟的靜態分析方法提取Android權限特征,然后訓練多個SVM模型和CNN卷積神經網絡模型進行集成學習,生成混合模型,通過混合模型判斷軟件是否存在惡意行為。通過此方法生成的模型針對惡意軟件的檢測準確率高于市面上普通的檢測方式,并且后期具有云端部署可能性。

1 Android權限提取

每一款APK檔所有的權限申請都在一個名為AndroidManifest.xml檔中,所以我們需要處理XML,目前比較通用的幾種方法如下:第一種使用DOM的方法來解析xml檔從而分析出其中所需的元素屬性。第二種方法使用SAX的方法來處理,SAX方法的優點在于其用事件驅動的方式完成解析。第三種是使用JDOM的方法。JDOM作為DOM方法的一種改進版本,和DOM有共同的缺點,就是對于比較大的XML檔處理速度不是很占優勢,所以選用SAX作為提取權限的方式。

本文采用Python語言編寫了一套全自動的權限提取方法,具體流程如圖1所示。

特別要提到的是,本文在做統計處理的過程中,實際上就是先將所有被提取的權限全部收集起來,刪除重復的權限和無用的權限,然后標記每一個txt文檔中結果保存為最終進行訓練的資料組如圖2所示。是否具有此項權限,0表示沒有,1表示含有,將生成的

圖1全自動的權限提取方法
圖2權限提取處理流程

2改進型E-SVM模型

SVM模型可以處理多種不同的問題,根據問題的不同,又可以分為線性SVM和非線性 SVM 。根據Android權限的離散特點,本文使用的是非線性SVM模型,并結合Android權限特征的特點進行了優化設計。在判斷惡意軟件這種非典型的分類問題中,給定一組訓練樣本 (x1,y1),(x2,y2),…,(xm,ym) ,其中 xm 是描述AndroidAPK的權限請求特征樣本 χi 的 N -維特征矢量, yi∈{-1,1} 為分類目標標識(-1表示正常APK,1表示惡意APK)。基于此,構建了一個二分類的分類模型,功能上為non-probabilistic binaryclassifier(非概率二元分類器)。同時,為了更好地處理Android權限特征的稀疏性和高維特性,在常規SVM分類模型中引入了以下改進。

2.1 權限權重的引入

Android的權限特征具有不同的重要性,例如READ_SMS(讀取短信)就是高重要性權限,SET_WALLPAPER(設置壁紙)為低重要性權限,因此為每個權限特征賦予權重 wi,wi 為惡意樣本中權限 i 出現的概率與正常樣本中權限 i 出現的概率的比值

式中::Pnaliagri)=惡意樣本中權限i的出現次數 Pbenign 惡意樣本總數

(i)=正常樣本中權限i的出現次數 正常樣本總數

2.2 特征組合的生成

由于權限數量較多,組合特征的生成可能導致維度過高。因此,對組合特征進行優化,生成與權限相關的交互項:首先將權限分為高危權限(如

READ_SMS,SEND_SMS)和低危權限(如INTER-NET),接著為組合特征賦予權重,使模型能夠更關注重要的組合。權重定義為2個權限的權重乘積: wij= wi×wj ,最終每個交互特征項由交互狀態與權限權重共同決定,定義為

Tij=z×wij

式中: z 表示權限 i 與權限 j 是否同時被請求(1表示請求,0表示未請求),將所有滿足條件的交互特征項按順序拼接,即可構成最終的組合特征向量

通過生成 n 個交互項,本文構造了額外的組合特征矢量,作為原始特征的補充。這些特征補充到特征矢量中,增強模型對復雜惡意行為的識別能力。

2.3 自定義核函數

針對Android權限特征的稀疏性和非線性關系,我們設計了一種自定義核函數,用于在高維空間中更好地捕捉權限特征之間的復雜模式,提高SVM模型的分類能力。以下是自定義核函數

2.3.1 樣本表示

xi 和 xj :分別表示樣本 i 和樣本 j 的特征矢量。 xik 和 xjk :樣本 i 和樣本 j 在第 k 個權限上的特征值。

2.3.2 特征方差 Var(k)

其表示第 k 個權限的方差,用于對不同權限的尺度進行歸一化處理,防止某些數值較大的權限對核函數的影響過大。

2.3.3 超參數 γ

控制樣本相似性的衰減速度,值越大時,相似性

函數的變化越敏感。

基于上述改進后,本文將優化改進后的SVM模型命名為E-SVM,目標函數為

約束條件為

yi(w?Φ(xi)+b)≥1-ξi,ξi≥0,

式中: P(xi) 是通過自定義核函數 K(xi,xj) 映射到高維 空間的特征矢量。

最終決策函數為

在完成模型改進優化之后,通過決策函數進行分類判斷:若 D(x)gt;0 ,則該APK被判定為正常(良性),若 D(x)lt;0 ,則該APK被判定為惡意。改進后的SVM模型相比原始SVM模型,可以利用權重優化、自定義核函數和不平衡處理,能夠更高效、更準確地對An-droid惡意軟件進行檢測

3CNN卷積神經網絡

卷積神經網絡(Convolutional Neural Network,CNN)在本研究中用于提取AndroidAPK權限特征或動態行為特征中的深層模式,并進行惡意軟件分類。CNN作為一種端到端學習的神經網絡,能夠從數據中自動學習局部模式,減少對手工特征設計的依賴,同時能夠處理權限矩陣或動態行為矩陣等二維結構化數據。輸人數據是經過處理后的權限矩陣。在網絡架構設計中,首先通過卷積層提取局部特征,利用卷積核檢測權限組合或行為序列中的潛在模式,例如高危權限的聯合使用或異常調用行為;然后通過池化層對特征進行下采樣,降低計算量的同時保留關鍵信息;最終通過全連接層將提取的特征整合,用于分類任務。網絡結構輸出兩類概率值,分別表示正常應用和惡意軟件。具體網絡架構如圖3所示。

圖3卷積神經網絡的卷積與池化結構示意圖

4基于改進型 SVM+CNN 的集成學習

接下來將強化模型偵測惡意軟件的準確率,使用ensemblelearning作為強化工具,簡單來說,即使用機器學習來尋找到一個足夠好的函數完成分類模型,然后將多個不同參數訓練出來的模型一起作為前端輸入,后端再使用一個深度學習的模型作為決策的模型。

在前端,使用多個已經訓練完成的深度學習模型和多個已經訓練完成的E-SVM模型,并將每一筆訓練資料都匯人到每個模型進行預測,然后這多個模型都會輸出對于每筆訓練資料的判斷結果,接著將這些模型產生的訓練結果都丟人到一個3層layer的深度學習的模型中。本文使用的layer是全連接層,使用的優化器是Adam。

前端使用全是SVM的模型和深度學習的模型以及SVM和深度學習一起混合使用的模型作為輸入,經過大量的實驗測試,發現進行集成學習的過程中,使用E-SVM模型和CNN網絡的模型一起混合使用效果是最好的,這也驗證了使用集成學習的規則,即盡可能使用個體差異比較大的模型進行集成學習,可以達到最好的效果。

5 實驗環境

5.1 實驗數據

截至2024年6月,一共收集了128532個安卓軟件APK作為樣本,其中57923個為正常APK樣本,70609個為惡意APK,其中大部分為向國內知名網絡安全實驗室申請提供,APK樣本數據包含了2011—2023年能收集到的比較流行的惡意軟件。

5.2 硬件介紹

訓練模型采用的平臺為ubuntu20.04,cpu 為i714700k ,內存為

5.3 實驗結果

從圖4中的實驗結果中訓練和驗證的損失曲線圖(圖4(a))可以看出,模型的損失值隨著訓練進行逐步下降,表現出良好的收斂性。訓練損失從初始的約0.30迅速下降,在第10個epoch后趨于平緩,并最終穩定在約0.16左右。驗證損失從約0.30下降到0.17左右,整體趨勢與訓練損失一致,并且驗證損失略高于訓練損失,說明模型在驗證集上的表現較為穩定,

未出現明顯的過擬合。

從訓練和驗證的準確率曲線圖(圖4(b))來看,模型的準確率隨著訓練過程逐步提高,訓練準確率從0.88快速上升,在第20個epoch后趨于平穩,最終穩定在 96% 左右。驗證準確率的表現略低于訓練準確率,從0.88開始上升,在第20個epoch后趨于平緩,并最終穩定在 95% 左右。訓練和驗證準確率之間的差距較小,表明模型的泛化能力良好。

同時,我們為了評估模型的強固性,使用不同的數據集來對所訓練的模型進行實驗。同時,根據不同的數據集所提取出來的權限列表數量也進行實驗,實驗結果如圖5所示。

(a)軟件樣本數量對于檢測準確率的影響
(b)提取權限的數量對于檢測準確率的影響圖5樣本數量和權限提取數量對檢測率影響結果

通過圖5(a)中可以看出,在相同的APK樣本數量下,提取出來的權限數量越多,經過訓練得出的模型對于惡意APK的檢測識別準確率越高。同樣,從圖5(b)可以看出,在提取相同的權限數量的情況下,APK樣本數量越多,可以獲得更高的檢測準確率。因此,想要提升模型的準確率,需要更多的APK作為樣本來不斷地對模型進行重新訓練,從而增加模型對于惡意APK的識別準確率。

5.4 集成學習效果

本文使用了集成學習來進一步加強分類器的準確度,以下是分別使用全部是svm模型,以及全部使用CNN神經網絡模型與混合使用的實驗結果,如圖6所示。

可以看到,只使用最基礎的SVM模型來進行檢測與測試,最終得到的準確率在 65%~76% ;使用改進的E-SVM模型相比于單個SVM的模型準確率提升了 15% 左右;而只使用CNN神經網絡模型進行測試,準確率幾乎和E-SVM模型的準確率差不多。但是,當我們使用SVM模型和深度學習模型一起進行集成學習的時候,準確率達到了 91%~96% 。

6結論

本研究針對Android平臺惡意軟件檢測提出了一種基于集成學習的特征提取與檢測方法。通過結合靜態分析和機器學習技術,從AndroidAPK中提取權限特征,構建了基于SVM改進的E-SVM模型和卷積神經網絡(CNN)的混合模型。實驗結果表明,該模型在準確率和檢測性能上均優于傳統方法,最終實現了96% 以上的檢測準確率。研究中,通過引入權限權重、自定義核函數和權限組合特征優化了SVM模型,同時利用CNN從權限矩陣中挖掘深層次特征,提高了對復雜惡意行為的識別能力。模型驗證結果顯示,改進后的方法不僅具有較高的檢測率,同時在訓練效率和泛化能力方面也表現出色。總體而言,該方法為Android惡意軟件檢測提供了一種高效、準確的解決方案,具有一定的實際應用潛力。未來工作中,將進一步優化模型結構,并嘗試融合更多動態行為特征,以提升對未知惡意軟件的檢測能力。

參考文獻:

[1]孫才俊,白冰,王偉忠,等.基于指令序列嵌入的安卓惡意應用檢測框架[J].信息安全研究,2022,8(8):777-785.

[2]岳子巍,方勇,張磊.基于圖注意力網絡的安卓惡意軟件檢測[J].四川大學學報(自然科學版),2022,59(5):88-95.

[3]楊一波.安卓移動應用程序(APP)違法違規收集個人信息自動化檢測研究[J].網絡安全技術與應用,2024(12):77-79.

[4]田娟,徐釗.基于混合特征和深度學習的安卓惡意軟件動態檢測研究[J].自動化與儀器儀表,2024(6):257-260.

[5]洪智學,姚日煌,鹿洵.基于卷積神經網絡的安卓惡意軟件檢測框架[J].電子產品可靠性與環境試驗,2023,41(6):49-53.

[6]吳月明,齊蒙,鄒德清,等.圖卷積網絡的抗混淆安卓惡意軟件檢測[J].軟件學報,2023,34(6):2526-2542.

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产91色在线| 精品少妇人妻av无码久久| 毛片免费在线视频| 久草热视频在线| 国产不卡一级毛片视频| 免费国产无遮挡又黄又爽| 91无码人妻精品一区二区蜜桃 | 亚洲资源站av无码网址| 无码福利视频| 一级毛片基地| 久久伊人操| 亚洲色图另类| 免费国产小视频在线观看| 三级欧美在线| 国产亚洲视频免费播放| 亚洲婷婷在线视频| 国产区成人精品视频| 国产精品视频白浆免费视频| 亚洲人成人无码www| 久久99热66这里只有精品一| 成人亚洲视频| 亚洲va视频| 一级毛片免费观看久| 亚洲国产成人久久精品软件| 深爱婷婷激情网| 97精品久久久大香线焦| 精品91视频| 91在线播放免费不卡无毒| 99久久人妻精品免费二区| 国产黄在线免费观看| 亚洲精品大秀视频| 亚洲视频免费在线| 欧美日韩高清在线| 国产精品网曝门免费视频| 亚洲午夜综合网| 亚洲AV人人澡人人双人| av在线人妻熟妇| 亚洲水蜜桃久久综合网站| 日韩成人在线网站| 亚洲高清无码久久久| 69综合网| 国产成人精品午夜视频'| 国产午夜小视频| 国产99视频精品免费观看9e| 天天做天天爱天天爽综合区| 亚洲精品无码在线播放网站| 亚洲男人天堂久久| 成人毛片免费观看| 亚洲成人在线网| 尤物视频一区| 大陆国产精品视频| 亚洲综合久久成人AV| 久久久久久久久18禁秘| 九色综合伊人久久富二代| 国产成人高清精品免费软件| 九九线精品视频在线观看| 精品久久久久无码| 91精品国产福利| 欧美国产成人在线| 97国产一区二区精品久久呦| 3D动漫精品啪啪一区二区下载| 色综合综合网| 2021国产在线视频| 国产午夜福利片在线观看| 国产一级毛片yw| 先锋资源久久| 免费网站成人亚洲| 国产成人免费观看在线视频| 狼友av永久网站免费观看| 亚洲成aⅴ人片在线影院八| 一个色综合久久| 国产av剧情无码精品色午夜| 亚洲天堂久久新| 在线毛片免费| 国产午夜一级淫片| 久久这里只精品国产99热8| 国产精品美乳| 国产亚洲精品自在久久不卡| 91亚洲精品第一| 国产精品 欧美激情 在线播放| 国产精品吹潮在线观看中文| 在线日韩日本国产亚洲|