



摘 要:物聯網設備受限于有限的算力,難以部署高計算開銷的安全檢測算法,使得保障物聯網安全較為困難。為此,提出了一種基于層疊特征選擇的物聯網攻擊流量分類方法,通過結合卡方檢驗和隨機森林算法,并以決策樹作為分類器,構建了一個高效且實用的分類架構。實驗結果顯示,該方法不僅有較高且穩定的分類準確性,而且顯著降低了計算開銷。這一創新技術為物聯網安全領域帶來了切實可行的分類解決方案,具備巨大的實際應用潛力,為構建更加堅固的物聯網安全防護體系提供了寶貴思路與有效手段。
關鍵詞:物聯網攻擊流量;卡方檢驗;隨機森林;決策樹;層疊特征選擇;物聯網安全
中圖分類號:TP39;TN918.9 文獻標識碼:A 文章編號:2095-1302(2025)03-00-03
0 引 言
物聯網技術[1]的迅猛發展以及智能設備和傳感器網絡的廣泛應用,極大地推動了數字化生活的全方位、深層次的發展。然而,物聯網設備普遍具有算力有限、資源受限等特性[2],這使得保障它們的安全性變得較為棘手。各種攻擊類型如拒絕服務(DoS)攻擊[3]、惡意軟件[4]、遠程執行代碼(RCE)等威脅著物聯網設備和網絡的安全。這些攻擊可能導致系統服務中斷、數據泄露、設備篡改或控制,嚴重威脅個人隱私、商業機密以及公共基礎設施的運行。在這樣的背景下,對物聯網攻擊流量進行精準分類和識別成為亟待解決的關鍵問題。文獻[5]提出了一種聚類加分類的物聯網惡意攻擊檢測方法,采用隨機森林算法進行特征排序,并用主成分分析法對部分特征進行降維,將樣本聚類為兩類并分別進行分類。文獻[6]提出了基于流量的物聯網DDoS攻擊檢測方法,利用一種新興的網絡架構——軟件定義網絡,實現在攻擊流量傳播過程中并且未聚集于目標主機時實施攻擊檢測。文獻[7]針對IoT典型網絡流量數據,利用滑動窗口算法提取多維網絡流量特征;運用棧式自編碼網絡進行網絡流量特征降維,建立IoT流量關鍵特征與網絡異常之間的關聯模型。鑒于物聯網設備算力低的特性,采用高性能的分類算法可能會增加系統開銷,因此選擇性能開銷較低的分類器變得至關重要。特征選擇[8]也是識別和分類攻擊流量數據的關鍵步驟之一。本研究選用決策樹[9]作為分類器,其簡單直觀、易于實現、計算開銷低等優勢使其成為適合物聯網設備的理想選擇。本文采用將卡方檢驗[10]與隨機森林[11]相結合的層疊特征選擇方法,旨在提高物聯網攻擊流量的分類準確性和效率。本文不僅專注于理論層面的探索,還將深入分析實驗結果,對各項技術指標進行全面評估,并對方法的優勢與局限性進行客觀審視。
1 方法流程
特征選擇采用卡方檢驗和隨機森林相結合的層疊特征選擇方法。首先,利用卡方檢驗評估每個特征與攻擊類別之間的相關性,并篩選出具有顯著影響的特征子集。隨后,利用隨機森林對經過初步篩選的特征進行進一步評估和排序,以確定最終用于分類的特征集合。使用這種層疊的特征選擇方法將有助于提高分類器的性能和泛化能力。在特征選擇完成后,選用決策樹作為分類器對物聯網攻擊流量進行分類。決策樹基于選定的特征集合,通過劃分數據集并生成樹狀結構來進行分類。最終,將層疊特征選擇的結果與決策樹分類器相結合,建立綜合的物聯網攻擊流量分類模型。在模型的整合過程中,對特征選擇的效果進行綜合評估,并進行多種性能指標的分析,以驗證模型的穩定性和可靠性。方法流程如圖1所示。
2 實驗與結果與分析
2.1 數據處理
2.1.1 數據集介紹
實驗采用的是BoT-IoT數據集,BoT-IoT是一個包含物聯網設備數據的數據集,用于研究和分析物聯網設備安全性和網絡安全。此數據集共包含45個特征及1個類別,其類別包含Normal(正常流量)、DoS、DDoS、Reconnaissance、Theft五類流量。
2.1.2 數據預處理
對部分與類別無聯系的特征進行刪除處理;對特征值為文本類型且無法直接參與運算的特征進行刪除或將文本類型轉化為數值類型。刪除的特征有pkSeqID、flgs、proto、sport、dport、saddr、daddr、state,其中類別(category)也為文本類型,將其轉換為數值類型。為了防止相同類別的數據過于集中,將原數據集的樣本順序隨機打亂。
2.2 層疊特征選擇
利用卡方檢驗算法對預處理后的數據集進行第一層的特征選擇,將數據導入卡方檢驗算法,將計算出的卡方統計量作為評估特征重要性的標準,并按照特征重要性從高到低進行排序,生成特征序列。
第二層特征采用隨機森林算法,根據上述特征序列前二分之一的特征從數據集中選取數據,將選取的數據導入隨機森林算法。利用隨機森林特征選擇輸出特征的重要性序列。根據此序列與需要保留的特征數目來確定最終的特征子集。
為了展示此方法的有效性,分別選取最重要的3~9個特征進行實驗,并與單獨使用卡方檢驗特征選擇方法和單獨使用隨機森林特征選擇方法的結果進行對比。對比內容包括特征選擇所需的時間,以及在相同決策樹參數設置下的最終分類效果。
三種特征選擇方法的最終選取結果見表1。
三種特征選擇方法的用時如圖2所示。卡方檢驗特征選擇方法在時間效率上展現出顯著優勢,其耗時遠低于其他方法。相比之下,隨機森林特征選擇方法所需時間最長。而層疊特征選擇方法相較于隨機森林特征選擇方法,在時間消耗上減少約23.7%。
2.3 結果分析
將三種特征選擇方法得到的結果分別導入到決策樹算法,將30%劃分為訓練集、70%劃分為測試集,以準確率、精確率、召回率和F1分數作為評價指標,對三種特征選擇算法進行對比。實驗結果如圖3所示。
在四項評價指標中,卡方檢驗特征選擇方法的表現較差。隨機森林特征選擇方法與層疊特征選擇方法的效果相近,但層疊特征選擇方法在召回率和F1分數上的表現更加穩定。此外,層疊種特征選擇方法在進行特征選擇時,相較于隨機森林特征選擇方法用時更少。因此,結合了卡方檢驗與隨機森林的特征選擇方法在處理物聯網攻擊流量分類問題時,有明顯優勢。
3 結 語
通過對物聯網安全領域的探索與分析,取得了一定的研究成果和啟示:深刻認識到特征選擇的重要性,在物聯網安全領域的攻擊流量數據分類中,特征選擇對構建高效分類模型至關重要;發現了層疊特征選擇與分類器整合的優勢,特別是將層疊特征選擇與決策樹分類器相結合,能夠顯著提升攻擊流量數據的分類準確性和效率,這為物聯網系統的安全防御提供了一種切實可行的技術方案。此外,本文方法還存在一定的局限性和待完善之處。因此,未來的研究方向將繼續聚焦于特征選擇、分類器優化、數據集多樣性以及實際應用驗證等方面,以進一步完善物聯網安全領域的攻擊流量數據分類技術,為構建更加安全可靠、高效運行的物聯網系統貢獻更多的研究價值和實用成果。
參考文獻
[1]苗可.針對物聯網設備攻擊的研究[J].物聯網技術,2024,14(8):73-75.
[2]羅思源,何蓉,拉巴多吉.物聯網設備安全防護技術研究[J].網絡安全技術與應用,2023(12):24-26.
[3]蔡娜,劉磊.物聯網分布式拒絕服務攻擊分段檢測系統設計[J].電子設計工程,2023,31(17):150-153.
[4]霍添財.物聯網終端設備惡意軟件檢測研究與設計[D].西安:西安電子科技大學,2021.
[5]李群,董佳涵,關志濤,等.一種基于聚類分類的物聯網惡意攻擊檢測方法[J].信息網絡安全,2021,21(8):82-90.
[6]楊茵淇.基于流量的物聯網DDoS攻擊檢測[D].北京:北京交通大學,2020.
[7]劉興春.基于網絡流量異常分析的物聯網入侵檢測算法研究[D].北京:北京交通大學,2021.
[8]姚旭,王曉丹,張玉璽,等.特征選擇方法綜述[J].控制與決策,2012,27(2):161-166.
[9]欒麗華,吉根林.決策樹分類技術研究[J].計算機工程,2004(9):94-96.
[10] MUHAMMAD A, FLORENTIN S. Chi-square test for imprecise data in consistency table [J]. Frontiers in applied mathematics and statistics, 2023, 9
[11] 姚登舉,楊靜,詹曉娟.基于隨機森林的特征選擇算法[J].吉林大學學報(工學版),2014,44(1):137-141.