中圖分類號:TP393.08 文獻標志碼:A
0 引言
隨著信息技術的不斷發展與工業信息化水平的持續提升,工業控制系統(Industrial Control System,ICS)已逐步成為國家關鍵基礎設施的重要組成部分,在電力、水利、交通、制造等多個行業中承擔著核心的控制與管理功能[1]。然而,ICS系統的開放性、互聯性以及傳統安全防護手段的滯后性,使其愈加頻繁地暴露于各類網絡攻擊之下[2]。因此,構建一套高效、準確且具備實時檢測能力的網絡入侵檢測機制,已成為保障工業控制系統網絡安全的研究重點與實踐需求。
當前,基于機器學習的網絡入侵檢測方法因其良好的數據驅動建模能力和模式識別性能,成為該領域研究的主要方向[3-4]。其中,SVM憑借其強大的分類能力、良好的泛化性能以及對高維小樣本數據的適應性,在入侵檢測任務中被廣泛采用[5]。近年來研究者提出了多種改進SVM的方法,如引入不同核函數[6]、優化參數尋優策略[7]、集成多分類器結構[8]等手段,取得了一定成效。然而,大多數方法在面對極端類別不平衡或代價敏感的檢測場景時,依然存在誤檢率難以降低、模型泛化能力不強等不足,難以滿足工業控制系統對入侵檢測系統提出的高準確率、高魯棒性與低誤報率的綜合性能要求。
因此,本文提出一種基于成本敏感學習機制[的SVM改進方法,通過在訓練過程中引人不同類別的誤分類代價因子,有效增強模型對少數類攻擊行為的識別能力。在此基礎上,本文設計并實現了一種面向工業控制系統的網絡入侵檢測方法,并基于NSL-KDD數據集[1對所提方法進行了系統性測試與性能評估。
1方法設計
1. 1 SVM模型原理分析
相比于其他傳統分類算法,SVM具有良好的泛化能力,尤其適用于處理高維、小樣本、非線性問題等復雜分類場景。此外,通過引入核函數,SVM能夠將原始非線性可分的問題映射至高維特征空間,從而在該空間中構造線性可分的分類邊界,進而有效解決非線性分類任務。假設給定一個訓練數據集:
D={(xi,yi)}i=1n
其中, xi∈Rd 表示第 i 個樣本的特征向量,維度為 d,yi∈{-1,+1} 表示其對應的類別標簽, n 為樣本總數。SVM的目標是尋找一個分類超平面,其一般形式為:

其中, w∈Rd 為權重向量, b∈R 為偏置項,決定了超平面在特征空間中的方向與位置。為了實現最大間隔分類,須最小化
,即超平面法向量的平方范數,在保持分類正確的約束下構造如下優化問題:

作者簡介:劉飛燕(2002—),女,助教,本科;研究方向:計算機應用技術。
?i=1,?,n
該問題為凸二次規劃問題,可通過引入拉格朗日乘子 αi?0(i=1,?,n) 構造拉格朗日函數進行對偶求解,從而得到其對偶形式:

其中, α=[α1,?,αn]? 為拉格朗日乘子向量。
對于非線性可分的情形,可借助核函數K(xi,??j)將內積 xi?xj 替換為高維映射空間下的核函數值,進而構造非線性決策函數:

其中, K(xi,x) 表示輸人樣本 xi 與待分類樣本 x 在映射空間中的相似度。為了應對實際中類別不平衡的情況,進一步引入軟間隔與懲罰因子 c ,構造帶松弛變量 ξi?0 的優化目標函數:
1-ξi,ξi?0 (6)
其中, ξi 表示第 i 個樣本的誤分類程度, c 是懲罰因子,用于權衡間隔最大化與分類誤差之間的關系。
由上述理論可以看出,SVM通過最大化分類間隔構建判別邊界,并借助核函數映射以適應非線性特征分布,在多數情形下展現出優越的分類性能。然而,在實際工業控制系統網絡人侵檢測任務中,攻擊樣本往往呈現出顯著的類別不平衡分布,傳統SVM在面對此類數據時容易偏向多數類,導致對關鍵少數類攻擊的識別能力顯著下降,從而削弱整體檢測系統的安全防護效能。為解決此問題,本文引入了成本敏感學習機制來優化SVM模型的重要方向。
1.2基于成本敏感學習的改進方法
基于成本敏感學習的支持向量機(Cost-SensitiveSupportVectorMachine,CS-SVM)是一種面向不平衡分類問題的改進方法。在工業控制系統網絡入侵檢測場景中,由于關鍵攻擊樣本往往數量較少,但誤判代價極高,因此該方法尤其適用于提升模型對高風險少數類入侵行為的識別能力,有效彌補傳統SVM在此類任務中的性能不足。
在數學建模上,設訓練數據集為 D={(xi yi)}i=1n ,其中 xi∈Rd 表示第 i 個樣本的 d 維特征向量, yi∈{-1,+1} 為其類別標簽, n 為總樣本數。在傳統軟間隔SVM的優化基礎上,CS-SVM通過引入類別依賴的懲罰系數 C+ 與 C- (分別對應正類與負類的誤分類懲罰強度),將原始目標函數擴展為如下形式:

其中, w∈Rd 為分類超平面的法向量, b∈R 為偏置項, ξi∈R+ 為第 i 個樣本的松弛變量,表示該樣本的誤分類程度, Ci 為該樣本對應的懲罰因子,定義為:

通過在優化目標中引入差異化的 Ci ,模型在誤分類正類與負類樣本時會承擔不同的代價,從而促使決策邊界向多數類樣本方向適度偏移,以提升對關鍵少數類樣本的識別能力。上述模型仍為凸二次規劃問題,可采用傳統SVM的對偶優化方法進行求解。在核函數的支持下,該方法亦可拓展至非線性分類任務中,進一步提升其復雜工業網絡環境中的適應能力與泛化性能。
1.3網絡入侵檢測方法構建
在構建基于CS-SVM的網絡入侵檢測方法時,可將其核心思想與工業控制系統中網絡數據流的實際特征相結合,設計一套具備魯棒性與高識別率的檢測流程,如圖1所示。該方法通過數據預處理模塊對原始流量數據進行格式標準化、缺失值填充與噪聲剔除處理;借助特征工程技術對輸入數據進行多維度的特征提取與選擇,構建具有代表性的輸入向量,以增強模型對復雜網絡行為的區分能力;利用CS-SVM分類器對不同類別的樣本施加差異化的懲罰權重,使模型在訓練過程中關注關鍵少數類攻擊行為的識別,從而有效克服數據類別失衡所帶來的分類偏差問題;通過決策輸出模塊對分類結果進行標簽映射與報警觸發,實現對工業網絡中異常訪問或攻擊行為的實時檢測與響應。
圖1的整個檢測流程的設計充分考慮了工業控制系統中數據維度高、攻擊隱蔽性強及類別分布不均等現實挑戰,借助CS-SVM的判別機制,有效提高了對關鍵攻擊樣本的檢測率,同時保持了整體系統的穩定性與實際可部署性,具備較強的工程應用價值。
2 實驗與評估
2.1數據集簡介
NSL-KDD數據集是網絡入侵檢測領域中廣泛使用的標準測試基準之一,是早期KDDCup99數據集的改進版本,旨在克服原始數據集中存在的冗余樣本過多與數據分布不均衡等問題,從而為各類人侵檢測算法提供更加科學合理的評估環境。該數據集保留了原始數據中的關鍵特征與入侵類型劃分,同時通過精確控制訓練集與測試集中各類樣本的數量,顯著提高了對模型泛化能力的測試效果,現已成為評估網絡入侵檢測系統性能的典型基準,其關鍵信息如表1所示。
圖1基于CS-SVM的網絡入侵檢測流程設計

表1數據集概況

通過使用該數據集作為實驗平臺,可在保持標準化評估條件的前提下,有效驗證CS-SVM在面對類別失衡問題時的檢測性能與適應能力。
2.2 實驗設計
為系統評估所提出的基于CS-SVM網絡人侵檢測方法的有效性,實驗采用NSL-KDD標準數據集中的KDDTrain + 作為訓練樣本集,KDDTest+作為測試樣本集,并在MATLABR2023b平臺上構建完整的二分類檢測模型,實驗任務設置為對正常訪問(normal)與攻擊行為(attack)進行區分。
在實驗實施過程中,對原始數據集進行標準化處理,將所有數值型特征進行零均值單位方差歸一化,同時對符號型特征如“協議類型”“服務類型”“連接狀態”等通過獨熱編碼進行離散化轉換,以保證特征輸入的統一性與可讀性。考慮到二分類實驗的目標,僅保留“normal”標簽及所有攻擊類別樣本,所有攻擊子類統一歸為“attack”類,以形成二值分類標簽。為進一步提升實驗穩定性,訓練集與測試集保持原始劃分比例,不進行過采樣或欠采樣操作。
在傳統SVM模型中,核函數類型設定為高斯徑向基函數,其核函數參數 σ 設為0.8,懲罰因子 c 設為10,以平衡誤分類懲罰與間隔最大化的優化目標。而CS-SVM模型引入了類別權重策略,其中對正常類樣本設置權重 C+=10 ,而對攻擊類樣本設置較高的懲罰權重 C-=40 ,以強化模型對少數類攻擊行為的判別能力。該設置依據NSL-KDD數據中正常樣本與攻擊樣本比例失衡的特點,結合代價敏感學習的基本思想進行調整,從而有效引導模型在學習過程中偏向于提升對關鍵攻擊樣本的識別率。
2.3 結果評估
實驗結果通過準確率、召回率、精確率以及F1值等指標進行量化評估,如表2所示。
表2實驗結果對比情況

從準確率指標可以看出,CS-SVM在整體分類正確性方面表現出更優的性能,其準確率為 93.68% ,相比傳統SVM提高了2.36個百分點,這表明在面對具有不平衡標簽分布的數據時,引入代價敏感機制能夠更有效地提升模型對全體樣本的判別能力。進一步觀察召回率,可以發現CS-SVM在識別攻擊類樣本方面具有明顯優勢,其召回率達到 91.25% ,遠高于傳統SVM的 84.57% ,表明CS-SVM能在更大程度上識別出網絡中潛在的攻擊行為,降低了誤檢率,對系統安全性具有積極意義。
在精確率方面,盡管2種方法的差距相對較小,但CS-SVM依然保持了 90.47% 的較高水平,略高于傳統SVM的 88.74% ,這說明在提升召回能力的同時,該方法并未以犧牲識別結果的準確性為代價,體現出其更穩健的分類邊界構建能力。最后,F1值作為兼顧召回率與精確率的綜合指標,CS-SVM同樣展現出顯著優勢,其得分為 90.85% ,相比傳統SVM提升了4.25個百分點,充分說明該改進模型在面對不平衡樣本時具有更高的整體性能與泛化能力。
綜上,CS-SVM在處理網絡入侵檢測中存在的類別不均衡問題時,能有效提高模型對攻擊行為的敏感性與識別能力,具備更強的工程實用價值與現實可行性。
3結語
本研究在分析傳統SVM分類機制與最優化理論基礎上,結合成本敏感學習的思想構建了一種CS-SVM,并通過實驗,證明CS-SVM在各項評價指標中均能取得顯著優勢。綜上所述,本研究不僅從理論層面豐富了SVM在入侵檢測領域的應用方法體系,也為實際工業控制環境下的安全監測提供了可行且高效的技術路徑。未來仍可進一步拓展該方法至多分類場景或引入集成學習框架,以持續增強其泛化能力與實時響應性能。
參考文獻
[1]于海斌,曾鵬,梁煒,等.無線化工業控制系統:架構、關鍵技術及應用[J].自動化學報,2023(3):540-549.
[2]張耀元,原通文,韓立新.工業控制系統安全挑戰與對策研究綜述[J].中國設備工程,2025(10):266-268.
[3]梁艷瑞.基于機器學習的網絡入侵檢測研究[J],
軟件,2024(6):109-111.
[4]儲柱學,常奇志.基于融合機器學習算法的網絡入侵攻擊路徑溯源[J].通化師范學院學報,2025(4):46-52.
[5]劉方園,王水花,張煜東.支持向量機模型與應用綜述[J].計算機系統應用,2018(4):1-9.
[6]何宇琪,張波,王俊超,等.基于改進核函數的支持向量機天然氣脫硫裝置故障診斷方法[J].天然氣與石油,2024(4) :94-100.
[7]胡文權,陳錦林,陸青弟.參數優化的SVM模型在高程擬合中的應用[J].測繪與空間地理信息,2023(7):64-67,71.
[8]郭嘉琦.基于改進SVM集成學習的不平衡數據多分類算法研究[D].北京:北京化工大學,2024.
[9]羅彬,邵培基,夏國恩.基于多分類器動態選擇與成本敏感優化集成的電信客戶流失預測研究[J].管理學報,2012(9):1373-1381.
[10]朱平哲.基于NSL-KDD數據集的物聯網入侵檢測特征選擇方法研究[J].江蘇工程職業技術學院學報,2019(3):17-21.
(編輯戴啟潤)
Optimization of industrial control system network intrusion detection using supportvectormachines
LIU Feiyan,NING Guoxuan (Zhengzhou Urban Construction Vocational College, Zhengzhou 451263, China)
Abstract:With the widespreaddeployment of industrial control systems in critical infrastructure,the network security isues are becoming increasingly prominent.Aiming atthe limitation of thetraditional support vector machine(SVM) in its insuffcientabilitytoidentifyminorityclasses when processing imbalanced datathis paper proposesanimproved SVM methodbasedoncost-sensitive learning.Onthetheoretical level,a classpenaltyfactoris introduced tooptimize theobjective function through asymmetricmisclassfication costadjustment,thereby improving the recognition performance of attack samples.Intheexperimental part,thedetectionefects oftraditional SVMand improvedmodel are systematically compared based on theNSL-KDD dataset.Theresultsshow that the proposed CS-SVM method outperforms traditional SVM in multiple indicators.
Key Words:industrial control system; network security; intrusion detection; support vector machine