


摘要:深入研究了基于深度學(xué)習(xí)的信息系統(tǒng)異常檢測與預(yù)測技術(shù),介紹了異常檢測的基礎(chǔ)知識和分類,重點(diǎn)分析了三種深度學(xué)習(xí)異常檢測方法,提出未來可能的研究方向。研究選擇了KDDCup-99、NSL-KDD和CICIDS2017三個數(shù)據(jù)集進(jìn)行實(shí)驗,對數(shù)據(jù)進(jìn)行了處理。評估結(jié)果顯示,這些基于深度學(xué)習(xí)的模型在準(zhǔn)確率、召回率、F1值和AUC等指標(biāo)上均優(yōu)于傳統(tǒng)方法,證明了其在異常檢測領(lǐng)域的優(yōu)越性能。
關(guān)鍵詞:深度學(xué)習(xí);異常檢測;信息系統(tǒng);生成模型
一、前言
在信息化時代,信息系統(tǒng)是現(xiàn)代社會運(yùn)行的基石,其穩(wěn)定性和安全性至關(guān)重要[1]。然而,隨著大數(shù)據(jù)時代的到來,傳統(tǒng)異常檢測方法在處理大規(guī)模、高維度數(shù)據(jù)時面臨挑戰(zhàn),準(zhǔn)確率可能下降超過20%。與此同時,發(fā)展中的問題必須在發(fā)展中才能解決,深度學(xué)習(xí)技術(shù)的突破為這一領(lǐng)域帶來了新機(jī)遇。通過深層神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)能夠自動提取數(shù)據(jù)的復(fù)雜特征,顯著提升異常檢測的準(zhǔn)確率和效率[2]。例如,基于深度學(xué)習(xí)的模型在處理大規(guī)模數(shù)據(jù)集時,準(zhǔn)確率比傳統(tǒng)方法提高了15%以上。特別是在處理非線性、非平穩(wěn)的時間序列數(shù)據(jù)時,如利用LSTM網(wǎng)絡(luò),能夠更有效地捕捉時序特征,增強(qiáng)檢測的準(zhǔn)確率和實(shí)時性[3]。
二、異常檢測的基本概念
異常檢測(Anomaly Detection)是一種數(shù)據(jù)分析技術(shù),旨在識別數(shù)據(jù)集中與大多數(shù)數(shù)據(jù)模式不一致的異常數(shù)據(jù)點(diǎn)或行為[4]。這些異常可能是數(shù)據(jù)錯誤、欺詐行為、系統(tǒng)故障或其他罕見事件的表現(xiàn)。
(一)異常的類型與定義
點(diǎn)異常是指單個數(shù)據(jù)點(diǎn)在特征空間中與其他點(diǎn)顯著不同,可能由測量誤差或真實(shí)異常事件引起,檢測方法包括密度估計和距離度量[5]。條件異常則是在特定上下文中出現(xiàn)的異常,需要考慮時間、環(huán)境等因素[6]。群體異常涉及一組數(shù)據(jù)點(diǎn)共同表現(xiàn)異常,即使單個點(diǎn)看似正常,檢測時需關(guān)注數(shù)據(jù)點(diǎn)間的關(guān)聯(lián)。這三種異常類型分別對應(yīng)不同的檢測策略和技術(shù)。
(二)異常檢測的關(guān)鍵技術(shù)挑戰(zhàn)
維度災(zāi)難是指在處理高維數(shù)據(jù)時,數(shù)據(jù)點(diǎn)間的距離難以有效衡量,導(dǎo)致傳統(tǒng)異常檢測失效。應(yīng)對策略包括特征選擇、降維(如PCA)及高維專用算法。同時,實(shí)際數(shù)據(jù)集中的噪聲和缺失值需通過數(shù)據(jù)清洗、插補(bǔ)和去噪等技術(shù)進(jìn)行預(yù)處理,以確保檢測準(zhǔn)確性[7]。此外,面對大數(shù)據(jù)量,算法的可擴(kuò)展性至關(guān)重要,分布式計算和流式數(shù)據(jù)處理成為關(guān)鍵技術(shù)。
三、基于深度學(xué)習(xí)的異常檢測模型
基于深度學(xué)習(xí)的異常檢測模型可以分為三類:生成模型、重構(gòu)模型和單分類模型。
(一)生成模型
生成模型通過學(xué)習(xí)數(shù)據(jù)的分布來識別異常。常見的生成模型包括生成對抗網(wǎng)絡(luò)(GAN)和變分自編碼器(VAE)。
1.生成對抗網(wǎng)絡(luò)(GAN)
生成對抗網(wǎng)絡(luò)(GAN)由生成器(Generator)和判別器(Discriminator)組成,通過對抗訓(xùn)練的方式生成與真實(shí)數(shù)據(jù)分布相似的樣本,從而識別異常。生成器試圖生成逼真的數(shù)據(jù)樣本,而判別器則試圖區(qū)分生成的數(shù)據(jù)和真實(shí)數(shù)據(jù)。訓(xùn)練過程中,生成器和判別器相互博弈,最終生成器能夠生成足以欺騙判別器的樣本。GAN的目標(biāo)函數(shù)可以表示為:
(1)
G是生成器;D是判別器;V(D,G)是GAN的目標(biāo)函數(shù),表示生成器和判別器之間的優(yōu)化目標(biāo);x是真實(shí)數(shù)據(jù)樣本;pdata (x)是真實(shí)數(shù)據(jù)的分布;z是噪聲向量;pz (z)是噪聲z的分布,G(z)是生成器輸出的偽樣本;D(x)是判別器對真實(shí)樣本x的輸出;D(G(z))表示判別器對生成樣本G(z)的輸出;Ex~pdata (x)表示對從真實(shí)數(shù)據(jù)分布x~pdata (x)中采樣的x的期望值;Ez~pz (z)表示對從噪聲分布z~pz (z)中采樣的z的期望值。GAN在異常檢測中的應(yīng)用主要體現(xiàn)在以下幾個方面:
生成樣本檢測:通過生成與真實(shí)數(shù)據(jù)分布相似的樣本,檢測生成樣本與真實(shí)樣本的差異。
重構(gòu)誤差檢測:利用生成器重構(gòu)輸入數(shù)據(jù),計算重構(gòu)誤差,異常數(shù)據(jù)的重構(gòu)誤差通常較大。
2.變分自編碼器(VAE)
變分自編碼器(VAE)通過最大化數(shù)據(jù)的似然函數(shù),學(xué)習(xí)數(shù)據(jù)的潛在分布,用于異常檢測。VAE由編碼器(Encoder)和解碼器(Decoder)組成,編碼器將輸入數(shù)據(jù)映射到潛在空間,解碼器則從潛在空間重構(gòu)輸入數(shù)據(jù)。VAE的目標(biāo)函數(shù)由重構(gòu)誤差和KL散度組成:
(2)
L表示VAE的損失函數(shù)值,定義了數(shù)據(jù)的重構(gòu)誤差和分布匹配誤差;Eq(z∣x)是期望值,表示對條件概率分布q(z∣x)下的樣本z取期望;q(z∣x)是編碼器生成的條件概率分布,表示給定輸入數(shù)據(jù)x后的潛在變量z的分布;p(x∣z)是解碼器的輸出概率分布,表示給定潛在變量z后,重構(gòu)數(shù)據(jù)x的概率分布;logp (x∣z)是重構(gòu)對數(shù)似然,表示在給定潛在變量z的條件下,生成數(shù)據(jù)x的概率;DKL (q (z∣x)∥p (z))表示KL散度,用于衡量編碼器輸出的潛在分布q (z∣x)與先驗分布p(z)的相似性;p(z)是先驗分布,表示潛在變量z的預(yù)設(shè)分布。
VAE在異常檢測中的應(yīng)用主要體現(xiàn)在以下幾個方面:
重構(gòu)誤差檢測:通過計算輸入數(shù)據(jù)與重構(gòu)數(shù)據(jù)之間的誤差,識別異常數(shù)據(jù);
潛在空間檢測:通過分析潛在空間中的數(shù)據(jù)分布,識別異常數(shù)據(jù)。
(二)重構(gòu)模型
重構(gòu)模型通過重構(gòu)輸入數(shù)據(jù)來檢測異常。常見的重構(gòu)模型包括自編碼器(AE)及其變種,如稀疏自編碼器、去噪自編碼器。自編碼器通過壓縮和解壓縮數(shù)據(jù),學(xué)習(xí)數(shù)據(jù)的低維表示,異常數(shù)據(jù)由于無法有效重構(gòu),會表現(xiàn)出較大的重構(gòu)誤差。
1.自編碼器(AE)
自編碼器是一種無監(jiān)督學(xué)習(xí)模型,通過將輸入數(shù)據(jù)編碼為低維表示,再從低維表示解碼重構(gòu)輸入數(shù)據(jù)。自編碼器的目標(biāo)是最小化重構(gòu)誤差,即輸入數(shù)據(jù)與重構(gòu)數(shù)據(jù)之間的差異。自編碼器的損失函數(shù)通常為:
(3)
LAE 表示自編碼器的損失函數(shù)值,x是輸入數(shù)據(jù),x ?是重構(gòu)數(shù)據(jù),∥?∥2表示歐氏距離。
2.稀疏自編碼器(Sparse AE)
稀疏自編碼器在自編碼器的基礎(chǔ)上引入了稀疏性約束,使得編碼器輸出的低維表示具有稀疏性。稀疏性約束通常通過KL散度實(shí)現(xiàn),其損失函數(shù)為:
(4)
LSAE是稀疏自編碼器的損失函數(shù),包含重構(gòu)誤差和稀疏性約束兩部分;β是稀疏性權(quán)重系數(shù),用于調(diào)整重構(gòu)誤差和稀疏性約束之間的權(quán)衡;h是隱藏層中單元的總數(shù)。KL(ρ∥ "?ρj)表示KL散度,用于度量編碼器中第j個隱藏單元的稀疏性偏差。ρ是稀疏性目標(biāo),表示隱藏單元的期望平均激活值; ?ρj是第j個隱藏單元的實(shí)際平均激活值(由模型訓(xùn)練得出),即在所有樣本上第j個單元的平均激活概率。
3.去噪自編碼器(Denoising AE)
去噪自編碼器通過在輸入數(shù)據(jù)上添加噪聲,訓(xùn)練模型在去噪的同時重構(gòu)原始數(shù)據(jù)。其損失函數(shù)為:
(5)
L_DAE表示去噪自編碼器的損失函數(shù)值。
4.重構(gòu)誤差檢測
重構(gòu)模型通過計算輸入數(shù)據(jù)與重構(gòu)數(shù)據(jù)之間的誤差來檢測異常。異常數(shù)據(jù)由于無法有效重構(gòu),會表現(xiàn)出較大的重構(gòu)誤差。重構(gòu)誤差可以通過以下公式計算:
(6)
ER是重構(gòu)誤差。
(三)單分類模型
單分類模型通過學(xué)習(xí)正常數(shù)據(jù)的邊界來識別異常。常見的單分類模型包括單分類支持向量機(jī)(OC-SVM)和深度支持向量數(shù)據(jù)描述(Deep SVDD)。
1.單分類支持向量機(jī)(OC-SVM)
單分類支持向量機(jī)(OC-SVM)是一種無監(jiān)督學(xué)習(xí)方法,通過構(gòu)建一個超平面,將正常數(shù)據(jù)與異常數(shù)據(jù)分開。OC-SVM的目標(biāo)是找到一個最大化邊界的超平面,使得正常數(shù)據(jù)點(diǎn)盡可能地靠近超平面,而異常數(shù)據(jù)點(diǎn)則遠(yuǎn)離超平面。其優(yōu)化目標(biāo)可以表示為:
(7)
min (w,ρ)表示最小化的目標(biāo)是對w和ρ進(jìn)行優(yōu)化,以得到最佳的分類邊界;w是超平面的法向量,用于決定分類邊界的方向和位置;ν是超參數(shù),用于控制目標(biāo)函數(shù)中的錯誤容忍度,通常在 (0,1) 之間設(shè)置,決定支持向量的數(shù)量及異常樣本的容忍度;n表示樣本點(diǎn)總數(shù);xi表示第i個數(shù)據(jù)樣本點(diǎn); ? (xi)是特征映射函數(shù),將輸入樣本點(diǎn)xi映射到高維空間,使得在該空間中正常樣本和異常樣本更容易被分離;ρ是偏置項,用于確定超平面的位置;wT ?(xi)表示樣本點(diǎn)xi到超平面的投影值;ρ-wT ?(xi)表示樣本點(diǎn)xi離邊界的距離,若為負(fù)數(shù),意味著樣本落在邊界以內(nèi);max(0,ρ-wT ?(xi))表示取零和該距離的較大值,使得只有在樣本xi點(diǎn)落在邊界內(nèi)時才計算誤差,否則誤差為零。
2.深度支持向量數(shù)據(jù)描述(Deep SVDD)
深度支持向量數(shù)據(jù)描述(Deep SVDD)通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)的特征表示,并在特征空間中構(gòu)建一個超球體,將正常數(shù)據(jù)包含在內(nèi)。Deep SVDD的目標(biāo)是最小化數(shù)據(jù)點(diǎn)到超球體中心的距離,其優(yōu)化目標(biāo)可以表示為:
(8)
W是神經(jīng)網(wǎng)絡(luò)的參數(shù),?(xi;W)是輸入數(shù)據(jù)樣本點(diǎn)xi的特征表示,c是超球體的中心。
四、模型評估與實(shí)驗結(jié)果
為了全面評估所提出模型的性能,進(jìn)行了詳盡的實(shí)驗研究,并采用了以下步驟和方法:
(一)數(shù)據(jù)集與預(yù)處理
為確保研究的有效性和普適性,選取了信息安全領(lǐng)域廣泛認(rèn)可的KDDCup-99、NSL-KDD和CICIDS2017三個公開數(shù)據(jù)集進(jìn)行實(shí)驗。這些數(shù)據(jù)集分別適用于評估異常檢測算法在復(fù)雜網(wǎng)絡(luò)環(huán)境、高質(zhì)量訓(xùn)練樣本和現(xiàn)實(shí)世界網(wǎng)絡(luò)攻擊場景下的性能。實(shí)驗前,對數(shù)據(jù)進(jìn)行了預(yù)處理,包括缺失值處理、數(shù)據(jù)歸一化和特征工程。處理方法包括數(shù)值型特征用均值或中位數(shù)填充,類別型特征用眾數(shù)填充,采用最小-最大標(biāo)準(zhǔn)化和Z-score標(biāo)準(zhǔn)化消除量綱影響,并通過RFE、PCA等技術(shù)篩選和降維特征,構(gòu)造新的統(tǒng)計和模式特征以提升模型識別異常行為的能力。
(二)實(shí)驗設(shè)置
為了全面評估不同深度學(xué)習(xí)模型在信息系統(tǒng)異常檢測與預(yù)測任務(wù)中的性能,采用了五種先進(jìn)的深度學(xué)習(xí)模型進(jìn)行實(shí)驗:
1.生成對抗網(wǎng)絡(luò)(GAN)
GAN由生成器和判別器組成,通過對抗性訓(xùn)練學(xué)習(xí)數(shù)據(jù)分布。在異常檢測中,GAN能夠生成接近真實(shí)數(shù)據(jù)分布的樣本,并通過比較真實(shí)數(shù)據(jù)與生成數(shù)據(jù)的差異來識別異常。采用了條件GAN(cGAN)來提高模型對特定條件數(shù)據(jù)的學(xué)習(xí)能力。
2.變分自編碼器(VAE)
VAE通過最大化數(shù)據(jù)的邊際似然估計來學(xué)習(xí)潛在空間中的數(shù)據(jù)分布。使用了深度卷積VAE(CVAE)來處理具有空間相關(guān)性的數(shù)據(jù),通過潛在空間的重構(gòu)誤差來檢測異常。
3自編碼器(AE)
AE通過編碼器和解碼器結(jié)構(gòu)來學(xué)習(xí)數(shù)據(jù)的低維表示,并通過重構(gòu)誤差來識別異常。采用了去噪自編碼器(DAE),在輸入數(shù)據(jù)中添加隨機(jī)噪聲,以增強(qiáng)模型對異常的魯棒性。
4.單分類支持向量機(jī)(OC-SVM)
OC-SVM是一種無監(jiān)督學(xué)習(xí)算法,通過構(gòu)建一個最大間隔超平面來劃分正常數(shù)據(jù)。使用了核化OC-SVM來處理非線性數(shù)據(jù),并通過核函數(shù)的選擇來優(yōu)化模型性能。
5.深度支持向量數(shù)據(jù)描述(Deep SVDD)
Deep SVDD通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)的特征表示,并在特征空間中尋找最小包含所有正常數(shù)據(jù)點(diǎn)的超球體。采用了具有多個隱藏層的Deep SVDD來捕捉數(shù)據(jù)的高層次特征。
(三)評估指標(biāo)
為了全面且準(zhǔn)確地衡量所提出模型在信息系統(tǒng)異常檢測與預(yù)測任務(wù)中的性能,采用了以下評估指標(biāo),這些指標(biāo)在機(jī)器學(xué)習(xí)特別是異常檢測領(lǐng)域被廣泛認(rèn)可。
準(zhǔn)確率(Accuracy):衡量模型分類正確性的基本指標(biāo),但在類別不平衡的數(shù)據(jù)集上可能存在誤導(dǎo)。
召回率(Recall):也稱為靈敏度或真正例率(TPR),衡量模型正確識別異常樣本的能力,在異常檢測中尤為重要。
F1值(F1 Score):精確率和召回率的調(diào)和平均數(shù),用于綜合評價模型的精確性和召回率。
AUC(接收者操作特征曲線下面積):評估模型區(qū)分正常樣本和異常樣本能力的重要指標(biāo),AUC值越高,模型性能越好。
(四)實(shí)驗結(jié)果
表1是實(shí)驗結(jié)果的匯總表,實(shí)驗結(jié)果表明,GAN和Deep SVDD模型在三個數(shù)據(jù)集上的表現(xiàn)優(yōu)于其他模型,尤其在AUC指標(biāo)上表現(xiàn)出較高的區(qū)分能力,顯示了生成模型和單分類模型在異常檢測任務(wù)中的競爭力。數(shù)據(jù)集特性對模型性能有影響。例如,CICIDS2017數(shù)據(jù)集因網(wǎng)絡(luò)攻擊種類多、數(shù)據(jù)分布復(fù)雜,模型性能較低。通過交叉驗證和超參數(shù)調(diào)整,模型穩(wěn)定性得以保證,顯示出良好的泛化能力。VAE和AE模型訓(xùn)練速度快,適合實(shí)時檢測。GAN和Deep SVDD模型訓(xùn)練時間長,但檢測精度高,適用于高精度要求場景。通過可視化技術(shù),如特征圖和潛在空間分析,對模型進(jìn)行了部分解釋,揭示了模型對正常與異常數(shù)據(jù)的理解。
五、結(jié)語
本研究開發(fā)了一種創(chuàng)新的基于深度學(xué)習(xí)的信息系統(tǒng)異常檢測與預(yù)測模型,結(jié)合生成模型、重構(gòu)模型和單分類模型的優(yōu)勢,形成多角度、多層次的異常識別框架。通過深入挖掘數(shù)據(jù)特征,該模型有效識別和預(yù)測信息系統(tǒng)的異常行為,彌補(bǔ)了傳統(tǒng)方法在處理大規(guī)模、高維、非線性數(shù)據(jù)時的不足。實(shí)驗驗證表明,該模型在準(zhǔn)確率、召回率、F1值和AUC等關(guān)鍵性能指標(biāo)上顯著優(yōu)于傳統(tǒng)方法,展現(xiàn)了高效性和可靠性。生成模型通過對抗性訓(xùn)練和潛在分布學(xué)習(xí)生成與正常數(shù)據(jù)相似的數(shù)據(jù)樣本。重構(gòu)模型通過學(xué)習(xí)數(shù)據(jù)表示在重構(gòu)過程中暴露異常。單分類模型通過界定正常數(shù)據(jù)邊界排除異常。未來研究可在半監(jiān)督學(xué)習(xí)、模型輕量化、多模態(tài)數(shù)據(jù)融合、可解釋性與透明度、實(shí)時性與自適應(yīng)學(xué)習(xí)等方向進(jìn)一步深入,提升模型性能和應(yīng)用效果。
參考文獻(xiàn)
[1]李鎮(zhèn)江,戴英俠,陳越.IDS入侵檢測系統(tǒng)研究[J].計算機(jī)工程,2001,27(04):7-9.
[2]黃林,常健,楊帆,等.基于改進(jìn)k-means的電力信息系統(tǒng)異常檢測方法[J].深圳大學(xué)學(xué)報(理工版),2020,37(02):214-220.
[3]張穎君,劉尚奇,楊牧,等.基于日志的異常檢測技術(shù)綜述[J].網(wǎng)絡(luò)與信息安全學(xué)報,2020,6(06):1-12.
[4]梁杰,陳嘉豪,張雪芹,等.基于獨(dú)熱編碼和卷積神經(jīng)網(wǎng)絡(luò)的異常檢測[J].清華大學(xué)學(xué)報(自然科學(xué)版),2019,59(07):523-529.
[5]肖衡,龍草芳.基于機(jī)器學(xué)習(xí)的無線傳感網(wǎng)絡(luò)通信異常入侵檢測技術(shù)[J].傳感技術(shù)學(xué)報,2022,35(05):692-697.
[6]劉明群,何鑫,覃日升,等.基于改進(jìn)K-means聚類k值選擇算法的配網(wǎng)電壓數(shù)據(jù)異常檢測[J].電力科學(xué)與技術(shù)學(xué)報,2022,37(06): 91-99.
[7]段雪源,付鈺,王坤,等.基于多尺度特征的網(wǎng)絡(luò)流量異常檢測方法[J].通信學(xué)報,2022,43(10):65-76.
作者單位:山西晉中理工學(xué)院信創(chuàng)與大數(shù)據(jù)學(xué)院
責(zé)任編輯:王穎振、鄭凱津