中圖分類號:TP393.08 文獻標志碼:A
0 引言
網絡規模和復雜性不斷增加,網絡中潛在的異常數據越來越多,網絡流量數據具有高維度、非線性和動態變化等特性,現有的基于統計的方法難以準確捕捉異常模式。同時,獲取大量精確標注的訓練數據成本高昂,且標注過程容易受到主觀因素影響,導致標簽質量參差不齊。此外,網絡攻擊手段不斷演進,新型攻擊模式層出不窮,要求檢測方法具備良好的泛化能力。
楊茂等1通過構建四分位模型,對風電場的數據進行統計分析,從而識別出異常數據。該方法結合了四分位統計量與四分位模型的優勢,能夠較為準確地識別出數據中的異常值。但風電場數據具有高度的復雜性和不確定性,會導致四分位模型的參數設置難度增加。此外,該算法在處理大規模數據集時,計算效率和實時性方面可能存在不足,須進一步優化以提高其實用性。凌繼紅等通過森林模型,對數據進行異常檢測,但供熱系統的數據受到多種因素的影響,孤立森林模型可能難以全面捕捉多種因素的復雜性。此外,該方法在處理具有強關聯性的數據時,會產生誤報或漏報的情況,需要結合其他方法進行綜合判斷。
為解決此方面問題,提高無線網絡數據安全保障能力,異常數據流的檢測對于保障網絡安全、提升網絡性能至關重要。弱監督學習作為一種在少量標注數據或僅有粗粒度標注數據下進行學習的方法,為無線網絡異常數據流的智能辨識提供了有效途徑。筆者將基于弱監督學習的應用,以某計算機無線網絡為例,開展異常數據流智能辨識方法的設計研究。
1構建計算機無線網絡多狀態觀測矩陣
在計算機無線網絡環境中,多狀態觀測矩陣的構建基于網絡節點間的功能連接強度,筆者通過皮爾遜相關系數 c 表示[3]。筆者設定計算機網絡中的節點數量為 N ,則節點 p,q 之間的功能相關系數表示為Cpq pqO
首先,筆者初始化處理節點變量,設置第一、二個節點變量 p,q 的變化范圍均為 1~N ,并確定初始值p=1 。 q 從1循環至 N ,在 q 變化中,依次計算 p 與 q 之間的功能相關系數 Cpq ,得到 p=1 與全網絡其他節點的狀態觀測向量如下:
vp=(Cp1,Cp2,…,CpN)T
式(1)中: T 為總時間點數。第一個節點變量 p 從1循環至 N ,每次循環按上述步驟計算狀態觀測向量 vp ,最終得到 v1?v2?…?vN 。由 vp 構成單狀態觀測矩陣 V ,其中 V=N×N 方陣,矩陣元素 Vpq=Cpq
在滑動窗口機制下,筆者設計窗口滑動尺寸為w ,每次移動1個單位,則狀態觀測窗口為 G[4] :
G=T-w+1
對于每個滑動窗口,筆者構建單狀態觀測矩陣Vg T 為總時間點數, g=1,2,…,G ,得到全部狀態觀測矩陣 V1,V2,…,VG 。
2基于弱監督學習的無線網絡數據流表征處理
在無線網絡管理中,數據流表征處理是關鍵環節,在構建計算機無線網絡多狀態觀測矩陣后,筆者利用矩陣中的數據,引進弱監督學習領域的WIDS-APL模型,通過將轉換樣本映射到超球體空間中進行作者簡介:黃朝霞(1983—),女,高級講師,學士;研究方向:計算機網絡。
弱監督學習,實現對觀測矩陣中數據的表征處理。筆者將原始樣本及其轉換樣本分別映射到不同的超球體中,共生成 K+1 個超球體,其中 K 為轉換器的數量[5]。每個超球體對應一個轉換器生成的樣本集合,原始樣本也映射為一個獨立的超球體。以下是基于弱監督學習的無線網絡數據流表征處理方法:
對于第 k 個轉換器生成的轉換樣本 yk ,筆者通過特征學習器 ψ 將其映射到新的特征空間,得到表征h:
hk=ψ(yk,θ)
式(3)中: θ 為特征學習器的參數, hk 為樣本在新空間中的表征。在此基礎上,每個超球體的中心 bk 由對應轉換器生成的所有樣本表征計算得到,計算公式為:

式(4)中: Tk 表示第 k 個轉換器, ??xi 為原始樣本,N 為樣本數量。對于樣本 xi ,其第 k 個轉換版本的表征 hk 到自身超球體中心 bk 的距離應小于到其他超球體中心的距離,即:

上述公式(5)用于壓縮弱監督學習中超球體體積,使其半徑盡可能小。為了優化特征學習器,筆者設計三元組損失函數,進行無線網絡數據流表征處理。此過程如下計算公式所示。
max(|ψ(Tk(xi),θ)-bk|2+η- min 
式(6)中: η 為大于0的超參數,用于控制表征與自身超球體中心及其他超球體中心之間的距離關系,避免模型陷入局部最優解。
3異常數據流檢測
在完成基于弱監督學習的無線網絡數據流表征處理后,筆者利用表征數據對異常數據流進行檢測。將不同狀態的網絡數據導人改進的長短期記憶人工神經網絡模型,通過設定數據的有效取值區間,進行異常數據的辨識。根據當前時刻的狀態分析結果,筆者放大并計算數據流異常節點的捕獲半徑 r :

式(7)中: F 為數據流單位時間內傳輸的速率, B 為平均傳輸流量, χ 為捕獲半徑因子, Q 為數據流概率分布, φ 為LSTM輸出門輸出的數據狀態。為實現異常數據流的高精度識別,筆者將網絡維度作為尺度分解標準,分解公式為:
ω=χ?F?(D-J)?ι
式(8)中: ω 為網絡數據流尺度分解結果, D 為網絡數據緩存狀態, J 為甄別影響系數, χt 為系統中的信道數量。根據尺度分解結果 ω ,筆者利用異常甄別函數提取異常特征 X :

式(9)中: γi 為大數據庫調用比對文件的總量。利用 X ,筆者根據鏈路分布方式對異常數據進行識別,完成網絡異常數據流的檢測。
4對比實驗
4.1實驗準備
筆者選擇企業級無線網絡(含8個AP節點、120臺終端)作為測試對象,通過部署全流量探針(采樣率 2.5GHz? 持續采集 7×24 小時網絡數據。分析發現異常數據流呈現明顯時空聚集性:約 68% 的異常流量集中在18:00—22:00時段,且 73% 源于3個高負載接入點。現有辨識系統誤報率達 12.7% ,漏報率達8.9% ,導致安全響應延遲平均增加 45s 。實驗應用本文方法進行網絡異常數據流的辨識。
實驗中,筆者構建模擬真實網絡環境的半實物仿真平臺。現場布置采用星型拓撲結構,核心交換機部署于電磁屏蔽機柜內,通過光纖連接至分布在不同物理區域的6個接入節點,節點間距保持 3m 以上以減少信號串擾。終端布置方面,配置3臺高性能服務器作為流量生成端,搭載定制化網絡損傷模擬模塊,另設2臺工業級防火墻作為異常注入節點[6-7]
筆者采用CAT6A屏蔽雙絞線配合光纖混合組網,關鍵鏈路加裝信號放大器。監控端部署全流量采集探針,通過分光器實現無侵入式數據采集,配合全球定位系統(GlobalPositioning System,GPS)時鐘源實現微秒級時間同步。測試前需進行 72h 鏈路穩定性測試,確保背景噪聲低于 -85dBm ,時延抖動控制在5μs 以內。為確保本文方法在應用中可以達到預期效果,設計弱監督學習參數如表1所示。
表1弱監督學習的設計參數

在上述準備工作的基礎上,筆者引進楊茂等[]的基于IKLIEP的識別算法、凌繼紅等[2]的基于孤立森林算法的異常識別方法作為對照
4.2零日威脅響應時效檢驗
零日威脅響應時效是衡量計算機無線網絡在面對未知且尚未有防御措施的網絡安全威脅(即零日威脅)時,其安全系統做出有效響應所需的時間指標。該指標直接反映了計算機無線網絡在遭遇突發、高隱蔽性網絡攻擊時的應急處理能力和安全防護水平[8]
零日威脅因其不可預測性,能繞過傳統安全防護機制,對系統造成重大損害。高效的響應時效意味著在威脅被識別后,安全系統能夠迅速啟動應急響應流程,包括威脅分析、漏洞修補、系統恢復等流程,從而最大限度減少損失。對該指標進行檢驗,零日威脅響應時效檢驗結果如圖1所示。
圖1零日威脅響應時效檢驗結果

根據圖1可知,在相同的測試條件下,應用本文設計的方法進行計算機無線網絡異常數據流智能辨識,響應時間最短,因此本文方法的零日威脅響應時效最高。而應用楊茂等[]、凌繼紅等[2]方法進行計算機無線網絡異常數據流智能辨識,響應時間則相對較長,說明對應方法的零日威脅響應時效相對較低[9]
4.3辨識方法吞吐量檢驗
吞吐量是衡量辨識方法在單位時間內能夠處理并準確識別目標對象或事件數量的關鍵性能指標,該指標直接反映辨識方法的處理效率與穩定性,對于需要高效、快速處理大量數據或事件的場景尤為重要
在實際應用中,筆者通過模擬或實際運行辨識方法,統計每種方法在規定時間內成功辨識的自標數量,以此評估其處理能力。高吞吐量意味著對應方法能夠在短時間內處理更多信息,減少等待時間和資源占用,提升整體運行效率。應用3種方法進行計算機無線網絡異常數據流智能辨識,對應方法在應用中的吞吐量檢驗結果如圖2所示[10]
根據圖2可知,在相同的測試條件下,應用本文方法進行計算機無線網絡異常數據流智能辨識,相比楊茂等[1]、凌繼紅等[2]方法,該方法的吞吐量更高,即單位時間內該方法可處理的數據量更高,因此,可以說明該方法的辨識效率最高。
4.4異常數據流異常幅值檢驗
數據流異常幅值檢驗專注于衡量數據流中異常值偏離正常范圍的幅度[1]。該指標通過精確量化異常數據與基準值或歷史數據模式的差異,識別數據中的異常波動或突變。通過量化該指標,能夠及時發現計算機無線網絡中的潛在問題,從而迅速采取應對措施,減少損失并保障業務的連續性和穩定性。隨機選擇10個存在異常的計算機無線網絡節點,應用3種方法,對其進行異常辨識,其結果如表2所示。
圖2辨識方法吞吐量檢驗結果

表2異常數據流異常幅值檢驗結果單位:dB

根據表2可知,本文方法在節點異常幅值檢測上表現出顯著優勢,其檢測結果與真實值高度接近,顯示出極高的準確性和可靠性[12]。相比之下,楊茂等[1]方法和凌繼紅等[2]方法雖然也能檢測到異常幅值,但存在一定偏差,準確性相對較低。表明本文方法具有更高的靈敏度和分辨率,能夠更精確地反映節點的實際異常狀態。因此,在實際應用中,本文方法可為計算機無線網絡提供更準確、更可靠的異常檢測支持,有助于及時發現并處理潛在問題,保障網絡的穩定運行。
5結語
弱監督學習利用不完整、不精確或含噪聲的監督信息進行模型訓練,通過網絡日志、告警信息等間接信號構建弱監督信號,不僅在理論上具有創新性,而且在實踐中也展現了強大的應用價值,能夠降低對精確標注數據的依賴。充分利用海量未標注數據提升模型性能,為無線網絡安全領域提供了一種新的、高效的解決方案。同時,弱監督學習能夠有效利用海量未標注數據,通過半監督學習、主動學習等策略提升模型性能。故而,推動弱監督學習在無線網絡安全領域深入應用很有必要。在構建計算機無線網絡多狀態觀測矩陣時,筆者充分考慮了網絡環境的復雜性和動態性,使得觀測矩陣能夠更全面地反映網絡狀態,基于弱監督學習的無線網絡數據流表征處理方法則有效提升了數據處理的準確性和效率,通過設計的弱監督學習參數,模型能夠在有限標注數據下實現高效學習,從而更準確地捕捉異常數據流的特征并在短時間內快速響應并準確識別異常數據流,為網絡的安全穩定運行提供保障。未來,隨著技術的不斷發展和完善,該方法有望在更廣泛的場景中得到應用,為網絡的安全穩定運行提供更加堅實的保障。
參考文獻
[1]楊茂,張書天,王天碩,等.基于IKLIEP四分位模型的風電場異常數據識別算法[J].高電壓技術,2023(7):2952-2960.
[2]凌繼紅,邢金城,李昂,等.基于孤立森林算法的集中供熱系統異常數據識別研究[J].暖通空調,2023(2):97-102.
[3]劉永立,翟偉芳,馮娟.基于聚類分析提取特征的光通信系統異常數據檢測[J].激光雜志,2024(4):182-185.
[4]肖警續,郭淵博,常朝穩,等.基于SDN的物聯網邊緣節點間數據流零信任管理[J].通信學報,2024(7):101-116.
[5]徐成桂,徐廣順.云端大數據流序列異常挖掘數學建模仿真[J].計算機仿真,2022(8):514-518.
[6]魏德賓,魏寧,楊力,等.一種基于mRMR-SVM的空間信息網絡數據流檢測方法[J].計算機應用與軟件,2022(8):111-118.
[7]甘雨,郭鵬,林立棟.基于變分貝葉斯推斷的DPGMM風電機組異常數據識別研究[J].動力工程學報,2023(7) :885-892.
[8]陳江雨,李培強,鐘吳君.基于多模型并行集成框架的風電功率異常數據識別[J].電力系統及其自動化學報,2023(11):133-142.
[9]倪憲漢,陳浙梁,李歡,等.基于聯邦學習的水文遙測數據異常識別與修復[J].浙江工業大學學報,2023(6) :610-618.
[10]吳忠明,李天述,張波,等.基于TCN-自適應的地下洞室圍巖變形異常數據識別[J].人民長江,2024(8):216-221.
[11]張俊峰,吳雙.考慮異常數據及船舶行為的在線AIS軌跡壓縮算法[J].大連工業大學學報,2024(6):462-468.
[12]張旭,張超,詹銀虎,等.基于星點位置預測的線陣全站儀天文測量異常數據剔除方法[J].測繪學報,2023(4) :571-578.
(編輯戴啟潤)
Abstract:To achieverapid identificationof abnormal data streams inwirelessnetworks,this paper designs a new intelligent identification method basedon weaklysupervised learning.Constructamulti stateobservationmatrix for computer wireless networks based onthe strength of network node connections; introducing the WIDS-APL model in the field of weakly supervised learning,the transformation samplesare mapped into a hypersphere space for weakly supervised learning,achieving representation processng ofdata in theobservation matrix;import data from different states into the improved LSTM model to detectand identify abnormal data streams.Experiment shows thatthis method cannotonlyimprove thezero-day threatresponse time,butalsoachievethedeterminationof abnormal amplitudeof data streams on the basis of optimizing the throughput of identification methods.
Key words:weak supervised learning; observation matrix;characterization processing;abnormal data flow;computer wireless network