999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

開集環境中基于增量學習的網絡流量分類研究

2024-10-10 00:00:00崔夢陽董育寧邱曉暉田煒
軟件工程 2024年10期

關鍵詞:網絡流量分類;開集識別;增量學習;支持向量機

中圖分類號:TP391 文獻標志碼:A

0 引言(Introduction)

在網絡流量分類(Network Traffic Classification,NTC)中,對于已經訓練好的分類模型,在面對新類出現時要解決兩個問題,第一是如何使用現有模型分類已知類并進行新類檢測(New Class Detection,NewCD),即開集識別(Open SetRecognition,OSR)問題;第二是如何使用新樣本更新現有模型,即模型更新問題。

對于OSR,目前在機器學習(Machine Learning,ML)領域已積累了豐富的研究成果。對于模型更新,因增量學習(Incremental Learning,IL)只需使用部分樣本增量更新現有模型而不需要全量重訓練模型而廣受歡迎[1]。然而,當前大多數IL方法僅考慮了閉集場景,無法實現NewCD。如果在此基礎上額外加入其他OSR方法,將會增加時間消耗,甚至會割裂原有方法的完整性。

針對上述問題,本文使用支持向量機(Support VectorMachine,SVM)設計了一種基于IL的開集NTC方法(Open SetNetwork Traffic Classification Based on Incremental Learning,OSNTIL),可同時實現OSR和模型IL。

1 相關工作(Related work)

1.1 基于支持向量機的開集識別

SVM在OSR中的應用,可細分為約束已知類空間檢測新類和設定閾值檢測新類兩個方面。

對于約束已知類空間檢測新類,SCHEIRER等[2]首次基于該思想進行NewCD,通過引入一個與現有已知類分類超平面平行的新超平面,進一步約束已知類所占空間,然后將落在兩個超平面約束空間之外的樣本識別為新類。CEVIKALP等[3]也采用了類似的方法,使用一系列準線性“多面體圓錐”算子為已知類構建一個更加緊湊的球形空間,達到約束已知類空間的目的。

對于設定閾值檢測新類,SCHEIRER等[4]在文獻[2]提出方法的基礎上又引入了非線性核函數,并使用統計極值理論(Extreme Value Theory,EVT)與緊急衰減概率模型相結合的方式設定閾值檢測新類;JAIN等[5]通過在決策邊界處調用EVT對已知類的非歸一化后驗概率進行建模,以實現NewCD。OSNTIL的OSR方法也是基于該思想,但為了解決單一SVM在NewCD時易將已知類錯分為新類的問題,又引入了K均值聚類(K-means clustering algorithm,K-means)算法。

1.2 基于支持向量機的增量學習

SVM在IL中的應用主要聚焦于如何使用支持向量。例如,SHERKI等[6]通過引入舊數據中距各分類超平面α 范圍內的支持向量樣本,解決在沒有完整舊數據情況下的類增量問題。然而,該方法并未明確給出α 值的設定方法,需要用戶自行定義。杜紅樂等[7]提出了一種基于相似度的增量SVM 方法,在模型更新時,僅使用新數據中與支持向量相似性較大的樣本,以提高模型更新的精度和速度。

正如前文所述,這些方法雖然考慮了IL過程中新類出現的情況,但是尚未提供具體的NewCD方法,僅提供了模型更新方法。

2 本文方法(The proposed method)

為便于閱讀,首先在表1列出了后續需要使用的主要參數的含義。OSNTIL的總體模型包括兩個模塊:模型訓練和模型更新(圖1);模型訓練為對原始數據集經過特征提取(FeatureExtraction,FE)和特征選擇(Feature Selection,FS)后訓練多分類器C1 的過程;模型更新為使用第k(k=1,2,3,…)輪候選支持向量(Candidate Support Vectors,CSV)和經過OSR后的第k+1輪新數據增量更新Ck 的過程。

2.1 模型訓練

由于SVM是二分類器,不能處理多分類問題。為了便于模型增量更新,OSNTIL采用一對多的方法實現多分類,即對于m1 個類的多分類問題,共構造m1 個B,第i個B以第i 類樣本為正類樣本,其余樣本為負類樣本進行訓練,最終訓練出的分類器C1 由B1,1~B1,m1組成。分類時,將待分類樣本x輸入C1 的m1 個B中求置信度,輸出置信度最大的B 對應的正類類別,即x 的類別y。

2.2 開集識別

模型C1訓練完成后,當后續第k+1輪新數據到來時,便需要對新數據進行NewCD和已知類分類,并進行模型更新。設計的方法如圖2所示,其中,x 是第k+1輪新數據經過FE和FS的未標記樣本,y1是輸出的新類樣本,y2 是輸出的已知類樣本標簽。對于x,先將其輸入第k 輪分類器Ck 的mk 個B中求置信度,若所有B 輸出置信度均為負(表示為Ck 置信度lt;0),則x 被判為新類。但是,少量已知類樣本也可能會被錯分為新類,為此使用K-means對識別為新類的樣本進行二次分類;由于此時新類樣本數量遠大于已知類樣本數量,所以可將K-means預測結果中數量最多的一簇標記為新類,其余簇標記為已知類。使用Ck對所有已知類進行細分類。

2.3 模型更新

在檢測出的新類樣本達到一定數量后,便可采用IL快速更新模型,但在真實NTC場景中,新到來數據中樣本和類別分布通常是不平衡的,即每一輪新數據中可能并不會出現所有的已知類。對于其中的新類樣本,如果僅使用新數據中已知類樣本作為負樣本構建NewCB,那么NewCB會因負樣本不完整而導致分類超平面偏向負類,最終導致模型的整體性能下降。

為此,通過篩選上一輪數據集中的樣本用于平衡本輪新數據集,可以緩解上述問題[6]。從時間和存儲空間的角度考慮,保留上一輪樣本數量越少越好,這就要求篩選出的樣本盡可能代表更多舊樣本的分布信息。邊緣支持向量(Margin SupportVectors,MSV)和誤差支持向量(Error Support Vectors,ESV)是符合這一要求的樣本集合,MSV是指訓練集中位于最大間隔邊界上的樣本點,ESV是指訓練集中被模型錯誤分類的樣本點。這些樣本點在上一輪模型訓練中起到了決定性作用,它們反映了上一輪樣本分布特征和模型性能。除了MSV 和ESV,還可以保留訓練集中距離分類超平面較近的樣本點(Other Support Vectors,OSV),以提高本輪IL的效果,距離超平面越近的樣本點,它們對后續輪次IL的貢獻度就越大。最終上一輪數據集中被篩選的樣本由MSV、ESV和OSV組成,本文稱之為CSV。CSV中MSV和ESV樣本的數量只與模型有關,OSV的數量需要人為確定,取決于α(保留距各個分類超平面α 距離內的樣本為OSV)值的設定。

上一輪CSV中的樣本數量將影響本輪模型IL后的分類性能,可通過實驗尋找二者之間的規律。使用ISCX(ISCXVPN-nonVPN)設計4輪IL實驗,從第二輪開始,每輪將出現新類并伴隨著已知類不平衡現象,不斷增大α 使CSV樣本數量不斷增大,圖3統計了每輪IL后F1 分數與上一輪CSV中樣本數量的關系。

分析圖4可知,不論IL輪次如何變化,10∶10權重分配雖然不一定是模型性能最佳的權重分配,但是其性能基本接近于最佳權重分配性能。為簡化操作,“參數回放”新舊模型權重分配可設定為10∶10,即1∶1。如下算法2描述了在第k+1輪新數據到來后對模型的增量更新過程。

3 實驗與分析(Experiments and analysis)

使用OSNTIL與文獻方法IOmSVM+KNN(簡稱ISK)[8]和DACS[9](a Double-layer Application Classification Schemefor Hybrid Zero-day Traffic)分別進行了OSR和IL實驗,從分類性能和時間性能的角度對各種方法做出評估。對比方法參數設定均采用相應論文中的原設定。

3.1 數據集

實驗使用兩個數據集,分別為公共數據集ISCX(表2)和混合數據集MixData,其中MixData由南京郵電大學校數據集(表3)和ISCX 組合而成;南京郵電大學校數據集是使用Wireshark軟件在南京郵電大學校園網采集得到的[10]。

3.3 開集識別實驗與分析

本節實驗對比了3種方法性能在兩個數據集開集環境中分類已知類的能力和NewCD的性能,實驗結果如表4和表5所示。

表4和表5中的結果顯示,對于不同的數據集,OSNTIL與DACS相比,DACS的隨機森林(Random Forest,RF)和SVM 組成的級聯結構在NewCD上表現出了不錯的性能,基本能識別出全部新類,故其OSR的已知類P 和新類R 較高,但DACS容易把已知類錯判為新類,而OSNTIL通過K-means二次分類較好地克服了此問題,因此OSNTIL已知類R 和新類P 高于DACS。從整體指標來看,與DACS相比OSNTIL的NA 在ISCX和MixData上分別高了1.6百分點和2.3百分點。與ISK相比,OSNTIL的NewCD性能均優于ISK,其原因在于ISK僅依靠SVM進行普拉特縮放后的概率輸出峰側比的固定閾值來區分已知類和新類,然而單個固定閾值并不能有效地區分已知類和新類。

3.4 增量學習實驗與分析

由于OSR過程存在誤分類,會影響后續IL方法的性能。為控制變量,IL實驗分為開集IL實驗和閉集IL實驗。同一實驗二者使用相同的數據集和IL流程設定,唯一區別在于閉集IL每輪新到來的數據,均使用已有標簽樣本,略去了新類檢測過程。為模擬真實NTC場景,每輪新到來數據均出現一個新類并伴有已知類不平衡出現。實驗結果如圖5至圖8所示。

從閉集IL可看出,OSNTIL通過篩選舊數據CSV 補充NewCB負樣本和新舊模型加權融合的方式,即使在有新類和已知類不平衡出現的IL場景中,OSNTIL分類性能也沒有出現急劇下降的現象。對于開集IL,得益于OSNTIL良好的NewCD能力,與閉集IL相比,在ISCX和Mixdata開集IL中,F1 分數也僅平均下降1.1百分點和1.9百分點。OSNTIL存在的不足是“樣本回放”方法需要在每輪引入上一輪舊樣本,而每輪NewCD過程存在誤分類,可能會有錯分的樣本一直參與模型更新。

與ISK相比,與OSNTIL相同,ISK也是通過更新已知類C 和構建NewCB實現模型的更新,其中NewCB的負樣本是通過K近鄰算法(K-Nearest Neighbor,KNN)篩選出的與新類最接近的已知類樣本。但是,閉集IL中ISK的F1 分數低于OSNTIL 1百分點至4百分點,正如前文所述:由于新數據可能沒有包含所有已知類樣本,所以僅使用新數據構建NewCB易出現分類超平面偏向負類的情況,這將導致大量已知類被錯分為新類。與閉集IL相比,ISK開集IL在ISCX和Mixdata上F1 分數平均下降2.1百分點和4.7百分點,這是因為ISK的NewCD能力較差,導致在IL時用來構建NewCB的樣本中存在較多的錯誤樣本。

與DACS相比,對于閉集IL,DACS在更新模型時使用了3/4的舊數據,有效地避免了因新數據不平衡而造成的模型性能下降問題,而且由于DACS使用的是兩對SVM 和RF組成的模型組級聯結構,因此分類性能優于OSNTIL的單一SVM結構。但是,DACS方法是將數據集一分為二,分別訓練兩對模型組,而數據集不同的類組合會對模型組性能產生顯著影響。在模型更新時,新類是隨機添加到一個模型組后重訓練該模型組,此時可能會因新類與原模型組不兼容導致模型性能急劇下降。從圖5至圖8模型更新后分類性能(F1 分數)也可以看出,在模型更新的前些輪次,DACS性能優于OSNTIL,但當某一輪新類被添加到不合適的模型組后,便會出現性能陡降現象。基于上述原因,從整體看在閉集IL中OSNTIL的F1 分數比DACS高了1百分點~2百分點。對于開集IL,由于DACS的NewCD方法容易把已知類錯分為新類,導致DACS加入新類重新訓練模型組時會引入過多的錯誤樣本。與閉集IL相比,在ISCX和Mixdata上F1 分數平均下降1.5百分點和2.6百分點。

3.5 時間性能實驗與分析

通過完整的一輪IL實驗(包含模型訓練,新樣本識別和模型更新過程),從時間方面對3種方法進行評估。為控制變量,實驗中每輪所使用數據集樣本數量均為5 600個,類間均勻分布。分別統計第一輪模型訓練的總耗時、第二輪未標記新樣本的每個樣本識別耗時,以及模型更新總耗時,具體結果如表6和表7所示。

對于訓練總耗時,由于OSNTIL使用線性SVM,ISK使用高斯核函數SVM,故OSNTIL的訓練速度快于ISK的訓練速度。DACS需要訓練兩對SVM和RF模型組,因此所需時間最長。

對于識別耗時,ISK 僅需計算所有新樣本的峰側比,OSNTIL雖然額外引入了K-means,但是參與K-means訓練的樣本僅有被C 分為新類的樣本,并不需要所有新樣本參與訓練,因此時間消耗基本與ISK相當。DACS需要兩對SVM 和RF模型組對新樣本先預測后投票,而且還需計算所有新樣本的置信度最大值和方差,因此該方法OSR速度最慢。

對于更新總耗時,盡管ISK使用的樣本數量最少,但是需要額外訓練KNN,相比之下,OSNTIL不需要引入其他模型,因此模型更新速度更快。DACS更新時使用了3/4的舊數據,并且需要重訓練一對模型組,所以模型更新速度最慢。

對比ISCX和MixData,雖然兩個數據集每輪實驗樣本總數相同,但是MixData類的數量較ISCX 多了6 個,因此MixData的所有時間消耗指標均大于ISCX。綜合來看,在開集IL場景中,DACS進行一輪IL耗時最長,OSNTIL耗時與ISK相當,但分類性能明顯優于ISK。

4 結論(Conclusion)

本文提出了一種基于IL的開集NTC方法,即OSNTIL。對于OSR,通過K-means對SVM識別為新類的樣本進行二次分類,較好地解決了單一SVM識別新類時,易將已知類錯分為新類的問題;對于模型更新,通過篩選舊數據CSV 平衡NewCB負樣本的“樣本回放”方法,以及更新前舊模型與更新后新模型加權融合的“參數回放”方法,較好地解決了IL過程中“有類增量的災難性遺忘”問題。實驗結果表明,OSNTIL在IL任意輪次的F1 分數都高于92%;與文獻中的其他方法相比,OSNTIL在閉集IL中,F1 分數比DACS高了1百分點~2百分點,比ISK高了1百分點~4百分點;并且,3種方法的開集IL與閉集IL相比,OSNTIL的F1分數降幅最小。在分類速度方面,OSNTIL與ISK相當,但是明顯快于DACS。

作者簡介:

崔夢陽(1998-),男,碩士生。研究領域:網絡流分類與識別。

董育寧(1955-),男,博士,教授。研究領域:網絡流分類與識別,圖像和視頻信息處理。本文通信作者。

邱曉暉(1968-),女,博士,教授。研究領域:現代通信的智能信號處理,圖像處理與模式識別。

田 煒(1970-),男,博士,副教授。研究領域:多媒體通信,無線網絡,網絡流量識別。

主站蜘蛛池模板: 日本免费a视频| 国产激情无码一区二区APP | 欧美亚洲国产一区| 成人韩免费网站| 国模沟沟一区二区三区 | 亚洲日韩高清无码| 真人高潮娇喘嗯啊在线观看| 精品无码日韩国产不卡av| 国产欧美综合在线观看第七页 | 亚洲精品制服丝袜二区| 免费人成在线观看成人片| 午夜免费小视频| 宅男噜噜噜66国产在线观看| av大片在线无码免费| 2020最新国产精品视频| 伊人蕉久影院| 青青国产在线| 国产农村1级毛片| 亚洲一本大道在线| 青青草一区| 欧美性精品| 国产女主播一区| 亚洲天堂成人| 久热精品免费| 香蕉久久永久视频| 国产成人精品三级| 午夜电影在线观看国产1区| 国产网站黄| 久久综合亚洲色一区二区三区| 伊人激情综合网| 国产成人亚洲综合A∨在线播放| 国产av色站网站| 国产视频入口| 2019年国产精品自拍不卡| 欧洲精品视频在线观看| 美女毛片在线| 成人国产免费| 色呦呦手机在线精品| 亚洲日韩高清无码| 欧美精品v| 五月婷婷亚洲综合| 综合色88| 国产乱人伦AV在线A| 亚洲熟女偷拍| 亚洲乱伦视频| 亚洲男人的天堂久久香蕉网| 国产成人啪视频一区二区三区 | 成人毛片在线播放| 免费国产好深啊好涨好硬视频| 狠狠躁天天躁夜夜躁婷婷| 欧美啪啪网| 国产鲁鲁视频在线观看| 亚洲妓女综合网995久久| 日本午夜在线视频| 国产成人夜色91| 中文字幕久久波多野结衣| 在线免费亚洲无码视频| 国产精品无码作爱| 五月天久久综合国产一区二区| 午夜一级做a爰片久久毛片| 一区二区三区精品视频在线观看| 欧美性猛交一区二区三区| 亚洲精选高清无码| 狠狠五月天中文字幕| 久久精品国产精品国产一区| 在线亚洲小视频| 最新国产麻豆aⅴ精品无| 国产精品久久久久无码网站| 国产香蕉国产精品偷在线观看| 国产欧美日韩资源在线观看| 好紧好深好大乳无码中文字幕| 国产av剧情无码精品色午夜| 国产精品毛片一区| 亚洲综合亚洲国产尤物| 亚洲一区二区三区香蕉| 欧美视频在线播放观看免费福利资源| 日日拍夜夜嗷嗷叫国产| 女人一级毛片| 欧美精品xx| 国产在线视频二区| 欧美精品H在线播放| 日本高清成本人视频一区|