999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RandomForest與SVM算法的流量識別系統

2019-12-13 07:22:50王璐
數字技術與應用 2019年9期

摘要:隨著互聯網的飛速發展,根據網絡流量識別網絡業務的類型,逐漸成為網絡技術研究的重要課題。本文將SVM和Random Forest算法應用于流量識別系統的機器學習過程中,首先通過Random Forest算法對采集的數據特征信息進行分析選擇,提取出在SVM算法中用來識別流量類型的8個主要特征,進而對數據進行預處理、訓練學習,最終完成網絡流量的分類識別。通過實驗驗證,該系統對流量識別準確率達96.7%,對當前的互聯網應用的數據流量具有較高的識別準確率。

關鍵詞:SVM;Random Forest;隨機森林;流量識別;支持向量機

中圖分類號:TP393 文獻標識碼:A 文章編號:1007-9416(2019)09-0117-03

0 引言

互聯網的發展導致了網絡業務的種類多種多樣,通過流量識別技術去識別網絡業務在網絡監控管理、用戶行為分析、網絡信息安全等方面有著非常重大的意義。

在當前的網絡環境下,基于端口識別的流量識別方法因為網絡隱藏技術的出現已經逐漸失效[1],基于DPI的業務識別技術由于依賴于人工對知識特征庫的維護也大大降低了業務識別系統的準確率與有效性[2],相當部分企業已經逐漸開始實踐基于機器學習的業務識別系統,因為基于機器學習的網絡流量識別方法表現出了較高的準確率,因此也得到越來越多研究者的關注[3-4]。

基于機器學習的流量識別方法就是在生成一個分類器的基礎上,利用訓練的樣本數據先創建一個分類的模型,然后對未知的流量數據進行分類,通過相似性并根據流量的其他特征信息將網絡流量劃分成不同的聚類。當前的機器學習方法之一貝葉斯法,依賴于樣本數據的分布,分類準確性取決于特性和冗余度,而另一種方法神經網絡法存在過度擬合和計算量大、復雜的問題。但是另一種SVM方法可以有效減少樣本分布,只對某些相關性能存在依賴,因此可以降低冗余度,避免過度擬合現象的發生。

本文的數據來源于測試用戶在使用Whatsapp手機軟件產生的流量數據,數據特征表現為高維度數據,且數據分布不均。目前針對高維數據的特征簡化方案主要分為特征提取與特征選擇,由于特征提取方法在簡化特征的同時也丟失了原始特征的物理意義,因此采用特征選擇的方法對原始數據特征進行降維。研究證明,Random Forest算法在特征選擇過程中取得了較好的成果[5]。

基于以上觀點,以及數據樣本的高維及分布不均特性,本文提出一種基于Random Forest與SVM算法的流量識別系統,與傳統的流量識別系統相比,能夠對數據特征進行選擇簡化,大大減少了特征值模塊進行特征匹配的工作量,也提升了業務識別的準確率。

1 基本概念

1.1 隨機森林技術(Random Forest)

在機器學習中,隨機森林是一個包含多個決策樹的分類器,其輸出的類別是由個別樹輸出的類別的眾數而定。隨機森林法是可以用來解決很多實際問題的一種數學方法,尤其在處理大數據和分類問題時性能優越[6]。

對于傳統的隨機森林分類器模型,決策樹的每個節點分裂時,從全部屬性中等概率隨機抽取屬性子集,選擇一個最優屬性將該節點的樣本分裂至左孩子節點和右孩子節點[7]。常用信息熵計算信息增益,采用信息增益度量每個屬性劃分的純度,從而選擇最優分裂屬性。隨機森林的訓練停止的條件就是訓練樣本已分裂至樹的最大層數,或信息增益低于設定值,或訓練樣本的數目少于設定值。

1.2 支持向量機技術(SVM)

支持向量機(Support Vector Machine)是由VAPNIK與其領導的貝爾實驗室的研究小組開發的一種新的機器學習技術[8]。支持向量機SVM算法支持線性分類和非線性分類的分類應用。相關概念如下:

(1)線性可分:在數據集中,如果可以找出一個超平面,將兩組數據分開,那么這個數據集叫做線性可分數據。(2)線性不可分:在數據集中,沒法找出一個超平面,能夠將兩組數據分開,那么這個數據集就叫做線性不可分數據。(3)分割超平面:將數據集分割開來的直線/平面叫做分割超平面。(4)間隔:數據點到分割超平面的距離稱為間隔。(5)支持向量:離分割超平面最近的那些點叫做支持向量。

本文使用的SVM方法是從線性可分情況下的最優分類超平面提出的,其基本思想為:首先通過非線性變換將輸入空間變換到一個高維空間,然后在這個新空間中求取最優線性分類超平面。

線性可分的支持向量機的特點如圖1所示。SVM對不平衡本身并不十分敏感,SVM的超平面只與支持向量有關,因此原離決策超平面的數據的多少并不重要。

使用SVM算法對一個數據點進行分類,當超平面離數據點的“間隔”越大,分類的確信度也越大。所以,為了使得分類的確信度盡量高,需要讓所選擇的超平面能夠最大化這個“間隔”值。這個間隔就是Gap的一半,如圖1所示。

2 基于Random Forest與SVM算法的流量識別系統

本文首先通過流量特征提取模塊,提取適合在支持向量機中識別的網絡流量的8個主要特征,接著對數據進行清洗和預處理,通過對數據進行訓練和學習,從而實現整個基于Random Forest與SVM算法的流量識別系統。

2.1 流量識別基本流程

流量識別系統的處理流程如圖2所示。第一步,使用Wireshark工具進行用戶使用APP的流量數據采集;第二步,對采集到的原始數據進行處理,區分數據的初始維度和初始類型;第三步,使用隨機森林的算法構建特征提取模塊,對流量數據進行特征選擇;第四步,將特征選擇后的數據使用SVM算法構建的流量分類識別模塊進行分類;第五步,形成訓練樣本后對數據進行分類;第六步,使用剩余數據進行測試。

2.2 流量識別系統架構

系統的基本功能構建于對采集的流量統計特征信息進行整理,剔除冗余數據,并將其轉換為特征向量形式,采用支持向量機的方法將其交給SVM進行訓練,訓練后得到一組支持向量,即今后的預測模型。將預測模型與預處理過的待預測特征向量數據共同代入SVM的決策函數中,從而判別出該網絡流量的類型,如圖3所示。

3 實驗過程

3.1 實驗目的

通過對Whatsapp應用中會話的上下行流量,上下行包數,上下行包流量, 會話時間等維度分析,通過基于Random Forest與SVM算法的流量識別系統實現Whatsapp流量數據中的視頻、語音、一般類型(如消息)等流量類型的識別區分。

3.2 實驗數據準備與處理

使用Wireshark工具獲取到經過Whatsapp的樣本數據如表1所示。

樣本數據的原始特征維度包含:(源端口,目的端口,開始時間,上行流量,下行流量,上行包數,下行包數,上行平均包流量,下行平均包流量,會話時間,平均包數,平均包間隔)。經過分析,由于源端口、目的端口,開始時間,結束時間跟Whatsapp程序密切相關,故不作為統計維度。

最終選取九個維度的特征進行隨機森林分析,分別為:(上行流量,下行流量,上行包數,下行包數,上行平均流量,下行平均流量,回話時間,平均包數,平均包間隔)。

3.3 實驗過程

對流量數據的9個特征維度,使用隨機森林的算法,得到每個維度的信息熵如表2所示。

根據隨機森林特征選擇結果可以看出,會話時間所包含的信息熵值最小,因此只選取(上行流量,下行流量,上行包數,下行包數,上行平均包流量,下行平均包流量,平均包數,平均包間隔)這8個數據維度進行SVM算法分析。

由于訓練數據樣本包含3種類型的數據,且數據樣本分布不均勻,其中語音類型數據包含最多,為2005條,是視頻類數據的5倍多,樣本數據不均衡,根據這一的樣本分布特性,使用SVM算法進行分類。

3.4 實驗結果

本次實驗使用的2918條數據,其中80%用于模型訓練,20%用于分類驗證測試,測試輸入584條數據,系統正確識別類型,共命中正確類型566條,流量類型識別正確率達96.7%,結果矩陣如圖4所示。

4 結語

本文將隨機森林與支持向量機應用于網絡流量類型的識別檢測,構建了一種基于Random Forest與SVM算法的流量識別系統,從數據包捕獲、預處理、特征選擇,識別、學習和訓練等流程進行了系統功能的介紹,并且最終證明,此流量識別系統對流量分類具有較高的識別率,說明采用隨機森林以及支持向量機對流量識別是十分有效的。

參考文獻

[1] 彭立志.基于機器學習的流量識別關鍵技術研究[D].哈爾濱工業大學,2015.

[2] 王璐.基于DPI及人工智能的業務識別系統的分析研究[J].無線互聯通信,2019,16(8):30-33.

[3] ZAREI R,MONEMI A,MARSONO M N.Automated dataset generation for training per-to-per machine learning classifiers[J]. Journal of Network and Systems Management,2015,23(1):89-110.

[4] NGUYEN T,ARMITAGE G,BRANCH Petal.Timely and continuous machine-learning-based classification for interactive IP traffic[J].IEEE/ACM Transactions on Networking (TON),2012,20(6):1880-1894.

[5] 朱玨鈺,曹亞微,周書仁,等.基于隨森林深度特征選擇的人體姿態估計[J].計算機工程與應用,2017,53(2):172-176.

[6] Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32.

[7] 馬娟娟.基于改進Grassberger熵隨機森林分類起的目標檢測[J].中國激光,2019,46(7):1-9.

[8] BOSERBE,GUYONIM,VAPNIKVN. A training algorithm for optimal margin classifiers [C]//Proceedings of the 5th Annual ACM Workshop on Computational,NY,1992:144-152.

Abstract:With the rapid development of the Internet, identifying the types of network services according to network traffic has gradually become an important topic of network technology research. In this paper, SVM and Random Forest algorithm are applied to the machine learning process of traffic identification system. Firstly, Random Forest algorithm is used to analyze and select the characteristic information of the collected data. Eight main features used to identify traffic types in SVM algorithm are extracted, and then the data are preprocessed, trained and learned. Finally, the classification and identification of network traffic is completed. The experimental results show that the accuracy of traffic identification reaches 96.7%, and the system has a high accuracy of data traffic identification for current Internet applications.

Key words:SVM; Random Forest; Random Forest; Flow Recognition; Support Vector Machine

主站蜘蛛池模板: 国产一区二区网站| 久久免费精品琪琪| 欧美a在线看| 欧美亚洲日韩中文| 亚洲天堂视频在线免费观看| 亚洲国产中文欧美在线人成大黄瓜 | 国产屁屁影院| 亚洲AV无码一二区三区在线播放| 国产午夜不卡| 真实国产乱子伦视频| 日韩 欧美 国产 精品 综合| 91精品亚洲| 熟妇丰满人妻| 亚洲人成在线免费观看| av一区二区三区高清久久| 亚洲精品自拍区在线观看| 国产精品jizz在线观看软件| 日韩在线1| 成人在线亚洲| 无码一区中文字幕| 精品视频在线观看你懂的一区| 日韩精品一区二区三区免费| 久久77777| 亚洲成人精品在线| 国产欧美在线视频免费| 国产福利在线免费| 99视频在线观看免费| 国产成人久久综合一区| 手机永久AV在线播放| 久久久久免费精品国产| 91精品日韩人妻无码久久| 亚洲精品爱草草视频在线| 57pao国产成视频免费播放| 亚洲成人www| 精品国产一二三区| 国产香蕉国产精品偷在线观看| 99精品这里只有精品高清视频| 91久久国产综合精品女同我| 色婷婷在线播放| swag国产精品| 91无码视频在线观看| 欧美黄网在线| 国产精品hd在线播放| 欧美在线黄| www.99精品视频在线播放| 1级黄色毛片| 成年人视频一区二区| 狠狠色综合久久狠狠色综合| 99热亚洲精品6码| 亚洲第一色视频| 日本在线视频免费| AV不卡国产在线观看| 激情综合婷婷丁香五月尤物| 免费不卡视频| 免费国产好深啊好涨好硬视频| 99在线视频免费| 亚洲天堂视频在线观看| 人妻丰满熟妇αv无码| 毛片免费试看| m男亚洲一区中文字幕| 中文字幕天无码久久精品视频免费| 国产亚洲视频免费播放| 丰满的熟女一区二区三区l| 国产午夜福利片在线观看| 国产菊爆视频在线观看| 国产精品成人久久| 欧美日韩中文字幕在线| 国产区成人精品视频| 免费AV在线播放观看18禁强制| 波多野结衣一区二区三区四区视频| 国产手机在线小视频免费观看| 婷婷99视频精品全部在线观看| 国产无码高清视频不卡| 亚洲VA中文字幕| 国产麻豆福利av在线播放| 波多野结衣一区二区三区88| 国产精品嫩草影院av| 综合色区亚洲熟妇在线| 欧美国产综合视频| 国产玖玖视频| 狠狠色综合网| 亚洲欧美一区二区三区蜜芽|