999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于表征學習的網絡游戲流量識別①

2022-01-05 10:11:34徐星晨
計算機系統應用 2021年12期
關鍵詞:分類游戲模型

徐星晨, 張 俊,2, 年 梅

1(新疆師范大學 計算機科學技術學院, 烏魯木齊 830054)

2(中國科學院 新疆理化技術研究所, 烏魯木齊 830011)

1 引言

網絡流量應用識別是指對網絡中的混合流量按照應用協議進行識別. 網絡流量應用識別既是高性能網絡協議設計的基礎, 又是網絡運營管理、網絡發展規劃的依據, 也是網絡攻擊與惡意代碼檢測的重要手段[1].當前高校部分學生沉迷于網絡游戲, 玩游戲既占用了校園網資源也影響了學生的學習, 校園網資源的精細化管理需要掌握校園網游戲使用狀況以及占用的網絡資源比率, 由此進行網絡資源調控. 為此, 需要對校園網流量中的游戲進行識別, 準確獲取其占用的帶寬狀況、學生花費的時間等, 然后針對性地對校園網資源進行配置, 對玩游戲的學生進行預警.

近年來, 流量分類的研究經過不斷地發展, 從最初基于端口、基于特征匹配、基于主機行為的流量分類方法發展到基于機器學習技術的流量分類方法.

隨著流媒體、P2P 等網絡通信協議的發展, 動態協商端口與端口偽裝技術的應用, 基于端口的識別方法已逐漸失效. 為保護網絡通信的安全, 很多網絡應用釆用加密協議或協議格式未公開的私有協議進行數據通, 從而導致基于特征匹配方法的識別精度日益下滑.基于主機行為的方法并不能很好的識別未知協議與加密協議的網絡流量的應用類型.

隨著網絡應用種類越來越多, 基于機器學習技術的流量分類方法逐漸成為主流. 機器學習的流量識別模型訓練依賴標注數據集, 目前網絡流量分類重點是視頻流量、P2P流量、異常流量、加密流量的識別,而網絡游戲流量的識別并沒有引起傳統學術界和產業界的關注, 研究成果非常少, 并且缺少公開網絡游戲流量標準數據集.

目前存在的問題是標注數據集的缺乏與游戲流量研究在教育領域的重要性與實際研究領域對游戲流量不重視所產生的矛盾, 對于多種類細粒度的游戲流量數據集構建以及識別研究存在著新的挑戰. 針對游戲流量數據集的標記構建存在的難題, 本文首次提出采用基于端口映射關系的游戲流量數據集標注方法, 對公開數據集進行擴充, 并以NPY的文件形式進行存儲以減少數據集內存占用、提高模型的讀取效率. 其次將擴充后的數據集應用到Wang等人[2]提出的一種端到端的流量識別模型中, 采用Keras模塊對其代碼進行重構, 并對一維卷積神經網絡進行參數調優, 通過卷積神經網絡構造特征空間, 自主提取特征, 最后通過實驗對比本文擴充后的數據集與原公開數據集在同一模型結構下的識別效果, 以評估基于端口策略的游戲流量樣本擴充方法的可行性與效果.

2 相關工作

流量識別的應用多采用基于規則的識別方法, 該方法相對成熟, 主流研究者主要研究如何準確地提取匹配規則. 而基于機器學習的流量識別方法是目前學術界研究較多的內容, 主要研究如何選擇更好的特征集來對識別效果進行優化改進.

目前, 研究人員逐漸關注深度學習方法在流量識別領域的應用, 基于表征學習的流量分類方法的研究也在流量識別領域初露頭角. 深度學習通過訓練多個單層特征圖構建非線性網絡, 根據訓練出來卷積核的權重參數組構成底層特征的抽象表示, 從而發現數據的本質特征以達到識別的作用. 王勇等人[3]提出一種基于卷積神經網絡的流量分類算法, 分別采用公開數據集和私有數據集進行測試, 通過學習空間特征避免了傳統分類方法中的特征的人工篩選, 提高了流量分類的精確率, 減少了分類使用的時間, 但該方法并未涉及對加密流量的分類識別. Gao等人[4]提出了一種使用深度信念網絡DBN的惡意流量分類方法, Javaid等人[5]提出了一種使用稀疏自編碼器SAE的惡意流量分類方法. 但是他們放棄了深度學習能夠從原始數據中直接學習特征的優點, 而是對處理后的流特征數據集進行了學習, 表征學習的方法在圖像、語音領域的識別效果都充分說明了該方法的優越性. 對此Wang等人[2]提出了一種基于端到端的加密流量識別方法, 取得了很好的效果, 而流量分類與協議識別在任務內容上是很相近的. 基于此, 文獻[6]提出采用Deep Packet框架對流量進行識別, 通過嵌入堆疊的自動編碼器和卷積神經網絡, 將網絡流量分為主要類別(例如FTP和P2P)和應用程序標識, 在ISCX VPN-nonVPN數據集上的性能較好, 但對于數據的預處理和模型參數的選擇等方面論述得不夠清晰.

綜上所述, 本文提出一種基于端口映射的流量標注方法對公開流量數據集進行擴充, 在擴充游戲流量數據集的基礎上提出基于表征學習方法對網絡游戲流量進行識別, 并采用CNN模型, 直接在原始流量數據上嘗試進行流量分類, 通過對比同一模型在數據集擴充前后的分類效果驗證數據集擴充的合理性, 驗證了標注的準確性和數據集擴充的可行性, 論證了表征學習方法在游戲流量識別方面的可行性.

3 基于表征學習的游戲流量識別

鑒于機器學習的流量識別性能依賴于數據集的標注, 公開數據集中缺乏游戲流量數據, 本文提出了基于端口映射的游戲流量數據集標注方法.

3.1 方法概述

研究發現, 網絡游戲流量數據依賴于應用層的進程端口號進行數據接收與發送, 但是游戲傳輸中端口號存在動態性、隨機性, 難以人工識別, 無法給出游戲流量的準確高效的標注, 導致公開數據集中缺乏游戲流量樣本. 鑒于此, 本文提出俘獲網絡游戲流量的同時監控對應網絡游戲的端口使用情況, 記錄每個時段下的游戲進程端口的使用數據, 形成俘獲日志. 利用日志信息編寫了用于分析整合日志的相關程序, 能夠根據游戲進程端口號的使用情況對已俘獲的網絡流量數據進行清洗, 以此得到網絡游戲流量的原數據包.

本文采用的數據集標注方法分為3個階段: 數據采集、數據預處理、數據集構建.

數據采集: 使用Tcpdump、Wireshark等抓包工具收集游戲通信過程中的網絡流量, 同時游戲進程通信使用的端口將記錄在日志中, 為游戲流量的過濾以及數據清洗做準備.

數據預處理: 根據進程端口日志清洗俘獲的流量數據集, 去除與研究無關的流量數據, 并將清洗完成的流量數據集按照游戲類型添加標注信息, 對俘獲的網絡游戲流量與公開數據集原始流量進行流重組與切分、歸一化處理為數據集構建做準備.

數據集構建: 采用本文完成開發的流量數據集構建程序對完成預處理的原始流量進行數據集構建, 將原始網絡流量轉化成符合卷積神經網絡輸入的數據集格式.

3.2 數據預處理

為實現從俘獲的網絡流量中提取出網絡流, 并將網絡流轉換成符合卷積神經網絡輸入的格式, 本文將數據預處理可以細分為3個子步驟: 數據清洗、流重組與切分、數據歸一化.

3.2.1 數據清洗

將獲取的游戲通信過程日志作為輸入至編寫分析程序中, 利用日志中信息獲取對應的游戲進程在每個時間段分別占用了哪些端口號. 先根據端口號信息對原始流量數據進行初次過濾, 再根據時間信息結合端口號的使用情況對流量數據進行二次過濾, 完成對網絡游戲流量數據的清洗, 具體流程如圖1所示.

圖1 數據清洗流程圖

3.2.2 流重組與切分

本文處理的網絡游戲流量數據, 存在完整的TCP連接與UDP交互. 所以本文根據流量信息中的五元組匹配原則進行流的重組與切分. 對于TCP流, 利用TCP首部的序列號和標識將到達的數據包重新整合為一條有序流[7]. 對于UDP流, 根據數據包的發送時間確定UDP流的開始和結束, 在規定時間內未捕獲流的下一個數據包認為這條流結束, 而后將指定時間窗口內的UDP數據包按照捕獲的先后順序進行拼接.

在提取出網絡流信息之后, 需要進行流切分以得到大小相同的流數據用于卷積神經網絡的訓練. 本文選取網絡流前部的一段固定長度的數據作為流量識別的依據, 一方面可以確保利用應用層的首部信息識別應用, 另一方面, 已有實驗證明數據載荷中的前部分的數據往往更能夠體現應用層協議的特征. 針對卷積神經網絡要求輸入數據格式相同的要求, 本文參考陳雪嬌等人[8]、馮文博等人[9]、 Wang[10]的實驗, 采用每條網絡流前784字節的數據作為判別依據.

3.2.3 數據歸一化

由于俘獲的網絡流量數據的字節取值范圍較大,用于數值求解和模型訓練會導致計算復雜度較大等問題, 為了便于卷積神經網絡的分析處理, 需要將協議數據歸一化. 歸一化的具體步驟如下:

首先, 構造n個長度為784字節的一維向量x, 即xi=[xi1,xi2,xi3,···,xij], 其中i代表n個一維向量中的第i個向量,j代表第i個向量中的第j個元素. 然后將每個流量樣本中字節對應的十進制數值賦給向量中的每個分量, 在十進制轉化后x中的每個元素范圍是[0,255], 為提高模型的計算效率、讓流量向量數據取值分布更加緊湊, 需要對x中每個分量的數值進行歸一化處理. 在本文中將每個分量的數值除以255, 使分量的取值統一到[0, 1)區間, 構建數據集矩陣M:

該歸一化方法能讓不同協議數據處于同一個數量級以用于對比, 提高模型的學習能力的同時降低了模型的計算復雜度.

由于卷積神經網絡的輸入通常是二維矩陣, 還需要將向量x轉化為具有圖像特征的二維矩陣. 本文將每個x中的元素按照順序構建成28×28的二維矩陣X:

3.3 數據集構建

根據清洗完成留下的標注信息對網絡流進行標注,并擴充于公開的網絡流量數據集中, 用于卷積神經網絡的訓練.

Wang[10]提出了一種直接使用原始流量數據的基于棧式自編碼器SAE的網絡協議識別方法, 取得了很好的效果, 而流量分類與協議識別在任務內容上是很相近的. 表征學習方法的優勢是能夠直接從原始數據中自動學習特征, 其在圖像分類和語音識別領域的成功應用都充分說明了這一點, 所以本文采用了表征學習的方法進行流量分類.

為最優化表征學習的效果, 本文采用了端到端的方式進行數據集構建, 以保證擅長圖像分類任務的CNN能夠直接在原始流量數據上進行游戲流量分類. 為保證數據集的可靠性, 減少私有數據集對結果可信度的影響, 鑒于存在細粒度分類并具有完整標注的公開流量數據集不多且大部分都是加密與安全相關的網絡流量,而Wang提出的端到端的流量識別方法基于ISCXVPN 2016數據集, 所以本文選用ISCXVPN 2016數據集[11]作為基礎流量, 鑒于ISCXVPN2016存在VPN流量和實際流量相差太大, 所以在本文僅采用了ISCXVPN 2016中non-VPN部分的標記流量, 避免其與實際流量相差太大的問題.

該數據集包含有兩部分, 分別是基于VPN會話的應用流量和無VPN下的應用流量, 包含有完成標記的網頁瀏覽(Browsing)、電子郵件(Email)、網絡聊天(Chat)、語音通訊(VoIP)、多媒體流(Streaming)、文件傳輸(File transfer)、點對點(TraP2P)流量數據. 但是該數據集中的網頁瀏覽流量標記存在問題, 例如“Facebook_video.pcap”, 可以標記為作為“Browsing”也可以標記為“Streaming”, 故在文獻[10]的端到端識別中對網頁瀏覽流量進行了剔除, 在本文實驗中也考慮到在目前的網絡游戲中端游占較大比重, 而端游的游戲客戶端相當于一個小型網絡瀏覽器, 如果將網絡瀏覽依舊作為標記流量參與實驗的話會導致粗粒度分類與細粒度分類并存而影響到網絡游戲流量的準確識別,所以本文將該類流量也進行了剔除.

將公開數據集中的原始流量數據完成重組與切分、歸一化操作后, 與采集并完成預處理的游戲流量數據進行合并, 構建成能夠應用于本文神經網絡訓練的流量數據集, 經過擴展后由原數據集22 976個樣本擴充為25 906個樣本, 其中包含有穿越火線、爐石傳說、英雄聯盟、CSGO等游戲流量, 數據來源為新疆師范大學數據安全實驗室與研究生實驗室, 于2020年10月至12月進行俘獲, 為保證數據時間分布合理, 俘獲時間為每月中的周末10點至15點. 在去除IP、MAC等冗余數據后, 本文對游戲流量數據進行可視化發現,在校園網絡環境下的不同區域內俘獲的游戲流量存在一致性, 因此該游戲流量數據集能夠代表整體特征.

隨機選取流重組、切分和歸一化之后的可視化結果如圖2所示, 大小為784字節. 顯然, 不同類別的流量具有明顯的區分度, 并且各個類別的流量具有較高的一致性.

在經典的MNIST手寫體識別數據集中圖像文件也采用的是28×28×1的像素值, 與之不同的是為保證學習模型能夠從原始流量中進行特征學習和提高模型識別效率, 本文將構建完成的流量圖片數據集的像素信息存儲到了NPY文件中以用于模型的訓練, 不僅保留了圖片所包含的特征信息、縮減了數據集占用的內存空間, 還選用了適配神經網絡的NPY文件, 提高了模型訓練時讀取數據集的時間效率.

3.4 表征學習模型構建

鑒于數據預處理時的圖片尺寸與MNIST相同, 經實驗證明LeNet-5[12]的CNN模型, 如圖3所示, 對MNIST數據集的分識別準確度可達99.2%, 因此本文將采用了類似LeNet-5的CNN結構, 如圖3所示.

圖3 兩種維度下的模型結構

為研究輸入數據集結構不同, 是否會對構建的表征學習模型帶來結果的差異性, 本文在實驗中分別輸入784×1與28×28的圖像矩陣進行了對比試驗, 如具體模型參數如表1所示.

表1 一維卷積神經網絡主要參數

在該模型的最后兩個全連接層中, 將數據尺寸依次轉換為1024和7, 前者采用ReLU作為激活函數, 并通過添加扁平層將輸入數據拉伸成一位數據, 后者采用Softmax作為激活函數, 輸出各類概率值. 為減少過擬合, 在輸出層之前均采用了dropout進行隨機失活,前者為0.25, 后者為0.4, 本文在六分類、七分類兩種實驗中都使用了上述同一種結構.

4 實驗設計與結果分析

本文通過實驗對比在相同模型結構下公開數據集與完成擴充的網絡游戲流量數據集的查準率、查全率、準確率和F-Measure(F1)值的變化, 分析本文模型的可用性, 并將游戲流量與其他應用流量進行分類效果對比, 驗證本文構建數據集的可靠性.

4.1 評價指標

目前, 流量識別模型主要采用準確性相關指標來進行評估, 為了滿足不斷提高的流量分析要求, 參考文獻[13]提出的技術評價指標, 本文在準確性的基礎上從模型的完整性和未識別率等方面全面地評估流量識別模型在擴充前后數據集中的效果, 進行了更加客觀公正的結果對比. 下面詳細介紹實驗對比中采用的評估指標.

準確性是反映流量識別技術識別網絡應用的能力.假設N為流量樣本總數,m為待識別的應用類型數,nij表示實際類型為i的流量樣本被標記為類型為j的樣本數. 真正(True Positive,TP)代表實際類型為i的樣本中被正確標記的樣本數, 即TPij=nii; 假正(False Positive,FP)代表實際類型為非i的樣本中被錯誤標記的樣本數, 即FPi=nji,j≠i. 查準率定義為:

假負(False Negative,FN)代表實際類型為i的樣本中被誤標識為其他類型的樣本數,. 真負(True Negative,TN)代表實際類型為非i的樣本中被標識為非i的樣本數,TNi=njj. 查全率定義為:

查準率和查全率體現了識別方法在每個單獨協議類別上的識別效果. 特別是當樣本類別分布不均勻時,查全率和查準率可以準確獲知每個類別的分類情況.準確率體現了識別方法的總體識別性能, 好的算法應該同時具有較高的準確率、查準率和查全率. 準確率定義為:

F-Measure是綜合查準率和查全率得到的評價指標,F-Measure越高表明算法在各個類型的分類性能越好.

4.2 實驗設計

本文實驗將隨機選取數據集的75%用于識別模型的訓練, 剩余25%的數據集用于分類模型的測試.實驗平臺方面, 選用的軟件框架是TensorFlow[14]. 優化算法采用隨機梯度下降算法, 并啟用Nesterov Momentum算法更新反向梯度, 其中Momentum為0.9, 損失函數為交叉熵函數, 學習速率0.01, 學習速率的衰減系數為0.0001, 訓練回合數約為25 epochs.

在采用不同的數據維度進行實驗中, 我們發現基于表征學習的識別模型在一維數據下的表現優于二維,實驗結果見圖4.

從圖4(a)、圖4(b)對比中可以發現, 不同網絡層數對最終識別率有著不同的影響, 相比二維的卷積網絡, 一維卷積神經網絡的表征學習識別模型在準確率與宏平均查準率、查全率和F-Measure值上均有優勢,所以本文針對基于一維卷積神經網絡的表征學習識別模型進行細粒度的結果分析.

圖4 不同輸入維度對識別效果的影響

4.3 結果分析

在實驗中, 本文將構建的數據集和公開網絡流量數據集分別應用于識別模型中進行了實驗, 實驗結果見圖5和圖6.

圖5 模型的識別準確率與宏平均查準率、查全率和F-Measure值

圖5表示識別模型在擴充前后的兩個數據集中的總體識別效果. 根據數據集擴充前后模型識別率對比,可以看出: 通過對公開數據集的合理擴充, 有效提高了模型的識別準確率, 在原來基礎上提高了5%, 除了準確率得到提高外, 宏平均查準率、查全率和F-Measure值的數據對比也證實了數據集的擴充同樣優化了模型其他應用流的識別精度. 圖6中全方位展示了擴充前后的數據集在識別模型中查準率、查全率和F-Measure值的變化. 從中也可以看出與總體精度相同的比較結果. 從綜合評價指標F-Measure值的對比中可以看出,同一模型在擴充前后數據集上的識別中在原始流的分類結果幾乎持平, 部分流的識別精度得到有效提升, 游戲流量識別準確率達到了92%, 召回率達到92%, 已經

圖6 識別模型的類查準率、類查全率、類F-Measure值

與其他流量的識別精度相持平, 可見基于表征學習的網絡游戲流量識別是可行的, 并取得的較好的效果. 通過在學生宿舍以及實驗室等實際場景中部署流量監控進行驗證, 游戲流量查準率可達到88%, 所以本文所提出的基于表征學習的網絡流量識別方法在網絡游戲流量監控方面具有有效性.

在實驗結果中我們也發現由于Email不存在大量字段負載信息, 所以在表征學習模型下的識別效果仍不是很理想. 在之后的流量分類實驗中針對這類存在明顯端口特征的流量, 我們可以集成使用基于端口的流量識別方法以提高該類流量的分類效果. 盡管如此,擴充后的數據集對模型Email的識別率依舊有著不小的提升, 可以看出本文提出的基于端口映射的數據集擴充是成功的.

5 結束語

本文在傳統流量分類的基礎上嘗試將表征學習的方法應用于游戲流量的識別研究, 并通過采集各類游戲流量, 同時利用通信日志文件中建立的各類游戲與進程端口的映射關系, 基于該映射關系對游戲流量進行過濾標記, 大幅提高游戲流量標注的工作效率, 降低擴展公開數據集的專業難度; 采用深度學習中的表征學習模型, 這種模型不需要預先提取流量特征, 而是直接把原始流量視為數據輸入, 讓表征學習模型自動學習流量特征并執行分類, 成功避免傳統機器學習算法中流量標注以及流量分類模型對特征選擇的依賴, 并針對不同維度的輸入數據對識別模型的影響進行了研究, 也解決了網絡游戲流量數據集匱乏的問題. 在后續的研究中, 將從以下兩個方面進行改進: 一是將表征學習與機器學習算法相融合, 在減少學習模型對特征提取依賴的同時提高模型的識別效果; 二是結合無監督學習方法, 提高模型在面對未知流量情況下的識別能力.

猜你喜歡
分類游戲模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
數獨游戲
瘋狂的游戲
飛碟探索(2016年11期)2016-11-14 19:34:47
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲成在人线av品善网好看| 一本综合久久| 有专无码视频| 亚洲色图另类| 国内精品久久九九国产精品| 91精品小视频| 国产97视频在线观看| 成年A级毛片| 亚洲精品国产精品乱码不卞| 亚洲 日韩 激情 无码 中出| 亚洲人成电影在线播放| 国产成年女人特黄特色毛片免 | 欧美在线网| 中文字幕调教一区二区视频| 老司机午夜精品视频你懂的| 日本一区高清| 香蕉网久久| 成人免费黄色小视频| 在线播放国产一区| 午夜不卡视频| 国产欧美日本在线观看| 一本大道视频精品人妻| 97国产精品视频自在拍| 成人中文字幕在线| 欧美日韩另类国产| 亚洲男人的天堂久久精品| 欧美福利在线观看| 国产91特黄特色A级毛片| 在线观看国产精美视频| 欧美亚洲网| 久久精品无码一区二区国产区| 色综合激情网| 日本精品一在线观看视频| 国产精品视频3p| 婷婷色婷婷| 亚洲视频免费播放| 99热国产这里只有精品无卡顿"| 极品国产一区二区三区| 国产成人精品一区二区免费看京| 国产在线专区| 国产欧美在线观看精品一区污| 日韩天堂在线观看| 激情成人综合网| 日本精品影院| 国产一区二区丝袜高跟鞋| 青青青伊人色综合久久| 欧美国产日本高清不卡| 亚洲成人免费在线| 久爱午夜精品免费视频| 四虎在线高清无码| 亚洲精品老司机| 在线看片免费人成视久网下载 | 中文字幕1区2区| 亚洲系列无码专区偷窥无码| 久久这里只精品国产99热8| 亚洲第一页在线观看| 欧美日韩国产在线播放| 国产精品无码一区二区桃花视频| 99精品这里只有精品高清视频| 成人国产免费| 精品超清无码视频在线观看| 欧美视频在线播放观看免费福利资源| 欧美成人午夜视频免看| 她的性爱视频| 91破解版在线亚洲| 久久精品aⅴ无码中文字幕| 国产成人亚洲欧美激情| 三级视频中文字幕| 亚洲天堂在线免费| 99久久性生片| 亚洲人成人伊人成综合网无码| 国产成人a毛片在线| 三区在线视频| 亚洲综合一区国产精品| 亚洲成人动漫在线观看| 国产91视频观看| 无码AV高清毛片中国一级毛片| 亚洲AV无码一区二区三区牲色| 在线观看亚洲人成网站| 在线免费无码视频| 欧美精品在线看| 亚洲国产一区在线观看|