999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于云計算平臺的網絡流量分類系統模型

2019-08-07 06:15:30孔德艷
網絡安全技術與應用 2019年8期
關鍵詞:分類特征模型

◆孔德艷 陳 磊

(深圳華威世紀科技股份有限公司 廣東 518029)

互聯網作為當前信息化發展的核心力量,與傳統工業、電子商務、金融業等服務業全面融合,已成為推動經濟發展的核心力量。隨之而來的網絡應用多樣性與網絡信息規模的爆炸性增長,特別是其海量、多源、異構的網絡數據給網絡資源與流量的監控帶來了前所未有的挑戰。如何保證互聯網絡的有序、安全,實現高效的網絡管理與網絡控制,已成為各界的研究熱點。

網絡流量分類0是指按照網絡的應用類型(如FTP, P2P,WWW等),將基于TCP/IP協議的網絡通信雙向TCP/UDP流進行分類。準確地識別網絡流量信息并進行精細化的管理,是實現有效流量監控、網絡優化、態勢分析和安全檢測的重要基礎。Spark是基于內存的新一代并行計算框架,其在計算性能方面較MapReduce有更為出色的表現。本文綜合考慮新形勢下網絡流量分類及特征選擇所面臨的問題,通過構建基于大數據處理的網絡流量分類系統模型,為當前海量數據的處理提供整體思路。

1 相關工作

1.1 網絡流量分類研究現狀

模式匹配與機器學習均是當前較為常見的流量分類方法,前者實現較為簡單,但應用范圍有限;后者通過將流量分類過程抽象為各類機器學習場景,在具備較高準確率的同時提高了方法的適用范圍。模式匹配即針對待分類流量的相關參數,如端口號、特征字段等信息,通過與已知的參數進行對比,從而確定其類別。由于各類模式匹配方法處理流量時具有較大的局限性,因此難以進行規范化的推廣使用。機器學習分類方法將網絡流中的共性特征—流特征作為研究對象,通過對其進行統計分析,不同類型的流量被統一整理為流統計信息,再通過機器學習算法進行分類識別,極大提高了適用范圍。同時借助機器學習算法的不斷進步,此種分類方法的準確率也不斷提高。

1.2 網絡流量分類與特征選擇的并行化研究

新型網絡應用與大規模復雜網絡的不斷涌現,網絡數據量已從TB級上升到PB級,并繼續處于高速增長中。由此,網絡流量特征選擇不斷面臨新的挑戰,在考慮方法的準確性與有效性的同時,能否高效處理大規模數據并具有良好的可擴展性,成為學者們新的關注重點。云計算因其強大的計算能力得到了廣泛的關注。Hadoop[2]是大數據處理技術的杰出代表,在網絡流量分類領域有諸多與之相關的研究成果,MapReduce和HDFS是Hadoop的核心部分。然而有研究指出,由于MapReduce的“映射-規約”式計算模型比較簡單,適合處理數據量大但邏輯簡單的計算場景,難以完全適配機器學習中可能存在的迭代、嵌套等復雜計算0。Spark是基于內存的新一代并行計算框架,其在迭代計算方面較Mapreduce有更為出色的表現。

2 基于云計算平臺的網絡流量分類系統模型設計

2.1 系統設計分析

對于目前各種入侵行為對計算機網絡和系統的攻擊,入侵檢測系統已經能夠在很大程度上對其進行抵御,但是還存在著很多不足之處。

大規模復雜網絡流量分類需要解決以下幾個問題:

(1)如何進行海量網絡流量數據的預處理工作,包括數據的采集、清洗以及大規模的存儲;

(2)如何從流量數據中歸納出最具代表性的特征組合,以實現在不影響分類準確率的前提下,降低數據維度提高處理效率;

(3)如何利用流量的最優特征集合,在兼顧準確率和執行效率的前提下,進行最有效的網絡流量識別與分類;

(4)如何根據流量分類的結果指導更佳有效的網絡管理、網絡配置以及網絡態勢分析。

2.2 系統整體架構

為解決上述問題,在結合網絡流量分類基本流程的基礎上,本文提出一種基于大數據平臺的網絡流量分類系統模型,其整體架構如圖1所示。該模型由四層組成,分別為:數據預處理層、特征選擇層、流量分類層以及流量應用層。這四層彼此間相互獨立而又聯系密切,可在以Spark為核心的大數據處理平臺上一站式實現,共同助力于網絡流量處理任務。

圖1 基于大數據平臺的網絡流量分類系統模型圖

數據處理層是整個模型的基礎,主要功能是通過在相關網絡節點上使用網絡爬蟲工具或網絡傳感器等設備,收集海量的流量數據包。然后使用數據預處理算法,計算數據包的流統計特征,將其整合為流量數據集并儲存。

特征選擇層是整個模型的核心處理層之一,主要任務是完成對預處理層提供的實時數據或海量的歷史數據進行特征選擇。通過剔除特征集中不相關或冗余的特征,實現海量數據的合理降維,有效降低分類模型的復雜度,在保證準確率的前提下大幅提高分類過程的執行效率。

流量分類層是整個模型的另一核心層,主要任務是利用流量的最優特征集合,通過機器學習算法以及集成學習、深度學習等思想,對網絡流量數據集進行識別并區分其應用類型。

流量應用層是對流量分類的結果進行合理的分析,并提供一系列的應用服務,包括:網絡管理、網絡配置、網絡態勢分析以及網絡安全指導。

以Spark為核心的大數據處理平臺是整個模型的載體。從數據采集和預處理,分布式的流式數據緩存以及大規模歷史數據的離線存儲,再到上層中的特征選擇與流量分類算法的并行化執行,以Spark為核心的大數據處理技術為整個模型的運行提供了一站式的支撐平臺。

兩種性別基因表達平衡的不斷進化,導致表型的性別均衡,掩蓋了細胞機制的性別偏差。平衡可能是由選擇壓力驅動的,該選擇壓力確保化學計量的X:A比例在男性、女性的相似性,使得XX和XY細胞均在適當的細胞功能的限度內工作。但任何表型的性別均等僅僅是可能的,因為XX和XY細胞各自執行不同的功能,即,用不同的分子機制來調整其基因組的差異。XX細胞必須調整其基因組/表觀基因組系統,使之可以與XY細胞以不同的方式正常工作。這使得性別平衡是暫時的,因為細胞環境中的任何擾動(例如由年齡、環境毒素和產生腫瘤的突變引起)可以影響這一平衡,導致疾病的性別差異,而這在健康細胞中不存在。

2.3 系統各層次描述

2.3.1 網絡流量數據預處理層

該層的主要功能是獲取并存儲可供上層分析計算的網絡流量數據,是整個模型的入口層。在數據獲取的來源方面,該層被設計為既可以通過抓包方式來獲取網絡中的非結構化數據,同時也可以直接批量的錄入處理完畢的結構化數據。

在獲取非結構化數據時,該層通過在相關的網絡節點上布置網絡爬蟲工具或網絡傳感器等設備,收集網絡流量數據包。在解析數據包時,采用Spark并行計算架構,每個網絡節點上分別啟動一個Spark子任務,對不同的網絡節點有針對性采取不同的預處理算法。通過計算并整理數據包的流統計特征,從而生成結構化的數據集。同時由于集成了SparkSQL,該層可以通過SQL的操作,直接從關系型數據庫或從其他數據集合中批量的導入整理完畢的結構化數據集。

在數據存儲方面,該層使用了Kafka分布式消息系統和HBase分布式數據庫兩種模塊。Kafka分布式消息系統用于流式數據的緩存,其可將不同類型的數據按Topic進行劃分。上層可以通過SparkStreaming動態的獲取Kafka中的數據以完成流式的實時計算任務。HBase是一種海量的分布式非關系型數據庫,被設計用來存儲歷史數據。HBase可以整合某一時間區間內的數據集資料,常用于歷史數據的離線分析任務。

2.3.2 網絡流量特征選擇層

該層是整個模型的核心層之一,在整個系統中起關鍵性的承上啟下功能。對下層,網絡流量特征選擇直接處理格式化的數據集,在分析特征的相關性、冗余性與最優特征子集關系的基礎上,結合特征選擇算法,從原始特征集合中挑選出一組最有利于分類決策的特征子集,極大提高了上層流量分類工作的執行效率。

面對海量、多源的數據集,該層在進行特征選擇作業時,將特征選擇算法與Spark計算平臺將結合。利用Spark計算框架強大的并行處理能力,以及MLlib機器學習庫中豐富的執行算法,該層實現了針對大規模數據集的有效特征選擇。

2.3.3 網絡流量分類層

本層建立在特征選擇層之上,采用最優特征子集中的特征,結合機器學習中的分類算法以及集成學習、深度學習等思想構建分類模型,實現網絡流量的識別與分類。

在處理大規模歷史數據的離線分析任務時,該層將流量分類算法與Spark計算引擎相結合,實現高速的大規模網絡流量分類任務。該層中集成的MLlib機器學習庫為流量分類提供了豐富的執行算法,其中:線性的支撐向量機算法、梯度提升決策樹算法用于二分類任務;邏輯回歸、決策樹、隨機森林以及樸素貝葉斯用于執行多分類問題。

在處理實時流量分類任務時,該層提供基于SparkStreaming的流式批處理執行模塊。輸入的數據流進入SparkStreaming后被切分成小的數據塊,每一個小的數據塊獨立的運行于Spark引擎之上,通過相應的分類算法進行識別處理后,其結果再被匯總到數據流中,基本執行過程如圖2所示。

圖2 基于SparkStreaming的流式處理示意圖

2.3.4 網絡流量應用層

網絡流量應用層的功能在于分析流量分類的結果,并對更好的實施網絡管理、網絡配置、網絡態勢分析以及網絡安全進行指導。

在通過分析實時網絡流量分類結果的基礎上,該層可以掌握當前網絡節點的流量構成,通過合理的配置各節點的吞吐量,可以有效地避免網絡擁塞、數據丟失,促進保持健康的網絡運行環境。同時,網絡異常流量的實時監測,可以及時的阻止網絡攻擊、網絡病毒的運行和傳播。

在針對大規模歷史數據的分析上,該層利用網絡態勢分析方法,總結并歸納一定時間內網絡流量的構成,并對其結果進行深度的分析,通過關聯規則等挖掘方法發覺其內在的聯系,從而指導更加合理的網絡環境建設與布局。

3 總結

本文針對大規模復雜網絡環境下網絡流量數據海量、多源、異構的特點,引入機器學習以及基于 Spark的大數據處理技術,提出一種基于大數據平臺的網絡流量分類系統模型。該模型按照流量分類的基本流程,分為數據預處理層、特征選擇層、流量分類層以及流量應用層。同時按照此模型的基本架構,在結合Kafka、HBase、Spark集群的基礎上設計了該模型的原型系統,旨在為當前大規模數據環境下網絡流量高效實時的在線識別與大規模離線處理的任務提供思路。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 91网站国产| 风韵丰满熟妇啪啪区老熟熟女| 国产理论一区| 一级毛片高清| 国产特级毛片| 色综合天天视频在线观看| 亚洲永久色| 无码'专区第一页| 九色视频一区| 精品国产www| 在线免费无码视频| 国产一区二区人大臿蕉香蕉| a毛片在线| 国产二级毛片| 喷潮白浆直流在线播放| 狠狠综合久久| 亚洲an第二区国产精品| 久久香蕉国产线看观看式| 第九色区aⅴ天堂久久香| 免费国产高清精品一区在线| 国产欧美日韩在线一区| 亚洲中文字幕无码mv| 欧美综合区自拍亚洲综合天堂 | 国产农村妇女精品一二区| 国内精品久久九九国产精品| 伊人91在线| 亚洲黄色片免费看| 污网站在线观看视频| 亚洲福利一区二区三区| 欧美日韩成人在线观看| 国产欧美视频在线观看| 国产精品免费p区| 亚洲一级毛片免费看| 成人毛片免费观看| 777午夜精品电影免费看| 91精品日韩人妻无码久久| 91亚洲免费| www亚洲天堂| 亚洲第一成网站| 一级黄色网站在线免费看| 超碰91免费人妻| 日韩专区欧美| 毛片免费在线视频| 日韩AV手机在线观看蜜芽| 国产精品第一区| 色综合天天综合中文网| 国产国拍精品视频免费看| 免费国产高清精品一区在线| 国产一区二区三区日韩精品| 亚洲午夜福利精品无码| 国产精品综合久久久 | 亚洲成网站| 国产激情无码一区二区免费| 99这里精品| 99久久精品国产精品亚洲| 国产一在线观看| 国产视频欧美| 免费一级毛片在线播放傲雪网 | 国产美女精品人人做人人爽| 欧美成人免费午夜全| 亚洲国产综合自在线另类| 一级全黄毛片| 激情综合激情| swag国产精品| 国产99久久亚洲综合精品西瓜tv| 久久综合丝袜长腿丝袜| 台湾AV国片精品女同性| 99热这里只有精品在线观看| 成年人视频一区二区| 亚洲美女久久| 精品国产电影久久九九| 亚洲永久视频| 国产精品人莉莉成在线播放| 最新亚洲人成无码网站欣赏网 | 亚洲一区二区三区中文字幕5566| 亚洲国产天堂久久综合226114| 亚洲日韩图片专区第1页| 99久久亚洲精品影院| 久久精品国产国语对白| 国产乱子伦一区二区=| 中文成人无码国产亚洲| 免费一级毛片在线观看|