黃琳凱
【摘要】 早期,有人就提議了一個可以避免因為人多導致流量受到干擾的方法,就是實時監控,并對流量進行分類的方法,這種方法在最早的時候才用的是DPI技術進行對信息流的分類,這為以后的聚類算法起到了奠基的作用,通過對OPTICS聚類算法思想的應用,使用數據點的個數對流量進行稠密程度劃分,以此來完善信息的聚類,并有針對性的對各個用戶提供相應的服務。
【關鍵詞】 OPTICS 聚類算法 網絡流量
引言:隨著科技的逐漸發展,越來越多的人們開始走向互聯網時代,隨之而來的是網絡業務的繁多。為了能提高網絡的服務質量和服務的速度,更多的研究與如何構建客戶關心的服務為起點的新型的網絡構架。不一樣的業務內容,需要不同的服務水平,而網絡流量是對客戶的運動進行記錄和報告的重要的一項東西。進行流量分類的研究,可以讓網絡的每個業務內容有不一樣的服務內容,這樣可以使網絡或者某些系統進行快速的業務布置,以此提高網絡的承受能力,同時改變網絡的服務質量。
一、OPTICS算法
本文首先將域數據流特點有關系的信息相結合,然后在對其采取方案,但是各個網絡流的內容不同,那么在對其進行分析的時候要將數據包的特征進行檢測,就會發現不同的數據包流量。根據上述的一些特點,在對數據包進行抽選的時候,選擇深度的檢測進行識別。根據圖1所示,要想獲得更多的特點向量,就要使用OPTICS算法進行聚類,然后對無法識別的數據更具聚類算法將其分類到相應的業務當中。
二、改進的OPTICS算法
1、改進算法思想。OPTICS聚類算法不是根據參數值進行運算,而是對數據對象的順序進行排列,在每一個業務當中,數據都根據核心距離和可達距離進行排列,在依據其數據點的稠密度進行聚類,這樣可以完成自動與互動的聚類解析。這種算法的對象是隨機篩選的,以他為起點,朝著最密集的地方發展,最后將所有的數據排列整齊。以OPTICS算法收藏對象的核心距離以及可達距離,隨機聚類,然后根據這些的參數金額Min P ts不敏感進行收集。在這種策略的奠基上,對對流量特點進行算法的調整,由此形成了OPTICS聚類算法。根據第一個數據流為基礎,計算一他未開始向后的所有數據流與第一個特征向量的可達距離,并確定數據點的方位;同時記錄距離基礎點的每個數據位置,經過這些計算之后,將相同距離的數據流放到一起,在將其他的有落差的放在一起。
2、算法步驟。提取完信息流之后,根據其產生的向量,類似一個空間的數據點,通過它對OPTICS進行改進,如圖2所示。1.將向量作為開始,和核心。2.計算新的數據流的流向特征向量和基本點的向量之間的可達到距離,運用公式對其僅從確定距離的遠近,設流量數據點Q的方向,是據點根據原始點的距離遠近進行從低到高的排列順序,并用公式對其進行向量距離的記錄;3.同時運用數組CUN{N11,N12...},N11表示激勵原始點的最近的激勵的特向向量的數量,N12是代表原始點的近距離的特征向量的數量;4.參考最開始的原始點數的DPI的聚類個數,對CUN{N11,N12...}進行分析,并確認和記錄他的臨界點。5.分別計算臨界點和相鄰的兩種相差的數,然后在進行分析,對于邊緣點的類似程度的大小進行分類,以此來完成聚類。選擇每個聚類的中心數據點,并在該點上的最小數放到這個數據點上,到達完整的覆蓋。
三、實驗結果
為了證明這回總算發的實用性,在不同的時間和地點利用Netmate工具收集運營網絡中的數據流,整理看多有完整的數據包的采集,Netmata工具可以算出屬性特征,把相同的IP地址、源代碼、目的地址/端號口等進行分組,分到一起形成1個流,然后運用DPI技術對采集到的數據進行識別。
針對這三組數據,可以看出具體的業務流70.63%、61.48%、85%,無負載的流量分別占總流量的16.7%、25.1%\9.63%;識別不出的業務分別占總流量的8.36%、13.48%、9.64%,還有些業務是無法識別的,對其進行了加密。
從表2看出,DPI的初次檢測,大部分的信息流都是可以確認的類型,但是對于加密的數據流量還是沒有辦法查看,但是運用了聚類算法之后就可以對其分類,OPTICS聚類算法可以進行分類和改進,下面的表3、4是運用聚類算法后的答案,通過這兩個表格可以看出改進后的OPTICS一種算法上有所提高。
結論:本文運用的方法是之前使用過的DPI技術,他對數據流進行檢測識別,然后進行辨別數據流的業務類型,為以后的聚類個數進行指導。對未識別的數據流,通過OPTICS算法進行聚類,從而對無法識破的數據流的業務類型進行識別,到該方法的最后階段,聚類算法不在因為人為因素和之前的聚類中心和數據順序的干擾。這個方法在之前的識別業務類別的時候可以為以后的聚類有個良好的奠基,還能檢查出這種方法的有效性和穩定性。
參 考 文 獻
[1]張建偉 王玲艷 姚云磊 一種基于OPTICS聚類的流量分類算法[J] 2012.11
[2]邱密 陽愛民 劉永定 使用貝葉斯學習算法分類網絡流量[J]計算機工程與應用2010.05
[3]李衛 邊江 王盈 動態網絡流量分類研究[J]電子科技大學學報 2007.12