龔 蓮,譚獻海
(西南交通大學 信息科學與技術學院,成都 611756)
早期的網絡流量呈短相關性,使用Possion或者Markov過程描述.隨著Leland發現局域網流量的自相似長相關性[1],大量的研究結果表明傳統互聯網流量具有普遍的自相似長相關性,因此許多學者提出了長相關流量模型,包括ON/OFF模型、FARIMA模型、FBM和FGN模型等.現代互聯網無論是應用類型還是用戶數量都與早期的互聯網有較大的區別,其網絡流量特性也隨之改變.
據研究機構Trustdata發布的《2020年Q1中國移動互聯網行業分析報告》顯示[2],微信在國內APP排行榜位列第一,明顯超過其他網絡應用.作為目前擁有最高用戶活躍數的應用,微信流量特性受到用戶參與行為的深度影響.目前關于微信流量的研究主要包括:李瑋提出一種基于DPI的識別方法對微信流量進行識別研究,基于業務特征進行微信業務的識別與分類[3].燕飛鵬提出一種基于隨機森林算法的微信流量分類模型,基于流量分類提出微信用戶階段性行為識別技術[4].張江楠對微信流量進行特性分析,發現微信流量呈自相似特性和冪律特性[5].
綜上關于微信流量的研究多集中于流量識別、業務分類等方面,缺乏微信流量特性分析與建模的研究.分析微信流量特性并用時間序列建模是流量預測的基本原理,基于模型預測可以研究微信流量在網絡系統中的擁塞控制機制,此外還可以依據微信流量模型計算流量在網絡傳輸排隊過程中的時延、丟包率和隊列平均長度等網絡性能指標.微信流量作為互聯網流量的核心入口,對其進行研究可以為網絡流量控制管理提供依據.
本文首先通過Matlab直觀觀察微信流量可能具有哪些特性,然后定量分析微信流量確實具有這些特性.在此基礎上對微信流量進行建模,模型中包含能同時刻畫微信流量特性的參數,最后分析模型效果.
本文的研究數據是在實驗室局域網環境下使用Wireshark實時抓取7.0.10版本的微信自2019年9月15日9:30-17:30期間產生的流量,這些流量由網絡通信鏈路中多個更小的信源產生的流量組成,并不能代表主干鏈路的流量,然而主干鏈路的流量本質上是多個獨立同分布信源流量的疊加,所以實驗室局域網環境下的微信流量與主干鏈路的微信流量為同一種分布.通過對抓取的timestamp、length等數據項進行處理,獲得單位時間內到達的數據包個數.為了使數據更具代表性,除了抓取的微信流量之外,本文還采用了文獻[5]中的微信流量數據集.由于采取的微信流量在該時段的變化趨勢基本一致,所以本文選取某個更小時間片段的流量進行實驗分析.
首先從直觀角度觀察微信流量的變化,不同時間尺度下到達的數據包數量如圖1所示,圖中的時間間隔為1 s和5 s,不同時間尺度下數據包的到達數量的曲線變化非常相似,并且在某些時間間隔出現非常高的數據包到達數量值,可以直觀看出微信流量同時具有自相似性和突發性.

圖1 不同尺度下微信流量數據包到達數量
流量自相似性是指流量的時間序列在局部與整體之間具有一定程度的相似,其數學定義如下:

其中,X(t)表示第t個單位時間到達的數據包數量,H為自相似參數[6].
本文對單位時間1 s內到達的微信文本類和音視頻類流量進行自相似性分析,采用R/S分析法[7]計算兩類流量的H參數如圖2所示,圖中x表示R/S分析法中的每個子序列的長度大小,實線的斜率即為H參數值,可以看出兩類流量的H參數值均滿足0.5 圖2 微信文本類和音視頻類流量自相似參數估算 流量的突發性是指流量在幅度方面的突發,這是網絡流量的另一個特征,α穩定分布可以很好地描述突發現象.根據廣義中心極限定理,無窮多個獨立同分布隨機變量的疊加過程其歸一化邊緣分布收斂于α穩定分布函數簇,而在網絡鏈路中聚合流量本質上是無窮多個獨立同分布信源的疊加,所以本文采用α穩定分布來刻畫微信流量的突發性,其特征函數表示如下: 其中,α為特征指數,β為偏斜參數,σ為尺度參數,μ為位置參數[8]. α穩定分布中只有α參數表示突發程度,其取值范圍為(0,2],α越小則突發性越強,α=2時該分布不具有突發性,所以本文重點關注α參數值.驗證微信流量是否具有突發性的步驟如下:首先采用分位數法計算微信流量在α穩定分布下的4個參數值,然后畫出微信流量在該分布下的概率密度曲線(PDF),最后比較微信實際流量的PDF與α穩定分布下流量的PDF.通過計算得到微信文字類和音視頻類流量的α參數值分別為1.25、1.24,說明兩類流量都具有較大的突發性,最后二者的概率密度曲線如圖3所示. 圖3 微信文本類和音視頻類流量概率密度分布 上述流量特性分析表明微信流量同時具有自相似性和突發性,需要能同時刻畫這兩種特性的模型對微信流量建模.分形布朗運動是一種邊緣分布為高斯分布的自相似隨機過程,而高斯分布是α穩定分布的一種特殊情況,所以在α穩定分布條件下分形布朗運動可以擴展為線性分形穩定運動,線性分形穩定運動的平穩增量過程是線性分形穩定噪聲(Linear Fractional Stable Noise,LFSN)過程,LFSN過程是目前唯一能描述隨機變量的自相似性和突發性的隨機過程,其積分表達式的離散形式如下: 基于微信流量的自相似性、突發性和流量在任意時刻的非負性,本文采用一種偏態LFSN過程的模型對微信流量建模[9],表達式如下: 其中,M(i)是第i個單位時間到達的數據包個數,α表示網絡流量的突發系數,可以使用分位數法[10]估算,H是流量的自相似參數,使用R/S分析法估算,表示流量的偏差,表示流量的均值. c1是網絡流量的偏差系數,依據文獻[9]使用下述公式計算c1效果更佳: 完成模型參數估算后,使用文獻[11]的方法生成α穩定分布隨機數S(i),根據式(5)生成時間序列H(i),最后對S(i)和H(i)作離散傅立葉變換及其逆變換生成M(i)序列. 為了分析LFSN模型對微信流量建模的效果,本文對單位時間1 s內到達的微信流量進行建模.目前關于微信流量特性分析與建模的研究非常少,僅有文獻[5]提出使用Pareto模型刻畫微信流量,此外FBM模型是常用的自相似網絡流量模型[12],所以本文將采用Pareto模型和FBM模型對微信流量建模,并與LFSN模型效果進行對比,證明LFSN模型的有效性. 圖4 單位時間1 s內微信實際流量與LFSN模型仿真序列 圖5 單位時間1 s內微信實際流量與Pareto模型仿真序列 圖6 單位時間1 s內微信實際流量與FBM模型仿真序列 接下來對LFSN模型序列、Pareto模型序列和FBM模型序列的自相似參數和突發參數進行估算,LFSN模型序列的自相似參數H=0.53、突發參數α=1.40,Pareto模型序列的自相似參數H=0.47、突發參數α=1.19,FBM模型序列的自相似參數H=0.51、突發參數α=2.00.在自相似性方面LFSN模型序列更接近于實際流量的自相似性,盡管FBM模型是嚴格的自相似流量模型,但是在保持微信流量的自相似性上仍然比LFSN模型差一些; 而在突發性方面,由于LFSN模型序列的突發值個數比實際流量的突發值個數少,所以突發性變小(α越大突發性越?。?而Pareto模型序列由于突發值個數非常少,并且個別突發值比大多數序列值大許多,反而凸顯了其突發性變強的特點,但根據圖5可以看出Pareto模型序列的突發值個數相比于實際流量突發值個數少許多,而FBM模型則完全不能刻畫微信流量的突發性.LFSN模型序列的突發值個數比Pareto模型多的主要原因是LFSN模型中的自相似參數對突發參數的作用,保持了一段時間內流量突發性的持續,而Pareto模型中并沒有自相似參數作用于突發參數.此外本文還計算了LFSN模型序列、Pareto模型序列和FBM模型序列與微信實際流量序列的擬合優度R2值,分別為0.75、0.67、0.32.綜上LFSN模型能比Pareto模型和FBM模型更好的刻畫微信流量的突發性和自相似性. LFSN模型和FBM模型都可以描述流量的自相似性,所以本文為了分析微信實際流量與LFSN模型序列和FBM模型序列在自相似長相關性方面的變化趨勢,采用歸一化樣本自相關函數(NACF)進行比較[9],NACF的表達式為: 微信實際流量和LFSN模型序列的NACF如圖7所示,LFSN模型序列的NACF衰減速率很慢,并且近似于實際流量的NACF變化趨勢,說明二者在自相似長相關性的變化非常近似,LFSN模型可以保持微信流量的自相似長相關變化趨勢.FBM模型序列的NACF如圖8所示,FBM模型序列的NACF衰減速率較快,并且與微信實際流量的NACF變化趨勢差異較大,主要原因是微信實際流量具有較大的突發性,根據流量自相似性成因可知,具有突發性的流量疊加也會促進流量表現出自相似長相關性.綜上判斷LFSN模型可以對微信流量建模,在建?;A上可以對微信流量進行時延、丟包率等性能分析,為網絡流量監管提供依據. 圖7 微信實際流量與LFSN序列NACF 圖8 微信實際流量與FBM序列NACF 考慮在一般到達過程和確定服務速率的先來先服務的單個服務器隊列情況下(G/D/1),基于LFSN模型給出大緩沖區條件下緩沖區溢出概率的漸進計算公式如下[9]: 令K=?α(1?H),根據式(13)推導出平均隊列長度、平均時延、丟包率等網絡性能指標表達式如下[13]: 根據4.1節估算的微信流量在LFSN模型下的4個參數值和固定服務速率c可以計算Cα的值,由于式(12)要求固定服務速率必須大于流量的平均值,那么假設c=600,從而Cα=0.5188.以丟包率和平均時延為例,微信流量在不同緩沖區長度下的平均時延和丟包率(P)如圖9和圖10所示.實際服務器設置的服務速率和緩沖區長度未知,圖9和圖10的估算結果只是為了展示使用LFSN模型對微信流量建??梢怨浪闫鋪G包率和平均時延,從而可以調整服務器的服務速率和緩沖區長度以控制微信流量的丟包率和平均時延,為微信流量監管提供依據,而微信流量占據了互聯網中的大部分流量,所以也為網絡流量監管提供參考. 圖9 微信流量丟包率估算 圖10 微信流量平均時延估算 本文以微信流量為研究對象,首先直觀觀察微信流量的自相似性和突發性,然后計算H參數驗證其具有自相似性,通過α穩定分布驗證描述微信流量的突發性.在此基礎上使用LFSN模型對微信流量建模,并且使用Pareto模型和FBM模型進行模型效果對比,證明LFSN模型能更好地刻畫微信流量的突發性和自相似性.
2.3 微信流量突發性分析


3 微信流量建模
3.1 線性分形穩定噪聲模型



3.2 線性分形穩定噪聲模型參數估計




4 模型效果分析
4.1 微信流量建模仿真分析






4.2 微信流量網絡性能指標估算






5 結語