摘要:通過分析西安寬帶多媒體城域網主要流量源以及骨干鏈路流量的特征,提出了基于概率密度分布的城域網流量的總體描述,刻畫了流量聚合過程的一般規律。采用統計學理論分析了城域網上典型流量聚合過程,揭示了城域網流量的概率密度分布之所以呈現為gamma分布的成因。作為城域網流量gamma分布特征的應用,對未來一段時期內城域網流量分布特征的演化進行了預測。
關鍵詞:概率密度分布; 流量; 成因; 城域網
中圖分類號:TP393文獻標志碼:A
文章編號:1001-3695(2008)03-0881-04
從泊松性到自相似性,再到新近關于骨干網流量趨向于正態分布的報道,伴隨著互聯網本身的發展,研究者對網絡流量特征的認識在過去十多年間中經歷了一個不斷深化的過程[1~3]。由于網絡流量的內在驅動因素,網絡流量已經發現的特征也正處在不斷演進中。只有揭示隱藏在流量特征表象下的物理成因,才能更深刻地認識城域網流量,并用來指導網絡設計等工程實踐。本文利用從西安寬帶多媒體城域網采集的大量流量數據,分析了主要流量源及骨干鏈路流量的特征,揭示了流量在聚合過程中所呈現的規律,揭示了城域網流量呈gamma分布的成因。作為其應用,預測了未來一段時期內城域網流量分布特征的可能演進。
1流量源的特征分析
城域網流量由眾多流量源聚合而成,為分析骨干網流量的特征,首先分析其各組成成分的特征。
1.1城域網流量構成與流量源類型分析
圖1為典型城域網流量構成示意圖。其中方框代表由交換機、路由器等網絡設備構成的流量聚合點。在聚合點,來自不同終端或鏈路的流量實現聚合或分離。雙箭頭代表流量是雙向的。按照流量源特點的不同,骨干網流量可以分為服務器類和終端類兩大類。
通常服務器類流量源的在線用戶數保持在較高的水平。由于每個客戶端所需要的平均帶寬小,Web服務器同時可以支持大量的用戶在線;VOD服務器則由于每個終端所需帶寬較大,支持的在線用戶數相對要少得多。
典型的終端類流量源如Web瀏覽音/視頻流。前者具有間歇性、突發性;后者在網絡鏈路上有持續的流量,且流量起伏不大。除了上述兩種典型的情形外,終端類型的流量源行為特點還有很多不同的表現形式。
1.2典型流量源的特征分析
研究中,服務器類流量源選擇了Web服務器和VOD服務器,終端類流量源選擇了文件下載、Web瀏覽、視頻新聞和NGN可視電話六種典型應用。圖2(a)~(f)分別為它們對應的概率密度分布。表1為對應的采樣時段、采樣周期、自相似參數估值和概率密度分布的簡要分析。
由圖2和表1可見,由于業務特點不同,不同類型流量源的概率密度分布和自相似程度差別很大。其中Web服務器流量近似為gamma分布,而視頻新聞流量近似為指數分布。同時,Web服務器和VOD服務器流量具有很強的自相似性。相比之下,終端所產生流量的自相似性比較弱甚至沒有自相似性。
2城域網鏈路流量的特征分析
2.1骨干鏈路流量聚合特點
西安寬帶多媒體城域網為雙核心分層結構,上級節點少而下級節點多,流量具有聚合收斂特點。為了描述鏈路流量的聚合特點,圖3通過在一臺路由器端上的網絡流量聚合情形來說明。為研究方便,將該路由器抽象為一個網絡節點,縮減了節點上關聯的鏈路數量,忽略了與流量聚合關系不大的管理端口。圖中A、B為上行鏈路,C、D、E為下行鏈路。帶雙向箭頭的虛線①~⑦代表鏈路中具有不同源端口/目的端口的流量,雙向箭頭表示流量是雙向傳輸的。流量A由①、③、⑤、⑦組成,流量B由②、④、⑥、⑦組成,流量C由①、②組成。
圖3所描述的特點可以歸結如下:
a)上行鏈路流量由大量下行鏈路的流量聚合而成,上行鏈路流量中盡管包括如⑦這樣的上行鏈路之間的流量,但是通常所占比例很小。上、下行鏈路是相對的,一條鏈路對于上層節點是下行鏈路,而對于下層節點則是上行鏈路。
b)下行鏈路同樣存在流量聚合現象,包括上行鏈路的流量、下行鏈路之間的流量等。由于上行鏈路一般為1~2條,下行鏈路之間的流量通常所占比例也很小,下行鏈路上的流量聚合遠不如上行鏈路顯著。
實際上,流量聚合過程也發生在城域網與用戶網絡連接的接入鏈路上。例如連接在城域網上的校園網內部又分為不同的層級,因而其出口的流量也是經多次聚合而成的。逐級聚合是網絡流量形成過程最顯著、最普遍的特點。
基于以上分析,對圖3進行簡化,將關注焦點集中在最簡單、最基本的聚合過程,得到圖4。圖4由兩條下行鏈路B、C的流量①、②聚合成一條上行鏈路A的流量。2.3節將以此模型為基礎,對網絡流量聚合過程作進一步分析。
圖3節點流量聚合圖4流量聚合簡化圖
2.2骨干鏈路流量概率密度分布分析
盡管不同流量源的特征相差很大,但由大量流量源聚合成的骨干網流量在特征方面則表現出更多的相近或一致性,其流量特征更富有規律性。研究中考察了大量骨干網鏈路流量。圖5中給出了一組典型鏈路流量的概率密度分布曲線。考察發現,這些曲線具有以下特點:
a)接入層鏈路的流量一般相對較小,其概率密度分布曲線大多近似于指數分布,但有明顯的重尾現象。也有小部分接入層鏈路盡管流量并不大,但仍接近于呈平滑的gamma分布。重尾性指尾部比指數分布趨向于零的速度更緩慢。
b)分布層節點到核心層節點的骨干鏈路流量一般較大,其概率密度分布絕大多數近似為gamma分布,重尾性相對于接入層鏈路流量較弱。
c)核心節點之間的鏈路流量多數近似為gamma分布,但隨著鏈路流量的增大,其概率密度分布曲線明顯右移,形狀更加緊窄,趨向于正態分布,重尾性很不明顯。
d)即使鏈路流量大小相當,其概率密度分布曲線形狀也可能相差非常大。
(a) 一個接入層—分布層鏈路(b)一個分布層—核心層鏈路 (c) 一個分布層—核心層鏈路
圖5典型骨干網流量的概率密度分布
網絡流量所表現出的gamma分布特點雖然是在西安寬帶多媒體城域網上發現的,但是研究證實,上述特點在其他骨干網絡也已經發現。當流量很大時趨向于正態分布,這一發現具有相當的普遍性。
2.3網絡流量聚合的成因分析
從流量形成的角度看,流量源聚合后形成接入層鏈路流量,接入層鏈路流量聚合后形成分布層鏈路流量,分布層骨干鏈路流量再聚合后形成核心層骨干鏈路流量。在此過程中流量的聚合程度不斷增強。流量聚合過程的本質是流量的疊加,但不是簡單意義上的疊加,其實質是按照一定的算法排隊后形成新的輸出數據包隊列。研究流量源與鏈路流量之間、一般鏈路流量與核心骨干鏈路流量之間的內在聯系,有助于揭示城域網流量的特征及其產生的成因。
2.3.1網絡流量聚合過程的總體描述
基于前述對流量源及骨干鏈路流量的概率密度分布研究的結論,通過圖6對城域網流量聚合過程進行總體描述:
a)用戶終端是最基本的流量源,其流量的概率密度分布差別很大,大多數近似服從指數分布。大量這種流量在接入層設備聚合,形成具有近似為gamma分布的接入層鏈路流量,如圖6中“流量聚合①”所示。
b)大量接入層鏈路流量聚合,形成的分布層鏈路流量。其概率密度分布仍然近似為gamma分布,但整個曲線包絡明顯左移,流量分布進一步集中,如圖6中“流量聚合②”所示。接入層鏈路和分布層鏈路流量的聚合程度都比較高,稱為中度聚合流量。
c)分布層鏈路流量再經過聚合,形成核心鏈路的流量,如圖6中“流量聚合③”所示。其概率密度分布曲線形狀接近正態分布,并且流量越大,越趨向于正態分布。
上述規律具有統計意義,也就是說,會有個別骨干鏈路由于網絡結構特點,或者所在區域用戶少、使用率低等緣故,其大小和概率密度分布均呈現出接入層鏈路流量的特征;另外個別接入層鏈路,由于在接入的局域網中有一臺特別繁忙的服務器,其大小和概率密度分布具有明顯的骨干鏈路的特征。實際上,問題的關鍵是流量聚合程度的大小。也就是說,參與聚合的流量來源越多、帶寬越大,則聚合程度越高。在絕大多數情況下,骨干鏈路就意著具有很高的聚合程度。
圖6城域網流量聚合過程總體描述
2.3.2流量gamma分布的成因分析
圖6是對實際網絡流量數據擬合結果的總結,是一種經驗性認識。然而骨干網絡流量呈gamma分布。本文借助張學文的研究成果對其成因進行分析[4]。
觀察gamma函數p(x)=Axα-1e-λx不難發現,它兼具負指數和冪函數特點。考慮到指數分布對應于變量的算術不變的約束,而冪函數對應于變量的幾何平均值不變的約束。容易猜想到gamma分布的約束條件就是變量的算術平均值和幾何平均值均取固定值。張學文證明,在一個廣義集合中,如果變量的算術平均值和幾何平均值是不變的,而其復雜程度(熵)最大,那么其個體的概率必然是gamma分布[4]。
在一個較長時期內,網絡流量的算術平均值不變(近似不變)是個合理的假設,這可以很容易地從實際網絡流量大量的監控數據得到印證。幾何平均值不大于算術平均值,且流量具有非負性。容易證明,當算術平均值不變時,幾何平均值亦保持不變。所以,網絡流量同時滿足算術平均值和幾何平均值分別固定的約束條件。進一步,如果默認最復雜原理對于網絡流量同樣是有效的,那么網絡流量的分布呈gamma分布就是一種必然的結果。
2.3.3骨干鏈路流量聚合過程的理論分析
本節利用gamma分布,結合圖6中幾處典型的匯聚現象,包括流量聚合①~③等,對骨干流量的聚合過程進行理論分析。
1)流量聚合①
文獻[4]對于多個服從指數分布的變量之和的概率分布進行了研究,證明它服從gamma分布。區別于2.3.2節中通過施加約束條件直接推導出gamma分布的結論,這一論證首先對參與聚合的流量分布進行,然后通過求隨機變量和的分布方式得到聚合后形成的新流量服從gamma分布,從而提供了由流量源聚合為骨干鏈路流量過程中概率密度分布特征演進的機理。
2)流量聚合②它刻畫的是兩個或兩個以上概率密度分布近似服從gamma分布的流量,聚合后仍然近似服從gamma分布,但曲線的形狀發生了變化,曲線包絡右移。不失一般性,設三個流量過程XA、XB和XC,XA由XB和XC聚合而成,并且滿足關系:
XA=XB+XC(1)
這里相加的物理意義是兩個流量聚合成一個更大的流量,數學意義是兩個隨機變量之和。進一步假設XB、XC的概率密度分別為
pB(x)=BxαB-1e-λBx(2)
pC(x)=CxαC-1e-λCx(3)
Gamma分布有一個非常重要的性質,即可加性:若Xi~Ga(αi,λ)(i=1,2,…,n),且諸Xi間相互獨立,則其和為
X1+X2+…+Xn~Ga(α1+α2+…+αn,λ)(4)
這里要強調的是,可加性得以成立的條件是諸Xi的分布具有相同的尺度參數λ。對于參與聚合的兩個流量XB和XC,假設其尺度參數相同,即
λA=λB=λ(5)
那么,由gamma分布的可加性,有
pA(x)=Cx(αB+αC)-1e-λx(6)
式(6)表明,尺度參數相同的兩個流量,聚合后具有與原來兩個流量相同的尺度參數,形狀參數為原來兩個流量形狀參數之和。由式(4)可知,上述兩個流量聚合的結論顯然適應于多個尺度參數相同的流量聚合。這一結果對流量聚合②提供了合理的數學解釋。
圖5(a)~(c)三個流量的大小依次增大。可以認為,圖5(b)(c)中流量正是眾多如圖5(a)所示的小流量聚合的結果。相應地,三個流量的形狀參數也體現為依次增大。實際網絡中,兩個流量分布的形狀參數完全相同的情形很少,但近似相等的情形則很多,這從對網絡中大量同層次鏈路流量的分析過程得到印證。盡管具有相同尺度參數只是大量參與聚合的網絡流量中的特殊情形,但是上述討論對于理解網絡流量聚合過程仍具有重要價值。
3)流量聚合③它
體現的是當呈gamma分布的流量進一步聚合時,聚合流量的概率密度逐步趨向于正態分布。這里借助中心極限定理中的德莫佛—拉普拉斯定理進行分析。
德莫佛—拉普拉斯定理:設μn是n次貝努里實驗中時間A出現的次數,p是事件在每次實驗中出現的概率,則
limn→∞P{(μn-np)/npq 其中:q=1-p。 設流量樣本序列的長度為n(n非常巨大),事件A表示流量速率為x,出現的次數為μn,事件A的概率為p,則根據德莫佛—拉普拉斯定理可以近似地計算出流量的概率密度分布趨向于正態分布。 大量各種分布的流量聚合形成的流量概率密度分布曲線是平滑的。當參與聚合的流量數目充分大時,聚合流量就趨向于正態分布,這正是中心極限定理所體現的。 3Gamma分布在流量預測中的應用 當前,互聯網絡仍處于高速發展中,主要表現在網絡規模、用戶數量、應用的種類等多個方面。這些變化必然會帶 來網絡流量及其特征的變化,利用gamma分布的結論,可以對未來一段時期城域網流量進行預測。 3.1城域網流量的發展分析 1)用戶規模的發展 截至2006年6月,國內網民總數為1.2億人(95%置信度),上網計算機總數大約5 450萬臺,網站總數達到788 400個,而發達國家的互聯網滲透率還要明顯高于我國[5]。用戶規模的擴大,最直接結果是整個網絡上承載的流量成倍增加。 2)用戶行為 目前,瀏覽新聞、搜索引擎、收發郵件,是用戶最常用的[5]。用戶行為與網絡流量有著密切的關系:一方面,用戶使用何種應用、如何使用直接影響到骨干網流量的構成,而不同成分的流量特征不同;另一方面,用戶上網時間上的群體規律性也導致骨干網流量有規律地起伏,呈現出以天、星期為單位的周期性。 3)網絡應用 視頻點播(VoD)、視頻新聞、網絡游戲、視頻聊天等已經成為互聯網上重要的應用。視頻監控、視頻會議等基于視頻的應用正迅速普及。因此,網絡流量中視頻流量所占比例不斷提高,造成流量特征的變化。隨著未來IPv6的推廣普及和3G移動通信與互聯網的融合,預期還會有更加多樣化的網絡應用產生。 4)城域網結構的變化 目前,以xDSL、光纖接入的局域網、cable為主的寬帶接入方式發展迅速。骨干網相應的鏈路帶寬也正在迅速提升,2.5 Gbps鏈路逐步普及,10 Gbps開始在骨干網絡上得到應用。P2P模式的盛行也推動了城域網結構進行調整,并對邊緣網絡提出了更高的帶寬要求。 3.2城域網流量演進的預測 上述發展對城域網影響主要有三個方面:a)整個網絡上流量將保持急劇增長勢頭;b)對城域網邊緣層的鏈路帶寬和設備性能提出更高的要求;c)網絡應用的種類更加多樣化,特別是視頻流量所占的份額進一步提高的趨勢,使得網絡流量特征也發生新的變化。 根據對不同類型的流量源和城域網不同鏈路流量的分布規律及其成因的認識,以及上述對于城域網的影響因素的分析,預測在未來一個時期內,城域網流量特征發生的變化將包括: a)骨干鏈路上流量的概率密度分布將進一步趨向于正態分布。其意義在于隨著骨干鏈路流量的進一步增大,用正態分布來模擬其分布帶來的偏差(主要在分布曲線的尾部)會越來越小,這對于流量監控和簡化模型設計都是有利的。 b)當前城域網匯聚層、核心層鏈路流量的特征將出現在大量的接入層鏈路上。也就是說,gamma分布仍將在模擬城域網流量分布的工作中起到重要作用,適用范圍向網絡低端遷移。 4結束語 本文分析了構成城域網流量的多種流量源流量以及骨干網大量鏈路流量的概率密度分布等各自的特點。在此基礎上,提出了對城域網上流量聚合過程及聚合前后流量的概率密度分布產生變化的總體描述,不僅使得對其認識直觀化,而且刻畫了流量聚合過程的規律。進一步,以典型的聚合過程為代表,采用統計學理論分析了城域網上流量聚合過程的物理成因,揭示了城域網流量的概率密度分布特征的內在機理,預測了未來一段時期內城域網流量及其分布特征可能的變化。文中關于網絡流量之所以呈gamma分布的分析,也為氣象、水利等其他領域的研究提供了重要的借鑒。 參考文獻: [1]LELAND W E, TAQQU M S, WILLINGER W, et al. On the selfsimilar nature of Ethernet traffic [J]. IEEE/ACM Trans on Networking, 1994,2(1):115. [2]PAXSON V, FLOYD S. Widearea traffic: the failure of Poisson modeling[J]. IEEE/ACM Trans on Networking, 1995,3(3):226-244. [3]KARAGIANNIS T, MOLLE M, FALOUTSOS M.Longrange dependenceten years of Internet traffic modeling[J]. IEEE Internet Computing, 2004,8(5): 57-64. [4]張學文. 組成論[EB/OL].(2006-09-05). http://xjqxsc.idm.cn/. [5]CNNIC.中國互聯網絡發展狀況統計報告[EB/OL].(2006-07-02).http://www.cnnic.net.cn/. “本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”