田鶴,趙海,王進法,林川
(1. 遼寧科技學院工程實踐中心,遼寧 本溪 117004;2. 東北大學計算機科學與工程學院,遼寧 沈陽 110004)
互聯網作為一種典型的復雜網絡,其宏觀拓撲結構表現出明顯的復雜網絡特性[1-3]。從網絡病毒傳播以及網絡拓撲結構的統計特征和演化等方面研究互聯網的性能、結構和發展趨勢已取得了豐碩的成果[4-6]。隨著互聯網的飛速發展,人們對網絡的需求不斷增加,使網絡的應用得到廣泛的擴展。互聯網已經發展成為一個復雜的、非線性的系統。然而,網絡的大規模擴張使網絡安全性、資源調度與優化以及服務質量等方面也面臨著巨大挑戰,僅從網絡宏觀拓撲靜態特征指標的度量、統計和建模不足以形象地描述網絡的傳播行為。為提高網絡各方面的性能,人們需要對網絡行為的特征規律有深刻的認識,發現網絡行為的內在機制是認識網絡的必然過程。網絡的傳播行為包含了多種網絡動態行為[7],如鏈路訪問、分組時延以及路由轉發等,反映了網絡拓撲結構對動態行為的影響。掌握網絡傳播行為的特征和規律有助于對網絡的異常行為做出分析與評估,為防范網絡攻擊和病毒傳播提供預警手段,在一定程度上可控制和預測網絡動態行為的發生。
網絡的傳播行為特征規律可通過定義一些能夠反映網絡行為的特征指標來描述,然后實時監測網絡,從中獲取這些特征指標的樣本數據,并對測量結果進行整理、統計、歸納和推斷,透過指標的變化和性質對網絡行為的各方面表現進行解釋。研究初期,徐野等[8]定義并分析了訪問直徑網絡物理特征量,利用其演化特征分析網絡漲落現象。然而,互聯網的規模呈指數級增長態勢,導致僅從時間維度并不足以分析網絡動態行為。結合非線性動力學和混沌理論對網絡傳播特征量進行統計,進而分析互聯網傳播行為特征,為互聯網的演化分析開辟了新思路。隋巖等[9]從混沌學角度分析互聯網群體傳播特性,表明互聯網群體傳播就是一種混沌系統,具有非線性秩序性和自組織性等特征。Ye等[10]基于ARIMA和Holt-Winters,用多元時間序列方法建立長期預測模型,但只適用于網絡靜態預測,動態性較差。Chai等[11]將時延坐標嵌入方法和混沌分析方法應用于神經網絡構建預測模型,測試結果表明混沌方法可以顯著提高預測能力。基于以上研究背景,本文以時間為主線,統計和篩選 CAIDA_Ark項目下位于不同大洲的4個監測點的有效路徑樣本數據,對互聯網傳播行為進行統計和分析,利用非線性時間序列分析方法對網絡訪問時間序列的時序演化特征進行混沌辨識。在此基礎上,引入Logistic方程建立以混沌網絡訪問時間序列為基礎的網絡傳播行為預測模型,采用粒子群優化算法對模型參數取優。最后,分別將4個監測點的網絡訪問時間序列在預測模型上進行實驗與驗證,對預測模型的有效性和準確性做出評價。
CAIDA是一個對互聯網的網絡結構和數據進行獲取、測量、可視化以及分析的國際合作研究機構。2007年9月,CAIDA開展Ark探測項目計劃,將原有的Skitter探測架構升級,采用Scamper技術、traceroute主動探測方式和元組空間實現各監測點間的探測和通信。本文選取 CAIDA_Ark項目下 4個位于不同大洲的監測點amw、san、bcn和mnl,利用Scamper技術對網絡中隨機抽取的目的IP地址發送 ICMP探測數據分組,同時 traceroute檢查ICMP的 E cho_request分組頭部的TTL值的有效性,追蹤路由的地址路徑。其中,每一個監測點在同一探測周期內只能探測到一個IP地址。
探測源SRC向目的端DST發送探測數據分組,經過中轉路由器 R1, R2,… ,Rn,則探測數據分組從SRC到DST所經過的路徑表示為 R = (S RC,R1,R2,… ,Rn?1,D ST )。探測數據分組的路由選擇與轉發都是由各中間路由器決定的,然而,由于監測點內的分組發送設置、中間路由器的個體差異性以及受ICMP分組接收率的限制等原因,網絡中并不是所有的中轉路由器都能對ICMP分組做出響應,所以探測數據分組在某些中轉路由器處有可能不可達。雖然SRC未收到中轉路由器的響應,但Scamper探測技術仍能夠增加TTL值直至探測到DST,而這時生成的R是不完整的。若所經過的中轉路由器都能對探測數據分組做出響應并返回到SRC,則所生成的R是一個完整的有效路徑。IP級拓撲是抽取網絡IP接口和鏈路而成的,數據包含了網絡拓撲最原始的內容,數據量非常龐大,忽略不可達路徑,提取完整的有效路徑上的樣本數據。選取2012-2015年共48個月 IPv4互聯網IP級拓撲數據,以3~4天為一個探測周期,每個月選取一個探測周期的結果并提取有效路徑樣本,統計結果如表1所示。

表1 有效路徑樣本數的統計結果
從表1可知,提取的有效路徑樣本數達900多萬條。高冗余數據更有利于網絡傳播行為的研究分析。本文從時間維度上對網絡傳播行為進行統計,相關定義如下。
定義1 訪問時間[12]。在網絡中,將監測點發送探測數據分組的時間與收到目的端返回響應時間之差定義為該條路徑的一次訪問時間,記為d()T t。
定義 2 網絡訪問時間。大量探測數據分組從任一源IP地址到任一目的IP地址所經過的有效路徑的訪問時間均值,記為

其中,n為數據樣本總數。
定義 3 訪問直徑[8]。在一個完整的有效路徑中,探測數據分組所經過的路由跳數。
定義4 Pearson相關系數。用來衡量定距變量間的線性關系,計算式為

首先,提取 4個監測點 amw、san、bcn和mnl探測得到的 2012-2015年每月同一周期的有效路徑樣本數據。然后,分別對4個監測點的有效路徑數據的訪問時間做概率分布統計,結果如圖1所示。
從圖1可直觀看出,4個監測點在探測期間有效路徑中網絡訪問時間分布至少有2個峰值,且它們的尾部幾乎重合,呈多峰重尾分布[13],并且在這4年內,同一個監測點的網絡訪問時間的分布具有較強的相似性,這是由于不同的監測點所處的不同地理位置影響了對目的端的訪問。對于網絡的動態傳播行為,網絡的訪問時間直接影響有效路徑上網絡端到端的連接行為,例如,對互聯網傳輸協議中重傳超時時間(RTO)的設置,若RTO值過小則會加重網絡不必要的負載,若RTO值過大則會浪費網絡帶寬。此外,各監測點的高冗余數據在探測有效路徑中所呈現的網絡訪問時間的相似分布特征說明互聯網具有自相似特性。
在網絡動態傳播演化的過程中,網絡訪問時間越短,數據分組在一定有效路徑傳輸距離的時延越小,網絡的傳播性能和效率越高。觀察圖1可以進一步發現,網絡訪問時間大于400 ms的有效路徑只占很小的比例,這說明雖然各監測點所處地理位置相距甚遠,但它們的通信效率仍然很高,探測期間內整個網絡的性能非常好。隨著互聯網的飛速發展,依靠互聯網來實現跨國家、跨海洋以及跨大洲通信已不是問題。由于峰值附近的有效路徑樣本數據比例較大,具有代表性,本文截取各監測點的網絡訪問時間分布在峰值附近較密集的有效路徑樣本數據做統計分析。amw、san、bcn和mnl這 4個監測點的網絡訪問時間主要集中的區間如表2所示。

圖1 有效路徑網絡訪問時間分布

表2 截取的網絡訪問時間區間
對于IP級拓撲,探測數據分組從探測源SRC到目的端DST以動態選路的方式得到的有效路徑是IP級路徑,其中,每個中轉路由器 R1, R2,… ,Rn對應的IP地址為 I P1, I P2,… ,I Pn,中轉路由器的個數即跳數。訪問直徑是網絡拓撲傳輸效率的度量指標,反映了網絡宏觀拓撲結構對網絡動態傳播行為特征的影響。圖2為4個監測點在探測有效路徑中網絡訪問直徑的累積分布。

圖2 有效路徑中網絡訪問直徑的累積分布
從圖2可以看到,只有不到10%的有效路徑的訪問直徑在 15跳以下,說明數據分組從有效路徑的源IP地址到目的IP地址傳輸一般要經過較多的中轉路由器。分別來看,amw監測點探測的有效路徑訪問直徑有90%超過12跳,bcn監測點是15跳,而san和mnl監測點是13跳。選取4個監測點探測的具有代表性的訪問直徑區間內有效路徑樣本數據,amw、bcn、san和mnl監測點的有效訪問直徑區間分別為7~35跳、8~39跳、8~36跳和7~37跳,相應的平均訪問直徑分別為14跳、16跳、14跳和15跳。統計不同訪問直徑的有效路徑的網絡訪問時間,在4個監測點的有效路徑的網絡訪問時間分布的峰值范圍內(如表2所列的每個監測點截取的2個區間),結果如圖3所示。

圖3 訪問直徑對網絡訪問時間的影響
從整體趨勢上看,區間1和區間2中有效路徑的訪問直徑與網絡訪問時間的變化趨勢是振蕩上升的,也就是說,隨著訪問直徑的增大,網絡訪問時間也隨之增大,說明網絡拓撲中有效路徑的訪問直徑越大,數據分組經過的中轉路由器越多,所需的網絡訪問時間就越長。進一步觀察圖3,對于區間 1,如圖 3(a)所示,san和 mnl監測點的網絡訪問時間開始時急劇下降,然后大幅上升,而amw和bcn監測點則相反;amw、bcn和san監測點的訪問直徑在13~33跳時,網絡訪問時間變化的振蕩幅度較小,而mnl監測點的網絡訪問時間的平緩變化區間相對較小,主要集中在9~23跳。對于區間 2,如圖 3(b)所示,4個監測點的網絡訪問時間隨著訪問直徑的增大并沒有大幅的振蕩,并且也沒有出現相對平緩的變化。相較于其他 3個監測點,mnl監測點的網絡訪問時間隨著訪問直徑的增大而小幅增大,盡管出現微小的波動,但總體趨勢是平緩的。
為了深入分析訪問直徑與網絡訪問時間的關系,截取4個監測點的2個峰值范圍內有效路徑的網絡訪問時間與訪問直徑進行量化統計,如表 3所示。

表3 有效路徑的網絡訪問時間與訪問直徑的統計結果分析
由表3可得,4個監測點提取的網絡訪問時間區間內訪問時間的均值與中位數相差不大,訪問直徑的均值與中位數也很相近,說明區間內均為有效樣本。從Pearson相關系數值看到,最大值只有0.201,最小值是 0.068,所以可以認為訪問直徑與訪問時間是不相關的。進一步分析4個監測點的訪問直徑與訪問時間Pearson相關系數隨著時間的演化趨勢,如圖4所示。以月為單元,在2012-2015年共 48個月Pearson相關系數值的演化范圍集中在0.05~0.25,期間并沒有呈現增大或減小的變化趨勢,而是隨著時間振蕩演化,出現的最大值也不超過 0.35,說明訪問直徑與訪問時間之間是一種極弱的關系,可以視為是不相關的。而圖3所示的網絡訪問時間隨著訪問直徑增大的可能的原因是對整體樣本數據進行統計時,由于數據的高冗余性,有效路徑的某一訪問直徑下個體樣本數據中較大的訪問時間樣本數據沒有體現出來,對總體樣本數據的統計掩蓋了個體之間的真實關系。

圖4 訪問直徑與訪問時間Pearson相關系數演化趨勢
然而,縱向觀察表3,對于同一監測點的不同訪問時間區間,訪問時間的均值和中位數相差很大,但訪問直徑的均值和中位數很相近,也就是說,在訪問直徑相差不大的情況下,訪問時間卻相差很大。數據分組從網絡中某一源IP地址到任一目的IP地址傳播過程中,由于鏈路吞吐量的差異以及數據傳輸過程中的分組丟失、鏈路消耗和時延等原因,造成網絡拓撲中某一特定的訪問直徑下,大量數據分組的訪問時間是不同的。在實際的網絡傳播過程中,訪問直徑對數據分組訪問時間的影響并不大。
無論是網絡本身內部拓撲結構還是其外在狀態表現,網絡都時刻處于動態變化中,因此網絡的行為也是隨著時間不斷變化的。選取 amw、san、bcn和mnl監測點探測得到的2012-2015年共48個月的有效路徑樣本數據,根據定義2,結合圖1的有效路徑中網絡訪問時間分布,對4個監測點的有效路徑中網絡訪問時間演化序列的結果做統計,如圖5所示。

圖5 網絡訪問時間的演化
從圖5可以看到,網絡訪問時間整體的演化趨勢是緩慢下降的,表明隨著時間的推移,網絡的有效性能不斷增強,網絡的傳播效率不斷提高。然而,這種下降趨勢不會一直出現,數據分組在網絡中傳播會受到多方面因素的影響,例如,互聯網服務提供商因為一些特殊情況對局部地區的網絡結構進行調整,尤其是骨干網上的網絡結構調整,引起網絡繞路問題等原因使網絡訪問時間不會無限減小。聚焦各趨勢線上的波動點,4個監測點在探測期間網絡訪問時間是振蕩變化的,甚至在某些月份的振蕩幅度較大,說明互聯網在平穩演化的過程中時常伴有突變的發生,導致這一現象的原因可從主、客觀因素這2個方面來分析:就互聯網本身而言,在時間和空間的有限結合中,世界上每天都會有大量的節點接入互聯網,同時也會有許多節點由于各種原因而消亡,互聯網不斷破壞自身系統的平衡,卻又平穩地選擇生成新的拓撲結構,互聯網的演化使其內部各組織之間以及與其他外界社會環境之間不斷地相互作用和影響,為了能夠長期穩定地生存,演化必須進行物質、能量和信息代謝,而代謝活動勢必會使自身的拓撲結構產生重組(自復制)與變異(突變)以適應變化的環境,在某一個較短的時間內不精確的自復制或是有誤差的數據傳輸使參數大幅動蕩,但是為了維持自身拓撲結構的穩定,動蕩持續時間并不會太長;另一方面,在互聯網演化過程中時刻存在著互聯網異常事件,如DDoS攻擊、僵尸網絡、病毒傳播和網絡群體事件等,這些異常事件將直接帶來網絡中流量增加,引起局部路由上的吞吐量突然增加,進而使網絡時延增加,網絡訪問時間會突然增加。另外,由于CAIDA多點探測方式的限制、路由配置問題以及隨機噪聲的干擾,會使網絡通信路徑和傳輸發生異常,也會使網絡訪問時間的演化產生振蕩。由此來看,由于網絡自身拓撲結構和通信鏈路的變化以及本地網絡環境的影響,網絡訪問時間的演化并沒有一些明顯的特定規律,但從圖1可知,有效路徑中網絡訪問時間的分布特征又表現出一種規律性,說明互聯網宏觀拓撲結構帶有一種序,具有自相似性,這種自相似性是由于互聯網拓撲演化時不斷進行自復制行為而產生的,盡管網絡演化時常出現突變,但從總體來看,互聯網仍是一個穩定的確定系統。從另一角度來說,新事物的產生通常由許多差異引起,突變是新信息的主要來源,所以,大幅異常的波動點并不是一種壞現象,它們是網絡進化的動力,也是改造網絡的有利時機。
根據非線性動力學理論,一些看似無規則的隨機行為實際上是一個真實的非線性確定系統內在隨機性的表現,這種現象可用混沌運動來解釋,即在非線性確定系統中不需要附加任何隨機因素就能發生類隨機行為[14]。因此,互聯網訪問時間的時序演化符合混沌運動特征,同時,互聯網拓撲有序層次化的自相似性說明互聯網具有分形特征。
以混沌理論來分析非線性時間序列的基礎是相空間重構[15],即把低維的時間序列重構成一個高維的相空間。重構的關鍵是確定2個參數,即時延τ和嵌入維數m。
對于網絡訪問時間的n個一維時間序列x1,… ,xn,采用時延坐標法[16],重構相空間為

其中,重構相空間矢量長度為 N = n ? ( m ? 1 )τ。
1) 時延τ
時延τ的選取應使重構相空間中各矢量相互獨立,統計網絡訪問時間跨度為k的自相關系數,計算式為

當kR下降至初始值的時,即最佳時延τ。
2) 嵌入維數m
首先,定義相空間矢量間的關聯積分為

其中, H (X ) 是Heaviside函數,當 X < 0 時,H(X)= 0 ;當 X ≥ 0 時, H (X)=1。 R (i , j)是相空間矢量 Y ( ti)和Y ( tj)間的距離,于是 Cm(r)則表示相空間矢量間距離小于r的比例。根據重建復雜系統動力學原理,當r足夠小而N足夠大時,Cm(r )與 rD(m)成正比,即 Cm(r) = ArD(m),D (m )就是混沌吸引子的關聯維數,其值等于 ln Cm(r)與lnr的斜率 , 則 有 l n Cm(r) = D(m ) l n r + c onst(常 數 ) 。 若D(m )隨著m的增大而保持收斂,則系統是混沌的,此時, D (m)為飽和關聯維,m為最小嵌入維。
利用混沌理論來分析非線性訪問時間序列,首先,確定時延τ。網絡訪問時間演化序列的 Rk隨k的變化如圖6所示。由圖6可知,最佳時延τ=3。然后,利用分形維的 G - P算法[17],繪制最佳時延τ= 3 下,嵌入維數m為3~12時 ln Cm(r)?lnr曲線,如圖7所示。

圖6 網絡訪問時間演化序列的Rk隨k的變化

圖7 網絡訪問時間演化序列的關聯積分
從圖7可以看到,隨著m的增大, ln Cm(r)隨lnr變化的曲線斜率逐漸收斂。當 m > 4 時,各條曲線斜率趨于平行。當 m > 9 時,各條曲線幾乎重疊,說明 D (m )趨于收斂,由此得出重構相空間的最小嵌入維數 m = 9 。進一步對 m = 9 時 ln Cm(r)?lnr曲線做線性回歸分析,得到飽和關聯維 D (m =9,τ =3)=2.8304,是一個分數維,說明網絡訪問時間演化序列具有混沌特征。
依據網絡訪問時間演化序列的混沌特性,在網絡時序演化中引入Logistic方程[18]并加以改進,基于網絡訪問時間演化序列建立預測模型,并進行仿真分析與驗證。
第 4節通過對網絡訪問時間演化序列分析得到,在探測期間網絡訪問時間演化趨勢是緩慢振蕩下降的,其振蕩的幅度相對并不大,由于自身拓撲結構的突變或節點間通信異常使其呈現出一種準周期性振蕩衰減趨勢。但是隨著互聯網的迅猛發展,網絡業務不斷增多,給網絡通信傳輸帶來了一定的壓力,網絡訪問時間并不會一直衰減,且一定存在某一下限。因此,采用Logistic方程描述網絡訪問時間演化行為是可行的。建模過程如下。
步驟1 將網絡訪問時間演化序列代入Logistic模型的非線性微分方程,有

其中,r為網絡訪問時間變化率,T為t時刻(以月為單位)的網絡訪問時間。
步驟2 對式(6)進行積分,得

由式(7)可得,當 0r> 時,T隨著t的增大而單調遞增。
步驟3 對 Logistic方程變換,使其符合網絡訪問時間演化序列的振蕩衰減特征,變換式為

步驟 4 引入帶正余弦的指數線性組合作為振蕩衰減因子,同時引入校正系數p確保模型能反映實際演化特征,最終得到Logistic方程的改進模型為

其中,r1和 r2為振幅, v1和 v2為初始幅角, u1和 u2為振蕩半周期,T為輸出值。模型方程簡化表示為T =f(d,K,m,p,r1, u1, v1, r2, u2, v2,t )。
模型參數的選擇對預測模型的準確性有很大影響。本文采用粒子群優化算法(PSO)[19]根據探測期間網絡訪問時間演化序列對 Logistic模型取優。算法流程如下。
輸入 網絡訪問時間演化序列
輸出 最優適應度個體 T =f(d,K,m,p,r1, u1,v1, r2, u2, v2,t)
步驟 1 設置初始參數最大迭代次數、群體規模M和加速度c等,并確定各參數的取值范圍。根據問題的復雜程度和需求設置群體規模和算法的終止條件。
步驟2 定義適應度函數。標準的PSO算法中,適應度函數 f (X ) 是一個最小優化目標距離,即xi為第i個粒子的空間位置,那么個體經歷的最優位置所對應的適應度為fbest( xi);所有粒子經歷的最優位置所對應的適應度為 fbest。本模型以評價標準的角度出發,建立模型的輸出值 T*(i)與實際值 T (i)的累積誤差作為適應度函數,為

其中,n為以月為單元統計的時間跨度。 S (i)值越小,模型的輸出值與真實數據總體誤差越小,預測模型就能夠準確地模擬真實數據。
步驟3 在參數的取值范圍內隨機生成初始群體,計算每個個體的適應度 S (i)。若 S (i) < fbest( xi),則個體所處于局部最好位置;若 S (i) < fbest,則個體處于全局最好位置。
步驟 4 判斷適應值是否超過最大迭代次數或預設值。若不滿足則繼續進行步驟3的計算和判斷;若滿足則結束,輸出結果。
以月為單元,選擇4個監測點的2012-2015年共48個月的網絡訪問時間演化序列。分別將4個監測點的前 40個月作為預測模型的輸入值進行模擬演化,然后,對比后8個月的數據輸出值,以此來評價預測模型的準確度。
首先,設置群體規模 50M= ,最大迭代次數為1 000,加速度為2。然后,根據第3節和第4節對網絡訪問時間序列的分布特征與演化特征的分析,確定模型中各參數的取值范圍。接著,對每個監測點在預測模型中進行反復多次實驗以取得最優解,如圖8所示。
實際上,由于系統的復雜性、算法的缺陷以及外界隨機噪聲等因素的影響,PSO輸出會帶有一定的誤差,絕對最優解是不存在的。理想狀態并不存在,尋找完備空間也沒有必要,只要能在一個非完備空間中找到相對最優解就是合理的。從圖8可以看到,對4個監測點的數據進行實驗,當迭代次數超過800以后,群體較難產生更優的個體,說明模型參數算法的收斂性很好,此時參數的選擇較為合理。將4個監測點PSO輸出的參數優化值代入預測模型,為

為了評價模型的預測準確性,引入相對平均誤差作為模型評價指標,計算式為


圖8 PSO收斂過程
首先,分別計算4個監測點的預測模型的擬合值和預測值,并與其實際值對比,如圖9所示。
從整體演化趨勢來看,模型計算的擬合值和預測值的趨勢走向與實際數據所表現出的網絡訪問時間演化序列的變化態勢大致相同,且隨著時間的推移,其都是呈局部緩慢振蕩下降的。在探測時間內,開始時擬合效果并不好,直觀上來看,amw、bcn、san和mnl監測點模型計算值與實際值分別在14個月、9個月、11個月和10個月前差距較大,這是因為初期粒子群體需要一段時間的適應過程。之后除了個別異常波動點以外,擬合值與實際值的重合性相對較好。而對于后8個月的預測值卻有不同表現,在振蕩幅度較小的時間點上,預測值和實際值差距不大,但從實際數據來看,短短8個月的序列演化仍會出現突變點,尤其bcn監測點后期各月波動性最大,這種情況下的預測準確度會受到影響,但是可以通過振蕩的幅度和頻率來判斷未來的演化趨勢,在實際應用中可以將這部分時間做記錄,后續演化時需對它們進行密切關注以及重點研究。分別計算4個監測點的預測模型的擬合相對平均誤差和預測相對平均誤差,然后用1分別減去相應的相對平均誤差值,得出擬合準確度和預測準確度,結果如表4所示。

表4 模型評價指標
由表4可知,模型擬合準確度和預測準確度都滿足評價判定標準。這說明預測模型的構建合理,應用該模型能夠對網絡傳播行為的演化做出準確的預測。

圖9 實際值、擬合值和預測值的對比
時間序列分析是一種廣泛應用的數據分析方法,它研究的是代表某一現象的一串隨時間變化而又相關聯的動態數據,從而描述和探索該現象隨時間發展變化的規律性。時間序列分析利用的手段可以是直觀簡便的數據圖法、指標法、模型法等。而模型法相對來說更具體也更深入,能更本質地了解數據的內在結構和復雜特征,以達到控制與預測的目的。傳統的一維擬合模型僅能表現目標系統的一維物理過程,在宏觀拓撲結構下,網絡的傳播行為能夠表征網絡拓撲結構對網絡動態行為的影響。互聯網是基于時間和空間運行的抽象體,時間序列的演化是網絡特征表現最直接的載體。網絡訪問時間序列的混沌特性說明了網絡訪問時間的自相似和穩定性,進而通過預測模型建立訪問時間預測算法,可得到當前和未來一段網絡環境的訪問時間,這為面臨惡意網絡傳播時有效的內容劫持提供約束條件,并為網絡劫持提供時間約束條件,促進構建強大的、安全的網絡空間。
但由于混沌系統的初始敏感性、初始場的不準確性以及復雜系統內部隨機性使計算極易出現較大的誤差,隨著時間的推移,誤差會不斷累積增大。另一方面,由于數據采樣過程中可能帶有噪聲等因素的影響,使混沌序列的時序演化不斷地振蕩,長時間跨度下很難做出精準的預測。但混沌時間序列是由確定性非線性系統產生的,其內部存在確定性規律,因此,短期內預測模型可以對網絡傳播行為演化做出較好的預測。實際上,這樣一個預測模型對于互聯網來說是十分實用的,因為互聯網自身的發展迅速,并且帶有很多未知,長期預測并沒有意義,浪費了時間和資源。如果在某段時間范圍內能夠準確地預測網絡行為的演化特征和規律,在預測能力消失之前對網絡進行適當的技術改善,那么這個預測模型也是圓滿完成了任務。
為保證網絡的正常服務、提升網絡性能和應用拓展,在提取CAIDA_Ark項目下4個監測點的有效路徑樣本數據的基礎上,本文從大時間尺度上對網絡訪問時間的分布和演化進行統計和描述。對 4個監測點在探測期間內的有效路徑中網絡訪問時間和訪問直徑進行分析,得出網絡訪問時間呈多峰重尾分布,具有自相似性;訪問直徑與網絡訪問時間具有極弱相關性,可認為不相關,說明在網絡傳播過程中,訪問直徑對數據分組的訪問時間的影響并不大。因此在路由算法設計上,不僅要關注路由鏈路的長度還要注重路由鏈接的性能,從而改善了路由算法,提高網絡的通信效率。
統計4個監測點的網絡訪問時間演化序列,以非線性時間序列分析方法對其時序演化特征進行混沌辨識,得出網絡訪問時間演化序列具有混沌特征。借此可分析最大的網絡時延點,通過在該點放置內容緩存服務器,降低訪問時間和訪問直徑,提高網絡內容傳播效率,為內容分發網絡中的內容緩存服務器部署提供指導建議。最后,引入Logistic模型并適當改進,采用粒子群算法(PSO)對模型參數取優,建立以網絡訪問時間演化序列為基礎的網絡傳播預測模型。通過對4個監測點數據在模型中的實驗分析,驗證了模型的有效性,該模型短期內能夠對網絡傳播行為做出準確的預測,可為下一代互聯網建設提供指導性意見。