蓋 玲
(江漢大學政法學院公共管理系 武漢430056)
海量數字內容已經引發互聯網流量出現10倍甚至百倍的急速增長——互聯網數字洪水時代正式來臨!
未來5年,互聯網每年的流量增速將高達56%~80%,即相當5年的帶寬需求將增加10~20倍,通過對流量增長原因進行深入分析發現,P2P是占主導地位的增長因素,網絡視頻類業務也正在成為另一個非常重要的增長因素,而網絡視頻類業務又多是基于P2P及相關技術進行提供的,因此,深入剖析P2P相關技術及管控手段是解決數字洪水挑戰的關鍵。
P2P具有去中心化、疊加式網絡模型和對等性功能模型的特點,這使得P2P技術與傳統的C/S模式之間有本質的區別,也正是在這些優點讓P2P應用迅速普及,應用涉及的領域越來越廣,已經從單一的大文件下載轉變為更多的新型多媒體應用,例如P2P直播和P2P語音通信。但是,P2P快速發展所帶來的負面效應也正在顯現,最突出的矛盾就是對網絡資源的濫用。不管運營商的網絡帶寬如何增加,P2P應用總是會盡力搶占所有可用的帶寬,這種“黑洞效應”直接影響到運營商網絡建設的投資積極性,同時也會導致其他用戶滿意度下降,引起用戶投訴或轉網,進而間接導致運營商的商業利益受損。
對P2P進行控制和管理已經變得非常必要和緊迫,目前主要采用的手段是部署流量分析及控制設備,通過對P2P應用進行分析和識別,采取阻斷或限速等措施。這種方案優點是可以控制、管理、識別P2P應用,以此來保證帶寬和其他業務的QoS;局限性也十分明顯,通過阻止用戶使用來緩解帶寬的擁擠,會導致用戶的使用體驗和滿意度下降。顯而易見,這種采取簡單“封堵”思路的解決方案并不是最佳選擇。
“疏堵結合,為我所用,一方面對非法的能夠想辦法疏堵的還是要堵一堵,否則電信的投資都白投了,另一方面爭取化害為利,為我們所用。”這是中國電信集團的總工程師韋樂平先生對于管理P2P所給出的策略和建議。“疏堵結合”符合運營商、內容提供商和最終用戶三方利益的“3Win”原則,是目前緩解數字洪水的最適合手段。“疏”是指實現流量的高度本地化,減輕骨干網絡的壓力和提升用戶使用體驗;“堵”是指對帶寬進行必要限制,保護運營商網絡投資的商業價值。
對互聯網流量進行疏導或者封堵,首先需要對互聯網流量進行分析和識別,目前主流方式為采用DPI+DFI檢測技術,通過7層特征檢測結合行為特征檢測技術保證流量識別的準確性,主要涉及的檢測方式包括端口檢測、應用層特征分析、高速協議解析、關聯識別和基于行為特征的檢測。
(1)特征識別
特征識別可以分為單包匹配、多包匹配、多流匹配以及動態解密。
·單包匹配:對于大部分協議,通過一個報文的特征就能識別出該流協議類型。傳統方法需要在構建完協議識別規則樹后,遍歷規則樹,將報文與每個規則進行逐一匹配。通過建立多模式匹配狀態機,對單個報文的一次掃描即可找到報文中的所有特征,大大提高了協議識別的性能。另外,華為公司通過專利技術對普通多模式匹配算法進行了優化,進一步提高了協議識別的性能。
·多包匹配:對部分協議僅靠檢測單個報文無法準確識別該流的協議類型,這時需要分析一條流的多個報文才能準確識別出其協議類型。通過建立多包匹配規則,根據多個報文中的特征來綜合判斷某條流的協議類型。例如,對某VoIP軟件,如果符合連續3個包在幾個相應位置的值滿足等差關系,即可識別該流的協議類型。
·多流匹配:對部分協議僅靠檢測單個流的特征無法準確識別該流的協議類型,這時需要分析多條流的多個報文才能準確識別出其協議類型。通過建立多流匹配規則,根據多個流中多個報文中的特征來綜合判斷多條流的協議類型。
·動態解密:對一些采用簡單加密技術的協議不能通過常規特征識別方式檢測出其協議類型,此時便可以采用動態解密技術幫助進行識別。例如,對于某網絡電視軟件的檢測,通過在報文中用動態解密算法取出一個字段用作動態密鑰,然后用此密鑰與該報文中的另一字段進行解密運算,根據運算結果便
可知道該流是否符合相關的協議類型。
(2)關聯識別
對部分協議,在信令流中動態協商其數據流通道,先通過特征識別識別出其信令流,然后通過解析其信令流得到其數據流的五元組信息。通過對數據流的關聯識別可準確地識別出該協議的數據流。例如,通過特征識別識別出FTP的信令流并加以解析,得到該FTP數據流的五元組信息,這樣就可以直接根據該流的五元組信息準確識別出該FTP的數據流。
(3)行為識別
對某些采用加密技術的協議,無法解密檢測其報文內容,采用別的識別技術也無法識別其協議類型,這時可以根據流的行為特征識別其協議類型。例如,在一定的時間段,可以根據一條流的若干報文長度和發報頻率是否滿足一定規律來識別“電驢”協議。
由于互聯網發展日新月異,對互聯網應用協議特征字的分析需要大量的人力投入和不斷的技術跟蹤,才能保證互聯網流量檢測的有效性和高效性。
互聯網緩存系統是“疏堵結合”中的“疏”,是對HTTP、P2P、在線視頻等主要流量進行網內緩存。
互聯網緩存系統的基本工作原理是用戶請求進行過濾與分析,通過重定向、策略路由等方式將用戶的請求轉移到緩存系統。如果用戶請求的內容屬于已經緩存的熱點內容,通過調度和緩存模塊的協同工作為用戶提供對應資源。熱點內容的生成基于對用戶行為的實時統計,相關判斷條件可以自定義。如果用戶的訪問請求無法由現有熱點內容滿足,且訪問請求已累計至可緩存的閾值,則可以獲取、緩存相應的熱點內容,并為后續的用戶請求提供服務,最終達到將熱點內容流量留在運營商網內,消除相同熱點重復下載的目的。
該系統針對當前運營商優化網絡流量、緩解出口帶寬壓力和提高用戶體驗的需求而設計,通常部署在運營商網絡出口處。互聯網緩存系統通常采用了以下技術。
(1)內網P4P調度
以BT協議為例,BT協議的Tracker服務器在返回Peerlist時,并不能判斷哪些peer屬于內網應該優先互相傳輸,而是隨機地將列表發送給客戶端,列表中既包含外網的用戶,也包含內網的用戶。
部署采用P4P技術的緩存系統后,系統就會將內網中保存有相同內容的peer地址優先傳輸給請求用戶,而不需要向外網peer進行請求。通過優先調度內網用戶之間進行數據傳輸,可以降低骨干網的傳輸壓力,提高改良文件傳輸的性能。
(2)動態URL解析
基于安全性等因素的考慮,目前大部分在線視頻網站采用了動態URL技術,一些網站使用了一次性或者具有時間限制的URL,另外一些網站甚至把用戶的IP地址作為URL的一部分,所以不同用戶或者同一用戶在不同的時間訪問同一個資源,看到的URL是不一樣的。傳統的基于URL的緩存技術將無法正常地發揮作用,互聯網緩存系統采用智能緩存技術,通過分析資源的內容或者特定網站的URL變化規律,采用正則表達式進行匹配,實現精確的緩存能力。
(3)緩存內容防重復緩存
互聯網上內容相同的資源經常會出現在不同的網站上,而且文件名也不一樣。如果按照文件名和URL等信息來定位資源,將會造成內容相同資源的重復下載,浪費寶貴的互聯網出口帶寬。互聯網緩存系統能夠準確地判斷互聯網資源的惟一性,避免重復緩存帶來的帶寬和緩存空間的浪費,其實現原理如圖1所示。系統自動將文件進行分片并預讀取每片的前面幾個字節,然后用Hash算法獲得一個惟一標識該資源的Hash值,確保緩存資源的惟一性,舉例如圖2所示。
(4)緩存內容快速檢索
緩存系統運行一定的時間后,系統中會保存大量的緩存文件,對文件查找速度造成影響。緩存系統使用文件HASH值惟一地標識某一緩存文件,并根據該HASH值建立對應的目錄結構來存放緩存文件。
另外,緩存系統通過數據表映射、內存查找等方式,進一步提高緩存文件的查找速度,加快緩存系統的響應時間,更快捷地為用戶提供緩存服務。
(5)緩存內容過期探測
在互聯網中,被緩存對象一段時間后會發生變化(如刪除、修改等),緩存設備必須在它發生變化時更換過時的對象。緩存系統通過對不同類型的文件設定過期探測時間,超過此時間用戶再次訪問資源時,系統會啟動對發生變化資源的探測,如果發現資源變化,立即刪除過期資源并等待用戶再次訪問新資源,觸發緩存系統進行緩存。
互聯網流量干擾技術是“疏堵結合”中的“堵”,可以根據策略對某些特定流量進行靈活控制,如限速或者阻斷等。此功能通常集成在DPI設備上。
HTTP流量是與客戶感知度最密切的流量,通常被認為是被保護的流量,無需進行流量控制。對于P2P流量的控制通常采用發送控制報文的方式實現。實際P2P流量閾值超過策略設定的流量閾值時,即啟動P2P控制。當有新的P2P應用建立時,DPI設備模擬P2P會話鏈路報文,向會話中插入模擬報文來達到拆除會話或降低會話帶寬的目的;同時對于已經建立的P2P會話,DPI設備也會選擇性地插入控制報文進行控制,直到P2P流量低于控制閾值為止。

目前,P2P應用的流量傳輸基本上分為兩類會話:控制會話和數據會話。控制會話完成相互認證以及數據會話的建立和維持;數據會話完成真正的數據傳輸。P2P應用的傳輸采用TCP協議或UDP協議作為載體。
對于采用TCP方式傳輸的P2P應用,系統可以通過拆TCP連接達到控制P2P流量的目的,當需要進行控制時,SPS模擬P2P會話鏈路報文,向P2P會話兩端發送有RST標志的TCP報文來拆除TCP連接。
對于采用UDP方式傳輸的P2P應用,系統將根據具體的P2P協議構造報文達到減緩或終止P2P會話的目的。系統采用分析P2P控制會話的方法,模擬諸如終止、取消、降低速率等關鍵字來干擾數據會話的正常通信,從而達到控制P2P流量的目的。例如對于BT的控制,系統通過在控制會話中插入Chock消息限制流量,插入Cancel消息限制連接數。
國內某運營商面臨互聯網數字洪水時代所帶來問題,而且由于歷史原因,網間互聯的問題制約著用戶體驗:其網內資源較少,需要通過其他運營商網絡獲取資源,網間結算費用很高;出口帶寬出現瓶頸,且關口局的擴容是短期內無法解決的問題。因此,即使用戶接入帶寬充足,用戶也不能得到很好的上網體驗,造成用戶下載文件慢、頁面打開緩慢或失敗、視頻播放卡等現象。
面對這樣的現狀,運營商部署了互聯網緩存系統以及專門面向電信級運營商和寬帶運營商的流量緩存加速解決方案,用于對P2P、HTTP、在線視頻等大流量應用的網內緩存,大幅提高了用戶上網體驗,并減少了出口流量。
互聯網緩存系統包含以下幾個模塊:流量監控模塊、重定向子模塊、調度模塊、緩存模塊、管理模塊。
(1)流量監控模塊
流量監控模塊能支持主流的120多種協議的分析和識別。全網流量流向分析采用多種檢測分析技術對IP網絡的流量判定其數據包的協議類型、流向、流速和占用帶寬,能夠提供字節數、當前帶寬、峰值流量、新增連接數、最大并發連接數、當前并發連接數等一系列網絡流量實際測量的參數,并將其記錄到數據庫中。
(2)重定向模塊
采用分析重定向技術,完成內網用戶HTTP下載、P2P下載、在線視頻播放請求的本地化。分析重定向技術是通過深度分析用戶行為和對用戶所請求的內容進行解析,得出用戶行為分析結果,從而將用戶的請求定向控制在指定范圍內,實現對流量的管理和控制。
該模塊包含流量采集分析模塊和重定向模塊兩個子模塊:流量采集分析模塊采集互聯網出口的流量,從中解析出用戶請求(P2P、HTTP、FLV等),為重定向提供數據支持;重定向模塊進行用戶下載請求的重定向處理,引導用戶優先獲得本地流量。
(3)調度模塊
調度模塊運用了負載均衡、緩存記錄搜索、熱點內容管理調度等技術。作為整個緩存系統的調度控制中心,實現了標準BTTracker服務器的功能,接收內網用戶所有的Get Announce的請求,調度模塊獲得用戶請求后,將含有內網用戶IP和緩存模塊IP的地址列表返回給用戶。
除此之外,調度模塊還對部署的多臺緩存設備進行有效的負載管理,引導用戶和已經存在緩存數據的緩存設備進行數據交互,增加緩存設備的命中率。調度模塊在向用戶發送peerlist時,優先分發內網的其他用戶節點,引導內網用戶之間互連,降低網絡資源占用率,提高內網資源的利用率。
(4)緩存模塊
緩存模塊是整個系統的重要部分,運用智能緩存技術,將互聯網熱點資源緩存下來,其具體功能如下:調度系統將用戶需要的BT、eMule/eDonkey、HTTP、在線視頻等資源請求送到緩存模塊,用戶在下載時可優先從緩存模塊里獲取想要的資源,而不用連接到外部網絡。緩存模塊最大限度地節省了出口流量,讓內網用戶在本地下載資源,極大地減少了網絡之間的流量,為運營商節約了帶寬,減少了網間結算費用。
(5)管理模塊
通過設置各種參數,提供多種管理策略,保證系統按照既定策略工作,同時可對運行狀態和各種數據進行監控。當與流控設備進行對接時,實現統一入口、集中管理功能。管理模塊具體功能如下。
·狀態監控:對調度模塊、緩存模塊、重定向模塊提供全面監控,實時監測各個系統的健康狀態,保障整個系統能處在一個正常的運行環境中。
·統計報表:管理模塊能夠記錄和分析系統產生的各種數據,生成日報、周報、季報等常規報表,支持數據的統計分析并生成曲線圖,能夠形象、真實地分析整個互聯網緩存系統的運營狀況,滿足管理的需要。
·告警管理:對系統中產生的告警進行統一收集、統計,根據告警的級別調用相應的策略進行處理。
互聯網緩存系統可以采用直路部署和旁路部署兩種部署方式。
(1)直路部署
直路部署拓撲如圖3所示,其優點是對流量的控制較為理想;缺點是直路設備增加了網絡的故障點。

(2)旁路部署
旁路部署拓撲如圖4所示,其優點是不改變用戶原有網絡結構,不影響現有網絡性能;缺點是對流量的控制不如直路設備理想。

互聯網緩存系統上線后主要解決了5大方面的問題。
(1)解決帶寬需求效果
互聯網緩存系統上線后,省干出口流量有明顯變化,流量降低了480 Mbit/s,優化幅度達到34.8%,大大降低了對骨干網帶寬的需求。
(2)解決資源缺乏效果
互聯網緩存系統部署前的流向如圖5所示。



表1 系統上線前后流量流向對比表
互聯網緩存系統部署后的流向如圖6所示。
互聯網緩存系統上線后的流向比例變化情況見表1(運營商C為部署互聯網緩存系統的運營商)。
部署后,由于熱門資源緩存在網內,運營商A、運營商B流入流量比例明顯下降,分別降低了5%和9%,合計下降了14%。
(3)解決P2P流量增長迅速效果
互聯網緩存系統部署前的協議分布如圖7所示(流量單位:kbit/s)。


互聯網緩存系統部署后的協議分布如圖8所示(流量單位:kbit/s)。
可以看出P2P流量由原來的66.8%下降為40%,而HTTP等高價值業務流量所占比例明顯上升。
(4)解決客戶體驗較差效果
互聯網緩存系統上線后,很好地解決了客戶體驗較差的問題,以下是一些客戶體驗的對比。
2010年年初,運營商在恩施、宜昌、咸寧等地市進行了主要針對客戶體驗提升的調研,見表2和表3。

表2 系統上線前后用戶體驗對比表(2 Mbit/s接入)

表3 系統上線前后用戶體驗對比表(10 Mbit/s接入)
(5)解決客戶投訴效果
經過地市分公司的調研,投訴率變化如下。
·互聯網緩存系統部署前
投訴種類:P2P下載、HTTP下載、網頁瀏覽、游戲。
投訴數量:50~60。
·互聯網緩存系統部署后。
投訴種類:網頁瀏覽、游戲,集中在QQ游戲(偷菜等)。
投訴數量:40~50。
系統部署后投訴減少比例達20%。
1中國移動互聯網緩存系統現網測試報告,2010
2蘭剛,王瑞,公晨等.資源緩存方法、資源獲取方法及其裝置、系統.中國發明專利,200910207231,2009-10-13
3李蕓.流量識別與管控技術應用研究.信息通信技術,2008(5)