周益超 王科
江蘇工程職業技術學院 江蘇南通 226007
“寬帶中國”戰略的提出,帶動了互聯網業務的飛速發展,一方面4K視頻、VR、高清直播等各類高帶寬業務的迅速發展和大眾化普及,給互聯網質量帶來了挑戰,對網絡質量的要求越來越高,另一方面,截止2019年年底寬帶用戶數已超4.5億,隨著用戶基數的增加,用戶上網行為的差異也日新月異。寬帶互聯網的網絡質量優化與網絡質量提升成為各大運營商關心的熱點問題,為優化互聯網網絡質量,互聯網質量指標體系應運而生。互聯網質量是一個描述特定時間段某一具體用戶訪問某業務,例如網頁端到端的質量概念,通常互聯網網絡質量體系包括了業務層指標和網絡層指標。例如對網頁瀏覽、視頻觀看、網銀業務、郵箱業務、P2P業務等客戶常用業務的指標進行評估,得到直觀性的評分來體現互聯網網絡的健康狀態。但根據對某運營商2019年投訴明細調查顯示,對于網絡質量問題,80%投訴用戶的投訴點集中在內容源中的末尾10%。90%以上擁有負面用戶體驗的客戶選擇不投訴,且其中一半擁有負面用戶體驗的客戶會直接轉網。由此建立一套新的互聯網網絡質量評價指標愈發重要,凸顯網絡質量中的短板并提前解決減少用戶投訴。本文提出一種基于長尾效應的互聯網網絡質量評判模型,該模型自適應增大關鍵質差指標權重,能夠更加精準顯示網絡質量及波動,及時提醒專業技術人員優化網絡質量。
克里斯·安德森在2004年《長尾》一文中最早提出長尾的概念,是指那些原來不受重視的產品銷量小,但種類多的產品或服務由于總量巨大,累積起來的總收益超過主流產品的現象。長尾效應強調的是那些數量占絕大多數的個體的商業價值,它們單個的值雖然極低,但是這個長長的尾巴,總和不可小覷。此效應正好和用戶投訴模型相符合,根據某運營商2019年的投訴明細,雖然內容源中末尾的單個投訴量比較少,但是對其末尾的10%匯總投訴量和占全部的80%。這說明絕大部分用戶的投訴點集中在少部分內容源之中,這就給我們啟示可以把注意力放在“長尾”之上。
傳統的網絡質量模型將所有的業務進行簡單的加權綜合,由于質優資源總數量遠遠大于質差資源,這就導致客戶投訴的少部分質差內容源往往被淹沒在質優資源中,形成與客戶真實體驗不同的網絡質優的假象。而基于長尾效應的互聯網網絡質量評判模型根據客戶使用的業務不同,將直接影響用戶體驗的業務層指標(應答時延、端到端速率、成功率等)先歸一化,然后定義長尾系數加權綜合,生成網絡質量評分。由于長尾系數加權不同于簡單平均的加權,長尾系數與資源質差程度總體呈負相關,極大地突出了質差資源的權重,較之于傳統互聯網質量模型,更能直觀評價網絡的質量狀況和用戶感知情況。
2.2.1 模型指標組成
根據對互聯網用戶的半年上網統計調查,結果顯示互聯網用戶使用的TOP3業務為:網頁瀏覽、在線視頻和網絡游戲。網頁瀏覽選取淘寶、京東、百度、微博等TOP2000網頁,在線視頻類選取如愛奇藝、騰訊、優酷等TOP30視頻,網絡游戲選取英雄聯盟等TOP20游戲。互聯網質量模型指標主要由這三部分中的六大指標組成,其中網頁指標由端到端打開時長、成功率組成,視頻質量由緩沖比(緩沖時長與播放總時長的比值)、成功率組成,游戲質量由丟包率、時延組成。
2.2.2 模型指標計算
長尾效應的網絡質量模型指標計算過程如圖1所示,分為三大步驟,首先,網絡數據包檢測設備DPI對用戶流量進行分析,它會對網絡中用戶的每個數據包進行檢查,識別出應用層協議,根據識別的協議進行歸類,分別對應上述的六個指標中,并進行數據庫記錄。其次,對DPI統計的指標值進行統計,由于選取的六個指標中,部分指標值呈正相關,其值越大越好,部分指標值呈負相關,其值越小越好,不利于直接加權統計質量,本文引入歸一化概念,對所有指標進行歸一化,取值區間[0,100]。歸一化之后的各個指標之間具有可比性,所有的指標值呈正相關。最后,進行長尾系數加權綜合,引入長尾系數算法,改變以前簡單質量衡量方式,針對差的指標增加權重值,凸顯網絡短板。最后得到直觀性的評分來體現互聯網網絡的健康狀態。

圖1 長尾效應的網絡質量模型框圖
下面以網頁成功率為例,展示模型指標計算過程。模型的各個符號含義如下表所示,為更貼近用戶實際體驗,通過細致化分檔歸一化計算。其中Q1為定義的指標優秀值,Q2為定義的指標良好值,Q3為定義的指標及格值,Q為DPI設備中記錄的原始數據值。在網頁成功率中,Q1等于95%,Q2等于80%,Q3等于70%。

模型指標定義表
內容資源指標歸一化值Qg的計算過程如下:
a.當指標取值Q高于優秀值Q1時,該指標的評價值為100。
b.當指標取值Q在優秀Q1和良好Q2之間時,Qg的取值范圍為[60—100],區間內線性得分,具體由式(1)計算其得分:
(1)
c.當指標取值Q在良好Q2和及格Q3之間時,Qg的取值范圍為[0—60],區間內線性得分,具體由式(2)計算其得分:
(2)
d.當指標取值Q為低于及格值時,該指標的評價值為0。

圖2 模型歸一化圖(以2000網頁為例)
接下來對歸一化后的網頁成功率Qg進行長尾系數加權,其中,常用的方法包含中心化法、極差法、極大法、極小法和均值法等。以往對網絡質量進行評估時,采取的均值法,每個指標加權的權重γ都為一樣,為簡單的求和平均。在本模型中采用中心化法來設計長尾系數,每個指標值的權重值隨自身值的變化而變,具體表現為越差的指標,其權重值γ越大,這樣在最后評分時更加體現其短板。
加權后的評分Qn計算公式如下(以2000個網頁為例):
(3)
其中γn為每個指標的長尾系數,其中γn計算公式如下:
(4)
為獲得海量固定寬帶用戶相應的應用流量數據,先得部署DPI(流量分析)設備,DPI設備一般由分流設備和應用服務器組成。分流設備負責數據采集,根據五元組和七元組對流量進行過濾復制分發,應用服務器主要完成對數據的下一步分析處理。DPI部署的位置一般在IP城域網出口,以便獲得任意用戶的訪問數據。對于DPI部署的方式,目前的主流方案主要有串接和并接兩種,串接是將設備直連中間,對網絡性能有一定影響,可能增加數據傳輸時延,產生抖動或丟包,但是不需要進行網絡連接配置,直接通過數據鏈路層二層透傳,串接方式對設備性能和可靠性都有很高的要求。串接方式的優點在于較好的網絡控制,能夠及時對流量進行阻斷和整形。但是該種方式也引入了故障點的缺陷,為增強設備的可靠性,通常在設備前段加入光路保護器,從而減小在設備升級或故障時對現網的影響。并接是采取旁路連接,不影響原有設備,基本不影響原有網絡流量和性能。采用并接方式,通常用于業務的識別和統計,上網日志的留存等,在網絡控制方面,只能通過干擾的方式進行流量控制,不能對網絡流量進行直接的控制和管理。同時,并接方式對TCP和UDP采用不同的控制策略。對于TCP流,并接方式通過發送reset或6n分組,終止連接來進行控制。而對于UDP流而言,主要是發送偽造分組,劣化通信質量來進行網絡干擾。并接方式可靠性高,對現網業務無任何影響,對設備性能要求低,可以適度緩存流量進行識別即可,沒有轉發的需求。基于目前數據需求及方案的成熟度,本次部署采取旁路并接方式。部署完畢后,因原始數據量較大,對獲取的用戶指標進行抽樣保存。DPI部署圖如下所示。

圖3 DPI部署圖
截取7月至9月用戶訪問的三大項六大指標數據進行模型分析,將所得的原始指標值數據導入模型,計算加權后的評分Qn,同時計算傳統模型的評分作為對比。在7月至9月之間,傳統模型計算所得評分分別為90.8分、91.2分、89.3分,評分均值為90.4分,方差為0.67,基于長尾效應的模型所得評分分別為81.2分、84.2分、72.2分,評分均值為79.2分,方差為26。為判斷模型的優劣程度,截取7月至9月的用戶對于網絡質量的投訴,分別為2113、1987、2543。可以看出9月用戶投訴量明顯上升,較之前增加27%,傳統模型網絡質量波動率較之前僅下降2%,而基于長尾效應的模型較之前僅下降13%,與用戶投訴量(用戶真實感受)趨勢更加貼近。進一步計算兩個模型與用戶投訴量的相關系數,基于長尾效應的模型與用戶投訴量之間的相關系數為0.92,而傳統模型的相關系數為0.71,基于長尾效應的模型與用戶投訴量之間相關度更高。對模型效果的分析顯示了基于長尾效應的模型更能凸顯網絡質量的抖動變化,而傳統模型中無法及時傳達網絡質量問題,長尾模型能夠及時提醒專業技術人員優化網絡,從而提升用戶體驗。
通過DPI設備以網絡五元組、智能識別模塊等為深度學習訓練素材,根據熱點判斷策略給每個文件計算熱點價值評分,訪問次數達到熱點閾值的文件才會進入云存儲池。深度學習模塊計算到熱點價值滿足存儲要求時,優化系統會在源站返回內容給用戶的同時實時同步該內容到云存儲池,從而達到網絡優化的目的。通過分析來看影響寬帶網絡質量的因素根據類型可以劃分為以下幾類:一是人員因素,寬帶安裝人員業務技能不熟練、操作不規范會使OLT設備容易發生離線、ONU設備光模塊收發異常,導致用戶體驗不佳。二是設備因素,中繼設備容量不足、城域網設備IP地址不足會使通信網絡質量發生下降。三是環境因素,機房網絡機架運行溫度過高、機房濕度不達標會造成的寬帶通信網絡質量的不穩定。在發現網絡質量下降后,專業技術人員可以從上述方面來優化網絡,積極運用各種抓包工具、網管工具定位通信網絡故障原因,提升互聯網網絡質量。
近年來我國的互聯網技術發展迅速,如何提高寬帶用戶對網絡質量的感知度越來越重要。本文提出一種基于長尾效應的互聯網網絡質量評判模型,該模型自適應增大關鍵質差指標權重,能夠更加精準顯示網絡質量及波動,為網絡質量提升夯實基礎。