文/徐竟祎 應奕彬 狄珂 陶燁楠 孫毅
(作者單位為復旦大學校園信息化辦公室)
高校校園網網絡生態是具有三層路由的網絡架構,通過互動、鏈接、網絡的方式,以用戶體驗為導向,實現用戶網絡體驗價值的生態模式,且需要滿足校園內各項教學、科研、辦公等需求,運行機制和行為錯綜復雜。目前部署在出口的流量監控系統可對流量進行管控和優化。各大網絡設備廠商也推出了各自的流量識別與控制產品,但此類產品是基于網絡核心和出口的監控和管理,不能準確地描述分析出網絡環境下的現狀和問題。 距離用戶端的“最后500米”恰恰能反映用戶的實際使用體驗。 但針對直接連接用戶端的數據流量分析尚屬空白。本文將從接入層出發,分析隱藏在大量接入交換機中的流量情況和異常問題,切實從用戶的實際感知出發,對后續提升用戶體驗有顯著的幫助,展現高校樓宇中二級網絡的生態狀況。
1. 校園網絡復雜性:學校是以教學活動為中心的場所,擁有眾多行政、教學或科研機構,涵蓋多類多媒體應用。且校園網校區跨度大,人員結構繁雜,網絡拓撲復雜,設備型號不一致等諸多因素都會對網絡性能造成不同程度的影響。
2.監控難度大:校園二級網絡內每天的網絡流通率高,通過鏡像的方式會大幅增加網絡設備的負載。即使采用編寫腳本自動對流量進行分時分段采集,也會不可避免的將登陸密碼存入腳本中,存在安全隱患。
3.信息維度大:校園網的異常流量會堵塞網絡和互聯網之間的正常流量。相比于出口流量,二級網絡的信息數據包中使用的協議更多(包括計算機中不必要的網絡通信協議),情況也更為復雜,難以實現對龐大數據中的異常情況進行檢測。
為了檢測某高校的二級網絡生態,本文首先選取了30處具有典型性的樓宇交換機。所選取的觀察點覆蓋了師生進行教學、科研、生活的主要場所,均是各種網絡事件發生的重災區,分別為教學、科研及辦公、學生宿舍、院系和公共區域等。利用Wireshark軟件進行抓包,每棟樓的采集時間為1分鐘。

圖1 數據包過濾機制
相比于在出口抓取的信息,在二級網絡中抓取的信息維度更多。因此,首先要對采集的信息進行篩選。為了減少數據的傳送量,本文采用BPF過濾機制,提早對傳輸流量包進行有效性篩選。每個BPF都有一個緩沖區,先將數據存儲在緩沖區中,等數據達到一定份額后再統一提交給用戶,減少了系統調用,提高了效率。將抓取的協議包進行篩選分類,對特定的子網和協議端口進行過濾,最后篩選出運維人員需要的網絡數據提交給上層接口,提高系統工作效率,減少丟包數。過濾流程如圖1所示。
具體統計結果如表1所示,選取了幾個主要特征參數:ARP占比、TCP占比、TCP中回傳率占比、DHCPv6占比、ping大包的丟包率,將對這些統計數據進行進一步分析。為了檢驗網絡質量,分別對網關進行ping大包的測試,看是否存在丟包現象。圖2為幾個典型二級樓宇協議占比圖。
根據表1中的ARP占比統計,發現在4號樓、6號樓、15號樓等二級樓宇中出現大量ARP廣播包,在1分鐘的總流量包中占比均超過了70%。ARP廣播包基本都源于這些二級樓宇網絡架構中的核心層交換機Juniper設備,而與之通信的各個二級樓宇內的接入交換機由不同品牌構成。通過分析發現,出現異常情況的樓宇采用的是老舊型號的Cisco設備,且設備較為陳舊;而對比接入層采用使用時間較短的H3C接入交換機,則未出現大量ARP廣播包。由此推斷,不同品牌型號的交換機之間的兼容問題和設備陳舊問題導致了不停請求目的地址的行為,無用的ARP廣播包將占據網絡通道,導致網絡通道的擁塞。

表1 抓包結果匯總
對30個二級網絡進行Ping包實驗,發現在正常ping包過程中,所有樓宇均未出現明顯的丟包率。但對樓宇進行Ping大包實驗時,發現11號樓1F有6%的丟包率,并且TCP的重傳率較高。經過現場排查,發現該樓宇接入交換機均為服役十年之久的Cisco2900系列設備,由于當年技術限制導致端口帶寬不足、鏈路帶寬不足等問題,所以在進行Ping大包實驗中出現丟包的重傳現象。

圖 2 典型二級樓宇協議占比
根據表1統計情況,發現另一個異常點即是在1號樓中出現大量的DHCPv6請求包。經過分析發現導致這種現象的原因是采用了無狀態地址分配IPv6的方式。具體分配交互過程如下:
客戶端向DHCPv6服務器發送組播請求報文,請求從服務器獲取配置參數。
當服務器接收到請求報文后,將以單播形式將分配給客戶端的地址發送回客戶端。
客戶端檢查回應報文和請求報文參數是否相符。若相符則按照服務器提供的地址進行網絡配置;否則,丟棄該報文。若接到多個回應報文,客戶端將選擇最早收到的回應報文,對客戶端進行無狀態配置。
在抓包過程中,發現一號樓有線設備在一直請求為其分配IPv6地址和相應地址參數,但并未收到服務器回應。通過與其他樓宇的設備數據進行對比,并在核心交換機進行測試,發現這一異常情況發生的原因是交換機未啟用IPv6功能,導致用戶一直在請求地址。
對上述抓包實驗分析可知,從用戶的網絡體驗感來說,二級網絡整體使用良好。但部分區域依舊會出現網絡異常問題。針對上述問題,提出以下改進策略:
1.更換老舊及過保設備。網絡中產生的絕大多數數據都要在用戶終端和接入層網絡設備之間進行交互,因此處于“最后500米”的設備的數據處理能力對網絡性能有決定性影響。更換老舊過保設備可以提高服務器處理速率,降低核心層節點的負載,提高網絡可靠性。
2.優化網絡配置。傳統TCP/IP花費大量時間保障數據可靠性傳輸,在實時性方面有所欠缺。為了改善這種情況,可以擴大協議棧的緩沖區,增加吞吐量,減少緩沖區的拷貝次數,從而有效阻止因發送無用包而引發的延遲,縮短網絡時延,提升用戶體驗。
3.改進鏈路介質。為校園內重點院系單位設置更多的直達鏈路,確保在最高接入點時盡可能少配置多鏈路分享機制,可有效提高網絡速率。
網絡流量分析的目的是發現不合理的因素,確認網絡性能的瓶頸,從而盡可能優化網絡配置,最終達到不斷提升用戶體驗的目的。通過對高校校園網二級網絡生態的探索,后續可對網絡做適當優化,例如對網絡中的老舊通信協議(如IPX/SPX等)進行卸載,以減少由此產生的不必要的流量;更換老舊設備,保證有效流量傳輸的穩定性;增加網絡探針,實現對網絡的遠程監控分析。