作為企業的IT運維部門,經常會遇到用戶投訴系統緩慢的問題,但是,當IT運維部門試圖解決這類故障時,卻經常會找不到具體問題在哪里,無從下手,最后導致問題無限期擱置下去。那么,到底是什么阻礙IT運維人員找到準確的故障點呢?科來認為,網絡排障困難主要是由于主客觀兩方面的原因造成的:
首先,從主觀上講,企事業單位的IT運維部門大多都注重資源、設備的管理和監控,而缺乏對網絡中通訊流量的透視分析;過多依賴安全規則庫特征碼的檢測,而缺乏對異常通訊行為征兆的主動分析能力和預警能力;分析處理問題側重應用層面,而缺乏精細化,小顆粒度,深層次分析管理手段。
其次,從客觀上講,因為網絡故障是非單一性的,因此,存在一類或多類故障并存的可能,同時,用戶投訴中約有75%的場景無法復現,因而無從解決。也就是說,故障的間歇性,客觀的增加了排除隱患故障的難度。
那么,對于企事業單位的IT運維部門來說,怎樣才可以避開主、客觀的因素,快速、準確找到故障的具體原因呢?科來行業技術總監朱欣嘉認為,只要具備了網絡回溯分析的技能,企事業單位的IT運維人員就可以分分鐘找到故障源頭。

科來行業技術總監 朱欣嘉
所謂網絡回溯分析技術是指通過網絡底層通訊信息的嗅探及存儲,進行記錄、檢查、分析及統計,幫助用戶快速回溯網絡歷史運行狀態,從而達到相關網絡管理要求的網絡分析技術。其最大的價值在于“發現網絡隱患,并對其追根溯源,從而找到問題的根本,對安全事件及網絡問題進行取證分析”。
而從運維管理的需求來說,當前企事業單位的IT運維管理首先需要應用流量梳理。即厘清網絡中各種業務系統的流量,建立可視化的流量監控,掌握網絡資源使用情況,從而及時發現異常流量和新上線的業務情況;
其次,需要了解并掌握關鍵生產業務的性能狀況、繁忙程度,定位業務瓶頸在網絡還是服務器,分析客戶端到服務端的網絡時延,服務器數據交互性能等;
再次,需要具備對網絡鏈路故障的快速定位和隱患故障的排查能力,以及對間歇性網絡故障的事后分析排查;
第四,需要具備安全分析的能力。即自動發現影響網絡安全的異常行為,如APT攻擊、蠕蟲病毒、端口掃描、ARP攻擊、非授權訪問等;
最后,需要取證分析能力。如遇到安全設備產生大量告警,需要確認是否誤報,一旦確認,提供原始數據,為事后處理提供依據。

回溯分析技術完善運維管理目標實現
而這些,網絡回溯分析都可以做到。基于該項技術的研發,科來軟件推出了科來網絡回溯分析系統。科來網絡回溯分析系統總體上采用分布式部署,集中監控分析的架構。
針對網絡故障的多樣性和難判別性,科來網絡回溯分析系統以故障數據流中的原始數據包為基礎,剖析業務數據在網絡平臺中的傳輸過程,還原業務交互過程的真實與完整,定位影響業務傳輸質量的網絡故障源。科來網絡回溯分析系統還對鏈路總流量、Top_網段、Top_IP主機、Top_網絡應用、Web攻擊檢測、警報日志等進行多元化的實時數據監控,用戶可利用實時監控信息初步判斷監控鏈路的網絡故障層次。針對網絡故障的間歇性,科來網絡回溯分析系統提供5種數據類型以及40天以內任意時段的網絡數據的回溯分析能力,方便用戶對歷史網絡故障數據中的主機、會話、網段/部門、應用進行數據的深度檢索和故障定位。結合生產業務的傳輸特點,科來網絡回溯分析系統對各項關鍵業務執行獨立的數據交互監控,及時掌控業務交付質量、繁忙度、業務處理頸瓶。科來網絡回溯分析系統還能夠針對各服務器提供服務的端口進行統計,能夠準確反映出各服務器所開放的服務端口,從而能及時發現異常服務端口,并為安全設備設置策略提供依據。

科來網絡回溯分析系統
此外,科來網絡回溯分析系統對關鍵業務交易內容的深度解析,可分別掌握各交易類型、用戶信息、交易狀態、交易成功率等各種信息。分析業務交易存在的頸瓶。依據網絡實際運行環境、業務傳輸質量要求以及異常行為在網絡交互中的特征,對監控鏈路和業務交互流量中的可疑行為和交互質量做自定義網絡規則告警,實現異常行為快速發現,以及業務訪問質量監控。依據對生產業務監控,分析業務操作的TCP交易,可識別每一個請求與響應情況,分析是否有影響業務交互質量的重傳、重置,響應慢等。
除此之外,科來網絡回溯分析系統還可對數據鏈路到應用層的智能診斷信息的解釋、原因及建議;可對網絡鏈路故障進行區分,排查定位故障源。自動分析網絡中的疑似蠕蟲、端口掃描、可疑會話、ARP攻擊等,并可自定義規則。如果業務數據交互不成功,依據TCP通訊詳情及多段對比分析法,定位發生故障的網絡中間設備,并根據任意時間、任意流量類型生成報表,并發到指定郵箱,從而實現流量報表的自動輸出。