
摘 ?要:網絡系統可靠性設計的關鍵點是測試組網中參數的確定,通過振蕩測試法、極端數據流突變測試設計方案,網絡系統中斷、恢復時間長短測試,以及網絡系統正常運行平均無故障時間等策略確定測試環境的關鍵參數;同時采用雙機容錯或多機容錯技術、網絡硬件冗余設計遵循、網絡拓撲結構抗毀性測試,流量數據異常監測,數據容災備份、數據分布式異地云端備份等多種策略以期實現網絡系統可靠性的綜合設計。
關鍵詞:網絡;安全;可靠性;設計
中圖分類號:TP393 ? ? 文獻標識碼:A
Abstract: The key point of reliability design of the network system is the determination of the parameters in the test network. The key parameters of the test environment can be determined through the Oscillation test method, the abrupt change test of the extreme data flow, the length of the break and recovery time of the network system, and test of the mean time between failures of the network. Meanwhile, the integrated design of network system reliability can be realized through using multiple technologies, such as the two-machine fault-tolerant or multi-machine fault-tolerant technology, the redundancy design of network hardware, test of invulnerability of the network topology, traffic data abnormity monitoring, data disaster recovery backup, and data distributed remote cloud backup, etc. .
Keywords: network; security; reliability; design
1 ? 引言(Introduction)
隨著計算機網絡技術的快速應用和發展,計算機網絡技術的應用已經滲透到各行各業,無論政治、經濟還是金融、商業、教育,各個行業越來越高度依賴計算機網絡互聯[1,2]。計算機網絡一旦出現故障,會對各行各業造成重大影響,以及產生巨大的經濟損失,甚至影響到國家政治安全。因此,對于計算機網絡技術可靠性的要求也越來越高,計算機網絡技術可靠性的研究會產生巨大的經濟效益和社會效益[3]。
在網絡系統設計中,充分保證整網運行的可靠性是基本原則之一。基于網絡系統設計的可靠性要求,針對網絡系統的平均無故障時間、平均恢復時間等機制進行模擬測試。主要測試網絡系統的可維護性,系統發生故障后,能快速定位、解決故障,同時在系統運行過程中實時監控系統的運行狀態,各類網絡應用系統的網絡環境通常需要配備相關的監控服務器,通過實時監控可提前發現異常狀態并發出預警信息,提前發現問題減少故障。如設備溫度過高、數據流量異常突起、處理器利用率突增等各類異常情況,通過更換或者增加相關網絡設備或調整網絡邏輯結構來規避可能出現的風險、故障,提前進行預防維護。
2 ?網絡可靠性設計原則 (Design principles for network reliability)
網絡結構通常分接入層、匯聚層、核心層。網絡層次越高可靠性要求也越高。為保證網絡可靠性,可靠性技術的實施要求嚴密、完整,在設計過程中可靠性的理念和方法不能進行簡單疊加和無限制的冗余。否則,會增大網絡建設成本以及后期網絡系統管理、維護的復雜度,會給網絡系統在運行過程中帶來潛在的安全風險。因此在對網絡系統進行早期規劃、設計時,要嚴格按照國際標準和國家標準對網絡類型、網絡拓撲結構和網絡功能層次進行劃分、確定,以此分析為前提來構建網絡業務邏輯模型、網絡概念模型,并在此基礎上確定網絡拓撲圖,準確找出網絡可靠性設計中最重要的關鍵節點和鏈路,合理規劃、設計、部署多套策略的網絡可靠性設計方法和技術。在網絡系統發生故障后,能夠快速定位故障點,并通過相關應對策略排除故障,并根據系統告警提前發現問題,通過更換設備或調整網絡結構來規避可能再次出現的故障[4]。
平均無故障時間MTBF(Mean Time Between Failure)[5]是整個網絡系統可靠性的重要參數指標,通常情況網絡系統階段累計工作時間與故障次數的比值為MTBF,用戶對MTBF的期望值趨于0。整個網絡系統在運行過程中系統環境中各物理設備和軟件組件無間斷無故障連續運行的平均時長,決定了用戶在系統使用時候的體驗。
在衡量整個網絡系統容錯能力中,有一個非常重要的指標:平均恢復時間MTTR(Mean Time to Repair),在網絡系統運行過程中各類物理設備和軟件組件出現故障時,網絡系統從故障狀態恢復到可正常運行狀態所消耗的平均時間。
網絡系統可靠性公式可表示為:
MTBF/(MTBF+MTTR) * 100%
其中,MTBF:平均故障間隔時間;MTTR:系統平均修復時間[3]。
通過系統可靠性公式可看出,MTBF與系統的可靠性成正比,提高MTBF可提高系統可靠性;MTTR與系統成反比,降低網絡系統平均修復時間可提高系統在實際運行中的可靠性。造成網絡系統運行低可靠性的因素眾多,通常主要因素有設備間以及設備本身的鏈路故障、設備軟硬件故障、非法數據溢出、網絡擁塞、用戶誤操作等。針對這些因素采取對應措施,提高網絡系統平均故障間隔時間,降低系統平均修復時間,從而提高整個網絡系統運行的可靠性以及提升用戶舒適體驗。
3 ?網絡硬件冗余設計(Redundancy design of network hardware)
網絡硬件冗余設計對于網絡抗災備份起著不可忽視的作用,硬件容錯的方法之一就是硬件堆積冗余,在物理層面可通過元器件的重復獲得一定的可靠性。或選擇硬件待命儲備冗余。系統提供N+M模塊,當前狀態只有一塊或者某幾塊處于工作狀態,其余M1、M2、M3、M4——MM塊一直處于待命狀態。一旦工作狀態的模塊出現問題,立即喚醒待命模塊進入運行狀態,以此循環,直至所有待命模塊資源枯竭,采用此方法可獲得較高的穩定性和可靠性。
雙機容錯或多機容錯技術的使用是確保網絡系統穩定性的普遍做法,任何單點系統故障不會引起整個系統的癱瘓,系統提供相關工具在應用繼續的情況下可修復單點節點故障或者移除以及新增,同時通過系統冗余服務器監管網絡系統下所有設備狀態和運行狀態。冗余設備都在使用,出現警示狀態后,及時調整帶寬,增大帶寬并提高網絡系統處理的速度。但在實際應用情況中可能產生數據庫服務器無法及時響應用戶需求[3],用戶對于時間等待的要求就會面臨尷尬。如2020年初因疫情防控出現各大網絡學習平臺的用戶數量的極速暴增,導致網絡帶寬以及服務器的響應延遲,甚至爆崩。為了滿足在特定時間節點用戶訪問數量的激增所產生的訪問響應慢,以及系統可能爆崩的可能性,通常建議采用負載均衡服務器,通過多臺負載均衡服務器可獲得更高的速度,有效平衡數據訪問量,也可作為高可靠性的備份系統。
4 ? ?網絡拓撲結構(Network Topology)
拓撲可靠性并不能完全決定整個通信網絡的可靠性,但網絡拓撲設計的優劣將直接影響著網絡的性能,網絡拓撲結構對整體網絡可靠性起著重要的作用,也是決定網絡可靠性的先天因素。借助自動網絡拓撲、手動網絡拓撲展現網絡拓撲關系,利用網絡拓撲結構分析出系統的可靠度。隨著網絡擴大或接入新設備,網絡結構將變得更加復雜,在網絡拓撲設計過程中拓撲結構的抗毀性和生存性是衡量有效度的重要指標。破壞整個或部分通信網絡的困難程度由網絡節點連接所要移除或破壞的最少網絡節點或鏈路數目來決定,由此可見抗毀性完全由網絡拓撲結構所決定,是可靠性的一個確定性指標。生存性最顯著的變化是引入了網絡部件的失效、故障概率,在隨機故障或蓄意破壞之下,保持通信網絡整體或部分連通的概率,其不僅受網絡拓撲結構的影響,同時還依附于網絡部件、設備的故障概率、網絡維修與管理等因素,因此網絡拓撲生存性是廣義的拓撲層可靠性。
5 ? 數據容災備份(Data disaster recovery backup)
數據容災備份的重要性體現在數據長期有效地保存,以及對歷史數據的備份,這些數據長期存儲在網絡硬盤上,增加了網絡存儲空間的開銷,同時消減了網絡存儲空間的利用率,降低了數據存取速度,消減了用戶感受的舒適度。為了有效利用實時數據信息,通常建議把利用率不高,但偶爾需要調用的數據保存在脫機備份介質上,以防止自然災害、黑客攻擊、人為破壞、非法越權操作等惡意篡改、誤操作等造成聯機數據丟失。在需要數據調用時采取授權限時訪問,以化解風險,把實時訪問數據存儲在聯機網絡存儲設備上。
同時,為了確保聯機存儲數據的安全需做好系統防護,確保桌面系統環境下產生的數據到達網絡環境再到數據服務器的系列風險的技術管控和反跟蹤、反向消除風險降到最低。
在網絡數據備份中按數據安全等級采取單項或多種備份策略混合模式進行網絡數據安全備份,安全級別較高采用完全備份,隨數據安全級別下降可采用增量或者按需備份等多種備份混合方式的數據備份策略。
6 ?網絡可靠性測試方法(Test method of network reliability)
6.1 ? 網絡測試內容
網絡系統可靠性測試的主要內容是:系統在持續運行不間斷的情況下、高負荷、高頻率極端數據流振蕩下的持久、穩定、安全、精準的運行性能;單點故障情況下系統自動恢復時間。
網絡可靠性測試參數的設計是保證測試效果的重點[6],主要測試組網設備參數,實際測試投入中難以搭建對等比例測試運行環境。檢驗網絡系統運行性能高可靠性的核心是:如何抽象和取舍模擬測試網絡系統的核心模塊。模擬測試網絡系統核心模塊抽象、簡化的基本原則和重點是:整體分析實際運行過程中網絡關鍵節點及系統性能壓力瓶頸,并充分暴露其運行過程中的薄弱點,重點保留網絡系統壓力瓶頸和關鍵節點以及易發生數據異常的模塊。
在組網測試環境中對網絡的協議模型和流量模型進行模擬[7],保持環境在大壓力并且振蕩的條件下持續運行,對于當前復雜的網絡環境可在測試過程中增加異常數據和流量峰值,同步監控網絡系統整體運行狀況和異常情況作為測試結果數據進行反饋。
6.2 ? ?網絡測試參數
網絡系統協議模型可通過用戶組網的行業規劃設計和行業原型開發模式進行抽象,得出相對精準的網絡系統協議模型數據參數[8]。網絡系統在規劃設計階段,因無法預先監控網絡系統持續數據流量而獲取模型參數。因而網絡系統重要數據參數不易確定,數據流量模型難以準確界定,各個子模塊數據邏輯難以準確劃分,成為限制組網方案模擬測試的主要因素。通常采取的措施是依據行業標準,根據行業特性分析,網絡系統規劃需求,以及借鑒前期開發經驗設定具有普遍意義的參數。
而另一種非常規方法可采用預定義參數方式,類似數據結構中的折半查找法,可根據常規設定參數范圍,預先估計參數上下(m,n)限,然后對上下限參數值進行算術平均(m+n)/2,對于得出的算術平均參數按算術平均參數的幾何倍數增加來逐級設置網絡設計參數。當網絡系統參數隨著算術平均參數幾何倍數逐級遞增時,網絡系統變化異常、振蕩頻率加強等情況出現時,可對算術平均參數以幾何倍數逐級遞減來設置參數。通過算術平均參數折半查找法得到比較合理的網絡系統設置參數。
協議模型和流量模型的振蕩是持續振蕩測試的基本要求之一。實際運行過程中網絡系統的數據和流量峰值是動態變化的。來自網絡系統各類數據流的輸入輸出變化頻繁,尤其是增加各類異常數據流后,將對網絡系統穩定運行產生更大的負擔,并暴露出更多的系統脆弱節點。在進行實際網絡系統可靠性、健壯性測試過程中可不斷提高異常數據流、劇烈高頻的數據振蕩,虛擬出比實際網絡運行更加糟糕的運行環境,使網絡系統在運行過程中能夠更全面、更快暴露較長時間才能夠發現的網絡系統缺陷。振蕩系數在網路系統測試過程可調整各類軟、硬件和數據在不同頻率下的振蕩結果,例如可分別以等差或等比數列的時間間隔為一個周期進行測試。與此同時還可進行路由條數振蕩測試,路由條數不斷高頻率變化可導致整個網絡系統中路由信息的不斷增加、刪除、修改,這將在網絡系統數據輸入輸出過程中引發大量數據包傳輸路徑的不斷變化、更新、響應延遲,給網絡測試系統的穩定性帶來更大的壓力。另一方面可采用極端數據量跳水式的流量和頻率變化來暴露網絡系統潛在的問題:在持續測試時可預先采用數據流量的極低值進行低、中、高頻率的測試,以監測極低值數據流量在不同頻率下的run狀態。然后在持續測試時間中采用數據流量的極大值進行低、中、高頻率的測試,以監測極大值數據流量在不同頻率下的run狀態和突發瓶頸問題。在持續測試過程中也可通過在同一頻率中數據流量的突然變化來檢測網絡系統run狀態和系統異常情況,通過振蕩測試和極端數據流突變測試,會明確了解網絡系統的可靠程度。
6.3 ? 網絡硬件故障
網絡系統在出現單點故障情況(如,設備命令行執行軟件重啟、設備斷電、設備上電等)下可快速恢復是高可靠網絡系統設計的又一重點,自動恢復時間越短越好。為精確計算各類網絡系統故障導致的網絡中斷/恢復時間,可接入各類專用的測試設備進行模擬測試,各類測試設備的輸入、輸出分別接入到模擬測試網絡系統的輸入、輸出口,確保被測數據流量路徑貫通整個網絡[9]。使上下行數據流通路徑經過需要模擬的網路系統的流量瓶頸點和易出故障節點,避免測試路徑無效。在測試的過程中可通過灰盒測試、白盒測試監測系統的正確性,在測試過程加入非法數據,檢測網絡系統的健壯性。測試設備停止數據發送,根據發送和接收的數據量,測算出網絡模擬測試系統流量路徑恢復時間。Time=(發送報文數量-接收報文數量)/報文發送速率(pps)。
網絡系統中斷、恢復時間長短測試也可融合在持續振蕩測試中一起完成。使用網絡系統可靠性測試硬件、軟件、各類異常報文攻擊工具,可實現對網絡系統的可靠性的綜合測試。
7 ? 結論(Conclusion)
網絡系統可靠性測試需要在整網虛擬環境下測試運行,網絡系統可靠性測試通常情況下采用黑盒測試,不僅需進行端到端的測試,同步監測各個關鍵模塊的實際運行情況,流量和協議控制層面的運行狀態,做好各類異常情況以及故障分類分析報告,總結解決問題的方式、方法,全面分析網路系統實際運行環境的行業性、特殊性、復雜性,對網絡系統的相關特性進行深入分析,在模擬測試網絡系統運行環境中不斷優化配置各類參數,得到最優最可靠的網絡系統,提升計算機網絡系統運行的可靠性。
參考文獻(References)
[1] 詹亞平.計算機通信及網絡遠程控制技術的應用與可靠性提升[J].科技創新與應用,2020(08):174-175.
[2] 廖駿杰.計算機通信網絡可靠性設計技術[J].電子技術與軟件工程,2019(6):6-7.
[3] 徐蕾.計算機網絡可靠性優化設計分析[J].信息與電腦(理論版),2018(04):136-137;142.
[4] 王喜來.計算機網絡可靠性優化設計[J].計算機與網絡,2020(04):44-45.
[5] 劉文輝,曾斌.基于計算機網絡信息和網絡安全及其防護策略研究[J].電子元器件與信息技術,2018(04):9-11.
[6] 劉振亮,馬小琴.計算機網絡可靠性優化設計問題研究[J].信息通信,2015(04):99-105.
[7] 陳剛,李璐,陳澤.計算機網絡可靠性優化設計問題的研究[J].計算機產品與流通,2019(09):148-149;171.
[8] 趙鶴群.計算機網絡可靠性提升要點分析[J].科技傳播,2018(1):117-118.
[9] 魯梁梁,周小健.計算機網絡安全的可靠性及優化設計問題的探討解析[J].網絡安全技術與應用,2017(4):40;46.
作者簡介:
黃小蘭(1977-),女,碩士,講師.研究領域:信息系統,計算機應用技術.