引言:基于策略的路由比傳統路由更靈活,它使網絡管理者不僅能夠根據目的地址,而且能夠根據協議類型、報文大小、應用、IP源地址或者其他的策略來選擇轉發路徑。筆者結合工作實際,介紹一則策略路由帶來的隱蔽故障的發生和解決。
最近單位發生一起奇怪的網絡故障,問題原因很簡單,但找到問題卻頗費周折。
先介紹一下我單位市局城域網絡的基本情況。
七個區市局共十個辦公地點,通過MSTP專線與市局連接,其中兩個區市局(區市1、區市10)的互聯網出口也在市局。市局互聯網出口有兩條,一條是聯通100M,一條是電信10M。市局新上上網行為管理設備(如圖1)。
防火墻接口配置說明:Eth10電信互聯網出口、Eth11聯通互聯網出口、Eth12內網口、Eth13 DMZ區(如圖2)。
某日,區市一位工作人員反映不能連接互聯網,訪問市局、省局等正常。初步分析:
除區市1,其他區市局用戶訪問互聯網均正常,說明互聯網線路沒有問題。
將區市1與區市10路由器、交換機的配置做對比未發現異常。
由于以前網絡運行一直平穩,這次故障是新上的上網行為管理設備后發生,于是跳過上網行為管理設備直接通過防火墻訪問互聯網,這時發現區市1訪問互聯網恢復正常。第二天將上網行為管理設備又重新接入,區市1訪問互聯網正常未受影響。
一段時間后,一天晚上,區市1訪問互聯網又完全斷掉,第二天自行恢復。
幾天后,區市1訪問互聯網又斷掉,這次采取以下措施均不奏效。
1.隔離上網行為管理設備。
2.重新啟動區市1網絡設備。
3.區市1交換機上的計算機連接網線全部撥掉,在市局遠程telnet,測試。
以上措施可排除內部病毒和網絡攻擊及上網行為管理設備造成的故障。
這次故障排查測試時,發現在區市1的路由器和交換機上Ping市局互聯網出口結果不同:路由器Ping市局防火墻上的聯通外網互聯地址221.215.210.153可達,交換機Ping市局防火墻上的聯通外網互聯地址221.215.210.153不 可達。而且在區市1交換機上tracert市局防火墻的外網地址,只能跟蹤到內網口地址,這表明區市1的路由配置沒有問題,問題出在市局的防火墻上,市局的防火墻收到了來自區市1網段10.xx.83.0/24的互聯網連接請求,但不能轉發到互聯網出口。

圖1 全市拓撲結構

圖2 防火墻接口配置
可是為什么其他網段的流量轉發正常呢?到防火墻管理界面仔細查看才發現,互聯網出口的電信線路是不可達的,有一條在界面上非常隱蔽的策略路由(網絡管理——路由-策略路由a中的一條路由)將區市1的流量分配到電信線路。聯系運營商說因線路欠費被關閉,線路重新開啟后,一切恢復正常。
故障恢復后又做測試如下:
1.電信線路正常時,在城陽區的交換機上跟蹤互聯網地址:

2.將市局防火墻上電信互聯網接口的網線拔掉時:

此時,因為電信互聯網出口為Down的狀態,防火墻會跳過策略路由,將包轉發到聯通出口221.215.210.153。
3.關閉機房電線互聯網線路的光纖收發器(模擬遠端線路故障)

此時,電信互聯網出口為Up的狀態,但對端地址219.147.6.81不可達,就出現了類似前期欠費斷網的情況。
這次故障處理受到運營商線路時停時續和對新網絡上網行為設備了解不夠等因素的干擾,在診斷測試時雖然發現在區市1的路由器和交換機上測試結果不同,也沒有仔細分析,沒有抓住問題的本質。直到徹底斷網才重新審視關鍵線索,延長了維修時間。
之所以路由器和交換機上測試結果不同,是因為路由器、交換機上有多個接口時,常規Ping的時候會選擇最短路徑的接口,區市1交換機上全部是10.xx.83.0/24,它 的包到達到防火墻后被轉發到了電信互聯網出口,電信線路此時斷掉,所以Ping聯通互聯網100M互聯地址時不通。而區市1路由器最短路徑的接口(10.xx.74.7)的包到達到防火墻后被轉發到聯通互聯網100M出口,自然Ping與其直聯的聯通互聯網100M互聯地址時是通的。
通過這次事件得到以下提示,要快速高效的進行網絡故障排除,網絡管理人員一定要有扎實的基本功,深入學習底層協議和網絡設備的通信原理,判斷時篤信不疑才能少受各種意外現象影響。網絡配置要專人負責,配置及修改要有詳細記錄文檔,臨時測試的配置要即用即刪。管理人員要整理完備詳細的網絡系統檔案,網絡有變動時及時更新。