最近一段時間,因為新增了部分匯聚層路由器及相關子網,導致之前很多64K鏈路節點出現隨機性網絡不可達故障,網絡結構如圖1所示。

圖1 網絡拓撲結構
在該網絡中R4為新增的匯聚層路由器。R1和R2為本單位上聯路由器,并通過VRRP為內網提供冗余網關。R3為早期64K鏈路匯聚路由器,為早期業務點提供64KWAN口鏈路接入能力。
之前網絡一直運行穩定,但最近一段時間隨機性出現64K連接點用戶申告業務系統無法登錄的故障,網絡管理員檢查R1、R2以及R3路由器發現,針對故障點子網路由發生錯誤。只能在R1、R2及R3上通過ip route命令來指定到故障節點的靜態路由來恢復業務網絡的可用性。但隨著時間的推移,越來越多的64K鏈路連接都需要使用靜態路由來實現,這引起了網絡維護部門的高度重視。
為了徹底找到問題發生的原因,單位網絡維護組進行了認真的分析和研究。在連接點用戶申告業務系統無法登錄期間,筆者和同事檢查發現,連接R3及故障點的WAN口其實是一直連通的,筆者可以通過R3對應的故障點WAN口IP地址登錄到故障點路由器,在故障點路由器使用Ping命令,可以Ping通R3路由器,但在R1或者R2上均無法Ping通故障點路由器的內網IP地址。
使用路由追蹤命令traceroute,發現本該到故障點路由器路由被奇妙地指到了R4路由器上,后來詢問才得知,該路由器為通級單位新增的業務點路由器。檢查該路由器配置發現該路由器在EIGRP配置中啟用了Auto-Summary(路由自動匯總)功能。通過路由器命令show ip route命令查看路由,發現到故障點路由在R1、R2中不存在,只有一條指向WAN口邊界地址的匯總路由。將R4上的Auto-Summary (路由自動匯總)功能關閉后,網絡恢復正常。
因為本單位網絡規模較大,同時為了節省IP地址,因此網絡在規劃初期在路由器WAN口間使用了168.168.0.0的變長掩碼地址設置。比如,在R3中 設置的對故障點的WAN口地址 為168.168.101.117/30,對端WAN口地址為168.168.101.118/30。 這樣,當R4上啟用了Auto-Summary (路由自動匯總)功能,則會自動將路由進行匯總,通告路由不攜帶子網掩碼,或者說子網掩碼會被自動設置成標準的B類地址掩碼。最后R1、R2只會學習到168.168.0.0的路由信息,而實際上到達168.168.101.118的路由信息因為路由匯總之后就被覆蓋了,從而導致網絡不可達故障。將AUTOSUMMARY功能關閉后,此時路由器向外宣告路由信息時,攜帶了真實子網掩碼,此時R4只向外宣布自己的路由信息,不會將其他無類子網路由信息覆蓋掉從而導致故障發生。
路由器作為網絡的核心設備,其功能無可替代。但因為在生產環境中的關系,經常需要進行類似升級、故障替換等操作。很多時候如果本地路由器參數設置不當,可能會引發全局性網絡故障。這一方面需要網絡管理維護人員加強自我的技術學習和升級,另一方面,在出現網絡問題后,也要從整體來對網絡進行分析,切不可只看局部忽略全局。因為此地的網絡問題其真實原因未必就一定是此地設備導致的。