■ 遼寧 劉嘉琦
編者按:不同運營商網(wǎng)絡之間的有效連接與通信對于企業(yè)網(wǎng)絡連接與業(yè)務系統(tǒng)的平穩(wěn)運行至關重要。本文講解了筆者單位出現(xiàn)的不同運營商之間的網(wǎng)絡出現(xiàn)無法互通的問題,給單位造成不小的影響。筆者針對這一問題進行了詳細探討,并給出了相關解決方案和建議。
由于筆者單位信息化業(yè)務發(fā)展的需要,現(xiàn)有公網(wǎng)地址已不能滿足當前需求。因此公司向中國電信購買了8 個公網(wǎng)地址,為106.38.72.48/29。單位將其中的106.38.72.49 分配給新上線的VPN 使用,作為公網(wǎng)訪問的地址。
單位的互聯(lián)網(wǎng)網(wǎng)絡邊界定義為邊界接入?yún)^(qū),邊界接入?yún)^(qū)由一臺分帶寬交換機、兩臺負載均衡和兩臺防火墻組成。電信和聯(lián)通的線路被分帶寬交換機一分為二,分別連接鏈路負載均衡設備。負載均衡設備連接兩臺防火墻,防火墻采用雙機方式部署。防火墻負責出口的安全策略控制及部分應用服務器的地址轉(zhuǎn)換,利用靜態(tài)路由與NAT 技術,均衡雙出口流量。配置好出接口與區(qū)域、NAT 轉(zhuǎn)換與路由通信。防火墻的e0/1 口設置為電信的出口,e0/3 口設置為聯(lián)通的出口,防火墻的對外接口連接2 個ISP(電信和聯(lián)通)。
與邊界交換區(qū)相連的是核心交換區(qū),核心交換區(qū)由兩臺核心交換機組成,交換機采用雙機方式部署,VPN 設備以雙活模式旁路方式部署在核心交換機上,作為在公司外訪問公司業(yè)務系統(tǒng)的通道,如圖1 所示。
VPN 設備部署完成后,在邊界墻上設置地址轉(zhuǎn)換策略通過公網(wǎng)可正常使用。在業(yè)務使用過程中,筆者發(fā)現(xiàn)接入聯(lián)通網(wǎng)絡(3G、4G、ADSL 等)的終端設備包括電腦、手機、Pad 等無法訪問VPN 的電信地址,在接入聯(lián)通網(wǎng)絡的設備上對電信公網(wǎng)地址進行Ping 測試發(fā)現(xiàn)不通,路由測試也不可達,如圖2 所示。
同時通過對邊界防火墻的抓包發(fā)現(xiàn),在聯(lián)通公網(wǎng)訪問此電信公網(wǎng)地址時防火墻上相應端口抓包并無相關數(shù)據(jù)流量。因此,筆者初步判定運營商間互聯(lián)互通有問題,此后協(xié)調(diào)聯(lián)通和電信兩家運行商一起對故障進行了排查。

圖1 網(wǎng)絡出口拓撲圖
登錄聯(lián)通的網(wǎng)管的局端設備進行查看,可以看到去往目的地址106.38.72.49的下一跳為202.97.32.120,如圖3 所示。
通過地址排查,可以看出從202.97.32.120 已進入電信網(wǎng)內(nèi),區(qū)域為AS 4134,如圖4 所示。
繼續(xù)對電信設備地址202.97.32.120 進行Ping 包測試,在發(fā)送500 個數(shù)據(jù)包不丟包后,可以判斷數(shù)據(jù)包已到達電信網(wǎng)內(nèi)。
經(jīng)聯(lián)通確認斷點202.97.57.101 下一跳進入北京電信城域網(wǎng),在電信的斷點路由器上運行trace 命令對106.38.72.49 進行測試。查看斷點下一跳已進入互聯(lián)網(wǎng)出口專線的網(wǎng)內(nèi),如圖5 所示。由此可以判斷電信網(wǎng)內(nèi)路由正常。
通過以上排查可以判斷運營商的ISP 路由沒有問題,數(shù)據(jù)的流向從聯(lián)通到電信是有路由可達,但實際數(shù)據(jù)卻無法訪問。因此需要進一步查看設備的回程路由是否正確,即從VPN 返回的數(shù)據(jù)包是否正確的從電信網(wǎng)絡到達聯(lián)通網(wǎng)絡。

圖2 路由跟蹤圖

圖3 聯(lián)通局端設備路由跟蹤圖

圖4 聯(lián)通跨越電信路由跟蹤圖

圖5 電信設備路由跟蹤圖

圖6 防火墻地址轉(zhuǎn)換日志圖
由于單位所使用的VPN在功能上無法進行回包測試,同時屬于生產(chǎn)業(yè)務系統(tǒng),不能進行斷路測試。
因此,為了進一步確認問題,筆者用筆記本電腦搭建測試環(huán)境,將筆記本旁路部署在核心交換機上,分配內(nèi)網(wǎng)地址100.100.1.14,在出口防火墻上做地址轉(zhuǎn)換,轉(zhuǎn)換為公網(wǎng)地址106.38.72.51。此時在防火墻上能查看到目的地址轉(zhuǎn)換的記錄,說明已有數(shù)據(jù)包到達防火墻,如圖6 所示。
在筆記本上對目標聯(lián)通地址進行路由測試,發(fā)現(xiàn)訪問聯(lián)通的地址數(shù)據(jù)包直接從聯(lián)通的出口發(fā)出,訪問電信的地址數(shù)據(jù)包直接就從電信的出口發(fā)出,因此無法直接模擬從電信跨越聯(lián)通的回程路由。

圖7 防火墻數(shù)據(jù)出入抓包圖
筆者由此聯(lián)想到是不是也是同樣的原因?qū)е铝藬?shù)據(jù)回包不對而造成網(wǎng)絡訪問不通。為了進一步驗證,筆者在防火墻出口上進行抓包,發(fā)現(xiàn)了問題所在:從聯(lián)通訪問電信公網(wǎng)地址的數(shù)據(jù)來包在eth0/1 口進入(電信出口),但回包在eth0/3 口上(聯(lián)通出口),如圖7 所示。
最終確認問題是由于數(shù)據(jù)包的進出口不一致導致,因此筆者在防火墻的配置上取消逆向路由設置,問題得以解決。
防火墻設備會話表會保存會話信息,并根據(jù)會話表進行包轉(zhuǎn)發(fā)及安全控制。如果開啟了逆向路由功能則返回的會話進入防火墻路由查找模塊后需要查返回會話發(fā)起的源地址的路由,如策略路由、ISP 路由、目的路由等。此案例中根據(jù)ISP 路由查到從eth0/3 路由出去,則該返回會話就會從eth0/3 出去,如果沒有查到,再按照原路返回,即從eth0/1 轉(zhuǎn)發(fā)出去。如果關閉逆向路由功能則返回會話不進行路由查詢,直接按照會話發(fā)起的原始方向進行返回,即從eth0/1 轉(zhuǎn)發(fā)出去。因此在取消了逆向路由后,數(shù)據(jù)包的回包直接從進入的端口返回,這樣就解決了數(shù)據(jù)包的出入端口不一致而導致的網(wǎng)絡不通的問題。
隨著單位信息化的逐步深入,如何發(fā)現(xiàn)、定位并快速解決網(wǎng)絡故障尤為重要。因此首先需要確定網(wǎng)絡故障點,恢復網(wǎng)絡的正常運行;然后發(fā)現(xiàn)網(wǎng)絡規(guī)劃和配置中的欠佳之處,改善優(yōu)化網(wǎng)絡性能;最后觀察網(wǎng)絡的運行狀況,及時預測網(wǎng)絡通信質(zhì)量。
對于企業(yè)網(wǎng)絡故障問題的排查解決,筆者提出以下建議:
對于可能出現(xiàn)的故障,應堅持每天例行巡檢制度。相關巡檢人員反饋巡檢結(jié)果,對當前的狀態(tài)進行記錄,對未來可能發(fā)生的問題進行預測。
每周重要時段負責系統(tǒng)與負責網(wǎng)絡的相關人員同時巡檢,以便遇到故障時及時協(xié)調(diào)處理。
積累運維經(jīng)驗。單個系統(tǒng)遇訪問故障,重點巡查系統(tǒng)本身及其所在服務器;全局性問題時重點排查交換機、防火墻等網(wǎng)絡和安全設備。
建立知識共享機制。網(wǎng)絡設備、服務器等相關設備和系統(tǒng)的簡易操作進行共享,便于及時診斷故障。
建立與設備廠商的溝通聯(lián)絡機制。運維人員由于自身的局限性,對于設備較為底層的深入操作并不太深入,有時需要廠商介入指導,可以針對緊急情況進行協(xié)調(diào)處理,減少故障恢復時間。
建立短信告警機制,維護運維人員名單,導入短信發(fā)布模板,遇信息系統(tǒng)故障時及時向受影響的用戶發(fā)布通知。
部署網(wǎng)絡監(jiān)控系統(tǒng),針對網(wǎng)絡出現(xiàn)的故障能及時報警,為排查解決問題爭取寶貴時間
建立良好的運營商關系。有些互聯(lián)網(wǎng)故障需要電信運營商共同解決,而電信運營商所管轄網(wǎng)絡運維人員有時并不一定了解,因此在出現(xiàn)故障時可以及時與運營商一起針對業(yè)務進行排查,而不至于出現(xiàn)盲區(qū)。
企業(yè)信息化越來越深入,所涉及的應用系統(tǒng)和管理的網(wǎng)絡也會越來越多,建立故障處置機制以及規(guī)范網(wǎng)絡建設尤為重要。
從技術上來講,公司應當優(yōu)化網(wǎng)絡結(jié)構(gòu),擴展網(wǎng)絡帶寬,更換核心網(wǎng)絡設備;構(gòu)建信息安全縱深防御,加強網(wǎng)絡安全防護技術手段;優(yōu)化在公網(wǎng)環(huán)境下的便攜式計算機使用方式;構(gòu)建基于公鑰基礎密碼設施,部署VPN 系統(tǒng)等,建立安全防護體系;逐步按照國家信息安全相關法規(guī)、標準,對系統(tǒng)進行定級、備案、改造、測評和整改。在此基礎上,建立信息化故障響應處理機制,確保信息化系統(tǒng)高效而安全的運行。
從管理上來講,對照技術建設情況,構(gòu)建符合標準要求和實際管理需要的網(wǎng)絡與信息安全保障體系,編制并出臺信息安全等級保護頂層制度和安全防護策略文件;逐步建立應用系統(tǒng)、基礎設施、信息安全、應急處置等多層次的管理細則,完善信息化運行維護管理體系,落實定期演練要求,滿足網(wǎng)絡運行基本要求。