郝剛



摘要:隨著銀行業對金融科技的重視程度不斷增加,相應資金投入也越來越大,網絡規模和復雜程度也較以往出現較大的增長,這對網絡運維人員提出極大挑戰,目前網絡故障排查沒有統一的辦法,主要依靠個人的經驗來判斷,該文提出一種“立足源點,同類比較,精準定位”的網絡故障排查方法,可以幫助網絡管理員第一時間分析、排查、定位故障原因,解決網絡故障,提升銀行業網絡故障應急處置能力。
關鍵詞:網絡故障排查;立足源點;同類比較;精準定位
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2019)32-0063-03
1概述
隨著金融科技的迅猛發展,銀行業在科技方面的投入不斷加大,應用系統建設數量迅速增加,網絡規模越來越大,拓撲結構越來越復雜,各家銀行都在探索建立一種效率與安全并重的架構,可以為金融消費者提供滿意服務的同時,抵御內外部的非法網絡攻擊,并在出現網絡故障時可以第一時間定位、分析和解決。就網絡故障排查方面,雖然目前市場上出現一些運用人工智能算法的網絡故障定位分析工具,但這些工具在實際使用過程中,還存在一些缺陷,只能作為輔助工具,出現故障時更大程度上還是依賴于一線網絡運維人員來排查和解決,在金融科技越來越得到行業和管理層重視的今天,網絡故障導致的停止服務,屬于重大信息安全生產事故,如何迅速排查解決網絡故障,對于網絡運維人員的知識水平和排查能力提出了極大的挑戰。
2網絡故障定義
網絡故障是指由于硬件、軟件的漏洞、病毒的侵入等引起網絡無法提供正常服務或降低服務質量的狀態。目前對于網絡故障的分類網上有很多種。從范圍角度來說,可分為廣域網故障和局域網故障。廣域網故障一般涉及外單位,從業務的角度來說,表現為外單位無法訪問本單位提供的服務;局域網故障,一般在本單位內部,可能的表現為單位內部客戶端無法訪問某項業務。從故障類型來說,可分為線路故障、設備故障、配置出錯故障等。線路故障可能是本單位設備間互聯線路異常,也可能是與外單位互聯線路異常等;設備故障又可分為端口故障、板卡故障、電源故障等類型。配置出錯故障一般由于人為原因造成,在網絡實施過程中,可能因為未考慮周全或個人粗心等原因,造成配置錯誤,從而導致業務訪問異常。
網絡故障多種多樣,發生難以避免。但每家銀行應該在設計網絡架構時,具有一定的容錯機制,在關鍵區域配置雙設備、雙線路,冗余路由協議,建立災備中心等,保證在單設備、線路、單中心發生故障時,不影響網絡和業務的正常運行。
3網絡故障排查方法
目前網絡故障排查沒有統一的辦法,主要依靠個人的經驗來判斷。筆者認為當出現網絡故障時,應首先對故障原因進行分析,確定網絡故障的影響范圍,從而定位問題區域。在這里提出一種“立足源點,同類比較,精準定位”的排查方法。“立足源點”表示首先從故障源本身開展向不同區域的業務測試;“同類比較”的意思是尋找與故障點同級的設備或線路,進行相同的業務嘗試。“精確定位”的意思是逐漸縮小范圍,最后定位具體故障點;
下面從一線網絡運維工程師的視角,結合筆者經驗,通過幾個示例,描述如何分析、定位、解決網絡故障的方法。
(1)線路故障示例
具體網絡拓撲見圖1。
業務人員反映,通過客戶端無法訪問生產區服務器1。客戶端均通過工作區的樓層交換機訪問業務。根據“立足源點,同類比較,精準定位”的原則,首先立足源點,通過無法訪問服務器1的這臺客戶端嘗試訪問服務器2、3、6,這三臺服務器分別接人不同分區或不同的匯聚交換機中,通過這一嘗試,基本可判斷是網絡故障還是系統故障,如果服務器2、3、6均可正常訪問,則大概率為服務器1系統出現問題,此時再找另外一臺客戶端嘗試訪問服務器1,即可基本確定故障原因;如果服務器2不可訪問,服務器3、6可以訪問,則可判斷大概率第一臺生產區匯聚交換機上下行網絡出現問題;如果服務器2、3無法訪問,服務器6可以訪問,則可判斷大概率生產區網絡出現問題;如果服務器2、3、6均無法訪問,則需要進一步排查,此時可以分別找一臺連接同一樓層交換機的客戶端和連接不同樓層交換機的客戶端來訪問業務,以此判斷故障范圍。
在筆者親歷的情況是,服務器2,3均無法訪問,服務器6可以正常訪問,初步判斷為生產區網絡出現問題。筆者在客戶端嘗試登錄途經網絡設備,登錄核心交換機、生產區防火墻均正常,但無法登錄生產區匯聚交換機,判定原因為生產區防火墻與生產區匯聚交換機這一段出現問題,在機房查看設備物理狀態發現,問題的原因是由于機柜門擠壓,導致生產區匯聚交換機與生產區防火墻互聯光纖折斷。
(2)板卡故障示例
具體示例見圖2。
本單位屬于銀行省級節點,承擔著上聯總行,下聯地市、縣行的中間樞紐角色,具體在網絡拓撲圖上,該行通過上聯路由器與總行相連,通過下聯路由器與地市、縣行相連。地市行網絡運維人員反映,通過網絡管理系統發現,該行至省行電信線路中斷,聯通線路正常運行,經聯系電信運營商排查,運營商廣域網線路正常。按照“立足源點,同類比較,精準定位”的原則,省級節點網絡管理員對其他地市行至省行的電信線路進行監測,發現所有地市行至省行線路均為中斷狀態,初步判斷原因為電信端下聯路由器故障,繼續圍繞電信端下聯路由器分析定位原因,可能為端口故障,板卡故障或配置錯誤。登錄設備后發現,下聯縣行電信線路正常,連接防火墻線路正常,但與上聯路由器互聯線路不正常。不正常的兩條線路均處于一張板卡上連接,其他狀態正常的線路端口均在不同板卡上連接,判斷為電信路由器板卡故障導致,更換故障板卡后線路恢復正常。
(3)路由路徑不一致導致的業務故障
具體示例見圖3。
機構A1,A2...An均需要訪問機構C提供的業務,機構B-方面與A1,A2...An連接,一方面與機構C連接,承擔著網絡中繼的角色,機構A1,A2...An,機構B均將左側路由器作為主路由器,機構c將右側路由器作為其主路由器,正常的網絡流量路徑如圖中所示,以機構A1為例,流量路徑為:機構A1主路由器一機構B主路由器一機構C備路由器一機構C主路由器一機構B備路由器一機構B主路由器一機構A1主路由器,業務可正常訪問。但在某日機構B出現線路故障,機構B主路由器與備路由器之間互聯線出現中斷,如圖4所示。
機構A1向機構B和機構c反映,訪問機構c業務中斷,作為機構B的網絡管理員,按照“立足源點,同類比較,精準定位”的原則,首先要求機構A1訪問機構B的業務,可正常訪問;然后向機構A2,A3等同類機構詢問,均表示可以正常訪問機構C業務。在這種線路異常情況下,網絡流量路徑為:機構A主路由器一機構B主路由器一機構C備路由器一機構c主路由器一機構B備路由器一機構A備路由器。路由路徑較正常情況出現變化,流量從機構A的主路由器來,從機構A的備路由器回包,但在所有A1,A2…An機構中,只有機構A1訪問業務中斷,將問題定位于機構A1網絡內部,可能由于網絡架構的設計問題,機構A1網絡拓撲簡圖見圖5。
以機構A1的視角來看,訪問機構c業務的流量路徑來回不一致,機構A1內部存在兩臺防火墻,兩臺防火墻未做狀態同步,這種情況下,如果路由不一致,會導致網絡中斷的現象,以此定位了問題故障原因。
4結束語
銀行業網絡規模越來越大,對運維人員提出了極大的挑戰,除了要求網絡管理員會熟練使用網絡運維工具之外,還需不斷提高自身知識水平和應急處置能力,本文提出的“立足源點,同類比較,精準定位”的網絡故障排查方法,可以幫助網絡管理員在網絡故障發生后,迅速分析、排查、定位故障原因,第一時間解決故障,保障業務連續性和安全陛。
【通聯編輯:代影】