陸震 郭騰飛 高小龍
中郵建技術有限公司
數據通信是通信技術與計算機技術相結合而產生的一種新的通信方式。數通設備作為數據通信的硬件基礎,是最重要的數據承載及數據收發設備。本文中的數通設備主要指網絡系統中最為常用的兩個數據通信設備——交換機和路由器。隨著IT技術的迅猛發展和大數據時代的到來,數據中心的網絡規模逐漸擴大,數據流量增長帶來的帶寬需求和網絡穩定性需求成為數據通信工程師面臨的挑戰。
某日客戶網維人員反饋IDC網絡某局點部分網元托管,通過相關軟件初步對問題進行定位和故障恢復工作。涉及到的設備為華為NE40E路由器(NE40E是華為公司一款中高端路由器)、華為S5300匯聚交換機(S5300是華為公司一款中低端交換機),組網如下:
圖1 組網圖
(1)查看NE5000E(NE5000E是華為公司一款高端核心路由器)側鏈路一切正常,因中間過傳輸設備,因此初步認為設備宕機或者傳輸到NE40E鏈路故障;
(2)緊急趕到機房現場后檢查設備硬件,NE40E路由器硬件運行正常并未宕機,登錄設備檢查log日志以及告警等信息也并未發現因斷電或其他原因導致設備重啟的告警;
(3)查看設備端口鏈路狀態后發現,出口Eth-Trunk1中4條10GE鏈路有一條GE5/1/1處于DOWN的狀態,查看端口狀態無收光現象,查看聚合端口配置并未啟用靜態LACP模式,判定此條故障鏈路導致設備托管。因對于聚合端口未啟用靜態LACP模式,中間過傳輸設備時Eth-Trunk1有鏈路中斷而對于NE5000設備Eth-Trunk34端口并未感知,所以導致報文通過傳輸設備到達GE5/1/1端口時丟棄,剔除GE5/1/1端口,兩端配置靜態LACP模式后故障排除。
經以上操作后,網管與網元脫管故障得到解決,恢復正常。對于靜態LACP模式,當把一組接口加入Eth-Trunk接口后,這些成員接口中哪些接口作為活動接口,哪些接口作為非活動接口,需要經過LACP協議報文的協商確定,對于中途過傳輸設備,通過LACP協議報文感知兩端聚合端口狀態,同時實現負載分擔和冗余備份的雙重功能。
解決方案:核查全網設備,排除隱患。
措施:當兩臺設備組成Eth-trunk經過傳輸設備互聯時,必須配置靜態LACP模式,對于工作模式未啟用靜態LACP模式的聚合端口及時整改。
對某局點的ME60(ME60是華為公司目前生產的寬帶接入路由器,作為匯聚層設備,一般承載一個區域的寬帶上網和大客戶業務)設備版本升級過程中,出現主控板升級后所有業務單板無法正常注冊的問題。
具體操作如下:
(1)00 :50分左右,開始刪除并清空設備原補丁文件,指定下次啟動文件為新的版本文件,進行剔除用戶等操作;
(2)1 :01分左右,執行reboot設備主控板重啟操作;
(3)1 :20分左右,設備主控板正常啟動并能登錄設備,正常情況下主控板注冊成功后會下發版本軟件至各個業務單板;
(4)1 :40分左右,通過dis device查看設備單板注冊情況,發現除了主控板正常注冊外,其他所有單板均為Unregistered狀態;通過disp ver查看設備版本,主控板已經升級到目標版本;
(5)1 :50分左右,嘗試做主控板主備切換操作,但提示“備用主控板MBUS不正常!”,無法進行主備切換;
(6)1 :55分左右,聯系華為400專家(400是華為公司一個技術支持電話,參與400技術技持的人員都是相關設備的研發人員,又稱為研發工程師)配合診斷,400工程師建議通過手工下發版本軟件至業務單板的方式來升級業務單板;
(7)1 :58分左右,根據400工程師的建議,用手工下發軟件的方式升級業務單板,但由于手工下發方式比較慢,歷時60分鐘左右;
(8)3 :00左右,手工方式升級業務單板操作完成,但是升級后業務單板還是未能正常注冊;
(9)3 :07分左右,嘗試下電拔插1槽位業務單板,3:15分查看1槽位單板狀態還是未注冊;
(10)3 :20分左右,根據400專家建議將9槽位主控板拔出,只剩10槽位主控板在位并整機下電重啟設備;
(11)3 :27分左右,設備主控板正常啟動并能登錄設備,從界面信息可看到正在upgrade各業務單板;
(12)3 :35分左右,查看其他業務單板均正常注冊,各業務接口已正常up,用戶陸續上線。
升級成功后,通過采集升級操作記錄以及設備相關log記錄,華為400研發工程師分析,主控板第一次重啟后沒有下發軟件版本至各個業務單板,導致業務單板無法正常注冊,原因是由于第一次重啟后主控9槽位單板升級后EPLD狀態異常,EPLD固件未正常升級成功,導致系統無法升級其他業務單板;整機重啟后,設備主控板正常啟動,狀態恢復;系統升級各業務單板成功。
(1)9槽位主控異常時日志信息:
因華為ME60設備升級重啟后主控單板會出現EPLD狀態異常,所以根據設備特性分析及設備升級情況提出如下措施建議:
(1)設備升級后如果個別單板無法正常注冊,可以嘗試通過手工升級業務單板的方式來升級未能正常注冊的單板,如果還不能成功,建議更換故障業務單板;
(2)如果設備升級后主控板正常注冊,所有業務單板無法正常注冊,那么可以嘗試再次重啟主控板來重新加載版本軟件;
(3)如果再次重啟后還是無法正常注冊,則需更換主控板,重新升級。
某日發現S9312設備下掛二級匯聚老城機房的華為匯聚S9306交換機下掛的OLT設備,OLT入方向報文有丟包,導致下掛IPTV的直播和點播畫面卡頓;OLT上聯到華為匯聚S9306交換機的端口是GE1/0/12端口?,F網組網結構為:
圖2 組網圖
分析二級匯聚老城機房的華為匯聚交換機S9306設備連接OLT的端口GigabitEthernet1/0/12,發現出方向有大量discard持續存在,端口信息如下:
經過計算,該端口每秒鐘丟包在200至500個左右,這表明,該端口出方向有持續的擁塞丟包發生。進一步通過端口鏡像抓包分析該端口的流量情況發現,當日白天的抓包記錄顯示,該端口在此次抓包的過程中,突發流量達到1G流量,單條單播源發的流量突發比較大的可達到600M,單條組播源發的流量突發比較大的可達到200M。單播流量經過確認為預留給用戶的點播視頻業務,8021p優先級是5;組播流量有的8021p優先級是5,有的是0,組播復制點在NE設備,組播流量為組播源往多個用戶復制疊加的流量。
通過對數據的分析研究,得出:
(1)當華為匯聚層交換機S9306設備的GE1/0/12端口出方向的帶寬被占滿時,多余的報文就會緩存在緩存區內;
(2)當端口出方向的帶寬有剩余帶寬時,緩存區中積壓的報文就會逐步釋放;
(3)如果積壓在緩存中的報文越積越多,超過緩存大小時,這些報文就會被丟棄,丟棄的報文數量會在端口的discard計數中體現;
(4)如果端口突發的流量超過現有空閑的緩沖區,就會存在端口擁塞,導致出方向不能及時得到處理,引起同優先級的報文丟棄,這樣就可能影響到客戶的業務,對外的表現可能有:上網速度比較緩慢,IPTV存在卡頓或馬賽克情況等。
綜上分析,導致IPTV業務受損的原因是客戶原先使用的華為匯聚交換機S9306設備的G24CA型號單板緩存較小,同時該單板的GE1/0/12接口下掛的用戶較多,當網絡中突發訪問量較大時,產生擁塞丟包,引起機頂盒觀看的電視節目花屏。
由于華為匯聚交換機S9306設備的G24CA型號單板緩存較小,同時該單板的GE1/0/12接口下掛的用戶較多,所以在機房有條件的情況下,建議采取如下措施:
(1)建議將華為匯聚交換機S9306設備的G24CA型號單板,更換為緩存更大的單板;
(2)擴容OLT上聯到華為匯聚交換機S9306設備的鏈路帶寬。但是擴容需要注意的是,由于OLT現有上聯華為匯聚交換機S9306設備的端口是在1槽位,1槽位的G24CA型號單板已經緩存較小,所以要擴容到華為匯聚交換機S9306設備除1槽位外的其他槽位,這樣問題就可以解決了。
通過三個典型案例的研究與分析,總結出如下數通設備故障的處理方法:
(1)在網絡維護中出現部分網元托管時,首先核查全網設備進行隱患排除,當兩臺設備組成Eth-trunk經過傳輸設備互聯時,必須配置靜態LACP模式,及時整改工作模式未啟用靜態LACP模式的聚合端口。
(2)因華為ME60設備升級重啟后主控單板會出現EPLD狀態異常,所以設備升級出現EPLD狀態異常時,可以重啟主控板,通過重新加載版本軟件進行解決。
(3)在網絡維護中如果出現華為匯聚交換機S9306設備下掛IPTV的直播和點播畫面卡頓,首先排查設備上是否有G24CA型號單板,同時該單板下掛的用戶是否較多,如果有G24CA型號單板并且該單板下掛的用戶較多,可以直接更換為緩存更大的單板或者擴容鏈路。
數通設備是數據中心不可缺失的一部分,數通設備的穩定運行是數據中心機房的核心。所以,在維護過程中要對數據機房中的每一個故障加以研究與分析,及時總結發現現網的漏洞,營造一個安全穩定的數據中心。