郭艷萍
【摘要】隨著聯通移動業務快速發展,保證客戶信息從前臺BSS系統安全、暢通送至后臺設備處理,對我們的網絡安全提出了更高的要求。本文對現網BSS與后臺組網進行分析,結合日常故障處理,分析了網絡實際應用效果以及存在的不足并對網絡進行整改,降低了網絡風險。
【關鍵詞】HLRDCNBSS互聯網絡
一、引言
當客戶通過營業廳提出業務需求時,前臺BSS營帳系統會將用戶業務需求變更為各種相應的聯機指令通過DCN網絡自動送至后臺HLR設備進行處理,從而實現客戶業務需求在后臺網元設備內的開通及業務變更。但在日常維護過程中發現,會由于某些原因造成BSS系統與后臺HLR設備網絡斷聯,使聯機指令在前臺堆積,無法正常傳送至后臺,從而影響用戶業務辦理。
二、典型故障案例分析
2.1故障現象
接到BSS側投訴,受理業務無法竣工,并有工單指令堆積現象。從HLR側查看無告警。
2.2故障分析
現網組網如圖1所示:
組網中,HLR至DCN網絡為雙路由保護,如圖1所示。造成聯機指令堆積可能有以下幾種原因:(1)SMU server故障,SMU雙擊倒換失敗,造成SMU server與營帳系統斷連。(2)營帳系統故障,造成營帳系統與SMU server系統斷連。(3)承載網故障,造成營帳系統與HLR SMU之間鏈路中斷。
2.3故障處理
根據以上分析進行逐步排查:(1)檢查HLR告警臺,查看告警臺是否有SMU server雙機故障及倒換的告警,經檢查,SMU server雙機正常,無告警,且各個業務進程正常。(2)聯系營帳系統工程師排查營帳系統側是否正常,經檢查營帳系統進程及系統正常。(3)在smu側及營帳側都不能互相ping通對方,判斷為中間鏈路故障。經確認HLR至DCN網絡主用傳輸鏈路故障,同時發現HLR內部交換機至光貓2網線斷聯,見圖1(紅色鏈路部分)。
恢復主備通信鏈路,觀察發現業務時通時斷,該現象可能與傳輸鏈路質量有問題或者網線不好有關,傳輸機房查看告警無相關告警輸出,更換網線故障依舊。數據機房登陸NE40查看HLR服務器所在VLAN 214,該VLAN配置了VRRP,且主備協商正常,再登陸S9303查看VLAN 214所加入的接口,其中S9303-1下行口G2/0/22流量異常,單方向input方向流量非常大,查看S9303-2下行口G2/0/27,該接口output方向流量異常,由此推斷在VLAN 214存在環路。經確認HLR內部交換機之前并沒有與光貓2直連,現場人員問題處理時無意將網線插到光貓2導致形成環路。Shutdown S9303-2 G2/0/27,業務恢復。
三、制定措施進行網絡整改
二層環路所引起的廣播風暴,其結果是災難性的,在網絡設計及施工時要盡量避免成環,原來的網絡顯然存在不合理性,雖然在NE40側做了VRRP,但實際上并未達到保護的效果,經過協商,我們對現網網絡進行了改造,改造后組網如下:
通過本次改造,消除了環路,并減少了光貓部分的風險點,使網絡安全性大大提高。
四、HLR SMU雙機倒換機制4.1SMU雙機原理
4.2SMU雙機由四個功能模塊組成
(1)主備決策模塊。通過心跳消息協商節點狀態,最終維持一主一備的穩定狀態。(2)文件同步模塊。將主機需要同步的文件自動實時同步到備機,主備倒換后文件數據不丟失。(3)數據庫同步模塊。將主機需要同步的數據庫表自動實時同步到備機,主備倒換后數據庫數據不丟失。(4)浮動IP管理模塊。通過浮動IP管理,主備倒換后對外和對內提供服務的IP地址不變,客戶端不需要切換連接IP。
4.3SMU主備切換
(1)主用SMU某業務臺5分鐘內異常3次時,主用SMU自動請求切換,同時自身置為故障標志。(2)系統提供主備倒換命令(SWP SMU),允許手動進行主備切換。(3)如果雙機通信中斷超過2分鐘,則兩個SMU都會自動嘗試切換為主用,但只有一個SMU能占用公共資源(目前只有浮動IP是公共資源),因此一般不會出現雙主用的情況。在外網和心跳都中斷的情況下,可能存在雙主機的情況,如果心跳恢復,則最先成為主用的SMU繼續維持主用,另一臺自動降為備用,同時同步開關被強制關閉,并上報雙主用SMU發生沖突告警(4415)。(4)如果備用SMU發現自身存在故障標志,則會拒絕主用BAM的切換請求。(5)觸發系統故障標志的條件有:某業務臺5分鐘內異常3次。(6)任何一個SMU切換成為主用SMU失敗,都會釋放公共資源,降為備用,因此不會出現各占部分公共資源導致雙備的情況。
注意:在SMU未連接外網的情況下,外網網卡上配置的物理IP是不生效的,此時雙機程序也不能切換到未連接接外網的SMU上。
由于SMU server采用雙機原理,在正常情況下,營帳系統只與SMU浮動IP相連,當主用SMU server自身出現故障或S2000至HLR鏈路故障的情況下,主用SMU自動請求切換,同時自身置為故障標志,從而保障營帳系統與SMU連接不中斷,不影響業務。
五、存在問題
當S2000以上鏈路出現故障,S2000至HLR內部交換機端口檢測仍為UP狀態,因此HLR SMU不會發生自動切換,需手工切換SMU,這樣延長了業務影響時間。因此我們平時應當加強基礎維護管理,提升維護人員維護水平,熟悉維護操作,嚴格將網絡安全風險降到最低。
六、結束語
通過對后臺HLR設備與DCN網絡之間組網改造,減少了發生故障的風險點,提高了網絡的安全性,從業務層面提高了客戶服務的支撐力度,使客戶感知進一步提升。