隨著移動通信網絡的高速發展,各運營商建設了LTE(Long Term Evolution,長期演進)網絡來滿足人們快速增長的無線數據業務需求。語音是電信網絡的一個基本功能,因此,需要考慮為用戶提供LTE 數據業務的同時繼續為用戶提供高質量的語音服務。在部署移動IMS 網絡之前,CSFB 成為最優的語音過渡方案。CSFB 即CS(Circuit Switch)FallBack 業務,上網在LTE 網絡、語音業務需回落至2/3G 網絡完成。隨著CSFB 用戶的增加,尤其是移動核心網CS 域MSC(Mobile Switch Center)組POOL 后,CSFB 用戶容易雙活的屬性便日益凸顯。本文從雙活產生的場景、形成的原因及應急恢復措施等方面著手,逐一進行分析。
當CSFB 用戶A 在MSC-A 和MSC-B 設備局下均存在簽約數據,歸屬HSS記錄用戶A在MSC-B上注冊,但用戶A 實際在MSC-A 下進行注冊活動,我們稱用戶A 便是一個“雙活”用戶。
發生“雙活”故障后,當用戶A 做被叫時,HSS(Home Subscriber Server 歸屬簽約用戶服務器)根據自己保存的A 用戶登陸MSC-B GT(Globe title,全球碼)通過provide roaming number 響應消息回給GMSC,導致用戶A 被叫異常;而主叫用戶短信中心根據尋址到的被叫MSC-B GT 進行下發短信時也會導致A 用戶無法接收短信。由于HSS 側記錄的MSC GT 與用戶活動的MSC 不一致,同樣也會導致BOSS 側訂閱類消息無法下發至活動MSC-A,從而無法對用戶進行欠費停機等操作。
移動網用戶“雙活”通常有HSS 側、傳輸層或MSC 側超負荷三大方面原因,并引發鏈路負荷過載、流控啟動等一系列高警,從而引發cancel location 消息丟棄導致,上述問題一般出現在下面幾個重要環節:
1)核心側:HSS 網元割接,需進行上百萬用戶數據遷移;交換端局存儲用戶數據的單板重啟,需在操作前將該局下用戶全部遷出,重啟單板后,將用戶重新遷回。用戶數據遷移過程中,瞬間上報的大批量位置更新消息,易造成C/D 口鏈路負荷過載等告警。
2)傳輸IPRAN(IP Radio Access Network,無線接入網IP 化)操作:根據網絡規劃,現網enodeB 基站通過IPRAN 接入4G 網絡,若IPRAN 雙平面異?;驘o法進行倒換,則4G 基站瞬斷后,導致短時間內大量用戶在2/3G 網絡下重新發起位置更新,引發網絡沖擊;恢復之后大量用戶又重新回到4G 進行注冊,再次引發沖擊。
3)IP 承載網故障,導致端局與HSS 中斷。當業務恢復后,短時間內大批量用戶重新發起位置更新,造成網絡沖擊。
4)BSC/RNC(基站控制器/無線網絡控制器)進行批量操作,引發批量2/3G 基站掉站。業務恢復后,同樣短時間內大批量用戶發起位置更新,造成網絡沖擊。
5)HSS 與注冊端局MSC 之間傳輸中斷、某段鏈路中斷或其他原因引發消息包丟失。嚴重情況下,上述告警出現的同時引發HSS 側啟動“流控”。
“雙活”用戶投訴被叫業務異常或無法接收短信。HLR 查詢用戶登陸MSC GT 顯示為MSC-B;MSC/VLR 上查詢用戶狀態:MSC-A 和MSC-B 局都存在用戶數據,但用戶最新活動時間MSC-A 的記錄要晚于MSC-B 的記錄,這表明該用戶當前實際在MSC-A 下。同時,用戶在MSC-A 登陸狀態為附著,而在MSC-B上登陸狀態為分離。
當IPRAN 故障導致eNodeB 與MME 斷連,eNB在傳輸中斷的情況下,會進行去激活操作,導致所有CSFB 用戶瞬間回落。首先手機會使用TMSI 在CSFB 局點進行位置更新(MME 上進行相應數據配置及IMSI 的Hash 算法,用戶CSFB 后會找到固定對應的MSC-A 局點),瞬時大量位置更新請求超過MSC-A的處理能力,甚至觸發MSC-A 的流控,造成手機位置更新失敗。按照3GPP 24008 協議規定,當手機位置更新請求失敗4 次之后,手機會清除存儲的前TMSI 和前位置區,在MSC POOL 內,NNSF 節點按照網絡負荷均衡的原則重新選擇一個MSC。一旦新選擇的MSC 與CSFB 局點不一致時,如用戶在MSC-B局以IMSI 從3G 網絡重新發起位置更新,按照3GPP 23012 協議規定,位置更新攜帶前位置區為空(或者非本局位置區)的情況下,MSC 判斷此次位置更新為局間位置更新,會將VLR 中HLR 證實標志置為未證實,發起到HLR 的位置更新。
用戶在MSC-B 下發起位置更新請求,HSS 上登陸MSC/VLR GT 更新為MSC/VLR-B GT,且HSS 向MSC-B 下插數據成功,MSC-B 下存在該用戶數據;在HSS 向MSC-B 插入用戶數據的同時,HSS 會向MSC-A 發送Cancel Location 消息。但由于HLR 和MSC-A 之間的鏈路出現異常(擁塞、中斷或者閃斷)、HSS 啟動流控或者MSC 業務過載,導致MSC-A 沒有收到Cancel Location 消息,MSC-A 上用戶數據被保留。位置更新信令流程如圖1:

圖1
EnodeB 基站斷連恢復后,用戶返回eNB,MME按照Hash 算法將用戶重新分發到MSC-A 上(CSFB局點),用戶再次從MSC-B 返回MSC-A,由于在MSC-A上面已經存在該用戶數據,因此MSC-A 不會再向HLR 發送Update Location 請求消息,這樣HLR 上仍然記錄用戶登陸GT 為MSC/VLR-B。
用戶在MSC-B 下無活動更新直至超過隱式分離時間,用戶被置為分離(關機)態。由于用戶被叫時,HSS 根據登記的MSC-B GT 向B 局取漫游號碼,因此呼叫被路由到MSC/VLR-B,從而聽到關機提示音或暫時無法接通。同時,用戶在MSC-A 下更新活動正常,因此用戶主叫正常、發送短信正常。
網絡產生“雙活”故障后,為避免大量用戶投訴,通常應急恢復方法如下:
1)在MSC 上把所有的4G 用戶置為位置未證實,觸發到HSS 位置更新。此種方式將MSC 下所有的CSFB 用戶置為未證實,短時間內會造成C/D 口的流量突增,因此現網并不建議使用。2)HSS 發送reset 指令,觸發用戶發起到HSS 的位置更新。若發現網絡擁塞造成流控并導致消息丟失,可在話務閑時(一般凌晨操作),從HSS 上向所有端局VLR、SGSN、MME 發送reset 指令。發送reset 指令會影響C/D 口負荷,因此HSS 發送reset 應有時間間隔。3)采用HSS 發送reset 方式進行應急恢復雖然恢復徹底,但只能等到話務閑時(一般凌晨)操作。緊急情況下,我們可提取各MSC 注冊的全部用戶信息,將各MSC 的用戶信息比對,如果一個用戶在兩個MSC 上有注冊信息,則判斷為雙活用戶,再結合HLR 上的MSC/VLR GT 數據和兩個MSC 下用戶的登陸狀態,分情況處理:(1)若HSS 上登陸MSC GT 與用戶最新活動時間所在的MSC 一致,且狀態為附著,則刪除分離狀態所在的MSC 上的用戶數據;個別用戶存在雙附著情況,是由于其中不活動的MSC 用戶未達到隱式分離時間導致,此時保留最新活動時間所在MSC 的數據,刪除另一個MSC 用戶數據。如此該用戶主被叫均不會受影響。(2)若HSS 上顯示的登陸MSC GT 與用戶最新活動時間所在的MSC 不一致,則說明用戶此時只能主叫,無法被叫和接收短信;在兩個MSC 上刪除用戶數據,同時在HSS 上發送SND CANCELC 指令,清除用戶位置信息。如此用戶發起主叫業務或位置更新時,業務即可恢復正常。
移動用戶對運營商通信網絡的感知性非常高,網絡異常易引發大量的投訴。尤其是對于無法接收短信的故障,極易引發用戶的追責。以上通過對雙活產生的場景、原因的分析及可行性應急措施的列舉,可幫助相關維護工程師及早規避問題,并能針對用戶反映的問題及時進行故障定位,在一定程度上降低移動網絡用戶“雙活”故障的概率,縮短故障處理時間,從而提升用戶對網絡的感知度。