王巖 胡承忠
【摘要】 通過對中興軟交換所帶的失敗觀察的分析和應用,結合核心網指標進行了兩者相關性的有益分析。通過分析發現了失敗觀察收集到的失敗信息和核心網指標之間的密切關系,并且通過具體分析失敗觀察的數據信息和對失敗信息具體解碼得到的分類數據,提供了一種影響核心網指標變化的具體思路。并且指明了下一步工作的方向和重點。
【關鍵詞】 失敗觀察 解碼信息 位置更新成功率 數據分類
一、引言
中興WCDMA核心網軟交換SERVER上所帶的失敗觀察,主要是用來監控在本交換機下的用戶正?;蚴欠钦5耐ㄔ掅尫?。這里說所得正常情況,包括用戶自發的在撥叫后的掛斷的用戶自身行為,也包括異地用戶因為欠費停機而造成漫游限制等正常情況。不正常情況就是本文要著重分析的部分,包括位置更新失敗,MM位置更新本端失敗,及MSCA局內切換失敗等等情況。
因為影響交換的指標就是由這些失敗造成的,所以對這些失敗的觀察和分析有助于發現問題,為下一步解決問題,提升網絡指標打下堅實的基礎。通過收集失敗觀察的信息,對各種引起不正常的情況進行分析,發現問題的規律,可以為交換機正常高效率的運行提供幫助。
這里著重以位置更新成功率為例,通過失敗觀察收集的信息來探討影響位置更新成功率這個指標的各種情況。中興失敗觀察里,提供了很多失敗觀察的選項,囊括了語音呼叫,短信收發及上網等常用的業務。
位置更新作為其中一項,可以單獨進行觀察和信息的收集,這樣可以提高分析的效率。對位置更新成功率這個指標進行分析,可以在失敗觀察里只選擇位置更新這一個選項。如果有需要,可以根據要分析指標的需要,來選擇相應的失敗觀察選項。
二、失敗觀察在位置更新成功率分析中的應用實例
2.1 分析數據說明
這里對本文的失敗觀察的數據做一下說明,為了更好的分析失敗觀察的數據對位置更新成功率指標的影響,盡量排除因為短期收集數據,以及收集數據量不足等問題所帶來的負面影響,本文選取了幾天各時段不同的失敗觀察的信息作為分析參考,其目的是為了分析數據的全面性和可靠性。
2.2 具體分析
對這些數據分析的思路從三方面著手:
一是失敗觀察收集的具體數據里,各種原因的次數統計和位置更新成功率的變化是否有同樣的起伏變化;
二是這些失敗觀察數據里統計到的IMSI號碼是否有固定的號段,或是這些IMSI對應的HLR或VLR用戶數據是否有共同的屬性;
三是失敗觀察的具體的解碼信息的統計,失敗觀察的解碼信息包括了眾多重要的信息,包括發生失敗的LAC區域和目的小區,發生失敗的相關交互信令,及相關模塊號和局向號等等信息。下面一一進行分析闡述。
2.2.1各種原因的次數統計和位置更新成功率起伏變化對應的探討
因為時間和實際的條件限制(中興軟交換上,存放失敗觀察文件的系統文件夾的容量只有200M,當超過這個容量時,就會覆蓋掉前期觀察所存放的文件),這里所收集的數據有所限制。
為了更好的分析數據,這里對上面的數據進行了有效的分類統計,即若干天不同時段,和同一天不同時段的位置更新成功率進行比較。
位置更新失敗中,出現次數較多的幾類如下:
(1)(VLR)收到MM的Release消息(242),
(2)(MAP)漫游不允許Roaming Not Allowed)(8),
(3)(MAP)未知的用戶(Unknown subscriber)(1)
(4)(ProviderErr)收到無效的響應(Invalid Response Received)(134)。
2.2.2 失敗觀察數據IMSI號碼的規律性及用戶數據共性的探討
這里只對位置更新失敗的主要原因進行了分析,具體分析如下。
(MAP)漫游不允許Roaming Not Allowed)(8)(1124次)這個原因就是用戶漫游權限限制產生的,是一個用戶行為,比如外地有本地通限制的用戶到泰安就會產生此失敗。通過在HLR里查詢用戶信息,這些用戶均沒有信息,證實漫游不允許造成的位置更新失敗的IMSI對應用戶均不是泰安本地用戶。
(VLR)收到MM的Release消息(242)(4735次)這個原因是出現次數比較多的,對發生此問題的號碼詳細解碼信息進行統計,對IMSI,IMEI,LAC,小區號進行對比后,發現當IMEI 7 8位是00時,容易發生此問題。經過查詢判斷有此號碼的大多是水貨手機,詢問廠家工程師,有無對水貨手機的限制,目前中興還沒有這方面的支持。然后對問題號碼的VLR,HLR數據進行查詢,發現有問題的號碼大部分都有來話寶設置。
(ProviderErr)收到無效的響應(Invalid Response Received)(134)這個原因的IMSI很有規律,全是4600141052開頭的。經過對泰安萊蕪的IMSI號段查詢,可以確定這個不是泰安萊蕪的IMSI號段。
經過詳細的解碼分析,IMSI號碼主要是460014105291019,460014105233987等幾個IMSI號碼。經過跟蹤460014105291019的信令發現,這種類型的IMSI號碼均返回了MAP Error的信令,說明這個IMSI是無法位置更新的。
該號碼的手機串號IMEI為空(null),而且經常在燃料賓館和格林商廈出現??梢酝ㄟ^這些信息判斷,這個用戶所用手機終端一定不是正規行貨手機設備,而且SIM卡有問題,可能是自己刷的SIM卡。下一步希望聯系到這個用戶,即可查明這個問題,進而減少這種位置更新失敗。
2.2.3 關于失敗觀察里的解碼信息的統計
這里需要注意的是當一種失敗產生時,這個失敗不一定對應的只產生一條失敗的觀察,而是會產生相關的幾個失敗觀察,這就要在后面的解碼信息里詳細的討論。
這里以(VLR)收到MM的Release消息(242)失敗原因的解碼信息為例如表5所示,來說明解碼信息的各項的作用。
需要關注的解碼信息如下:
(1)根源類型,根源原因說明了(VLR)收到MM的Release消息(242)發生的根本原因。這兩個選項說明了,目前發生的失敗是由根源原因造成的,可以通過根源原因再查找相關問題。
(2)當前接收事件,當前發送事件,上次接收事件和上次發送事件說明這個失敗發生時,信令的過程是怎樣。通過這里能很方便的判斷出發生的失敗在信令的哪個階段,以及在什么情況下發生的。這都為解決問題提供了很好的信令理論基礎。
(3)業務參考模塊號,業務參考起始局向號可以得到發生失敗較多的相關模塊和局向??梢杂脕矶ㄎ唤洺0l生失敗的物理模塊,以及失敗發生的軟件數據。在硬件軟件兩方面來定位失敗發生的范圍,在根本上查找失敗的原因。
(4)原始位置信息和目的位置信息中的LAC和CI信息很重要,通過統計這兩個數據可以知道發生問題的具體位置。通過大量的數據統計,可以知道是否在某個位置這種失敗會經常發生,從而為發現問題區域提供了有力支持。特別是目的位置信息的LAC和CI,均是用戶產生失敗行為時,發生問題的小區,所以格外的進行了關注。
根據這個實際的情況,編寫了一個程序,不但可以分門別類的統計上述的各種數據,而且對目的位置信息的CI進行了換算解碼,可以直接得到小區名和對應的地區,為判斷失敗的范圍提供了幫助。
這里統計了5種失敗原因的詳細解碼,這5種失敗原因分別如下:
(1)”(MAP)漫游不允許Roaming Not Allowed)(8)”
(2)”(MAP)未知的用戶(Unknown subscriber)(1)”
(3)”(ProviderErr)收到無效的響應(Invalid Response Received)(134)”
(4)”(VLR)收到MM的Release消息(242)”
(5)”(MM)IdAuth宏中定時器1超時(IdAuthMacro Timer1 Out)(1084)”
得到了解碼的結果之后,可以對詳細的解碼從三方面進行分析。
一是解碼信息分類后的小區地區,以及模塊和局向。分析發生的失敗行為在哪個區域,或是哪幾個模塊和局向上比較多。如果一直在一個區域或小區發生問題,則說明這個區域或小區有問題,可以檢查這個區域或小區的數據配置,以及和交換側的數據配置。
如果在一個模塊或局向上老是有很多相同類型的失敗,則可能對應的單板有問題,或是對應的軟交換的設備有問題,這為在沒有告警時,而發現潛在的設備問題提供充足的事實依據??梢詫栴}模塊進行處理,避免發生大的設備故障,有力保障了核心網的運行穩定。
二是信令交互時,在哪個信令行為上,發生失敗的情況比較多。因為這里收集到的失敗大多是從A口,或是核心網網元內部進行交互的信令。以后可以通過觀測這些發生問題比較多的信令行為,可以確定是在無線側哪個BSC上發生失敗的情況比較多,或是和哪個核心網網元進行交互時,發生失敗的情況比較多。
三是分析統計到的根源類型和根源原因。如果上面兩方面沒有集中的問題,那么可以通過根源類型和根源原因來進一步查找失敗發生的問題。
因為時間倉促,本文對前兩方面做了較詳細的分析,第三部分因為數據量比較大而且相關的信息很多,這里只提供了下一步工作的具體思路(如上述的關于解碼信息的分析)。