【摘要】華為ATCA平臺和原CPCI平臺在業務能力的提供上保持一致,但ATCA平臺采用集成度高的UPB(通用業務處理)單板,軟件性能發揮硬件多核多CPU的優勢,引入“GCU業務進程組”的概念。因此在硬件故障處理上與CPCI平臺略有不同。本案例主要講述ATCA平臺下業務單板故障的處理過程,供大家參考。
【關鍵詞】ATCU硬件平臺GCUBSGCCU
一、故障背景
6月20日邯鄲測試新局HDGS11上報0框1槽GCU單板故障,同時有M3UA鏈路故障告警。經過多次撥打測試發現被叫有時不能正常接通。由于上面配置有CCU/CDB/VDB/BSG進程模塊,除了BSG模塊是負荷分擔外,其它都是主備用的,當時在1槽是主用的模塊已經倒換到了0槽。但由于BSG上配置有M3UA鏈路,導致該BSG上的M3UA鏈路故障。
二、問題、事件描述
0框1槽GCU單板配置有CCU/CDB/VDB/BSG進程模塊,除了BSG模塊是負荷分擔外,其它進程模塊都是主備用的。在1槽GCU單板故障時,在1槽是主用的模塊均倒換到了0槽。但由于BSG模塊是負荷分擔,1槽模塊上配置有M3UA鏈路,所以導致該BSG上的M3UA鏈路故障。
三、分析與對策
1.單板故障原因分析從單板故障日志可以看到“VRD Power: Power supply failure.”的打印,即0框1槽單板VRD電源硬件故障失效且不穩定,引起單板內的VRD電源模塊供電不足,單板異常下電;單板VRD供電不穩定導致單板反復重啟,一直無法進入操作系統,頻繁引起單板異常下電告警。
2.0槽的WCCU模塊記錄的到1401、1403BSG模塊鏈路狀態正常(這兩個BSG在1槽單板,實際已經故障),造成三種撥測失敗現象:現象一:取漫游號碼時沒有位置區,被叫失敗。沒有位置區時,POOL局點默認不會下發全網尋呼,因此也不分配漫游號碼。沒有位置區的原因,也是由于1300,1301VDB的用戶位置更新失敗(同樣是位置更新的時候,這些WCCU將消息發到了故障BSG),刪除了用戶數據,做被叫時觸發了被叫恢復,但POOL局點不會成功,因為POOL局點關閉了全網尋呼;現象二:取漫游號碼失敗。若HLR將PRN消息送到這些WCCU模塊,返回PRN時,同樣可能送給這兩塊BSG,導致失敗。現象三:取路由失敗。若BSC上來的業務在這些WCCU上處理,WCCU可能將取路由消息發給這兩塊故障BSG,而這兩塊BSG的鏈路是故障的,所有消息無法發出。發給其他BSG則正常處理。綜述,只要用戶位置更新成功,或者做一次主叫,就能解決現象一。若業務進入了異常WCCU和故障BSG這條路徑處理,則出現呼叫受損。
3.出現異常WCCU和故障BSG路徑的原因1槽單板上有1401,1403兩個BSG模塊,0槽和1槽的WCCU模塊互為主備。單板故障后,平臺檢測到BSG故障,會通知0槽的1000至1007的WCCU模塊刷新鏈路狀態,WCCU正好是從備升主的倒換過程,此時刷新鏈路狀態失敗,這些WCCU仍然認為這兩個BSG上的鏈路仍然是好的,所有消息有可能發給故障BSG,造成業務受損。
四、處理結果
經過分析此故障解決方式有三種:
(1)與故障單板形成主備關系的單板(如1槽和0槽),將該單板上WCCU模塊復位(實際上只要復位由備升主的模塊即可);
(2)更換故障單板,鏈路恢復后,能夠正常處理消息;
(3)督促廠家進行軟件補丁加載徹底解決該問題。
HDGS11的解決方案是對0槽單板的WCCU模塊進行復位后告警消除,故障消失。
建議與討論
對于ATCA硬件平臺同時滿足以下條件,則需要采取規避措施:1.硬件單板故障后無法正常啟動;2.該單板存在WCCU,WCDB,BSG模塊;3.該單板的BSG上面鏈路以前是正常工作的;故障現象:1.做用戶跟蹤撥測隨機失敗,局內或者局間,被叫在本局,發現這些WCCU模塊的SRI消息20秒超時無響應或者PRN消息分配后沒有IAM入局;2. UMTS或者GSM用戶發話話務測量的接通率下降明顯;3.話統任務中的全局失敗原因值中的115和230原因值有明顯增加【恢復措施和方案】恢復措施:和故障單板形成主備關系的單板(如1槽和0槽),將該單板上WCCU模塊進行復位。