岳彩青
(朔黃鐵路發展有限責任公司,河北滄州 062350)
朔黃鐵路公司(簡稱公司)寬帶移動通信LTE系統于2014年上線,由于鐵路用戶分布、業務對系統穩定性要求等多方面因素制約,現網基站設備版本是針對公司實際情況定制開發的專用版本,與運營商的公共版本存在較大差異,不利于版本的向后演進。考慮到今后系統維護的方便,結合現網版本運行中存在的問題,公司嘗試對全網基站進行版本升級。
公司LTE系統采用TD-LTE制式,由無線承載網絡、業務應用系統、運行與支持系統和終端設備等4部分組成。
無線承載網采用雙網負荷分擔組網方式,分為無線核心網絡和無線接入網絡部分。其中無線核心網絡是由部署在中心機房的兩套核心網EPC設備組成,它們相互獨立,分別負責處理A、B兩張網絡數據。
無線接入網絡由沿鐵路線按鏈狀結構敷設的eNodeB基站組成,eNodeB采用分布式基帶處理單元(BBU)+射頻拉遠單元(RRU)組網方式,考慮到安全性能,A網和B網BBU基站采用位置交錯部署,每個基站都設置A網的RRU和B網RRU各一套,分別接入不同核心網EPC,實現共站址雙網覆蓋。BBU設備至RRU設備采用雙光纖鏈路連接,每臺RRU利用敷設在鐵路上下行兩側光纜中的2對光纖與所歸屬的BBU連接,如圖1所示。

圖1 LTE系統無線接入部分組網Fig.1 Wireless access networking of LTE system
朔黃鐵路LTE系統目前承載的業務主要有機車同步操控無線重聯業務、列車調度語音通信業務、列車調度命令和無線車次號校核業務。這些業務在應用層面主要由無線重聯應用服務器、列車調度集群語音服務器、車地通用數據通信接口服務器來提供。其中無線重聯應用服務器負責提供列車同步操控和可控列尾等數據業務[1];集群語音服務器負責提供列車行車調度指揮語音業務;車地通用數據通信接口服務器主要實現調度命令下發到機車、無線車次號校核等業務。
運行與支撐子系統在中心機房設置網管系統及用戶管理系統,用于網絡運營的維護及管理。
設備終端主要包括重載無線重聯車載通信設備、列尾車載通信設備、列車調度通信機車臺,移動人員配置手持終端。
1)硬件方面
公司LTE系統BBU基站設備主控板型號為UMPTa6和UMPTb2兩種,上聯核心網的接口只有一個電口和一個光口。為提高可靠性,利用一光一電兩個口配置Trunk功能,對端傳輸設備采用FE電口,速率為100 M,因此需在主控板上的光口插接光轉電模塊,與傳輸側速率和接口類型匹配。為減少轉換模塊帶來的故障風險,主控板需要更換為帶有兩個電口(實現Trunk功能)的UMPTe型。
2)軟件方面
公司LTE系統BBU基站使用的主控板版本是廠家根據公司LTE系統組網實際情況定制開發,與運營商在用的公共版本不同,不利于版本的向后演進。
公司LTE系統運行3年以來,無線子系統多次上報不同基站基帶板“單板硬件故障告警”和“基站同步幀號異常告警” 兩類,通過現場掉電復位此基帶板后,告警恢復。通過對站點的故障日志分析來看,是由于FPGA內存芯片軟失效導致單板硬件故障,進而導致基帶的BFN功能模塊異常引起基站同步幀號異常告警。如圖2所示。

圖2 故障基站日志Fig.2 Log of failure base station
目前業界公認芯片軟失效的發生存在一定概率,是集成電路由于外部粒子輻射等原因導致芯片的bit反轉,從而觸發軟失效[2]。一般來說,FPGA的重要功能模塊影響FPGA局部功能運行,如果該模塊發生功能錯誤,將對FPGA某區域的功能模塊造成長時間的故障[3]。根據FPGA供應商給出的數據,1萬塊單板每年會出現80次軟失效(SEU)問題。目前發生該問題時,系統默認自動進行設備自愈重啟,網管上不提示重啟原因,只上報重啟時引起的“單板硬件故障告警”和“基站同步幀號異常告警”。只有調用基站日志做進一步分析,才能判定故障原因,不利于維護人員對問題的快速定位。
鑒于以上情況,與廠家溝通在新版本中增加軟失效自愈開關、可調節的自愈延時設置、軟失效自愈告警提示功能。一旦設備發生軟失效,網管上報告警提示,技術人員根據提示決定是否重啟并且可手動調整自愈重啟的延時。
本次升級在更換基站主控板的同時,對新更換單板做先進性版本升級,然后加載轉換后的現網LICENSE文件和配置數據。
由于此次升級是在線對既有網絡進行操作,涉及到行車業務,本著盡量減少對現網業務影響的原則,經過反復討論,確定以下實施步驟。
1)在模擬實驗室備用設備上對所有待換的新主控板進行軟件版本、License文件和配置數據加載,加載后確認單板狀態正常,并初步驗證業務正常。
2)為驗證此次升級的版本在現網中的運行狀態,在沿線192個BBU基站中選定兩個具有代表意義的基站進行天窗點模擬升級試驗。
3)對試驗中存在的問題進行整改,整改后再次利用天窗點進行模擬升級試驗,直至試驗結果正常,符合現網指標要求。
4)利用天窗點分段錯開A/B網對全網進行批量升級,并安排專門的測試小組進行同步測試。
現網基站主控板軟件由BTS3900 V100R008 C10SPC350升級到BTS3900 V100R012C10SPC120版本;
現網基站主控板硬件由UMPTa6和UMPTb2更換成UMPTe單板。
由于LTE系統的穩定運行直接關系到行車安全,所以升級前的測試工作要做到位、試驗要徹底。
3.3.1 測試區域選取
此次試驗選取兩個具有代表意義的基站,分別是4006-BUA(A網基站)與SNB-BUB(B網基站),原因為:
1)兩個基站下小區配置情況復雜,有3種情況:均為合并小區、分裂小區、合并小區和分裂小區同時存在;
2)由于是在天窗點進行升級試驗,在時間緊、測試項目多的情況下,選取便道寬闊,便于測試車輛通行的基站更合適;
3)測試基站離中心機房近,升級測試出現問題,便于技術支持人員迅速到場處理。
3.3.2 測試方案
測試階段需詳細對升級后小區的接入性能、端到端傳輸性能、移動性能、吞吐率及用戶感知等內容進行全面驗證測試[4]。
此次升級重點區域測試以驗證升級后小區性能為目的,主要包括定點測試部分(接入測試、PING測試、吞吐率測試、通話感知測試)和路測部分(切換測試)。其中定點測試在升級后小區覆蓋范圍內進行;路測在升級單個基站覆蓋范圍內、升級基站間(同網、異網)、升級站點與未升級站點間(同網、異網)的切換帶區域進行[5],具體測試方法如表1所示。
經過周密安排,升級測試采用四個天窗點時間段,分別對選定的4006-BUA(A網基站)與SNBBUB(B網基站)兩個基站的業務性能,按計劃內容進行試驗。試驗中發現兩類主要問題:第一類為基站主控板升級后,設備運行正常,但個別小區無法正常建立;第二類為基站升級后,設備狀態、小區狀態均正常,但個別小區終端用戶無法正常接入。結合現場試驗結果,采集相應的系統日志對問題進行詳細分析。

表1 升級測試方法Tab.1 Update testing methods
4.1.1 問題描述
對兩個測試站點進行基站主控板更換升級操作,網管查看升級后的基站單板運行狀態、版本狀態均為正常,查看小區狀態發現4006-BUA(A網基站)基站下標識為2號的小區狀態為“未建立”,提示原因為“基帶資源分配失效,建議核查小區規格和基帶板規格是否匹配”,如圖3所示。

圖3 基帶資源不足導致個別小區未建立Fig.3 Fail to establish a cell due to deficient baseband recourses
4.1.2 問題詳細分析
針對4006-BUA基站2號小區無法激活問題進行如下分析。
1)基站配置排查
4006-BUA基站的小區資源配置情況為:基帶板LBBPd4兩塊,下掛3個RRU拉遠單元,每個RRU配置兩個定向天線,分別覆蓋鐵路線上下行方向區域。該基站總共配置6扇區、3小區,其中0#和1#、2#和3#、4#和5#扇區兩兩進行了小區合并,以上配置符合現網需求,如圖4所示。

圖4 基站配置情況Fig.4 Base station configuration
2)基帶板日志分析
分析基帶板日志發現,小區未激活就是由于基帶資源不足導致,對基帶板進行多次復位,發現每次都有一個小區不能正常建立,原因均為基帶資源不足。
3)問題原因分析
結合日志分析,與廠家研發人員進行詳細溝通,了解到新版本的基帶板LBBPd4具有以下特點:在扇區與基帶資源不綁定的情況下,每板只支持3個基帶資源,一個基帶資源支持一個扇區;且同一個小區的基帶資源不能跨單板重建。
問題基站下3個小區均為合并小區,每小區對應兩個扇區會占用1塊基帶板的兩個基帶資源,當前兩個小區建立后,兩塊基帶板每塊只剩一個基帶資源,而同一個小區的基帶資源不能跨板重建,導致基帶資源不足,最后一個小區無法激活[6]。
4.1.3 解決辦法
如果對扇區與基帶資源進行綁定,可以使基帶資源翻倍,即每基帶板的基帶資源由3個變為6個,具體操作命令如下。
1)激活所有小區
DEA CELL: LocalCellId=0(1、2);
2)增加基帶設備
ADD BASEBANDEQM: BASEBANDEQMID=0,BASEBANDEQMTYPE=ULDL, UMTSDEMMODE=NULL, SN1=3, SN2=2;
3)修改小區扇區設備
MOD EUCELLSECTOREQM: LocalCellId=0,SectorEqmId=0(1-5), BaseBandEqmId=0;
4)激活小區
ACT CELL: LocalCellId=0(1、2)。
4.1.4 實驗室驗證
實驗室按照現網數據配置進行鏡像驗證,未進行扇區和基帶資源綁定前現象和現網問題一致,存在小區激活失敗問題,原因為基帶資源不足。使用解決方案進行配置之后,小區激活成功,基帶資源占用正常。
4.2.1 問題描述
進行基站主控板更換升級操作后,SNB-BUB基站下263、264小區出現接入失敗問題,分別進行上下電復位RRU、BBU機框后,問題未解決;依次MML命令復位UMPT主控板、LBBP基帶板和RRU后問題解決。
4.2.2 問題分析
1)從現象方面分析
問題與上下電復位BBU框和MML命令依次掉電復位UMPT主控板、LBBP基帶板兩個復位方式的差異點相關。
2)從組網方面分析
經現場調查發現,公司LTE系統基站BBU與RRU連接采用的是熱環配置,即雙CPRI光鏈路連接,兩條鏈路為熱備工作模式,且普遍存在光口0和光口1 CPRI光纖長度相差較大場景,本次問題場景兩條光鏈路長度相差900 m左右。
3)從熱環原理分析
現網版本機制為:當業務在光口0上運行時取光口0的時延TN值,業務在光口1上時會取光口1的TN值,以便實現BBU和RRU的數據同步。
4)日志分析
在升級后的問題小區進行測試發現,UE總是發生重建立,重建立的原因是上行消息達到最大重傳。查看對應的基站側日志,發現在問題時段,基站側檢測到終端上行的RSRP陡降。
5)問題原因分析
由于公網LTE系統組網基本為單鏈型組網,每個RRU只接一個光口,所以新版本設計時默認按照兩個CPRI光鏈路等長設計,固定取光口1的TN值[7],但實際朔黃普遍存在兩個光鏈路長度差異較大的場景(大于100 m),當業務在光口0運行時,會取光口1的TN值,造成光鏈路時延偏差過大,配置給終端的TA值偏移嚴重,BBU和RRU數據不同步,出現終端接入失敗的情況。
6)解決方法
按照現網光鏈路不等長的實際場景,調整新版本的TN值,并且選擇部分基站進行測試,確保后續該問題不再復現。
7)實驗室復現
實驗室配置的鏡像環境,熱環配置下光纖不等長,問題可以穩定復現,日志分析表現為相同現象,此時長光纖光口0實際配置TN值為90,理論上應配置280。將版本中TN值按照實際情況配置為280,問題排除,終端能正常接入,查看日志各項指標正常。
對于部分基站出現FPGA軟失效的問題,由于沒有辦法徹底解決,為了便于今后維護,采取在新基站版本上打冷補丁的措施來增加以下功能。
4.3.1 增加自愈復位開關
若開關為開,在FPGA軟失效且業務異常時,復位RRU自愈,自愈后仍無法恢復,則上報硬件故障告警。若開關為關,同時FPGA軟失效且業務異常時,只上報“單板軟件運行異常告警”和“射頻單元軟件運行異常告警”,不進行復位自愈,此時需人工干預。
4.3.2 增加自愈延遲開關,在自愈開關為開時生效
若延遲開關為開,在FPGA軟失效且業務異常時,為了減少單板上承載的其他小區的業務影響,系統在凌晨2點左右發起復位自愈。若開關為關,在FPGA軟失效且業務異常時,系統立即復位自愈,減少業務影響的時長。
4.3.3 增加業務檢測時長可配置功能
檢測業務異常時,按配置的時長進行判決,若業務異常持續到配置的時長后,則認為業務異常,即觸發自愈功能,避免系統誤判斷進而頻繁自愈重啟,影響在線業務。
隨著技術的不斷進步,軟硬件版本的不斷更新,LTE系統在運行中需要不斷進行升級優化,為保證系統正常運行,尤其是保證鐵路LTE系統控車業務的可靠性,升級前需要進行全面反復試驗,并制定詳細周密的實施計劃,將可能發生的問題提前暴露出來,尋找出解決方案,才能使升級工作順利推進。
[1]高媛.基于LTE技術的無線重聯數據傳輸地面應用系統的設計與研究[J].鐵道通信信號,2016,52(12):55-57.Gao Yuan.Design and research of ground application system for wireless reconnection data transmission based on LTE Technology[J].Railway Signalling & Communication,2016,52(12):55-57.
[2]馮軍宏,簡維廷,張榮哲,等.超深亞微米IC的宇宙射線輻射軟失效研究[J].半導體技術 ,2010,35(6):555-559.Feng Junhong,Jian Weiting,Zhang Rongzhe,et al.Research on soft failure of cosmic ray radiation from ultra deep submicron IC[J].Semiconductor Technology,2010,35(6):555-559.
[3]周國昌,朱啟,巨艇,等.一種FPGA單粒子軟錯誤檢測電路設計[J].電子工程設計,2015,23(20):1-4.Zhou Guochang,Zhu Qi,Ju Ting,et al. A design of FPGA single particle soft error detection circuit [J].Electronic engineering design,2015,23(20):1-4.
[4]盧卓君,彭陳發,岑曙煒.TD-LTE網絡優化探討[J].電信技術,2012(7):51-53.Lu Zhuojun,Peng Chenfa,Cen Shuwe.Optimization of TD-LTE network[J].Telecommunication technology,2012(7):51-53.
[5]李莉.鐵路下一代移動通信系統LTE-E技術指標體系研究[J].鐵路通信信號工程技術,2013,10(s1):233-237.Li Li.Research on the LTE-R technical index system of the next generation railway mobile communication system[J].Railway Communication Signal Engineering Technology,2013,10 (s1):233-237.
[6]李德偉.華為小區服務能力下降告警排查方法及解決思路[J].電子世界,2016(11):186-187.Li Dewei.The method and solution of service capability decline in HUAWEI District [J].Electronic world,2016(11):186-187.
[7]霍曉莉,荊瑞泉.BBU集中部署時CPRI鏈路承載方案[J].電信科學,2015,31(8):161-165.Huo Xiaoli, Jing ruiquan.CPRI link bearing scheme for BBU centralized deployment[J].Telecommunications Science,2015,31(8):161-165.
[8]馬健康.神朔鐵路機車同步操控LTE系統規劃方案[J].鐵路通信信號工程技術,2016,13(5):32-37.Ma Jiankang.LTE Networking Solution in Locomotive Synchronous Operation and Control Technology for Shenshuo Railway[J].Railway Signalling & Communication Engineering,2016,13(5):32-37.