中國電信集團公司河南省電信分公司網管中心 李德偉
華為小區服務能力下降告警排查方法及解決思路
中國電信集團公司河南省電信分公司網管中心 李德偉
1.1 告警解釋
當基站射頻資源或基帶資源不能滿足當前小區的配置規格或CA業務配置異常時,產生此告警。例如:當前小區的天線規格為4T4R,但是由于2個發射通道異常關閉,導致當前小區異常,為保證小區業務不受影響,小區的天線規格會降低到2T2R;當前小區需要重建到另外一塊基帶板,目標基帶板的基帶資源不允許該小區按照原規格重建,則需要降低小區規格;多模場景下由于共享資源受限(如頻率、功率),導致部分天線資源分配失敗,引起小區降規格,產生此告警;多BBU互聯場景下,不同BBU上的CaGroupCell配置不一致導致CA工作不正常,產生此告警。
1.2 告警產生原理
當小區建立需要的射頻資源或基帶資源不能滿足時,小區會嘗試降低規格建立,比如從2T2R小區降低為1T2R小區,這時小區還是能正常建立,但是由于規格達不到配置要求,所以上報小區服務能下降告警來提示用戶。
1.3 告警恢復原理
小區服務能力下降告警需要以下兩個條件都滿足:
■ 底層的射頻、基帶資源恢復,并滿足小區配置的規格要求;
■ 小區中沒有上行同步用戶;
說明:第二個條件是為了提升用戶的感受做的保護措施,因為在有上行同步用戶的情況下恢復告警,小區需要自動重建,用戶會掉網,用戶感受會降低;當小區中沒有上行同步用戶時,小區會自動重建,告警會自動恢復。
2.1 排查根源告警
排查根源告警是最重要也是首先要做的,因為大部分的小區服務能力下降告警都是底層故障導致,排查小區服務能力下降告警產生時間點前后是否存在以下根源告警,如果存在根源告警首先根據告警參考文檔恢復根源告警。
■ 26529 射頻單元駐波告警
■ 26545 射頻單元發射通道手動關閉告警
■ 26504 射頻單元CPRI接口異常告警
■ 26532 射頻單元硬件故障告警
■ 26538 射頻單元時鐘異常告警
■ 26524 射頻單元功放過流告警
■ 26200 單板硬件故障告警
■ 26230 BBU CPRI光模塊故障告警
■ 26232 BBU光模塊收發異常告警
■ 26234 BBU CPRI接口異常告警
■ 26503 射頻單元光模塊收發異常告警
該問題場景排查可以參考案例4.1。
2.2 排查人工操作
該步驟主要通過基站側的操作日志來排查,在操作日志中找到小區服務能力下降告警產生的時間點有沒有人工操作,重點關注駐波比測試操作,修改小區帶寬,天線數,CPRI壓縮方式,閉塞RRU通道等。
2.2.1 排查駐波比測試場景
啟動駐波比測試時,RRU會依次上報通道不可用,當BBU收到一個通道不可用消息時即降額建1T小區。這時如果有用戶接入且不退網,即使后面RRU上報了通道可用消息給BBU小區也無法恢復為2T2R小區,必須等到小區無用戶時才會恢復為2T2R。可以通過操作日志和告警日志排查,案例請參考4.2章節。
注意:如果駐波比測試是在M2000的定時任務里做的,在基站側的操作日志中觀察不到,這時需要在M2000上確認是否有該操作。
2.2.2 排查修改小區規格的操作
查看操作日志中是否有修改小區帶寬,天線數,CPRI壓縮方式的操作,這些操作會影響導致使用的CPRI線速率不同,其實這種場景也可以在2.3.1章節中排查出來。
2.2.3 排查人工關閉RRU通道
查看操作日志中是否有關閉RRU通道的操作,其實這種場景也可以在2.1章節排查出來,會有射頻單元發射通道手動關閉的告警。
2.3 根據具體問題排查
在小區服務能力下降告警的詳細信息中有“具體問題”字段,該字段指出了這次告警是哪個模塊異常導致的。
“具體問題”(Special Problem)包括以下原因:
(1)通道異常:這次告警是由RRU射頻通道上報的,需要重點檢查RRU相關的信息,可能原因有:
■ 執行駐波比測試,導致射頻通道異常,請按照2.2.1章節排查。
■ CPRI線速率不滿足小區規格要求,請按照2.3.1章節排查。
■ 人工關閉RRU通道,請參考2.2.3章節。
■ 射頻單元CPRI接口異常,請參考2.1章節排查。
■ RRU的硬件能力不支持,用錯RRU模塊,請按照2.3.2章節排查。
(2)基帶降額:這次告警是由基帶L1上報的,需要重點檢查基帶板相關的信息,可能原因有:
■ 上行數據不同步,CPRI鏈路異常,請參考案例4.3章節排查。
■ BBU CPRI接口異常,有根源告警,請按照2.1章節排查。
■ 基帶板的硬件能力不支持,用錯基帶板,請按照2.3.3章節排查。
(3)CA業務異常:這次告警和CA業務相關,需要檢查不同BBU間CaGroupCell的配置信息,具體參考2.4章節。
2.3.1 排查CPRI線速率
小區的建立需要占用一定的CPRI資源,比如2T2R 20M小區要求的CPRI線速率為2.5Gbit/s(可以通過附件的工具算出需要的CPRI線速率),如果CPRI線速率不夠會導致載波資源配置失敗,小區就會嘗試降低天線規格來適配,可以通過以下命令查詢當前CPRI的線速率:
%%DSP CPRILBR:;%%
RETCODE = 0 執行成功
查詢CPRI線速率
當前鏈環首線速率(吉比特/秒) = 2.5
當前鏈環首協商狀態 = 協商完成
當前環尾線速率(吉比特/秒) = 2.5
當前環尾協商狀態 = 協商完成
如果查出來的CPRI線速率低于需要的線速率則需要確認光纖和光模塊的速率規格,可以通過換光模塊或光纖使CPRI速率達到要求。
注意:如果是CPRI MUX場景,需要確認LTE的載波配置情況以及與LTE共用CPRI帶寬的其他制式的載波配置情況是否超過典型配置的最大規格,對于CPRI容量的要求可以參考附件《CPRI MUX特性參數描述》。
2.3.2 確認基帶板型號和規劃一致
通過命令LST EUCELLSECTOREQM和LST BASEBANDEQM中的BaseBandEqmId關聯來查詢到基帶板的柜框槽號,再用查詢到的柜框槽號通過DSP BRDMFRINFO查詢基帶板的型號,確認是否和規劃一致。
%%DSP BRDMFRINFO: CN=0, SRN=0, SN=2;%%
RETCODE = 0 執行成功
查詢單板制造信息
----------------
型號 = WD22LBBPC
條碼 = 020UAQ10A7000122
描述 = HERT BBU,WD22LBBPC,HERT BBU Baseband Processing and Interface Unit,1*1
生產日期 = 2014-07-09
生產商 = Huawei
發行號 = 00
2.3.3 確認RRU型號和規劃一致
通過命令LST EUCELLSECTOREQM和LST SECTOREQM中的SectorEqmId關聯來查詢到RRU的柜框槽號,再用查詢到的柜框槽號通過DSP BRDMFRINFO查詢RRU的型號,確認是否和規劃一致。
特別地,如果基站是CPRI MUX場景,需要參考附件中《CPRI MUX特性參數描述》中關于CPRI MUX的基帶單板及射頻模塊的要求以及相關約束條件,確認對應的基帶板和射頻模塊是否滿足CPRI MUX組網要求。
2.4 排查CA場景
首先確認CA小區是否是跨BBU CA場景,通過DSP CAGROUPCELL查看配置狀態是否正常。如果狀態不正常,需要通過命令LST CAGROUPCELL查看兩個BBU中的配置參數是否一致,如果不一致通過命令RMV CAGROUPCELL、ADD CAGROUPCELL修改配置,使兩個BBU中的CAGROUPCELL配置一致。
2.5 告警恢復
通過以上步驟排查完后,如果小區服務能力下降告警還沒有恢復,有可能是此時小區中有上行同步用戶。確認小區是否有上行用戶的方法,在WEBLMT中打開“監測-->小區性能監測--->監測項選擇用戶數”(M2000上也可以啟動對應的用戶數監控),如下圖可以確認上行同步用戶數。

圖1 WEBLMT上觀察小區用戶數
如果上行同步用戶數非0,而且需要立即恢復告警,可以通過如下命令去激活和激活小區操作來恢復。
%%/*35983*/DEA CELL:LOCALCELLID= 0;%%
RETCODE = 0 執行成功
%%/*36361*/ACT CELL:LOCALCELLID= 0;%%
RETCODE = 0 執行成功
經過上面的步驟嘗試恢復告警,如果告警還沒有恢復,請返回主控板、基帶板和RRU的日志給華為研發分析。
4.1 CPRI接口異常導致的小區服務能力下降告警
鄭州電信港區棗福花園發現小區服務能力下降告警,通過根源告警排查,看到相關時間點有“射頻單元CPRI接口異常告警”,所以首先排查該根源告警(說明:由于兩個告警的機制不同,告警上報時間點不會完全相同,在1分鐘之內都正常),一線上站確認光模塊和光纖間沒有插緊,重新插拔了一下光模塊和光纖,問題解決。

圖2 查看時間點的根源告警
注意:有些場景在告警日志中可能看不到相關的告警(比如說CPRI閃斷),這個時候除了看告警日志還需要看故障日志。
4.2 CPRI接口接收失敗故障導致上行數據不同步最終導致小區服務能力下降告警
南陽電信方城化肥廠局點產生小區服務能力下降告警,具體問題是基帶降額,排查了相關告警、操作日志和CPRI線速率,從基帶的故障日志中可以看到對應時間點有上行數據不同步故障,并且前面有CPRI接口接收失敗故障,基帶檢測5分鐘內沒有收到RRU發的上行數據,就認為是異常,給L3報上行數據不同步故障,L3再把該故障映射為小區服務能力下降告警。

圖3 小區服務能力下降告警具體原因