


摘要:5G時代,萬物互聯,然而網絡中總會有一些意外,面對網絡暴雷,如何讓核心網信令風暴的雪球越滾越小,從而達到自愈呢。本文以日本電信運營商KDDI網絡事故為引題,嘗試分析KDDI事故原因,找出網絡共性問題,進而給出一種新的信令風暴防控思路-立體協控;并舉例介紹實際效果,使信令風暴得到有效預防,網絡安全得到保障。
關鍵詞:擁塞;信令風暴;立體協控;智能終端
一、引言
隨著移動無線網絡技術的發展,全球將邁入5G時代,5G支持的增強移動寬帶(eMBB)、海量連接(mMTC)和低時延高可靠連接(uRLLC)三大場景的部署和使用越來越多;電信網絡作為國家的基礎建設,在日常生活中發揮著越來越重要的作用。然而由于3GPP協議的發展總是快于物理世界網絡的建設,我們要面對的是一張2G/3G/4G/5G融合的網絡,其網絡規模和網絡復雜程度都是空前的,一旦網絡有點風吹草動,如果應對不力或者不及時,隨之而來的蝴蝶效應就會對網絡產生巨大影響,會對網絡設備造成信令沖擊,導致設備過載、宕機甚至網絡癱瘓,影響終端用戶的業務體驗和人們的生產生活。尤其是5G網絡對于各產業數字化升級的影響更為明顯。據工信部數據顯示[1],截至2022年5月末,三家基礎電信企業發展蜂窩物聯網終端用戶15.9億戶,比上年末凈增1.96億戶(如下圖1)。蜂窩物聯網終端用戶規模占移動網終端連接數的比重已達49%,可見物聯網連接正在高速增長,很快將成為移動通信網絡連接的主力。而這些物聯網連接大多分布于各行業應用中,因而未來也將成為網絡故障造成負面影響的主要領域。在這一背景下,網絡的穩定性和可靠性就顯得尤為重要。
根據C114資訊,日本KDDI運營商2022年共發生三次通信事故[2-4],其中2022年7月2日,KDDI的移動通信服務在日本全國范圍內發生故障(詳細事故過程可參考日本KDDI官網通報[5]),超過2018年的軟銀通信故障事件,成為日本史上最大規模的故障[2]。此次通信故障持續長達61小時25分鐘,影響全國3915萬終端用戶和26萬企業用戶,包括電話、短信、上網、緊急呼叫系統、銀行系統、天氣數據的傳輸、包裹遞送和網絡連接運輸等全部中斷,其造成的直接影響如下:
股價下跌:4%(在緊接著的一周內);
市值損失:268M USD(原市值*股價下跌比例);
收入影響:42M USD(ARPU*中斷時長);
品牌影響:日本首相親自關注,全網負面報道。
二、信令風暴定義及發生場景分析
(一)什么是信令風暴
信令風暴(signaling storm)[6],是指網絡收到的終端信令請求超過了網絡各項信令資源的處理能力,當信令負荷達到系統極限時,會導致終端接入網絡失敗,進而又會引發終端的反復多次嘗試接入,大量的信令超過了系統處理能力,引發網絡擁塞并產生蝴蝶效應,導致網絡不可用,我們稱之為“信令風暴”。
(二)為什么會產生信令風暴
1.網絡規模和拓撲空前龐大
當前是一個信息爆炸的年代,網絡也在隨著技術的日新月異而快速演進,5G SA網絡已經成為網絡演進目標,但運營商不可能拋棄已有的2G/3G/4G網絡,所以當前看到的是一個龐大而復雜的通信系統[7]。如圖2所示(3GPP網站公開信息)。
2.智能終端比例大幅增長
智能手機成本不斷下降,功能不斷增強,以及其天生的便攜性,使智能機已經成為市場的主流。
3.數據業務大幅提升:
隨著智能機終端上涌現出大量應用app,尤其是交互式、推送服務軟件,引發大量信令開銷。主要歸結為以下幾種情況:
(1)頻繁的空口連接和尋呼
IM(QQ、MSN、wechat)、Social Media(Facebook/meta)、在線游戲類軟件等,終端頻繁在idle態與connected態之間轉換。
(2)推送服務
為了提高用戶體驗,服務器會實時將好友的信息或用戶預定的信息推送到用戶的終端上,以便能讓用戶第一時間看到更新的信息。
(3)頻繁小包業務
聊天信息、在線游戲發送的命令等,數據量小且頻繁的業務。
(4)心跳
通過終端和服務器之間周期的頻繁心跳,來維持用戶的在線率;即使用戶長時間不使用終端,也仍然會維持心跳。
4.其他導致信令負荷高的因素
(1)網絡規劃TAL規模過大導致的高信令負荷;
(2)網絡架構變更引入的尋呼和業務接入的信令消息成百倍的增長;
(3)網絡RF不夠好,導致的頻繁切換造成的信令額外開銷。
(三)信令風暴的發生場景
觸發信令風暴的場景是多方面的,從觸發因素分類,可以分為外部因素觸發和內部因素觸發:
1.外部因素
UE觸發:UE行為(開關機/移動/發送異常消息)、APP應用(建立會話、上傳信息)
應用服務器觸發:服務器行為(重啟/發送異常消息)、APP應用(下行消息推送)
2.內部因素
5GC自身觸發:故障處理(通知UE恢復PDU會話)、網絡變更處理(觸發UE重新注冊)。
3.外部因素觸發的信令浪涌場景
外部觸發因素導致信令風暴的根因是:
(1)用戶集中行為
①重大活動期間,話務量上升的沖擊:
重大活動(世界杯、奧運會、HAJJ等)期間,活動片區用戶增多,大量用戶同時進行業務,以及大量用戶同時位置移動(如進場、散場)造成的大量位置更新和切換,均會產生大量信令沖擊核心網。
②節假日期間,話務量上升的沖擊:
節假日(春節、圣誕節等)期間,活躍用戶增多,春節電話、短信、微信拜年、搶紅包、整點活動等,使得語音、短信、數據業務明顯增多,給核心網帶來信令沖擊。例如:HAJJ朝覲期間,在麥加圣地中心區10平方公里聚集450萬人,300萬移動用戶,其中包含大量國際漫游客戶,導致漫游業務和呼叫業務的話務激增;朝圣活動有多個步驟,分布在不同的地點,大規模用戶移動造成的大量位置更新和切換;每天五次禮拜后,兩三百萬用戶同時開機、通話、收發短信、上網等,產生短時大量信令沖擊。
③自然災害發生后,話務量上升的沖擊:
自然災害(如地震)發生時,用戶頻繁移動導致位置更新和切換業務增多;自然災害發生時,人們紛紛通過手機上網了解最新信息;語音主叫和被叫在某種場景下突然增多,大量的緊急呼叫求助電話、大量的打進災區的關懷電話等。
(2)網絡上的異常信令
外部網絡行為/攻擊:
智能終端為省電而快速休眠,導致頻繁關閉與網絡之間的連接。一些App應用出現同時集中向大量用戶發送信息的業務,比如微信發紅包、新聞/消息推送、搶票軟件等,此類業務屬于正常業務。Internet網絡存在對IP地址惡意掃描的情況,并短時間內掃描大量連續的IP地址,此類情況屬于惡意攻擊。
(3)外部因素觸發導致的信令風暴浪涌場景歸納如表1
4.內部因素觸發的信令浪涌場景
內部因素導致信令風暴的根因是:
(1)網元設備、通信故障
斷電、自然災害等導致網元設備故障,容災平面的話務突增;網元設備通信故障、閃斷及恢復后的大話務沖擊。
(2)網元設備故障
網元設備、通信鏈路故障,周邊網元感知到后主動恢復受影響用戶的業務,為減少用戶業務損失,可能產生大量信令,由于各網元的處理能力不同,瓶頸網元會受到沖擊。
(3)內部因素觸發導致的信令風暴浪涌場景
內部因素觸發導致的信令風暴浪涌場景如表2所示。
三、KDDI網絡事故信令風暴形成過程分析
以引言提到的日本KDDI網絡事故為例,不難推演出此次信令風暴事故并非單一故障,而是由內部因素(運維操作)造成某一故障點所引發的一連串外部因素(用戶行為,重注冊等),導致問題進一步惡化而產生的蝴蝶效應,使得故障持續了長達60多個小時。讓我們嘗試分析這次信令風暴事故為什么會成為超長事故?(分析內容基于媒體公開信息推演得出)
根據如圖3拓撲進行信令沖擊分析,結果如表3所示。
歸納總結為以下三點:
①網絡設備抗沖擊能力弱:單點路由器故障導致全路徑設備承受信令風暴,無網絡分級精準流控能力設計,導致核心數據DB節點遭受信令沖擊。
②集中化數據節點造成影響雪崩:核心DB節點多區域共享,單大區故障帶來集中DB風暴沖擊,全國用戶信令受損,海量終端重試帶來全網風暴。
③無逃生打底數據語音同下線:4G語音不可用數據/語音同時下線,無CS逃生網,導致短時間內用戶4G重新注冊;數據/語音信令風暴進一步加劇。
以上三點可總結為:網絡多點瓶頸,信令風暴導致網絡崩盤。
四、一種多防線立體協控信令防范方案
如信令風暴發生場景所述,網絡中總會由于一些內外部因素導致異常的發生,比如地震導致光纖中斷,傳輸一旦恢復,故障期間積攢的大量信令消息會像火山一樣突然爆發,哪怕是深更半夜,智能終端也會不停地反復自動嘗試接入網絡。面對如此雷暴,如何讓信令風暴平息,讓網絡最終達到風平浪靜的自愈效果呢?
根據KDDI網絡事故的分析和總結,給出了一種網絡信令風暴防控的方案。該方案基于如圖4所示的分層網絡,防控方案基于以下兩個前提假設:
①假設網絡有5個層級的網絡節點。
②每個網絡節點有請求、更新、終結,共3類消息流程。
為了能夠盡快解除信令風暴,需要重點關注如下兩點:
①避免做無用功:假如不在前端流控,比如在流控點5部署流控手段,用戶一旦被拒絕后,那么在前4個點完成的工作就變成了無用功,只能從頭再來。
②避免惡化事態:假如不是首消息流控,比如流控掉更新消息,那么本來已接入網絡的穩態的用戶也會逐步轉變成非穩態的新用戶,重新嘗試接入網絡,導致信令風暴持續加大。
因此,信令風暴流控思路如下:
①四道防線,立體協控,后端過載,前端流控,不做無用功,珍惜每一個信令資源。
②首消息流控,確保已經接入的穩態用戶工作正常,絕不能惡化。
③提前部署流控,未雨綢繆比臨時抱佛腳的效果更好。
以圖5為例,在各流控點分層級部署防控防線。
防線一:PS域入口AMF/MME總控
①Inter SR/注冊流控:新用戶有序放通,老用戶不掉線;
②統一HTR流控/Gr流控:保護后端UDM/HSS/HLR;
③AMF會話流控:保護SMF/UDM/PCF。
防線二:SMF/GW-C針對不同業務(語音/數據/行業用戶)精準布控
①APN wal流控:針對數據/語音/行業用戶區分流控;
②Gx/Gy wal流控:保護后端PCRF/OCS/AAA。
防線三:話音域入口SBC協控,進一步降低信令負荷
①SBC整形流控:流控初始注冊,放通重注冊,確保老用戶不掉線;
②CSC流量整形:保護后端DRA/HSS。
防線四:信令匯聚點UDM/HSS/STP/DRA/SCP部署局向流控,保衛后方司令部
①融合數據域:UDM/HSS/HLR手工流控(區分消息類型);
②分組域:S6a/Gx/Gy局向流控(不區分消息類型);
③話音域:Cx/Dx流控(不區分消息類型)。
五、信令防范方案實際效果
以G省Y客戶網絡信令風暴為例說明,如圖6所示。
故障概述:2022年7月22日10:06和10:42左右,J友商路由器發生兩次雙平面故障,導致現網發生網絡注冊沖擊,信令沖擊量為平時的29倍,引發PS/IMS等網元流控,兩次沖擊均在15分鐘左右恢復。
業務故障分析如表4所示。
信令風暴沖擊如圖7所示。
系統流控及流控后對系統的影響如表5所示。
信令風暴產生原因:
①用戶上網異常主動飛行;
②人網4G/5G交互異常,導致業務失敗,觸發終端重注冊;
③物聯網用戶TAU切換異常,觸發終端重注冊。
故障恢復措施:
5GC/EPC/IMS領域均提前部署流控,數通路由器故障恢復后,流控預埋生效,快速消除信令風暴。
六、結束語
本文對KDDI的事故進行分析,引入信令風暴的立體防控方案,通過分析產生信令風暴的內外部因素和浪涌場景,理順了立體防控的順序,并在實際網絡部署經歷了網絡事故的考驗,證明立體防控方案效果明顯,為網絡安全防范提供了一個思路??偟膩碚f,減少人為動網操作引入的風險可以降低大部分網絡風險;但是對于不可抗拒因素,如地震等引入的網絡風險,應當提前部署立體信令風暴防控方案,平時做到備戰演練,以便網絡極限逃生可用,這是對網絡風暴消除最好的方法,當然我們期望的還是網絡自動駕駛到來的那一天。
作者單位:陳東洋 華為技術有限公司
參? 考? 文? 獻
[1]https://mp.weixin.qq.com/s/SMnPTKEHHwZ6RBCzHlVmcg
[2]https://www.c114.com.cn/news/17/a1203260.html
[3]https://www.c114.com.cn/news/17/a1206611.html
[4]https://www.c114.com.cn/news/17/a1208894.html
[5]https://news.kddi.com/important/news/index.html
[6]3GPP TS 29.500 V16.12.0.3rd Generation Partnership Project;Technical Specification Group Core Network and Terminals;5G System;Technical Realization of Service Based Architecture;Stage 3(Release 16)[S]. 2022.09.
[7]https://github.com/nickel0/3GPP-Overall-Architecture/blob/master/diagram/3GPP_Overall_Architecture_and_Specifications.jpg