胡 佳 張竣圖
(中國聯合網絡通信有限公司廣東省分公司,廣東 廣州 510320)
當前,中國聯通的集中業務支撐系統(central Business Support System,簡稱CBSS)的開機流程由信控發起、經過營業、BO、全業務平臺、省分竣工等幾個環節組成。開機流程長且繁瑣,容易出現開機指令擁堵,不能及時執行,導致用戶開機緩慢。
CBSS系統缺乏緊急開機流程,一旦出現錯誤批量停機異常或正常流程開機異常,需要在短時間內盡快恢復開機。然而,當前系統不支持快速批量開機,導致開機業務延遲執行,嚴重影響用戶感知。因此,有必要開發出一款高效的緊急開機體系。
通過總部能力開放平臺輸出各省的分側開機能力,實現全國各省份緊急開機功能。
實現不經過CBSS系統,直通省分側,快速在網元側恢復用戶正常業務的功能。同時也能對外提供服務能力,增強生產運營過程中的應急手段,保障系統安全。本期建設目標如圖1所示。

圖1 系統建設目標
部署總部天宮環境,基于天宮Pass平臺開發一套緊急開機工具,該工具主要包括應用層、平臺層和基礎設施層三部分,其中應用層主要解決批量高并發的緊急開機問題,實現了平均萬筆每秒的響應能力;平臺層可以進行AI預警監控,實施監控異動情況,并作出快速處置;基礎設施層主要解決二次開機問題,并具備過濾反欺詐等功能(圖2)。

圖2 系統架構
總體分為系統管理、緊急開機管理、緊急開機數據處理、緊急開機稽核、短信功能、定時任務模塊。系統管理模塊中,主要涵蓋系統管理所需的基本功能,包括用戶注冊、忘記密碼、修改密碼等;緊急開機管理,包括停機用戶確定及導出、申請單生成、申請單審核等;緊急開機數據處理,主要是讀取號碼信息,并拼接指令,調用能力開放平臺接口緊急開機;緊急開機稽核,包括申請單進度、開機用戶執行明細導出等;短信功能主要是將緊急開機的結果以短信的形式告知客戶;除此之外還包括定時任務、大數據監控等功能(圖3)。

圖3 緊急開機系統功能架構
系統架構采用開源的Spring Cloud微服務架構,支持快速啟動,服務調用迅速。采用redis高速緩存組件,用于維護關鍵用戶信息,實現系統高并發和秒級響應。系統之間數據交互采用kafka消息隊列,采用異步消息機制,保證系統高可用、高吞吐量。項目總體技術架構分為三個部分,即SaaS、PaaS、LaaS,從圖4可以看出SaaS主要包括異常停機發現、緊急開機管理和用戶狀態稽核三部分;PaaS主要使用了分布式服務框架、Spring Cloud等平臺工具和技術;LaaS包括計算資源池、網絡資源池、存儲資源池、安全設備四部分。

圖4 天宮技術架構
緊急開機工具部署在天宮平臺上,支持從CBSS鏡像庫圈定停機用戶,進行緊急開機;天擎平臺事先和各省分側聯調上線開機能力發送到能力開放平臺,緊急開機工具調用能力開放平臺的開機能力實現緊急開機(圖5)。

圖5 天宮平臺與其他平臺之間的關系
(1)停機業務量監控
通過AI平臺,采集歷史停機數據,進行模型訓練,并最終輸出動態閾值,獲得停機業務在各個時點下的業務預測峰值,從而對實時停機業務數據的監控。
(2)用戶停機級別模型
通過AI算法構建停機級別模型,基于高收益用戶停機的占比、忠誠用戶停機的占比、星級用戶停機的占比、異常消費停機的占比等信息進行模型訓練,輸出用戶停機級別模型。
(3)停機分布
繪制停機地圖,按地市分塊,每5分鐘刷新數據,根據地市停機數據量大小,采用深淺不同顏色進行標識(圖6)。

圖6 停機分布示意圖
開機流程由開機申請、審核員審核、確認開機、數據歸檔四個部分組成。具體內容如圖7所示。

圖7 緊急開機的基本流程
依托天眼平臺,搭建展示及告警平臺主要采用了信號定位及天眼顯示基礎,可以較為直觀地看出緊急停機的數量、區域,系統會根據設定的標準,向不同的管理單元作出警示,提醒通訊企業注意緊急停機的潛在風險,為后續的管理處置奠定良好的基礎(圖8、9)。

圖8 停機展示平臺

圖9 停機告示平臺
(1)緊急開機用戶比對:由于緊急開機操作繞過CBSS業務模塊,會導致用戶在網元狀態和CBSS狀態不一致,需要通過稽核比對發現狀態差異用戶。
(2)常規增量稽核:對網元中的用戶狀態和CBSS中的用戶狀態進行全網增量比對。
(3)差異狀態修復:對網元和CBSS用戶服務狀態不一致的情況,以CBSS用戶服務狀態為準,對網元服務狀態進行修復。
在功能模塊的建設上,主要涵蓋CBSS、緊急開機系統和網元三部分,其中緊急開機系統中,為了及時識別用戶是否存在緊急開機,需要對用戶的狀態進行比較分析,分析的結果是確認緊急開機客戶,也包括狀態差異用戶和常規稽核差異,在此基礎上構造緊急開機指令。

圖10 功能模塊建設內容
數據類型:(1)營賬類:信控停機數據、營業停機數據;(2)指令類:用戶交換側數據、指令執行數據;(3)規則類:黑白名單數據,執行結果類數據。
硬件資源:硬件資源使用天宮平臺,無需額外投資。

圖11 數據模型建設
組件部署:緊急開機工具部署在天宮平臺,使用容器服務CKE、CCS管理應用服務,云硬盤CBS存儲數據、鏡像存儲CCR存放鏡像、虛擬私有云VPC設定隔離網絡、STARSHIP管理微服務、KAFKA、REDIS、DRDS、RDS等組件作為應用組件,后期考慮使用服務網格CSM替代已有組件。

圖12 硬件資源及組件部署示意圖
緊急開機系統,對停開機動作有一個全流程的管控:事故發生前通過大數據進行實時的停機監控,在事故處理中,達到每分鐘1W以上的真實開機能力,在事故處理完成后可以對停機原因進行分析,對處理數據進行稽核,保證CBSS側與網元側數據的一致性。在信息安全方面,結合互聯網數據能力,實現反詐騙等高風險攔截。全套云原生的架構體系設計,實現了all in CKE的架構模式,全流程自動化,完善的監控體系,所有微服務都達到了高可用、高并發、彈性伸縮,具備完善的自我修復的能力。