于慧珠++潘相東



為了解決目前聯通營業側業務處理是單點系統處理,在全流程各子系統出現應用系統運行異常或者應用系統處理工單緩慢出現積壓時,導致工單無法正常處理出現用戶投訴,同時結合2016年3月北京聯通為提升客戶感知,改善服務質量,提出的信控業務全流程、全業務(含普話、寬帶、移網)5分鐘開通的目標,大唐電信旗下大唐軟件提出了聯通急速開通系統解決方案,將“提高系統反應能力,提高客戶滿意度”,作為聯通極速開通平臺的設計與實現的標準。
在此目標的驅動下,必須首先解決單點系統問題,為此提出開辟工單應急處理通道,在現有系統出現故障時,可立即切換到應急處理通道,進行業務工單持續處理(一階段為復機業務),以保證5分鐘開通目標達成。
聯通極速開通系統的五個亮點
流程極簡
信控業務全流程是指從計費定單開始,至網元施工結束。聯通現網處理流程,由營業側下發訂單,timer掃描生成定單信息存儲入Oracle數據庫,通過工作流解析timer掃描定單生成工單信息存儲入Oracle數據庫,定單信息發送NAS,timer掃描NAS接受到的工單信息存儲入Oracle數據庫,通過timer掃描生成網元工單信息存儲入Oracle數據庫,組織網元工單下發網元執行,timer掃描報竣網元工單并同步工單信息存儲入Oracle,NAS結果通知IOM報竣信息,timer掃描后,同步工單報竣信息存儲入Oracle,timer掃描后,同步定單報竣信息存儲入Oracle,最后定單歸檔到Oracle。
從現網處理流程分析得出:現網系統高度依賴timer、數據庫存在瓶頸、資源爭搶激烈、過程冗余等問題突出。
聯通極速開通系統處理流程由營業側下發訂單,生成的定單存入內存數據庫,經過映射生成工單信息并同時生成網元工單,存入內存數據庫。而后網元工單下發網元執行,網元工單報竣同步結果到工單和定單,然后進入結果上報流程,工單竣工后進行數據清理后歸檔到關系數據庫保存備份。
聯通極速開通系統不再依賴timer進行處理,而是引入異步消息隊列驅動進行工單流程控制,并且把過程處理數據保存在內存數據庫,去掉連接數據庫并讀取磁盤帶來的開銷,除外還去除原有復雜的工作流處理機制,精簡中間處理環節,使處理過程更加簡單高效。
云化架構
聯通極速開通系統設計理念:云化架構,消息驅動,快速執行,它有四個特點。
第一,高速處理,全組件云化架構,MQ消息驅動,緩存加速,數據庫分庫分表設計,減少單表數據量。
第二,高擴展能力,各組件均可橫向擴展,無性能瓶頸。
第三,高可靠性,多宿主容災,無單點故障瓶頸。
第四,節省成本,去IOE,所有服務器使用PC服務器,不采用小型機、磁盤陣列。
多宿主容災
只通過一條鏈路連接到單個主機節點的模式容易發生單點失效而導致系統癱瘓,而此問題對于分布式系統是不可行的。為此我們對sorl、redis、rabbitMQ和mysql進行集群,各個連接點實現主備實現,保證快速響應連接和數據一致性。如果出現單節點故障,不會影響用戶使用和數據丟失等情況,實現多宿主容災目標。
全流程實時預警
此系統技術復雜和組件繁多,如果系統出現異常,光靠人手動監控是不現實的,所以我們提供完整的監控預警系統。例如,在現網處理通道某個環節出現故障,監控預警系統會進行告警通知并切換到應急處理通道,保證故障實時處置,其它工單監控點還包括總工單數、未竣工工單數、在途工單數和已回單數等。在服務技術組件監控方面,我們對tomcat請求連接池、solr集群、redis集群、rabbitmq集群情況和zookeeper進行監控,為組件平穩運行提供服務。
高擴展能力
聯通極速開通系統支持服務平滑擴容,如果聯通極速開通服務器數量需要擴充或者裁減,只需要進行相應配置就可以實現,且在系統升級時也有安全退出機制,保證數據一致性。
服務組件擴容,在現有組件集群能力不能滿足支撐時,可以動態平滑增加機器到集群中,組件能力過剩也可以滿足指定機器從集群中刪除操作。
服務數擴展,如果在當前系統某個模塊并發數不足,可以在配置中增加并發數實現服務數動態擴展能力。
網元平臺擴展,如果加入新的網頁配置,只要加入配置啟動信息和消息指向就可以完成擴展。
聯通極速開通系統運行成果
運行情況和成果推廣
在2016年7月4日12時17分05秒,現網產生積壓、服務中斷等核心故障,應急開機系統立即響應,于12時22分接收到切換請求,啟動時長為1小時5分鐘所得極速開通數據和現網數據對比圖。期間應急開機系統接收復機數據量5833條工單,分別為移網號碼5085、固網355、寬帶393,執行成功5827,失敗6(網元超時),執行成功率達到99.87%。
經過生產應用,切實解決了中國聯通北京聯通分公司出現工單積壓現象影響停復業務的開機服務問題。同時,其自動切換的及時性,給信息化的運維工作帶來了極大的便利。對于改善聯通公司其它各省份信息化部,針對開機延時問題提供了行之有效的解決方案。
標準化實施
在此過程中,將系統服務運行的監控機制和服務異常時的應急處理機制不斷進行標準化。
鞏固期數據
我們對2016年7月-2016年12月繳費開機及時率進行了統計。在鞏固期內繳費開機及時率穩定在99%以上的水平,目標達成。
極速開通平臺集中體現運維服務體系建設,應包含運維服務制度、流程、組織、隊伍、技術和對象等方面的內容。同時結合極速開通平臺支撐的業務特色,整合運維服務資源,規范運維行為,確保服務質效,形成統一管理、集約高效的一體化運維體系,從而保障極速開通平臺在集中的條件下,網絡和應用系統安全、穩定、高效、持續運行。
展望未來,目前聯通極速開通系統支撐停復業務是遠遠不夠的,基于現有技術和系統不斷成熟穩定,未來將支撐電信運營商營業側業務的開通、撤銷、開戶、銷戶等全業務處理操作。