申乃芝,曹曉微,劉 瑜,秦 月,張 玉
(國網(wǎng)天津市電力公司城東供電分公司,天津 300250)
隨著信息化建設的不斷深入,通信行業(yè)的數(shù)據(jù)量呈指數(shù)增長態(tài)勢,海量異構(gòu)數(shù)據(jù)的高效分析處理對通信工程質(zhì)量和通信業(yè)務運營的支撐能力提出更高的要求。文章研究采用云計算技術,設計通信工程數(shù)據(jù)智能分析處理方案,以提高數(shù)據(jù)處理效率,發(fā)掘數(shù)據(jù)價值,實現(xiàn)通信網(wǎng)絡的智能決策。
云計算的核心技術集群包括虛擬化技術、分布式存儲體系、大規(guī)模數(shù)據(jù)處理技術等多個維度[1]。在技術內(nèi)核層面,云計算依賴虛擬化技術的力量,成功整合不同硬件配置的系統(tǒng)資源,并實現(xiàn)精細化調(diào)度與高效優(yōu)化,使得用戶能夠依據(jù)需求靈活訪問和利用數(shù)據(jù)中心的各項計算能力、存儲空間和網(wǎng)絡帶寬資源。例如,借助虛擬化技術,多個獨立的物理服務器可以被虛擬化整合成一個統(tǒng)一且彈性的資源池,既提升資源的整體利用率,又確保各應用程序間的性能隔離與安全性保障。而在應用實踐層面上,云計算極大促進基于互聯(lián)網(wǎng)的服務的即時供應與自動擴展能力,用戶能夠根據(jù)實時業(yè)務負載的變化情況,無縫增減所需的服務器規(guī)模、存儲容量和網(wǎng)絡資源,全程無需人工介入,從而顯著減少應用遷移至云端環(huán)境的時間成本,并降低復雜性。
傳統(tǒng)的通信工程數(shù)據(jù)處理技術受限于一系列固有的局限性,表現(xiàn)為數(shù)據(jù)管理流程煩瑣冗雜、存儲格式多樣不一以及計算平臺的封閉性等。舉例來說,在現(xiàn)代通信場景中,單個基站每日所產(chǎn)生的業(yè)務數(shù)據(jù)量可能高達300 GB以上,主要包括交易記錄、網(wǎng)絡狀態(tài)數(shù)據(jù)、設備性能指標以及網(wǎng)絡資源調(diào)度等各種類型的數(shù)據(jù)[2]。這些海量數(shù)據(jù)碎片化地分布在眾多不同的數(shù)據(jù)庫系統(tǒng)中,由于格式各異,形成大量不必要的冗余和重復,增加數(shù)據(jù)處理的復雜性。針對如此龐雜的數(shù)據(jù)集,現(xiàn)有的處理方法通常需要運用MapReduce、Hive、Spark 等多種大規(guī)模數(shù)據(jù)處理框架,開發(fā)高度耦合的數(shù)據(jù)分析模型,而這不僅導致模型的復用性差,還增加開發(fā)與維護的成本。此外,由于數(shù)據(jù)體量龐大,批處理過程耗時較長,無法實現(xiàn)實時數(shù)據(jù)更新,致使決策支持的有效性和時效性受到嚴重影響。隨著5G 網(wǎng)絡部署步伐的不斷加速,通信領域的數(shù)據(jù)規(guī)模正以前所未有的速度迅猛增長,傳統(tǒng)數(shù)據(jù)處理手段愈發(fā)顯得力不從心,難以應對指數(shù)級增長的數(shù)據(jù)洪流。因此,迫切需要一種創(chuàng)新的通信工程數(shù)據(jù)處理解決方案,旨在推行統(tǒng)一的數(shù)據(jù)存儲格式標準,打破計算框架之間的封閉性壁壘,實現(xiàn)流式與批量計算的無縫融合,最大化挖掘數(shù)據(jù)蘊含的價值,進而有力驅(qū)動通信網(wǎng)絡向智能化決策方向演進。
在構(gòu)建針對通信工程數(shù)據(jù)處理的云計算基礎設施時,關鍵目標在于確保系統(tǒng)具備強大的彈性擴展能力和智能化調(diào)度機制。因此,設計方案依托于高效能數(shù)據(jù)中心服務器集群,采用先進的虛擬化技術實現(xiàn)硬件資源的深度整合與池化。具體硬件層面,選用高性能計算與大容量內(nèi)存兼?zhèn)涞姆掌鳎瑔蝹€計算節(jié)點搭載雙路28 核心處理器,配備512 GB 內(nèi)存容量,充分滿足大數(shù)據(jù)密集型并行計算任務的需求;同時,本地存儲配置6 TB 硬盤用以臨時存儲實時流數(shù)據(jù),并借助固態(tài)硬盤(Solid-State Drive,SSD)大幅提升讀寫性能。在網(wǎng)絡架構(gòu)設計上,每一個計算節(jié)點均標配至少2 塊萬兆速率的網(wǎng)卡,連接至支持40/100 Gb/s 低延遲鏈路聚合功能的交換機,從而有效保障東西向流量間的高速穩(wěn)定傳輸。在虛擬化層級,部署VMware vSphere 環(huán)境,通過對底層物理服務器資源進行邏輯抽象,構(gòu)建一個支持多租戶的資源分配體系。這樣便可以根據(jù)業(yè)務需要動態(tài)地創(chuàng)建、刪除虛擬機實例,靈活擴充資源,最大化資源使用率。例如,在應對5G 單基站實時數(shù)據(jù)接入場景時,估算所需動態(tài)創(chuàng)建虛擬機實例數(shù)量的公式為
式中:n表示所需動態(tài)創(chuàng)建的虛擬機實例數(shù)量;D表示單個基站每秒產(chǎn)生的數(shù)據(jù)流量;λ表示單基站的數(shù)量;C表示單個虛擬機CPU 的處理能力;U表示虛擬機CPU 的平均使用率。
在平臺管理層級,采用開源的云管理框架OpenStack,用于統(tǒng)一管理和調(diào)配所有虛擬資源,并通過開放RESTful API 接口實現(xiàn)基礎設施即服務(Infrastructure as a Service,IaaS)。這套精心設計的云計算方案能夠彈性適應不斷增長的通信工程海量數(shù)據(jù)存儲與計算需求,提供高度定制化、高效響應的服務能力。
針對通信工程中數(shù)據(jù)分散存儲在關系型數(shù)據(jù)庫、文檔型數(shù)據(jù)庫、時序數(shù)據(jù)庫等多系統(tǒng)的現(xiàn)狀,本設計采用數(shù)據(jù)集成和預處理技術對數(shù)據(jù)來源進行統(tǒng)一管理[3]。采集層通過配置轉(zhuǎn)換適配器的方式獲取不同來源數(shù)據(jù):關系數(shù)據(jù)庫開發(fā)自定義Java 數(shù)據(jù)庫連接(Java Database Connectivity,JDBC)驅(qū)動程序加載數(shù)據(jù)到Hadoop 平臺;文檔數(shù)據(jù)庫利用開源組件Mongo-Hadoop 建立MongoDB 和Hadoop 的連接,使用MapReduce 直接對文檔進行分析處理;時序流數(shù)據(jù)則通過Kafka Connect 采集工具訂閱數(shù)據(jù)庫變更日志。傳輸層利用Apache NiFi 構(gòu)建集成數(shù)據(jù)流水線,實現(xiàn)異構(gòu)數(shù)據(jù)格式、傳輸協(xié)議的轉(zhuǎn)換。例如,將MySQL數(shù)據(jù)庫使用JS 對象簡譜(JavaScript Object Notation,JSON)編碼映射為優(yōu)化行列式(Optimized Row Columnar,ORC)文件,Avro RPC 協(xié)議轉(zhuǎn)換為Thrift RPC 等。存儲層采用Hadoop/HBase 等分布式存儲系統(tǒng),對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存儲,基于文件元數(shù)據(jù)構(gòu)建數(shù)據(jù)目錄服務,支持結(jié)構(gòu)化查詢語言(Structured Query Language,SQL)、文檔、流式3 種查詢接口。查詢優(yōu)化層使用Alluxio/Cache 技術緩存熱點數(shù)據(jù)塊,利用列式存儲技術對寬表進行壓縮,根據(jù)查詢負載情況自動調(diào)整數(shù)據(jù)布局,實現(xiàn)原子性、一致性、隔離性以及持久性(Atomicity Consistency Isolation Durability,ACID)事務與高并發(fā)的平衡。該數(shù)據(jù)集成與管理設計可有效整合異構(gòu)系統(tǒng)數(shù)據(jù),優(yōu)化數(shù)據(jù)流水線,為后續(xù)的智能分析算法提供高質(zhì)量的數(shù)據(jù)集。
針對通信工程海量異構(gòu)數(shù)據(jù)的智能分析問題,文章設計采用基于Spark 的機器學習平臺,構(gòu)建彈性擴展的分布式模型。采用專門的接收器來處理流式數(shù)據(jù)和批處理數(shù)據(jù),分別由Structured Streaming 和Spark SQL 引擎進行預處理。特征工程層將數(shù)據(jù)統(tǒng)一映射為特征矢量,并調(diào)用MLLib 等算法工具包進行特征提取、轉(zhuǎn)換等,構(gòu)建高質(zhì)量的特征空間。以網(wǎng)絡質(zhì)量診斷為例,輸入源包括核心網(wǎng)元素的告警日志、性能指標時間序列和網(wǎng)絡配置數(shù)據(jù)等,經(jīng)特征處理后構(gòu)建樣本集X={x1,x2,…,xn},樣本特征矢量包含用戶號碼、地理位置和蜂窩基站標識等多維屬性[4]。
模型構(gòu)建層按照不同預測目標,選用支持向量機(Support Vector Machine,SVM)、隨機森林等監(jiān)督學習算法或主成分分析法(Principal Component Analysis,PCA)、K-Means 等無監(jiān)督學習算法。以網(wǎng)絡故障預測為例,目標變量為網(wǎng)絡元素的異常指標,使用隨機森林二分類模型,損失函數(shù)為
式中:yi和i分別表示樣本xi的真實標簽和預測標簽;θ表示模型參數(shù);N表示樣本容量。該模型承載于彈性的Spark 計算框架,可充分利用集群動態(tài)資源實現(xiàn)模型并行訓練,降低單機內(nèi)存壓力。模型操作層使用MLflow 等工具進行模型版本的管理、比較、部署,并與下游分析任務鏈連接,構(gòu)建閉環(huán)的通信網(wǎng)絡數(shù)據(jù)分析體系。
通信工程數(shù)據(jù)分析結(jié)果的可視化呈現(xiàn)和決策支持是實現(xiàn)智能化網(wǎng)絡運維的最后一步。本系統(tǒng)設計以Apache Superset 為核心,構(gòu)建支持多終端的分析可視平臺。數(shù)據(jù)接入層集成Spark、Hive等分布式計算框架,編寫SQL 查詢轉(zhuǎn)換數(shù)據(jù)源,封裝符合Superset 邏輯的數(shù)據(jù)抽象層。呈現(xiàn)層支持包括地圖、表格、圖表多種可視組件,通過動態(tài)控制面板容納組件,實現(xiàn)綜合化的儀表盤設計。以5G 網(wǎng)絡質(zhì)量監(jiān)控為例,儀表盤以服務小區(qū)為維度展示關鍵性能指標:獨立小區(qū)用戶速率擴散圖實時反映質(zhì)量服務(Quality of Service,QoS);在Top 10 小區(qū)中,無線電資源控制(Radio Resource Control,RRC)連接建立的時延情況,能夠反映信令流程的性能表現(xiàn);蜂窩網(wǎng)絡空中下載(Over-The-Air,OTA)配置故障的工單數(shù)量在地理分布上的熱力圖,有助于定位網(wǎng)絡覆蓋的差異等問題[5]。
決策支持方面,平臺提供模式發(fā)現(xiàn)、根因分析、資源優(yōu)化等智能引擎服務。例如,采用關聯(lián)規(guī)則算法發(fā)現(xiàn)高流量小區(qū)常見配置模式,指導網(wǎng)絡擴容規(guī)劃;利用深度學習模型預測接下來一個月故障工單數(shù)量,優(yōu)化維修資源預配比;根據(jù)多時空維度(天、周、月)的用戶密度變化和移動性模型,生成下一周候補封站小區(qū)的優(yōu)先級排序建議。該分析決策系統(tǒng)向業(yè)務、運維人員提供全面的網(wǎng)絡運行數(shù)字化視角,有助于實現(xiàn)智能化和精細化的通信網(wǎng)絡管理。
為驗證所設計方案的有效性,構(gòu)建通信工程海量數(shù)據(jù)處理實驗平臺,模擬現(xiàn)網(wǎng)環(huán)境產(chǎn)生類似數(shù)據(jù)集,設計端到端流程評測。數(shù)據(jù)層面,使用開源工具生成包括核心網(wǎng)元告警日志、性能指標時間序列、網(wǎng)絡配置數(shù)據(jù)、用戶業(yè)務日志等多個數(shù)據(jù)集,數(shù)據(jù)格式覆蓋關系型、時序、文檔型等。Singles 實例按照自定義模式隨機生成異常事件和故障樣本,保證分類樣本分布平衡;用戶日志利用SUMo 工具基于實際路網(wǎng)和用戶移動模型生成,峰值流量達到實時5 萬個訂單。
計算框架方面,部署基于Kubernetes 的Spark 集群,資源配置為30 個工作節(jié)點。測試案例設計網(wǎng)絡故障預測模型訓練和預測流程,包含特征提取、模型構(gòu)建、離線驗證和在線服務4 個階段。離線階段對歷史故障工單數(shù)據(jù)提取空間特征和時序特征,利用隨機森林算法訓練,每個時空樣本包含100 多維屬性,標簽為二分類。在線階段集成模型對流式數(shù)據(jù)進行實時預測,輸出故障概率,按照效果曲線評估延遲、吞吐量指標。
實驗結(jié)果顯示,基于云計算技術的通信工程數(shù)據(jù)智能處理方案可以有效提升數(shù)據(jù)處理效率和質(zhì)量。數(shù)據(jù)集成層面,異構(gòu)數(shù)據(jù)接入吞吐量可線性、彈性擴展,單工作節(jié)點最大可達到20 000 條/s 日志數(shù)據(jù)的攝入速率;數(shù)據(jù)集中存儲具備PB 級容量,支持SQL和Ad-Hoc 這2 種查詢接口。測試案例中,包含有線、光纖和無線多域網(wǎng)元的歷史故障日志數(shù)據(jù),原存儲大小為621 TB,經(jīng)過壓縮和索引后,存儲占用降低到243 TB,查詢速度提高68%。機器學習模型的效果如表1 所示,在大數(shù)據(jù)量條件下,關鍵指標與單機情況相當,最終取得了89.36%的F1分值,能夠滿足工程場景的在線需求。

表1 機器學習模型的效果比較
文章主要構(gòu)建端到端的通信網(wǎng)絡數(shù)據(jù)處理技術方案,通過虛擬化、大數(shù)據(jù)、人工智能等技術的有機融合,解決了數(shù)據(jù)分散、計算框架封閉、業(yè)務應用僵化等問題。方案具有平臺無關、可擴展、智能化等特點,可高效實施通信數(shù)據(jù)的集中管理、模型訓練、智能預測以及自動決策等功能,顯著提升數(shù)據(jù)驅(qū)動業(yè)務的敏捷性,賦能通信網(wǎng)絡的智能運維與精細化管理。