統一數據湖技術研究和建設方案

2021-02-01 11:56:46劉志勇何忠江劉敬龍阮宜龍孟照方

電信科學 2021年1期

劉志勇，何忠江，劉敬龍，阮宜龍，孟照方

（中國電信集團有限公司，北京 100033）

1 引言

隨著信息技術、芯片技術、軟件算法的高速發展，大數據、5G、云計算、人工智能（AI）等新技術正在成為驅動創新與實現數字化轉型的重要力量，其中數據資源更是推動數字經濟發展的“糧食”和“血液”。作為每天需要采集PB 級數據的企業，建設什么樣的大數據平臺才能以更少的投入發揮更大的價值，是電信運營商面臨的重大挑戰。

從技術趨勢上看，近年來，為適應日益復雜的數據環境，加快數據應用部署速度，數據湖逐漸成為全球企業大數據運營管理的重要趨勢和方向。數據湖的概念由Pentaho 公司的創始人兼首席技術官Dixon J 提出[1-2]，指“未經處理和包裝的原生狀態水庫，不同源頭的水體源源不斷流入數據湖，并為企業帶來各種分析、探索的可能性”。其主要技術特點為，數據湖統一匯集和管理各生產系統的數據，提供統一的數據存儲和訪問服務，數據分析和開發人員可以各取所需，充分發揮數據價值。數據湖概念如圖1 所示。

圖1 數據湖概念

在數據存儲方面，數據湖按照生產系統的原生模型存儲企業數據，不僅簡化了數據的處理過程，保證數據真實可靠，同時能對具有時效性要求的實時應用提供更好的支撐；在分析應用方面，上層應用可以通過數據湖的標準化接口獲取數據，進行自定義的模型轉換，能夠更加快速地滿足日益多樣的分析需求；在數據治理方面，數據湖提供統一的目錄管理、權限控制、編排調度、追蹤溯源等功能，能夠有效識別和管控各項數據及其處理過程，促進企業數據質量的持續提升。

2 電信運營商大數據平臺面臨的挑戰

目前中國電信建設了集團和省兩級大數據平臺（部分省仍使用基于IOE 的DW/ODS 系統），各專業公司、各部門根據各自需要，也建設了部分大數據分析平臺。大數據平臺數據采集處理現狀如圖2 所示。其中，集團企業級大數據平臺匯總了企業主要運營數據，開展精準營銷、精確管理、精細服務、精益運營等“四精”應用探索，對接部分生產系統閉環注智，較好支撐了企業智慧運營轉型。但兩級建設的分散系統，導致數據重復存儲、多頭管理，數據質量問題多，給大數據應用進一步深化和推廣造成極大困難。主要存在以下突出問題。

（1）數據重復采集、重復存儲。同一份數據在多個系統進行存儲，造成硬件資源浪費，建設和維護成本高。以DPI 數據為例，2018 年年初僅采集就存在：三套移動DPI 重復采、重復存，兩套城域網DPI 存在多次分光、重復分流；數據格式不一致；各域、各系統數據采集、存儲/處理、應用縱向綁定，無法端到端呈現全局數據，難以發揮大數據價值。

（2）數據采集處理環節多，海量原始數據跨省傳輸，占用大量帶寬，同時數據采集時延較大，難以滿足一些實時應用的需要。例如，占大數據資產超過90%的DPI/XDR、MR/CDR 等海量網絡數據，2018 年年初已超過100 TB/天，而且每年保持50%以上的增長。這些數據在集團、省相關系統、大數據平臺之間，層層全量傳送、空中搬家，從網元產生到集團企業級大數據平臺應用展現全流程超過數小時，而基于網絡數據的實時事件營銷、精準營銷、新零售等大數據應用越來越豐富，要求分鐘級時效。

（3）分散的數據共享缺乏有效機制，存在一定技術和管理壁壘，妨礙了跨專業和跨部門的全局性數據應用開展。

（4）各省各專業的數據源系統的數據標準不統一，數據模型缺乏有效管理，也涉及業務管理流程問題，數據質量問題溯源困難，數據質量提升難度大[3]。IT 系統除MSS 全國集中建設以外，BSS、OSS 31 個省級系統分省建設，且業務管理模式不同，數據模型標準、主數據千差萬別，跨省、跨域、跨系統的模型標準統一困難，數據庫之間是孤立的，主數據不同導致跨域之間基于原始數據的關聯整合復雜。

隨著運營商加速數字化轉型需要，其數據業務化、端到端客戶體驗分析、端到端預防性維護、大數據資源配置等需求越來越強烈，需要拉通BSS、OSS，以數據貫通整個生產流程，注智MSS/BSS/OSS，構建開放的數字化架構，支撐企業的智慧運營，實現網絡的集約、智能、自動化運維，支持新的數字化服務以及改善和個性化用戶體驗。這也對運營商的數據平臺架構提出了新的要求，既要考慮到運營商特有的遍布31 省市的數據采集、處理和匯聚需求，又要解決數據分散、標準不統一、數據質量不高、跨域困難、數據實時應用支撐不足、開發工具缺失、應用創新靈活性不夠等問題。

圖2 大數據平臺數據采集處理現狀

3 統一數據湖建設思路

數據湖和邊緣計算技術的出現為大數據平臺建設提供了新的思路。中國電信遵循問題導向、先立后破、有序推進的原則引入大數據湖技術，最終形成數據一體化存儲，平臺邏輯統一、物理分散、統一部署的全網統一的數據湖，實現數據統一管理、數據充分共享和開發應用。統一數據湖概念如圖3 所示。

（1）針對大數據海量數據規模特點，采用邏輯統一、物理分散的集約數據湖架構。

圖3 統一數據湖概念

對于海量網絡數據采用省公司前置處理方式。集團核心節點與省份前置節點平臺邏輯統一，網絡數據前置預處理節點作為集團大數據平臺有機組成部分，實行一體化部署，部署在省公司；組件一體化，平臺組件集團統一版本（自主掌控）、統一運營、統一加載到天翼云；處理一體化，網絡數據預處理規則集團統一定義，處理程序統一部署；安全一體化，安全能力統一建設；監控一體化，前置預處理節點開放北向接口，全部組件集中化監控。數據就近處理，減少無效采集，數據直接接入企業級大數據平臺，構建“邊緣計算+分布式存儲”的前置預處理架構。數據質量全程管控，建立端到端數據質量管控體系和全流程的端到端運營體系。

對于存在潛在挖掘需求的數據，采取原生生產數據導入方式入湖。

對于明確需求的統計分析型數據，采取統一模型轉換后入湖。

（2）明確數據入湖五項原則，持續推進客戶資產數字化、業務資產數字化、網絡資產數字化。

原汁原味、全量入湖：企業數據資產原生全量入湖，統一存儲、統一整合、統一關聯、統一共享，減少海量數據重復采集、重復存儲和帶寬消耗。

融通云網、統一交換：CT 域內、IT 域內以及跨域之間海量數據交換，統一由數據湖承載，原則上各系統之間交換不做網狀關聯（生產類的實時接口除外）。

完善數據標準、強化數據治理：統一制定國際領先的跨CT、IT 的企業級數據模型，規范各系統自身數據模型和數據標準，建立分工清晰、運作高效的企業全域數據治理體系。

端到端閉環運營、提升質量：聚焦端到端運營流程和用戶體驗，增加數據傳輸節點的控制信息，實現入湖數據溯源，提高數據質量保障能力。遵照數據入湖質量標準，清晰數據整合責任，保證主數據的聯動統一。

（3）建立全生命周期數據目錄，完善數據治理機制。在分布式系統架構基礎上通過目錄管理統一標識各項數據，通過編排管理統一調度模型轉換過程，并對各項數據生成和使用過程進行跟蹤記錄，實現數據的溯源追蹤。

（4）在大數據平臺完善、豐富數據分析及建模工具，促進數據共享和應用開放，使用各類數據特點和數據應用需求，集成各類數據開發、自主分析、可視化、應用部署工具，提供一站式的數據開發和應用服務；通過應用沉淀，建立和完善共享的指標庫、標簽庫、模型庫并開放共享，形成良性循環的數據應用生態。

（5）數據湖匯聚企業全量數據，對信息安全提出更高要求。在演進過程中同步研究安全防護機制和管理制度，根據不同數據應用的不同特點，完善生命周期數據安全保障策略，防止數據越權訪問、私自篡改、泄露毀壞等情況發生。

（6）基于當前應用系統逐步實現大數據在線與離線分析注智現狀，對于集中、集約的基于云化、分布式處理技術架構的應用系統可以積極探索部分底層數據與集團大數據平臺融合的系統架構，進一步減少數據的重復存儲，并充分發揮大數據平臺數據處理與跨域建模的強大優勢，實現對應用系統的高效注智。

4 統一數據湖建設實踐

經過兩年多的建設，到2020 年下半年，中國電信初步建成了基于數據湖，采用數據一體化存儲、平臺邏輯統一、物理分散、統一部署等方式有自身特色的大數據平臺，企業級大數據平臺架構如圖4 所示。

（1）超大規模集群

目前企業級大數據平臺規模已超過萬臺，單集群最大規模超過3 000 臺，日采集數據量500 TB。

（2）平臺核心組件自主掌控、自主運營

企業級大數據平臺自主研發三大類20多種開源組件，整體自研架構運行穩定、性能卓越，完全可承載基于海量數據的大規模應用開發。

（3）首次實現BSS、OSS、MSS、網絡、業務平臺、外部數據等全域數據統一匯聚和跨域關聯

企業級大數據平臺，經過多年的不斷努力，數據覆蓋全網5 億多用戶，包含客戶、話單、產品/銷售品、網絡日志等數據。

圖4 企業級大數據平臺架構

（4）獨創的網絡數據前置預處理架構

企業級大數據平臺前置節點能力視圖如圖5所示。通過在全國31 省市部署近3 000 臺前置預處理節點和云網協同開通，實現了網絡數據的前置采集、清洗、關聯和處理，為將來應對5G 數據量爆發性增長建立了靈活的架構。前置預處理后無線網絡數據相比原始數據總體壓縮了44%；4G/5G 用戶信令位置時延由30 min 縮短到5 min以內。而且在前置節點也形成與核心節點互為補充的對省公司的平臺開放能力：

· D-PaaS 數據賦能，前置節點和省大數據平臺共用詳單數據存儲，前置共享實時位置、DPI 業務標簽能力等數據服務能力；

· I-PaaS 存儲計算賦能，開放數據和資源，省公司基于前置租戶，開展本省數據處理和和數據挖掘，處理后數據共享至省大數據平臺；

· A-PaaS 能力開放，集團承接部分北方省大數據建模需求，在前置節點完成數據加工處理，形成服務能力，快速支撐省公司實時營銷、位置應用、無線大數據應用等應用建設。

圖5 企業級大數據平臺前置節點能力視圖

（5）先進的大數據+AI 一站式開發平臺

基于全球主流運營商最新經驗以及演進思路，基于統一數據湖在集團核心節點建設大數據+AI 一站式開發平臺，為省公司、專業公司大數據應用賦能。企業級大數據平臺專區能力視圖如圖6 所示。

基于平臺和應用解耦架構，深度編排數據采集、數據地圖、實時開發、離線開發等產品，滿足專業數據開發團隊數據匯聚、數據加工、數據分析、數據開放等場景需求。提供Web 應用開發的多場景全流程流水線作業，真正做到數據應用敏捷開發。

通過多租戶體系進行開放，多租戶體系能夠充分利用計算存儲資源，基于Hadoop YARN 的Resource Manager，實現存儲、計算資源的復用，并確保各租戶之間的隔離性。通過對集團企業級大數據平臺上的計算/存儲資源、優質數據、成熟工具進行組合和封裝，向省公司和專業公司等用戶提供數據采集、離線開發、可視化挖掘建模、OpenAPI 服務封裝等共計30 個產品能力。

數據從匯聚到開放，資源從分散調度到統一調動的演變，逐步實現大數據能力全網開放，推動企業數字化轉型邁向深水區，為企業數據生產與服務起到降本增效的作用。

圖6 企業級大數據平臺專區能力視圖

（6）全方位、全生命周期的數據安全防護

為解決數據湖在數據匯聚和應用過程中的數據安全問題，通過數據分權分域管理、數據訪問授權、數據加密脫敏、敏感數據識別、安全審計實時風險告警、集群多租戶管理等大數據平臺數據安全管理能力，為數據湖各集群提供必要安全防護和安全事件溯源能力。結合AI 建模算法，進行數據安全感知分析，對數據安全威脅預判、預處理。通過用戶安全風險綜合評分標準，結合數據資產、人員資產、主機資產三大臺賬管理，構建以人為核心的安全防護信息聯動能力。大數據安全管理體系架構如圖7 所示。

在數據湖數據采集存儲過程中，落實數據分類分級要求，結合公司實際情況，從用戶身份、用戶服務、服務衍生數據、企業運營管理、網絡運維5 個維度將數據分為五大類43 子類；依據數據敏感程度不同，將數據分為敏感級、較敏感級、低敏感級、不敏感級4 個；推動全網建立數據分類分級管理制度，對不同類別、不同級別的數據，做好數據標識，實施差異化管控要求；加強重要數據和敏感數據管控，對生產環境內的庫、表、字段進行分級打標，其中所有用戶個人信息定為最高等級；對數據進行稽核校驗，保障結果的完整性、一致性和準確性；開啟數據采集日志審計，實現對數據采集過程全流程操作可追溯。

（7）抗疫期間發揮巨大作用

新冠肺炎疫情期間，依托集約PB 級別的數據資產和數據湖架構，基于海量數據計算能力，迅速開發“翼知疫行”，實現億級用戶行為模式與行為特征的批量處理與實時關聯，并針對疫情的發展提供數據處理、分析與能力輸出能力。其中包含了區域風險查詢、疫情預測查詢、返城報告查詢、行程查詢、接觸查詢等功能，實現風險人員洞察、疫情防控便民服務、人員流動情況統計等能力；并以API 形式，提供給工業和信息化部通信行程碼、電信短信營業廳、電信網上營業廳、海關等，為打贏全國的疫情防控阻擊戰提供有效支撐。

圖7 大數據安全管理體系架構

5 結束語

數據湖成熟度大致可以分為4 個階段。第一為初級階段。企業未實施數據湖，生產系統擁有獨立的數據庫，部分數據導入數據倉庫，提供給分析人員開展報表和分析工作。第二為數據湖引入階段。企業建設了數據湖，并將生產系統數據導入數據湖，經過清洗和轉換后提供給數據倉庫，同時支撐其他獨立建設的分析應用，分析結果也可以閉環反饋到生產系統。第三為數據湖成長期。數據湖成為企業數據長期存儲的缺省設施，各生產系統通過數據湖交換數據，各分析應用基于數據湖構建，數據治理尤其是數據目錄管理成為企業內數據管理的基本手段。第四為數據湖成熟期。各生產系統也基于數據湖構建，數據湖成為企業數據存儲的單一平臺，既支持操作型應用，也支撐分析型應用，并構建了完善的數據治理和安全體系[4]。目前大部分企業均處于數據湖的第一、第二階段，中國電信統一數據湖處在第三階段向第四階段演進的過程中。完成核心節點+前置/邊緣節點的分布式數據湖布局，實現CT、IT 全網數據匯聚以及跨域之間海量數據交換共享，打造了大數據+AI 一站式開發平臺，算力、算據、算法全網賦能和數字化生態開發正在如火如荼地進行。

中國電信統一數據湖已經在“新基建”上做了有益的探索和實踐，為31 省市大數據平臺/數據倉庫/ODS 建立了包括IaaS、PaaS、DaaS 能力的扎實“底座”，為集團“云改數轉”進一步夯實了大數據原子能力平臺基礎，為開展全國大數據云平臺1+N建設、各省大數據平臺高質量遷轉奠定了基礎。下一步，將繼續按照“云網融合、數據驅動、集成創新、合作共贏”的思路，積極推進1+N、推進上云用數賦智，真正實現從大數據平臺向數據中臺的升級，助力企業數字化轉型和社會數字化轉型。

電信科學2021年1期

電信科學的其它文章: 搶抓數字經濟發展和數字化轉型機遇，加快推進信息通信科技創新
——從2020 年中國通信學會科學技術獎看信息通信科技發展趨勢; 基于LTE 資源塊感知的自適應無線流媒體系統; SD-WAN 隧道技術與組網模式; 面向工業互聯網的5G 邊緣計算發展與應用; 基于相關性分析的5G 高鐵站間距計算方法; 美國5G 頻譜戰略概述及啟迪