999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統一數據湖技術研究和建設方案

2021-02-01 11:56:46劉志勇何忠江劉敬龍阮宜龍孟照方
電信科學 2021年1期

劉志勇,何忠江,劉敬龍,阮宜龍,孟照方

(中國電信集團有限公司,北京 100033)

1 引言

隨著信息技術、芯片技術、軟件算法的高速發展,大數據、5G、云計算、人工智能(AI)等新技術正在成為驅動創新與實現數字化轉型的重要力量,其中數據資源更是推動數字經濟發展的“糧食”和“血液”。作為每天需要采集PB 級數據的企業,建設什么樣的大數據平臺才能以更少的投入發揮更大的價值,是電信運營商面臨的重大挑戰。

從技術趨勢上看,近年來,為適應日益復雜的數據環境,加快數據應用部署速度,數據湖逐漸成為全球企業大數據運營管理的重要趨勢和方向。數據湖的概念由Pentaho 公司的創始人兼首席技術官Dixon J 提出[1-2],指“未經處理和包裝的原生狀態水庫,不同源頭的水體源源不斷流入數據湖,并為企業帶來各種分析、探索的可能性”。其主要技術特點為,數據湖統一匯集和管理各生產系統的數據,提供統一的數據存儲和訪問服務,數據分析和開發人員可以各取所需,充分發揮數據價值。數據湖概念如圖1 所示。

圖1 數據湖概念

在數據存儲方面,數據湖按照生產系統的原生模型存儲企業數據,不僅簡化了數據的處理過程,保證數據真實可靠,同時能對具有時效性要求的實時應用提供更好的支撐;在分析應用方面,上層應用可以通過數據湖的標準化接口獲取數據,進行自定義的模型轉換,能夠更加快速地滿足日益多樣的分析需求;在數據治理方面,數據湖提供統一的目錄管理、權限控制、編排調度、追蹤溯源等功能,能夠有效識別和管控各項數據及其處理過程,促進企業數據質量的持續提升。

2 電信運營商大數據平臺面臨的挑戰

目前中國電信建設了集團和省兩級大數據平臺(部分省仍使用基于IOE 的DW/ODS 系統),各專業公司、各部門根據各自需要,也建設了部分大數據分析平臺。大數據平臺數據采集處理現狀如圖2 所示。其中,集團企業級大數據平臺匯總了企業主要運營數據,開展精準營銷、精確管理、精細服務、精益運營等“四精”應用探索,對接部分生產系統閉環注智,較好支撐了企業智慧運營轉型。但兩級建設的分散系統,導致數據重復存儲、多頭管理,數據質量問題多,給大數據應用進一步深化和推廣造成極大困難。主要存在以下突出問題。

(1)數據重復采集、重復存儲。同一份數據在多個系統進行存儲,造成硬件資源浪費,建設和維護成本高。以DPI 數據為例,2018 年年初僅采集就存在:三套移動DPI 重復采、重復存,兩套城域網DPI 存在多次分光、重復分流;數據格式不一致;各域、各系統數據采集、存儲/處理、應用縱向綁定,無法端到端呈現全局數據,難以發揮大數據價值。

(2)數據采集處理環節多,海量原始數據跨省傳輸,占用大量帶寬,同時數據采集時延較大,難以滿足一些實時應用的需要。例如,占大數據資產超過90%的DPI/XDR、MR/CDR 等海量網絡數據,2018 年年初已超過100 TB/天,而且每年保持50%以上的增長。這些數據在集團、省相關系統、大數據平臺之間,層層全量傳送、空中搬家,從網元產生到集團企業級大數據平臺應用展現全流程超過數小時,而基于網絡數據的實時事件營銷、精準營銷、新零售等大數據應用越來越豐富,要求分鐘級時效。

(3)分散的數據共享缺乏有效機制,存在一定技術和管理壁壘,妨礙了跨專業和跨部門的全局性數據應用開展。

(4)各省各專業的數據源系統的數據標準不統一,數據模型缺乏有效管理,也涉及業務管理流程問題,數據質量問題溯源困難,數據質量提升難度大[3]。IT 系統除MSS 全國集中建設以外,BSS、OSS 31 個省級系統分省建設,且業務管理模式不同,數據模型標準、主數據千差萬別,跨省、跨域、跨系統的模型標準統一困難,數據庫之間是孤立的,主數據不同導致跨域之間基于原始數據的關聯整合復雜。

隨著運營商加速數字化轉型需要,其數據業務化、端到端客戶體驗分析、端到端預防性維護、大數據資源配置等需求越來越強烈,需要拉通BSS、OSS,以數據貫通整個生產流程,注智MSS/BSS/OSS,構建開放的數字化架構,支撐企業的智慧運營,實現網絡的集約、智能、自動化運維,支持新的數字化服務以及改善和個性化用戶體驗。這也對運營商的數據平臺架構提出了新的要求,既要考慮到運營商特有的遍布31 省市的數據采集、處理和匯聚需求,又要解決數據分散、標準不統一、數據質量不高、跨域困難、數據實時應用支撐不足、開發工具缺失、應用創新靈活性不夠等問題。

圖2 大數據平臺數據采集處理現狀

3 統一數據湖建設思路

數據湖和邊緣計算技術的出現為大數據平臺建設提供了新的思路。中國電信遵循問題導向、先立后破、有序推進的原則引入大數據湖技術,最終形成數據一體化存儲,平臺邏輯統一、 物理分散、統一部署的全網統一的數據湖,實現數據統一管理、數據充分共享和開發應用。統一數據湖概念如圖3 所示。

(1)針對大數據海量數據規模特點,采用邏輯統一、物理分散的集約數據湖架構。

圖3 統一數據湖概念

對于海量網絡數據采用省公司前置處理方式。集團核心節點與省份前置節點平臺邏輯統一,網絡數據前置預處理節點作為集團大數據平臺有機組成部分,實行一體化部署,部署在省公司;組件一體化,平臺組件集團統一版本(自主掌控)、統一運營、統一加載到天翼云;處理一體化,網絡數據預處理規則集團統一定義,處理程序統一部署;安全一體化,安全能力統一建設;監控一體化,前置預處理節點開放北向接口,全部組件集中化監控。數據就近處理,減少無效采集,數據直接接入企業級大數據平臺,構建“邊緣計算+分布式存儲”的前置預處理架構。數據質量全程管控,建立端到端數據質量管控體系和全流程的端到端運營體系。

對于存在潛在挖掘需求的數據,采取原生生產數據導入方式入湖。

對于明確需求的統計分析型數據,采取統一模型轉換后入湖。

(2)明確數據入湖五項原則,持續推進客戶資產數字化、業務資產數字化、網絡資產數字化。

原汁原味、全量入湖:企業數據資產原生全量入湖,統一存儲、統一整合、統一關聯、統一共享,減少海量數據重復采集、重復存儲和帶寬消耗。

融通云網、統一交換:CT 域內、IT 域內以及跨域之間海量數據交換,統一由數據湖承載,原則上各系統之間交換不做網狀關聯(生產類的實時接口除外)。

完善數據標準、強化數據治理:統一制定國際領先的跨CT、IT 的企業級數據模型,規范各系統自身數據模型和數據標準,建立分工清晰、運作高效的企業全域數據治理體系。

端到端閉環運營、提升質量:聚焦端到端運營流程和用戶體驗,增加數據傳輸節點的控制信息,實現入湖數據溯源,提高數據質量保障能力。遵照數據入湖質量標準,清晰數據整合責任,保證主數據的聯動統一。

(3)建立全生命周期數據目錄,完善數據治理機制。在分布式系統架構基礎上通過目錄管理統一標識各項數據,通過編排管理統一調度模型轉換過程,并對各項數據生成和使用過程進行跟蹤記錄,實現數據的溯源追蹤。

(4)在大數據平臺完善、豐富數據分析及建模工具,促進數據共享和應用開放,使用各類數據特點和數據應用需求,集成各類數據開發、自主分析、可視化、應用部署工具,提供一站式的數據開發和應用服務;通過應用沉淀,建立和完善共享的指標庫、標簽庫、模型庫并開放共享,形成良性循環的數據應用生態。

(5)數據湖匯聚企業全量數據,對信息安全提出更高要求。在演進過程中同步研究安全防護機制和管理制度,根據不同數據應用的不同特點,完善生命周期數據安全保障策略,防止數據越權訪問、私自篡改、泄露毀壞等情況發生。

(6)基于當前應用系統逐步實現大數據在線與離線分析注智現狀,對于集中、集約的基于云化、分布式處理技術架構的應用系統可以積極探索部分底層數據與集團大數據平臺融合的系統架構,進一步減少數據的重復存儲,并充分發揮大數據平臺數據處理與跨域建模的強大優勢,實現對應用系統的高效注智。

4 統一數據湖建設實踐

經過兩年多的建設,到2020 年下半年,中國電信初步建成了基于數據湖,采用數據一體化存儲、平臺邏輯統一、物理分散、統一部署等方式有自身特色的大數據平臺,企業級大數據平臺架構如圖4 所示。

(1)超大規模集群

目前企業級大數據平臺規模已超過萬臺,單集群最大規模超過3 000 臺,日采集數據量500 TB。

(2)平臺核心組件自主掌控、自主運營

企業級大數據平臺自主研發三大類20多種開源組件,整體自研架構運行穩定、性能卓越,完全可承載基于海量數據的大規模應用開發。

(3)首次實現BSS、OSS、MSS、網絡、業務平臺、外部數據等全域數據統一匯聚和跨域關聯

企業級大數據平臺,經過多年的不斷努力,數據覆蓋全網5 億多用戶,包含客戶、話單、產品/銷售品、網絡日志等數據。

圖4 企業級大數據平臺架構

(4)獨創的網絡數據前置預處理架構

企業級大數據平臺前置節點能力視圖如圖5所示。通過在全國31 省市部署近3 000 臺前置預處理節點和云網協同開通,實現了網絡數據的前置采集、清洗、關聯和處理,為將來應對5G 數據量爆發性增長建立了靈活的架構。前置預處理后無線網絡數據相比原始數據總體壓縮了44%;4G/5G 用戶信令位置時延由30 min 縮短到5 min以內。而且在前置節點也形成與核心節點互為補充的對省公司的平臺開放能力:

· D-PaaS 數據賦能,前置節點和省大數據平臺共用詳單數據存儲,前置共享實時位置、DPI 業務標簽能力等數據服務能力;

· I-PaaS 存儲計算賦能,開放數據和資源,省公司基于前置租戶,開展本省數據處理和和數據挖掘,處理后數據共享至省大數據平臺;

· A-PaaS 能力開放,集團承接部分北方省大數據建模需求,在前置節點完成數據加工處理,形成服務能力,快速支撐省公司實時營銷、位置應用、無線大數據應用等應用建設。

圖5 企業級大數據平臺前置節點能力視圖

(5)先進的大數據+AI 一站式開發平臺

基于全球主流運營商最新經驗以及演進思路,基于統一數據湖在集團核心節點建設大數據+AI 一站式開發平臺,為省公司、專業公司大數據應用賦能。企業級大數據平臺專區能力視圖如圖6 所示。

基于平臺和應用解耦架構,深度編排數據采集、數據地圖、實時開發、離線開發等產品,滿足專業數據開發團隊數據匯聚、數據加工、數據分析、數據開放等場景需求。提供Web 應用開發的多場景全流程流水線作業,真正做到數據應用敏捷開發。

通過多租戶體系進行開放,多租戶體系能夠充分利用計算存儲資源,基于Hadoop YARN 的Resource Manager,實現存儲、計算資源的復用,并確保各租戶之間的隔離性。通過對集團企業級大數據平臺上的計算/存儲資源、優質數據、成熟工具進行組合和封裝,向省公司和專業公司等用戶提供數據采集、離線開發、可視化挖掘建模、OpenAPI 服務封裝等共計30 個產品能力。

數據從匯聚到開放,資源從分散調度到統一調動的演變,逐步實現大數據能力全網開放,推動企業數字化轉型邁向深水區,為企業數據生產與服務起到降本增效的作用。

圖6 企業級大數據平臺專區能力視圖

(6)全方位、全生命周期的數據安全防護

為解決數據湖在數據匯聚和應用過程中的數據安全問題,通過數據分權分域管理、數據訪問授權、數據加密脫敏、敏感數據識別、安全審計實時風險告警、集群多租戶管理等大數據平臺數據安全管理能力,為數據湖各集群提供必要安全防護和安全事件溯源能力。結合AI 建模算法,進行數據安全感知分析,對數據安全威脅預判、預處理。通過用戶安全風險綜合評分標準,結合數據資產、人員資產、主機資產三大臺賬管理,構建以人為核心的安全防護信息聯動能力。大數據安全管理體系架構如圖7 所示。

在數據湖數據采集存儲過程中,落實數據分類分級要求,結合公司實際情況,從用戶身份、用戶服務、服務衍生數據、企業運營管理、網絡運維5 個維度將數據分為五大類43 子類;依據數據敏感程度不同,將數據分為敏感級、較敏感級、低敏感級、不敏感級4 個;推動全網建立數據分類分級管理制度,對不同類別、不同級別的數據,做好數據標識,實施差異化管控要求;加強重要數據和敏感數據管控,對生產環境內的庫、表、字段進行分級打標,其中所有用戶個人信息定為最高等級;對數據進行稽核校驗,保障結果的完整性、一致性和準確性;開啟數據采集日志審計,實現對數據采集過程全流程操作可追溯。

(7)抗疫期間發揮巨大作用

新冠肺炎疫情期間,依托集約PB 級別的數據資產和數據湖架構,基于海量數據計算能力,迅速開發“翼知疫行”,實現億級用戶行為模式與行為特征的批量處理與實時關聯,并針對疫情的發展提供數據處理、分析與能力輸出能力。其中包含了區域風險查詢、疫情預測查詢、返城報告查詢、行程查詢、接觸查詢等功能,實現風險人員洞察、疫情防控便民服務、人員流動情況統計等能力;并以API 形式,提供給工業和信息化部通信行程碼、電信短信營業廳、電信網上營業廳、海關等,為打贏全國的疫情防控阻擊戰提供有效支撐。

圖7 大數據安全管理體系架構

5 結束語

數據湖成熟度大致可以分為4 個階段。第一為初級階段。企業未實施數據湖,生產系統擁有獨立的數據庫,部分數據導入數據倉庫,提供給分析人員開展報表和分析工作。第二為數據湖引入階段。企業建設了數據湖,并將生產系統數據導入數據湖,經過清洗和轉換后提供給數據倉庫,同時支撐其他獨立建設的分析應用,分析結果也可以閉環反饋到生產系統。第三為數據湖成長期。數據湖成為企業數據長期存儲的缺省設施,各生產系統通過數據湖交換數據,各分析應用基于數據湖構建,數據治理尤其是數據目錄管理成為企業內數據管理的基本手段。第四為數據湖成熟期。各生產系統也基于數據湖構建,數據湖成為企業數據存儲的單一平臺,既支持操作型應用,也支撐分析型應用,并構建了完善的數據治理和安全體系[4]。目前大部分企業均處于數據湖的第一、第二階段,中國電信統一數據湖處在第三階段向第四階段演進的過程中。完成核心節點+前置/邊緣節點的分布式數據湖布局,實現CT、IT 全網數據匯聚以及跨域之間海量數據交換共享,打造了大數據+AI 一站式開發平臺,算力、算據、算法全網賦能和數字化生態開發正在如火如荼地進行。

中國電信統一數據湖已經在“新基建”上做了有益的探索和實踐,為31 省市大數據平臺/數據倉庫/ODS 建立了包括IaaS、PaaS、DaaS 能力的扎實“底座”,為集團“云改數轉”進一步夯實了大數據原子能力平臺基礎,為開展全國大數據云平臺1+N建設、各省大數據平臺高質量遷轉奠定了基礎。下一步,將繼續按照“云網融合、數據驅動、集成創新、合作共贏”的思路,積極推進1+N、推進上云用數賦智,真正實現從大數據平臺向數據中臺的升級,助力企業數字化轉型和社會數字化轉型。

主站蜘蛛池模板: 亚洲精品爱草草视频在线| 欧美成人精品在线| 色丁丁毛片在线观看| 亚洲色无码专线精品观看| 性69交片免费看| 久久综合色播五月男人的天堂| 久久香蕉国产线看观| 午夜欧美理论2019理论| 亚洲无码精彩视频在线观看| 亚洲成AV人手机在线观看网站| A级全黄试看30分钟小视频| 亚洲国产成人久久精品软件 | 高潮毛片免费观看| 91亚洲精选| 狠狠色综合久久狠狠色综合| 日韩国产高清无码| 久久亚洲国产最新网站| 久久久久久国产精品mv| 欧美日本在线一区二区三区| 不卡视频国产| 国产精品视频导航| 黄色三级毛片网站| 国产精品一区二区不卡的视频| 激情综合网激情综合| 日本国产精品一区久久久| 在线va视频| 亚洲最猛黑人xxxx黑人猛交| 丁香六月综合网| 草逼视频国产| 日韩精品毛片人妻AV不卡| 亚洲有无码中文网| 国产不卡网| 国产老女人精品免费视频| 一级毛片在线播放免费观看 | 免费无码AV片在线观看中文| 亚洲欧洲自拍拍偷午夜色无码| 波多野结衣一区二区三区四区视频| 亚洲码一区二区三区| 欧美视频在线观看第一页| 在线播放国产99re| 国产精选小视频在线观看| 色综合久久88色综合天天提莫 | 欧美日韩精品在线播放| 日韩欧美成人高清在线观看| 国产在线小视频| 欧美性猛交xxxx乱大交极品| 亚洲日韩久久综合中文字幕| 亚洲欧美在线综合图区| 色婷婷丁香| 久久semm亚洲国产| 四虎成人在线视频| 亚洲综合久久一本伊一区| 九色视频线上播放| 伊人色婷婷| 中国一级特黄视频| 丝袜高跟美脚国产1区| 天天视频在线91频| 天天躁夜夜躁狠狠躁躁88| 欧美成人一级| 亚洲一区二区三区麻豆| 一级爆乳无码av| 色视频久久| 国产91av在线| 国产aⅴ无码专区亚洲av综合网| 久久99国产精品成人欧美| 色综合a怡红院怡红院首页| 日韩在线永久免费播放| 色综合网址| 免费精品一区二区h| 综合色在线| 麻豆精品在线| 韩日免费小视频| 国产精品入口麻豆| 国产福利小视频高清在线观看| 免费播放毛片| 亚洲国产天堂久久九九九| 亚洲成a人片在线观看88| 毛片网站观看| 青青极品在线| 国产视频只有无码精品| 性喷潮久久久久久久久| 少妇被粗大的猛烈进出免费视频|