張海峰,董昭,李娟,齊磊,顧慧瓊
(中國移動通信集團設計院有限公司,北京 100080)
電信運營商大數據能力開放平臺建設
張海峰,董昭,李娟,齊磊,顧慧瓊
(中國移動通信集團設計院有限公司,北京 100080)
大數據正加速在各行各業的應用,數據的開放有助于運營商內部的聚合和共享,有助于服務千變萬化的應用場景,對運營商開拓新業務具有重要意義。分析了大數據和云計算進行結合的背景,提出面向云計算的大數據開放平臺整體架構和核心能力,對大數據開放平臺的建設思路進行闡述,并對運營商在具體工程中進行大數據PaaS平臺的規劃和待解決問題進行闡述,為相關研究人員提供參考。
大數據;能力開放平臺;云計算;PaaS
隨著近些年全球互聯網的快速發展,大數據也逐漸從技術驅動轉變為企業的商業驅動,如數據資產服務、數據分析服務、數據開放平臺服務。未來幾年,企業經營優化和數據資產變現將成為主要訴求,基于大數據的商業模式創新將會爆發式增長。
在大數據成為趨勢、成為國家戰略的今天,如何最大限度地發揮大數據的價值成為人們思考的問題。無論是互聯網企業、電信運營商還是數量眾多的初創企業,大數據的開放與變現顯得尤為重要。在探索大數據商業模式的同時,大數據正加速在各行各業的應用,大數據不僅為人們的購物、出行、交友提供了幫助,甚至還在各類重要的事件中發揮作用[1]。
2.1 大數據應用前景
電信運營商掌握了豐富的用戶身份數據、語音數據、視頻數據、流量數據和位置數據,數據的海量性、多元性和實時性使運營商具有經營大數據的先天優勢。隨著智能手機和高速網絡的普及,運營商能夠獲得的用戶行為數據還將更為豐富。運營商的大數據應用主要分為面向內部的應用和面向外部的應用兩部分。
(1)面向內部的應用
· 促進市場營銷:通過用戶偏好分析,及時、準確進行業務推薦,包括流量經營、存量經營、集團客戶經營、終端營銷。
· 改善用戶體驗:通過大數據分析用戶行為,運營商可以改進產品設計,并通過用戶偏好分析,及時、準確進行業務推薦,強化客戶關懷,這樣就可以不斷改善用戶體驗,增加用戶的信息消費以及對運營商的黏性。
· 優化網絡質量:在網絡層面,可以通過大數據分析網絡的流量、流向變化趨勢,及時調整資源配置,同時還可以分析網絡日志,進行全網絡優化,不斷提升網絡質量和網絡利用率[2]。
(2)面向外部的應用
電信運營商也從傳統BI系統逐漸向大數據平臺進行轉型,未來的商業模式也不僅局限內部應用,更多的是面向政府、旅游、銀行、交通等各行各業的開放合作。
· 實時營銷:通過對用戶基本信息、業務信息、消費信息、位置信息、行為信息的綜合分析,形成全方位的用戶畫像。根據外部公司的需求,為互聯網行業提供數據產品服務,指導用戶精準洞察、廣告精準投放,實現數據增值。
· 位置應用:通過離線挖掘與實時分析相結合的方式,對海量移動用戶運動軌跡進行精準計算,分析特定場景(如地鐵、公交、商場、美容院等)下人群的聚類特征,應用于城市規劃、商圈選址、智慧旅游、交通規劃、人流預警等領域。
· 研究報告:通過與行業的深入結合,實現數據跨行業的關聯與分析,生成特定需求的行業分析報告。
2.2 大數據開放的意義
大數據平臺的使用對象往往需要大數據平臺提供一定的二次開發能力,包括數據、開發工具、分析工具、計算存儲資源等一系列的環境,以更好地迭代服務千變萬化的應用場景,因此大數據平臺必須以開放化的方式進行建設。將大數據平臺開放可以獲取如下收益:
· 有助于企業內數據的聚合和共享,從而減少數據重復采集、重復處理、重復存儲,降低大數據整體開發運維成本;
· 有助于打造開放的、共享的、百家爭鳴的大數據應用生態環境;
· 有效支撐不同業務部門的個性化應用需求;
· 有益于大數據對外變現和產業合作能力,讓數據產生更大價值。
2.3 開放平臺的目標
雖然電信運營商的數據保有量大,但在推動數據對外合作方面也遇到很多困難,比如現有數據散落在多個管理域中,數據割裂,重復存儲;平臺能力方面沒有進行統一規劃,各部門及各省公司重復進行能力建設;系統模式單一,開發周期長,運維模式僵化。
因此,面向未來的大數據平臺核心訴求如下。
(1)數據資產全網統一
完成對全網B/O/M三域數據以及互聯網DPI數據、各業務平臺數據的統一采集、統一存儲和統一治理,形成企業級統一的數據資產,有效支撐數據的對外開放。
(2)系統架構轉型
打破現有煙囪式和省分獨立建設模式,以“縱向拆分,橫向整合”為原則,實現應用與平臺的解耦,實現跨系統的能力共享。
(3)能力對外開放
構建標準、開放的企業級大數據平臺,滿足各專業公司、省公司、外部開發者和使用者對全網數據日益迫切的個性化分析需求。
(4)開發運維提升
轉換傳統的開發模式,引入合作伙伴,實現應用的快速開發;建設自動化的運維能力,有效支撐應用的快速部署。
2.4 開放的內容
大數據開放平臺重點關注大數據平臺的能力如何向應用開發者開放,應用開發者以何種形式使用這些能力以及為達成這些能力的開放平臺必須具備和關注的管理能力。大數據開放平臺的開放內容包括兩部分。
(1)數據開放能力
在可管、可控的前提下,實現業務支撐域、管理信息域、網絡支撐域、DPI數據及業務平臺數據的開放。
(2)數據處理能力
通過多租戶的方式,提供大數據平臺的計算資源、存儲資源、網絡資源、中間件、分析工具等能力,確保租戶在共享能力的同時實現一定的隔離。
3.1 大數據與云計算的結合
云計算按照其定義,具備五大基本特征:資源的共享、按需的便捷服務、廣泛的網絡訪問、快速的彈性伸縮和可度量的服務。可以看到,云計算正是解決大數據對外開放的利器。
云計算提供基于多租戶共享資源的消費模式以及彈性擴展能力,使得數據資產和平臺能力實現了共享,同時為開發者提供了很好的便捷性,這使它成為大數據分析的理想選擇。有了云計算技術,大數據的價值才能得到更好的轉化。因此大數據和云計算的結合是必然的。
云計算分為IaaS、PaaS和SaaS 3種服務模式。電信運營商在云計算的發展過程中也是從IaaS入手,已經初步建設了集中的IaaS平臺,實現了云存儲、云主機、云數據中心等基礎資源的統一管理。
隨著云計算技術的日趨成熟,本文發現 IaaS提供了硬件資源層的能力與服務,本身并不面向應用。IaaS需要用戶自行構建開發測試環境,自行管理和運維平臺軟件,天然與應用之間產生鴻溝。而當PaaS以自動化部署、一整套中間件服務、全流程的DevOps出現時,本文發現PaaS才是真正貼近于應用的平臺。因為“更快、更便捷、更靈活的用戶體驗”才是云計算一直以來的核心。
圖1說明了IaaS和PaaS的關系。
當更多的應用開發者開始轉向微服務的時候,也就說明他們選擇了PaaS。因此,未來的大數據要做到開放、靈活,一定是要擁抱PaaS的。
3.2 平臺目標架構
由第3.1節可知,未來企業級大數據開放平臺需要依托在以PaaS為核心的基礎上,整體平臺架構如圖2所示。
企業大數據 PaaS平臺主要包括:集成平臺I-PaaS、面向應用的能力組件平臺 A-PaaS、API開放平臺以及PaaS管理平臺。
(1)I-PaaS
提供集成和構建復合應用的能力,因為企業級PaaS平臺不僅僅是應用部署平臺,而且是復雜多租戶環境和復雜應用環境下的共享基礎設施平臺。I-PaaS解決的是多個應用間如何集成和交互的問題,滿足應用從開發態到集成態的一系列調度、集成、服務發現及工作流的問題。

圖1 IaaS和PaaS的關系

圖2 企業大數據PaaS平臺整體架構
(2)A-PaaS
用來承載和管理不同的應用,提供應用相關的能力組件。A-PaaS提供諸如MPP、RDB、HDFS等大數據分析能力,報表統計、自助分析、中間件等工具軟件的能力以及多租戶訪問的支持能力。
(3)API開放平臺
用來實現將底層的能力組件通過API的方式提供對外訪問。
(4)PaaS管理平臺
提供諸如多租戶管理、安全管理、運維監控等能力。
3.3 核心能力
大數據PaaS平臺需具備的核心能力包括如下幾點。
3.3.1 多租戶
多租戶的概念最早起源于軟件領域,指一個軟件實例服務于多個用戶的架構,每個用戶稱為一個租戶。多租戶帶來資源高度共享模式,提高資源利用率,降低單位資源成本。
建設基于多租戶的能力開放框架需要具備如下功能。
(1)租戶管理
企業級省大數據平臺通過租戶開放的模式實現計算資源、存儲資源以及數據的隔離管控,以保障資源的安全使用。租戶的管理包括對資源的物理隔離和安全控制、對租戶作業的調度。
(2)租戶權限管理
租戶權限管理,是通過租戶資源級權限設置、數據級權限設置兩類權限管理,實現對數據開放、資源開放、工具開放3種基于多租戶的開放能力的權限管控,確保租戶內的資源、數據等訪問安全。
(3)租戶資源調度管理
資源管理包含:資源分配(空間、權限、優先級)、數據隔離和安全控制;作業調度包含:租戶作業優先級控制,業務優先級控制。在大數據平臺多租戶、多應用并存的情況下,作業的統一調度可以提高系統運行效率和資源的利用率。統一調度應能管控集群內的所有資源,包括計算資源和存儲資源。統一調度包括對數據采集、數據交互、數據處理等各類作業的調度,并支持跨系統的作業依賴和調度,對作業優先級和并發進行控制,同時支持可視化監控和管理功能。
基于Hadoop平臺的大數據多租戶實現方式:采用租戶的方式,調用Hadoop的組件Yarn、組件HDFS、組件Thrift實現多租戶資源的自動分配管理方式管理。包括以下幾部分。
· 提供最小分配資源定義、共享資源定義和資源單位定義以及對應的API; PaaS管控平臺根據Hadoop提供的API完成資源信息查詢和分配功能。
· 數據共享與安全控制:實現不同 Hadoop應用忙閑時資源復用,數據只保存一份;不同租戶間的數據做到有效隔離,不能有非法的跨系統間互訪。
· 資源優先級控制:根據租戶優先級,來分配不同的資源容量。
· 業務優先級保護:統計分析型離線業務,優先級低于清單查詢型實時業務。
· PaaS管控平臺基于Hadoop實現多租戶能力,通過集成 Hadoop平臺的租戶管理界面,實現租戶的新增、修改、刪除等功能,包括:支持在Hadoop平臺的租戶管理界面上新增、刪除、修改租戶;支持通過Hadoop平臺提供的接口查詢租戶信息,包括租戶對應的資源信息。
3.3.2 業務敏捷性
隨著應用的微服務化與持續集成的興起,傳統的開發運維模式受到很大沖擊,基于手工方式實現開發、測試、部署的時間周期長,而且軟件版本和平臺環境也無法做到完全統一。借助Dorker的成功和資源調度技術的實現,PaaS平臺可以輕松實現從開發測試到生產運維的自動化管理,實現應用快速上線。
(1)DevOps
DevOps是一組過程、方法與系統的統稱,用于促進開發(應用程序/軟件工程)、技術運營和質量保障部門之間的溝通、協作與整合。它的出現是由于軟件行業日益清晰地認識到為了按時交付軟件產品和服務,開發和運營工作必須緊密合作而提出的。
DevOps不僅僅是自動化,更是一種新的文化,用于促進業務、開發、運營的溝通和協作。DevOps的目標是通過建立持續交付的流水線,從代碼開發到持續測試、持續集成、持續部署的能力。DevOps 加速軟件開發,減少軟件開發到上線的時間,并使開發和運維協作得更緊密。
DevOps 的價值具備以下幾點。
· 代碼的提交直接觸發:消除等待時間,快速反饋。
· 全開發流程高效自動化:穩定,快速,交付結果可預測。
· 持續進行自動化回歸測試:提升交付質量。
· 設施共享并按需提供:資源利用最大化。
· 每個變化對應一個交付管道:使問題定位和調試變得簡單。
(2)Docker
Docker是容器技術的一種,它運行于 Linux宿主機之上,每個運行的容器都是相互隔離的,也被稱為輕量級虛擬技術或容器型虛擬技術[3],是基于容器技術的輕量級虛擬化解決方案。Docker容器技術的部署架構如圖3所示。

圖3 Docker容器技術的部署架構
Docker的優勢在于秒級啟動,秒級停止,空間資源占用極少。可實現集成級別的隔離,可在普通服務器上建立上百個Docker實例,并加快開發測試部署的速度,簡化版本管理工作。它可解決資源利用效率低、單物理機多應用無法有效隔離、運維部署不便、版本管理復雜、遷移成本高等問題。
Docker的價值包括以下幾點。
· 更快的交付部署:以“集裝箱”為單位來管理應用,使開發、測試、運維直接使用同一鏡像來部署。
· 高效的虛擬化:直接使用操作系統的內核隔離功能,是輕量的虛擬化技術,實現應用隔離和多租戶環境。
· 輕松遷移擴展:一次創建,隨處運行,可以運行在任意平臺。
· 便捷的管理:減少人工維護和手工更新的工作,修改以增量的方式進行更新。
3.3.3 運維自動化
傳統基于IaaS的應用需要單獨部署中間件、數據庫、應用程序等,且大規模分布式環境下的應用部署不具備自動化能力。PaaS平臺支持一鍵部署、故障恢復、彈性伸縮的能力,全面支持運維自動化。
3.3.4 豐富的能力組件
PaaS平臺提供諸如MPP、RDB、HDFS等大數據分析能力,報表統計、自助分析、ETL等工具軟件的能力,Redis、Kafka等中間件的能力。讓開發者聚焦業務代碼的開發,通用的能力用PaaS平臺來統一提供。
3.3.5 數據資產服務
大數據平臺中最有價值的部分就是數據本身,一方面要實現數據資產的統一視圖,另一方面也要做到數據的方便獲取和安全隔離,確保數據的有效共享。
數據開放包括如下幾部分。
(1)現有數據資產盤點,包括資料類數據、行為類數據、終端類數據、收入類數據、交往圈數據、位置類數據、上網行為類數據、客戶標簽類數據及集團客戶類數據。
(2)構建開放平臺引入合作伙伴開發者。
(3)實現多樣化數據服務模式。
· PaaS(平臺即服務)適用于第三方帶私有的數據到數據工廠跟企業數據進行融合加工提取信息。建設數據工廠,包括數據融合、應用開發、數據目錄及開發者門戶。
· DaaS(數據即服務)適用于需求方查詢調用企業內部的數據。
· SaaS(軟件即服務)利用企業數據能力構建應用供第三方使用,建立應用商店,如應用開發、應用注冊及應用下載。
近年來,電信運營商已經初步構建了“傳統數據倉庫+MPP+Hadoop”的混搭架構。面對未來大數據開放平臺的建設需求,需要重點推動全網數據整合和統一大數據平臺基礎能力,構建多樣化的大數據服務能力,對內支撐精細化運營管理與精準營銷,對外聯動數字化生態,支撐整體大數據開放戰略。
電信運營商大數據開放平臺的演進主要包括如下幾個階段。
(1)采取“先立后破”,推動集中平臺能力
針對企業內部多套分析系統,需要打破目前各個系統獨立建設、重復存儲、數據不共享的模式,建設跨域統一的數據基礎資源層,完成對跨域數據的統一采集、統一存儲和統一計算,實現企業內部數據統一視圖。
(2)初步構建服務化能力
①構建平臺能力
按照先易后難,初步構建具備核心能力的PaaS平臺。實現I-PaaS中的資源調度、運維部署、多租戶隔離等框架功能,實現A-PaaS中的一部分組件能力,如Spark、HDFS、中間件、自助分析等能力,實現一部分API對外訪問能力。
②推動關鍵產品的優先部署
形成部分共性應用在總部節點支撐,對外提供全網能力級的DaaS、SaaS產品,如征信、位置能力,構建大數據產品統一發布門戶。探索總部與各省、各專業公司在統一服務、眾包化全網應用開發等方面的協同機制。
(3)規模推進與優化
①大數據PaaS平臺規模化
逐步實現統一的開發環境、統一的調度工具以及一些復雜組件服務的接入管理,按照“成熟一個,接入一個”的原則,不斷地豐富PaaS平臺的組件,不斷地完善平臺功能,實現平臺整體資源的彈性伸縮能力。除Hadoop平臺外,增加更多組件能力,如MPP、可視化、數據挖掘等。
②統一架構體系、統一數據治理儲備
對現有架構體系進行優化,逐步建設集中控制、分散部署的大數據平臺架構。同時,對子節點大數據平臺的元數據、數據質量等提供統一的數據治理。
(4)縱向統一
隨著技術的不斷成熟,大數據PaaS平臺逐漸由一點向多點進行演進,實現“邏輯集中、物理分布”的統一大數據PaaS平臺,實現省級平臺到總部平臺的縱向匯聚與對接,實現數據的分散處理與調度的統一管理。以一點接入的模式實現對外部合作伙伴提供統一的DaaS、PaaS、SaaS服務,如圖4所示。

圖4 縱向統一的大數據PaaS平臺
建設大數據開放平臺是一個十分艱難的過程,受限于開源技術、企業組織架構、安全策略等因素。隨著云計算、大數據技術的不斷完善,未來一定會吸引更多的合作伙伴,形成優勢互補的大數據生態圈,引領大數據應用向各行業深度發展,百花齊放。
[1] 劉春, 鄒海鋒, 向勇. 大數據環境下電信數據服務能力開放研究[J]. 電信科學, 2014, 30(3): 156-161. LIU C, ZOU H F, XIANG Y, et al. Research on telecom data service open ability under the environment of big data[J]. Telecommunications Science, 2014, 30(3): 156-161.
[2] 韓晶, 張智江, 王健全, 等. 面向統一運營的電信運營商大數據戰略[J]. 電信科學, 2014, 30(11): 154-158. HAN J, ZHANG Z J, WANG J Q, et al. The unified-operationoriented big data strategy for telecom operators[J]. Telecommunications Science, 2014, 30(11): 154-158.
[3] 谷紅勛, 楊珂. 基于大數據的移動用戶行為分析系統與應用案例[J]. 電信科學, 2016, 32(3): 139-146. GU H X, YANG K. Mobile user behavior analysis system and applications based on big data[J]. Telecommunications Science, 2016, 32(3): 139-146.

張海峰(1979?),男,中國移動通信集團設計院有限公司高級工程師,主要研究方向為IT支撐系統、大數據技術及組網。

董昭(1977?),男,中國移動通信集團設計院有限公司網絡所副所長、高級工程師,主要研究方向為IT支撐系統技術及組網。

李娟(1978?),女,中國移動通信集團設計院有限公司高級工程師,主要研究方向為IT支撐系統、大數據技術及組網。
齊磊(1982?),男,中國移動通信集團設計院有限公司高級工程師,主要研究方向為IT支撐系統技術及組網。
顧慧瓊(1982?),女,中國移動通信集團設計院有限公司高級工程師,主要研究方向為IT支撐系統技術及組網。
Construction of big data open platform for telecom operators
ZHANG Haifeng, DONG Zhao, LI Juan, QI Lei, GU Huiqiong
China Mobile Group Design Institute Co., Ltd., Beijing 100080, China
Big data is accelerating the application across various industries, the opening of the data will help operators in the internal aggregation and sharing, and help to serve the ever-changing application scenarios, this is important for operators to develop new business. The background of combining big data with cloud computing was analyzed, overall architecture of big data platform for cloud computing was proposed, then the big data open platform implementation scheme was focused on, the platform planning and the problems to be solved in the project were carried out, and the reference for the related researchers were provided.
big data, open platform, cloud computing, PaaS
TP319
A
10.11959/j.issn.1000?0801.2017106
2017?03?15;
2017?04?05