盧楠 耿輝 張金剛

【摘要】 移動互聯網時代,各通信運營商均已建立起大數據平臺,而平臺對內對外的應用支撐能力、數據開放共享能力的需求也更加強烈。而日趨成熟的PaaS多租戶架構等技術,對于支撐大數據平臺的能力開放建設提供了有效的技術思路。本文對大數據建設面臨的業務和技術趨勢,提出了大數據平臺能力開放的發展、演進思路,為運營商建設大數據平臺的能力開放提供架構設計上的一點可借鑒的思路。
【關鍵詞】 大數據 能力開放 PaaS 多租戶
一、背景
目前某省通信運營商已建立起以“大數據、超細分、微營銷”為方向,初步實現支持跨域數據融合與能力共享的一個大數據集中平臺,目前平臺通過云化ETL實現數據的采集、裝載、計算。對業務支撐域主要接口和網管支撐域的2、3G信令數據進行采集,構建MPP數據庫和Hadoop處理平臺,構建客戶標簽庫、互聯網內容識別能力,并且初步實現了統一運維管理。
隨著業務的不斷發展,平臺接入的各類數據不斷增長,包括管理支撐域和政企客戶、電商等相關數據也納入了大數據平臺進行分析。這對平臺本身面向各類業務部門、各種合作伙伴的運營支撐工作提出了挑戰,為充分利用系統的計算資源、數據資源,提升數據挖掘的能力,統一數據模型,進一步增強數據使用和管理的效率,有必要建設一體化架構、支持能力開放、多租戶技術的大數據平臺,滿足一體化運營發展的要求。因此,下面提出了一種基于PaaS、多租戶技術的大數據開放平臺建設方案。
二、大數據平臺現狀及問題分析
大數據平臺在一期工程完成了基礎架構的搭建,采用MPP+Hadoop混搭式架構,同時兼顧與現有經分架構的融合,便于演進和擴展。
在具體應用方面,支撐了營銷策劃、審批和執行的閉環流程,打通了短廳、CRM、外呼等電子渠道;支撐流量運營,提供流量全景圖、客戶畫像中心、營業廳效能評估、移動指數應用等。
系統總體架構分為數據采集層、數據處理層、數據共享層和應用層。
系統采集層:構建企業級統一數據采集能力,水平擴展接入B域數據、O域數據、M域數據、互聯網數據、實時數據和外部數據等。
數據處理層:構建多樣化且高效的數據處理能力,DB2庫主要負責日常生產分析,數據價值密度高、周期短、使用頻率高、高度匯總頻率高;MPP庫主要負責結構化數據計算和存儲、數據深度挖掘、長周期數據應用,數據特征價值密度中、周期長(同時視為DB2的備份庫)、跨域跨度大;Hadoop平臺主要負責處理后臺結構化/半結構化數據,信令數據和互聯網數據處理完成后輸出互聯網知識庫清單,后期將承擔流量詳單查詢應用;實時計算集群負責信令數據的高效處理和分發,支撐在線營銷。數據處理層離線數據和實時數據的交互通過云化ETL橫向平滑擴展,縱向通過消息接口實現在線數據支撐。
共享層:通過服務總線北向提供豐富的服務能力和組件能力,提供外部應用使用,并屏蔽底層異構數據源,使外部應用按需取數,實現應用與數據解耦,支撐應用百花齊放。
應用層:實現應用的統一管理;
目前,系統存在的不足包括以下方面:(1)大數據接入大量數據源,業務部門亟待數據開發(2)上層應用程序調度管理無序,系統資源使用不充分,傳統開發模式響應慢,不能滿足敏捷開發需求;(3)對于應用開發部署支撐能力弱,無法及時支撐開發需求;(4)應用開發過程管控能力不足,無法實現對應用開發全流程、全生命周期的有效管控。
因此,大數據平臺應建立起能力開放體系,將系統處理能力進行標準化封裝,按需進行開放,實現統一調度、開發管理、數據管理、多租戶下的資源管控,滿足各業務部門數據使用的需求,并在經驗成熟的情況下逐漸開放給外部眾多的開發合作伙伴使用。
三、 大數據平臺PaaS能力開放需求分析
根據某省通信運營商的生產、管理、維護職能的不同特點和技術要求,大數據開放平臺的主要建設需求分為以下三類:1、數據開放:Hadoop中HDFS文件目錄的讀、寫權限控制;2、資源開放:Hadoop中計算資源(CPU、內存),存儲資源(HDFS存儲空間);3、能力開放:開發能力,統一開發IDE,提供MR批量數據處理、數據挖掘、數據報表的開發能力。統一運行,提供統一開發結果的編譯運行引擎,實現開發結果在基礎軟件上的運行。提供OpenAPI字典,SDK包。
管控能力,數據和資源的管控,基于基礎軟件提供的數據、資源隔離能力,PaaS平臺通過多租戶的方式進行封裝,實現不同租戶數據和資源的隔離。應用開發的管控,提供基于元數據的開發、調度、數據標準、數據安全、數據隱私、數據質量、元數據、運維監控的統一管控,實現可管控的開放。
通過構建能力開放的大數據開發環境,能夠實現對整個平臺的多應用開發廠家的情況下開發過程的管控,有效提升數據質量。
四、大數據平臺PaaS能力開放建設方案
4.1系統建設目標
綜合系統現有問題和需求分析,提出了目前大數據平臺的建設目標:
(1)能力開放。進一步開放企業數據中心各層次能力,以提供:數據層面的支撐、工具層面的支撐、服務層面的支撐、系統資源的支撐。
(2)開發管控。提升數據治理的能力,幫助應用開發規范和流程的落地。統一數據治理,實現對應用開發全流程、全生命周期的有效管控。建立數據產品目錄,以實現對數據資產的有效管理。建立基于元數據驅動的統一開發和統一運維機制。規避資源分配浪費,降低平臺運維成本,打破流程管理瓶頸、解決應用廠商開發差異,提升平臺支撐效率。進一步提升開放的能力,促進應用開發效率的提高,落實百花齊放的應用開發模式。規范流程、制定準入規范,推動能力開放中心能力應用。擴展能力開放中心組件能力,提升使用效率。
(3)三個基礎構建:①搭建PaaS平臺基礎框架,實現基礎資源的集中管控,低成本運維,資源可以租戶式彈性割離;②基于元數據的數據資產管理,實現可流動數據資產管理;③元數據驅動的統一開發和執行。
4.2 PaaS平臺總體架構及功能設計
大數據開放平臺主要實現數據、資源、能力的開放。其中數據和資源的開放依賴于軟件基礎設施提供的功能,PaaS平臺封裝軟件基礎設施的功能實現開放。
某省大數據平臺構建的PaaS通過提供:統一開發、統一運行、統一調度、統一管控功能,實現開發和管控能力開放,數據和資源通過統一管控中的多租戶管理由PaaS封裝軟件基礎設施功能后開放。
系統提供以下功能:
(1)統一開發:提供基于元數據統一開發環境、開發過程管理,實現數據批處理開發、數據挖掘、數據報表的開發。
(2)統一運行:是指統一開發結果的運行,提供統一開發生成元數據的編譯執行引擎,對大數據平臺的數據分析、數據處理等不同的開發能力提供相應的引擎,滿足開發結果的運行。主要包括批處理引擎、數據挖掘引擎、報表引擎。
(3)統一調度:PaaS平臺提供調度策略的配置,支持以周期性自動調度和手工調度;對外提供標準接口服務,支持對接外部腳本或程序標注化接口調度和優先級控制。
(4)統一管控:提供數據標準、數據權限、數據隱私、數據生命周期、數據質量、元數據的管理,通過多租戶管理實現軟件基礎設施數據、資源、能力開放,運維監控實現PaaS平臺的監控與運維。實現平臺多租戶的資源隔離,針對每個租戶開放的資源可以有自己的CPU,內存,存儲配額。租戶可以申請配額,租戶任務運行過程中使用自己的配額,相互之間的性能不影響。
(5)多租戶開放:PaaS平臺通過多租戶封裝數據、資源和工具的能力,PaaS平臺對于存儲在Hadoop上的數據都可以通過多租戶方式開放。云化ETL(BDI)、數據挖掘(Smartminer)、數據報表等可作為工具能力開放,為不同租戶使用。實現Hadoop多租戶的資源隔離,針對每個租戶開放的資源可以有自己的CPU,內存,存儲配額。租戶可以申請配額,租戶任務運行過程中使用自己的配額,相互之間的性能不影響。
(6)流程管控:大數據開放平臺主要支撐調度監控者、任務開發者和資源分配者三類人員的使用,分別參與PaaS管控平臺的資源分配和審核流程、開發流程、日常運行維護和任務管理流程中。① 任務開發者:利用PaaS管控平臺開發環境進行任務腳本或過程開發,并交由統一調度進行任務執行;同時任務開發者還進行調度任務開發。應用開發、任務開發的人我們統稱為任務開發者。② 調度監控者:利用PaaS管控平臺的統一調度監控功能,進行任務調度的日常運維,包括監控、啟停等工作,比如:任務調度執行、監控;數據質量監控、元數據管理監控等。③ 資源分配者:利用PaaS管控平臺的資源管理能力,進行資源的分配、審核等。
(7)數據共享平臺:PaaS架構的數據共享平臺提供標準API封裝,提供給外部系統進行數據查詢和調用,實現大數據系統對外數據服務標準化,同時保障數據安全性并降低外部系統數據存儲壓力。
4.3未來演進思路
引入PaaS架構后的大數據開放平臺,未來也可以同步接入云資源池管理,演進為實現云化管理,實現應用的虛擬化部署,支持彈性伸縮,所有部件具備自動配置能力,能夠靜默安裝和配置;系統的安裝、升級、配置均通過IT PaaS進行。能在保證數據安全、流程管理規范的前提下,有效地提升應用開發部署的速度。
五、結束語
從長遠角度看,通信運營商的IT支撐系統在向著集中化的大方向發展。大數據平臺未來將成為企業各類網絡、業務核心數據的處理中心。實現IT系統的能力開放,將各應用系統獨立、封閉的“煙囪”式開發、交付,轉變為運行在PaaS平臺的統一服務交付和應用系統交付模式,已經成為面向融合建設的IT支撐系統的關鍵。在具備能力開放環境的IT系統中,既可以提高相關業務系統的生產效率,也保證了各類數據的信息安全,對于加快發展企業創新模式和思路有著重要意義。
參 考 文 獻
[1] 丁巖. 基于云計算的數據挖掘平臺架構及其關鍵技術研究[J]. 中興通訊技術,2013,2(1):53-60
[2] 胡尼亞. 面向移動互聯網的業務能力開放技術標準綜述[J]. 信息通信技術,2011,(4):23-31
[3] 董西成.hadoop技術內幕:深入解析YARN架構設計與實現原理[M].北京:機械工業出版社,2013
[4] 成靜靜.基于Hadoop的分布式云計算/云存儲方案的研究與設計[J].數據通信,2012(05):14-18