杜玉輝



摘要:大數據時代,個人、企業數據快速發展,數據呈現海量、多樣性特點,同時企業信息系統建設也日益復雜、龐大;如何處理海量、多樣化數據,并且在多平臺、多系統間實現數據的整合、交換,充分發揮企業數據價值,成為當前企業系統建設的巨大挑戰。本文將對大數據處理在交換平臺處理中的可視化、可監控、可管理、可配置上做一個簡單介紹。
關鍵詞:大數據;多系統;交換平臺;可管理
中圖分類號:TP311.52 文獻標識碼:A 文章編號:1007-9416(2019)12-0093-03
1 大數據處理與交換方案
1.1 BDPE概念
BDPE(大數據處理與交換BigData Process And Exchange),是基于多年對大數據研究、使用成果的基礎上,形成滿足大數據、滿足各行業的大數據處理與交換產品。
BDPE產品是基于分布式架構,實現對系統源數據的統一抽取、轉換、加載,并在此基礎上實現與外圍系統的數據交換,同時提供跨平臺的統一的作業調度及監控功能。如圖1所示。
使用BDPE產品,可以幫助企業實現:
各信息系統數據的整合,實現統一的加工、處理與管理。
降低IT系統建設開銷,節約成本。
提供可視化的使用、運維界面,降低部署和運維難度。
1.2 BDPE功能
采用分布式架構,產品性能隨著設備擴容呈線性增長,不受擴容限制。
實現對企業內部信息系統(如訂單、辦公文件等)采集,按照企業統一的數據規范對信息進行合并、轉換等操作,并對異構系統數據的統一處理、管理。
支持對企業外部(如互聯網網頁等)等結構化、非結構化數據的采集、轉換與處理。
將系統數據處理與交換工作從人工運維管理轉變為自動化運維管理,大幅提高IT運維服務質量。
支持自定義的作業調度管理,依據事先配置好的調度策略(如優先級、邏輯關系等)、故障判斷標準、恢復策略進行作業調度、故障恢復。
自動檢測服務器的負載情況,如CPU、內存、I/O使用情況,進行智能調度,均衡各系統負載,保證系統良好的用戶體驗和系統的最佳響應。
自動監控IT資源和系統運行狀態,對系統故障和潛在風險實時報警、自動回復,提高系統的可靠性。
產品采用組件化設計思想,具有良好的開放性,支持第三方調用。
1.3 BDPE技術特點
采用服務層、執行層、應用層的分層架構,有利于解耦、組合、安裝和維護。
硬件和數據處理與交換平臺由IT維護人員維護,業務人員聚焦業務,各司其職,提高效率。
支持多種數據庫及平臺,支持多廠商的硬件。
廣泛的數據源支持,支持異構數據源系統的數據抽取、支持多種數據抽取接口。
提供開發API,支持對第三軟件或者產品的集成。
提供了可視化、擁有豐富組件的設計工具,降低了使用門檻。
采用WORKFLOW機制,通過多種工作流調度方法,可以將ETL Session、數據庫腳本等任務結合在一起,方便定制個性化、復雜的工作流,滿足各種應用場景。
1.4 BDPE關鍵能力
支持hadoop、MPP、Spark、分布式內存平臺處理非結構化數據。
支持跨hadoop、MPP、傳統RDBMS等平臺及數據庫調度,實現對流量運營、深度分析、主數據倉庫、等應用庫的調度與數據處理。
支持對小型機、X86服務器、調度流程的監控與處理、跨平臺統一監控能力。
支持集群中節點在線添加、移除,自動部署Agent代理,自動實現后續節點的監控、服務管理能力。
支持對執行JOB的新增、修改、刪除等JOB管理操作數據不落地傳輸能力。
支持分布式內存數據計算,以多進程管道方式并行讀取不同的接口文件高可用集群與負載均衡能力。
通過選舉算法,確定服務端主server,發生故障,備server自動接管硬件線性擴展及功能橫向擴展能力。
采用基于X86的分布式架構,能夠利用系統可視化界面方便、快捷實現節點動態擴展,并且產品性能隨著服務器擴展呈線性擴展。
產品采用組件化設計與開發,具有很好的擴展性,能快速應對未來系統擴展、技術發展要求可視化、定制化操作能力。
提供了豐富的圖形化操作界面,支撐用戶的日常運維、配置工作。如性能監控、實時監控、Job監控、日志查看、Job配置、模板管理等。
采用插件式開發,將對外服務、集成功能封裝成API供其他軟件調用。
2 BDPE架構
2.1 技術架構
如圖2所示。
作為核心中樞主要承擔ETL作業組織、任務調度、作業狀態跟進、作業監控管理、異常處理與服務質量管理、集群資源管理等核心服務管理工作,作為產品的大腦負責“發號施令”同時又承擔對作業執行情況的監控,其核心價值是“承上啟下”將不同層次的功能組合為一個計算整體來對外服務。
作為產品的計算任務承擔點,產品中核心的數據處理流程,如:采集、處理與加載等工作過程都將由其來承擔具備計算過程,從抽象層面來分析執行層是計算資源的高度聚集與抽象,其受控于中樞“大腦”的調遣,定位于工兵忠實在執行下發的每一個指令,以保證計算任務高效優質完成為核心關注點。
側重于從核心業務訴求基礎之上進行高度總結抽象后形成獨立的應用控件,產品允許用戶可根據自身業務訴求采用參數化配置的方式來將不同應用控件組成起來形成一個完整的數據處理流程,在技術層面上主要運用插件模式來管理控件,并且通過提供豐富的二次開發接口使產品具備良好的擴展特性。
2.2 功能架構
如圖3所示。
ETL組件層:利用產品多數據源整合能力,通過ETL組件、實時流處理技術、作業引擎、作用可視化、作用管理等功能,實現對跨平臺、跨系統的作業設計、作業生命周期管理。
調度層:借鑒Quartz技術及思想,結合大數據平臺調度要求,打造對外調度接口、集群與高可用、ETL作業調度、通用作業調度能力,并構建基于YARN的多租戶管理能力,實現對系統作業的統一調度與管理。
展現層:著重展現監控信息,包括系統告警、流程監控、指標監控、時間軸進度等,達到全覆蓋監控系統的軟硬件信息,保證及時發現問題及時告警及時通知。
2.3 物理部署
針對不同應用場景、不同資源配置情況與軟件平臺約束,BDPE產品支持“小型機+磁盤陣列”、“X86+磁盤陣列”、“X86+本地盤”等部署方式。
3 BDPE ETL
3.1 結構
如圖4所示。
3.2 功能
BDPE產品ETL實現對多數據源采集、轉換、加載及數據交互功能,主要包括:
數據采集:
(1)支持從不同數據源(DB2、ORACLE、DB2、Hadoop、MPP等)抽取數據。(2)支持批量數據抽取和實時(流式)數據抽取。(3)支持全量抽取和增量抽取數據。
數據轉換:
(1)實現對無意義數據字段的過濾,將不同的數據名稱和定義進行轉換并統一;計算和統計衍生數據與字段;定義缺省數據的默認數據值。(2)支持通過圖形化界面實現對轉換規則配置。(3)提供豐富的數據轉換組件實現各種業務場景下數據轉換。(4)支持校驗點實現對數據轉換質量的監控、校驗。
數據加載:
(1)將采集并轉換后的數據,通過不同的技術手段加載到不同數據庫或者平臺。(2)支持多種加載模式與策略定義,如全量、實時、雙加載等。(3)支持文件落地和不落地兩種存儲加載。(4)支持數據的并行裝載,即支持多個數據庫連接同一裝載任務的并發執行。(5)支持異構數據庫之間加載,主要包括:DB2、Greenplum、HDFS、HBase、Teradata、Vertica、MySql等多種數據庫。(6)支持腳本加載事務處理,加載實現過程中支持提供SQL、HQL、SHELL等不同類別的行為定義腳本。(7)提供圖形化界面實現對加載過程的監控與處理。
4 BDPE Manager
4.1 統一調度
BDPE產品提供跨系統跨平臺的任務調度功能,與各子系統緊密接合,支持跨越平臺、跨系統間隔實現完整無空隙運行的統一調度。產品垮平臺統一調度能力能支持其它大型企業多系統的統一調度。如圖5所示。
4.2 統一作業
BDPE產品通過可視化界面,利用產品組件及作業引擎,實現對作業的設計、測試、發布、變更等管理,在支撐大數據平臺內部作業設計、管理的同時,支撐平臺對外數據服務作業的設計與管理。如圖6所示。
對傳統結構化數據整合的基礎上,結合大數據處理數據的多樣性、復雜性特征,對XML、語音、視頻,社交媒體、RSS/Web互聯網數據以及網絡信令等實時數據整合能力。
BDPE產品提供實時抽取、數據校驗、拆分、合并、字段轉換、壓縮加載、流加載等組件。
利用可視化界面,通過對組件拖拽,實現可視化設計,實現無編碼智能開發的能力。
遵循各作業流程,對作業生命周期進行全流程、透明管理,形成系統作業視圖,為系統優化、運維提供數據支撐。
BDPE針對傳統RDBMS、MPP、Hadoop等數據庫特征,提供相應的作業引擎,實現對不同數據庫的快速支撐。
4.3 統一監控
BDPE產品針對數據處理與交換需求,提供瀏覽器、短彩信、手機APP等方式實現對ETL作業、ETL節點資源、M/R、Spark作業等數據處理流程、資源全方位監控。如圖7所示。
4.4 統一部署
BDPE產品利用已有的組件化技術,結合Hadoop、MPP、傳統關系數據及UNIX、Linux等產品及環境差異,將BDPE產品相關功能封裝成部署包,完成產品在不同平臺的快速部署。實現產品自動化水平及部署,提高產品部署工作效率;降低產品部署技術門檻,滿足全行業數據處理需要。如圖8所示。
4.5 可視化操作
BDPE產品借鑒互聯網產品開發及多年行業經驗,從用戶使用角度出發,強化用戶交互及視覺設計,為數據處理開發、維護人員提供圖形化的配置管理界面,使BDPE產品具有友好性和易用性,通過簡單學習和培訓即可上手開發,運維管理人員通過圖形化的管理界面來查詢任務部署與運行情況,降低產品使用門檻,同時提升工作效率。
Application of? Big Data Processing in Switching Platform Products
DU Yu-hui
(China Mobile Tietong Liaoning Branch,Shenyang? Liaoning? 110179)
Abstract:In the era of big data,the data of individuals and enterprises are developing rapidly, and the data presents the characteristics of magnanimity and diversity. At the same time, the construction of enterprise information system is becoming increasingly complex and huge, and in the multi-platform, multi-system data integration, exchange, give full play to the value of enterprise data, enterprise system construction has become a huge challenge. In this paper, we will give a brief introduction to the visualization, monitoring and management of big data processing in the exchange platform.
Key words:big data;multiple System;switching platform;manageable