江接寶 余衛紅
摘要:數據中心匯聚企業生產活動的各類數據,是企業生產過程管理和決策的依據;文章針對數據中心建立的系統架構圖,采用開源的Kettle工具實現數據匯聚和ECharts工具實現數據可視化;從數據中心的建設思路、Kettle特性與ECharts的體系架構來介紹各自的工作原理;在實際研發的項目中,表明了Kettle和ECharts應用的可行性與良好的功能特性。
關鍵詞:開源; 數據匯聚; 可視化; Kettle; ECharts
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)10-0235-02
開放科學(資源服務)標識碼(OSID):
Research on Data Aggregation and Visualization Technology Based on Open Source
JIANG Jie-bao1, YU Wei-hong2
(1.Jiangxi Industry Vocational and Technical College,Nanchang 330022, China;2.Baihuazhou Primary School, Nanchang 330022, China)
Abstract: Data center gathers all kinds of data of enterprise production activities, which is the basis of enterprise production process management and decision-making. According to the system architecture diagram of data center, this paper uses open source Kettle tools to realize data aggregation and ECharts tools to realize data visualization. The paper introduces their working principles from the construction idea of data center, Kettle characteristics and ECharts architecture. In the actual projects, it shows the feasibility and good functional characteristics of Kettle and ECharts applications.
Key words:open source;data aggregation;visualization;kettle;E Charts
數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。通過建立健全大數據輔助決策的機制,推動形成“用數據說話、用數據決策、用數據管理、用數據創新”的決策新方式。充分利用大數據平臺,綜合分析各種風險因素,提高企業對風險因素的感知、預測、防范能力。只有不同系統、不同領域的數據實現大范圍的流通與融合,才能實現多源數據的融合分析,從而賦予人類觀察事物的全方位視角。由復雜的數據源環境內獲得合理有效的數據與可視化的展示數據,是很值得研究的問題。本文提出的基于開源的數據匯聚與可視化技術,可適用于輕量級的數據中心應用。
1 關鍵技術
Kettle是一款使用Java 編寫的開源ETL工具,可以在Windows、Linux、Unix 等多個操作系統平臺上運行,它支持多種異構數據源:包括關系數據庫(oracle,mysql,sqlServer等)、XML文件、文本文件等多種格式的輸入和輸出。ETL(Extract Transform Load)代表數據抽取、數據轉換和數據加載,是實現異構數據的匯聚和共享的有效方法。
ECharts(Enterprise Charts)是一款開源的數據圖表工具,它可以在PC和移動設備上運行,在瀏覽器上兼容性好,提供直觀、生動、可交互、個性化定制的數據可視化圖表。它支持拖拽重計算、數據視圖、值域漫游等特性大大增強了用戶體驗,賦予了用戶對數據進行挖掘、整合的能力。
2 基本工作原理
數據中心庫是匯聚了企業各類數據,其中各類數據是來源于生產活動中的不同業務的系統庫。通過Kettle(ETL)工具實現數據庫A,數據庫B,數據庫C等多個異構數據的匯聚與清洗。首先:分別配置各個數據源的IP與用戶名,密碼,能夠通過賬號和密碼查詢到源系統數據;第二步:根據具體的業務表需求,確定抽取的詳細數據字段、數據抽取的周期與數據清洗的規則;第三:結果數據入數據中心庫;第四:異常檢測功能:根據結果數據,配置異常波動告警機制,及時發現數據異常,保證數據質量。數據中心成了學校數據檔案館系統架構圖如下:
其中:Kettle的核心是作業(Job)和轉換(Transformation)。作業基于業務流程, 協調數據源、執行過程和相關依賴關系,形成一個能夠被調度和執行的邏輯順序隊列,實現對整個工作流的控制。轉換是負責處理抽取、 轉換加載各種對數據行的操作;他包括一個集齊以上的步驟 (step),如讀文件、 過濾輸出、 清洗數據或加載數據到目標數據庫。 轉換的步驟通過跳(hop) 連接,跳定義一個單向通道,允許數據從一個步驟流向另一個步驟。
以數據中心庫為基礎,可以進行關聯分析與針對性的挖掘分析。分析出的結果數據,可以通過數據可視化開源工具ECharts很好的圖表展示。ECharts體系架構圖如下:
3 功能特性
本文中的數據匯聚采用開源的Kettle工具,實現對多個數據源的數據匯聚,能夠適配各種數據源,滿足基本的業務需求,很好的解決信息孤島問題;Kettle工具簡化了異構數據源的數據匯聚復雜性,工具安裝使用方便,通過拖拽界面實現配置,是一款優秀的ETL工具。
開源Echarts可視化圖表工具的數據圖表種類豐富,使用方便。以前的WEB頁面中使用的圖表都是用靜態的圖片,通過Echarts工具可以將動態的讀取數據展示,從而解決了由靜態圖片展示成動態的數據圖表。
4 小結
本文旨在為數據中心的數據匯聚與數據可視化展現提供一種輕量級開源的解決方案,開源工具的使用簡單,具有良好的跨平臺性,可以安全有效地實現異構數據匯聚與數據可視化展示。熟悉Kettle和ECharts兩款開源工具在實踐使用方法后,各個場景使用只需要把業務流程梳理清楚,明確輸入、輸出, 確定轉換細節和具體數據圖表選擇,就能夠快速實現多個信息系統間的數據集成,實現數據的共享與數據可視化,提高業務系統的協同與管理者決策能力。
參考文獻:
[1] 劉夢蘇.ETL技術在數據分析系統中的應用初探[J].信息通信,2018(8):202-203
[2] 李磊.ETL任務集群調度方法[J].計算機技術與發展,2018(11):35-38
[3] 王曉虹,劉瑩,張艷鳳.高校數據集成系統的ETL設計與實現[J].計算機技術與發展,2011(7):186-189
[4] 王珍玲.ETL 技術在實現數據分析系統中的應用研究[J].信息與電腦(理論版),2014(9):115-116
[5] 趙海國.Ajax支持下的ECharts圖形報表技術的應用[J].電子技術設計與應用,2018(4):66-69
[6] 宋佳慧,劉遠剛,林琳,等.基于eCharts的動態統計圖表繪制技術研究[J].電腦知識與技術,2014(9):202-204
[7] Baidu公司.開源項目ECharts官方網站.http://eCharts.baidu.com/index.html.
[8] 路川,胡欣杰.ORACLE 11g 寶典[M].北京:電子工業出版社,2009.
[9] 閻宏.JAVA與模式[M].北京:電子工業出版社,2002.
[10] (美)格爾克, 周立柱. 數據庫管理系統[M].北京: 清華大學出版社,2002.
[11] (美)Erich Gamma, Richard Helm, Ralph Johnson,等.設計模式:可復用面向對象軟件的基礎[M]. 機械工業出版社,2004.
[12] 溫昱. 軟件架構設計[M]. 電子工業出版社,2007.
[13] 姚文琳,王存剛,劉世棟,等.基于 Oracle 的分布式數據庫設計與技術[J].計算機工程,2006(20):89-91.
[14] 任磊,杜一,馬帥,等.大數據可視分析綜述[J].軟件學報,2014(9):1909-1936.
[15] (美)Deepak Alur, et al. J2EE 核心模式[M].北京: 機械工業出版社,2002.
【通聯編輯:唐一東】