李晶晶,陳 侃,徐 丹
(中國交通通信信息中心,北京 100011)
數據倉庫與數據挖掘在行業化數據中心的應用分析
李晶晶,陳 侃,徐 丹
(中國交通通信信息中心,北京 100011)
隨著云計算的發展,私有云和公有云相結合的技術可以支撐行業化數據中心的建設,在此基礎之上建設數據倉庫實現數據挖掘,對支撐和推動行業信息化發展中具有重要作用。基于行業化數據中心的建設,利用統一的方式進行數據存儲管理,規范數據接口,并在此基礎上對業務數據進行深度的挖掘,利用數據挖掘技術提取隱藏的預測性信息,挖掘數據間的內在聯系,找出最有價值的信息和知識。本文分析了數據倉庫和數據挖掘技術,在“行業化數據中心”所能提供的應用及價值,對支撐和推動行業信息化發展中的重要作用,旨在為行業信息化發展邁向新臺階,提供一個可供參考的建設方案。
數據中心;云計算;數據倉庫;數據挖掘
數據倉庫概念始于20世紀80年代中期,面向信息爆炸時代數據的有效利用,數據倉庫與組織機構的操作數據庫分別維護的決策支持數據庫,為統一的歷史數據分析提供堅實平臺,對信息處理提供支持的數據庫。
它具有以下特點:
(1)面向主題。操作型數據庫中的數據是圍繞應用組織的,各個業務系統可能是相互分離的;數據倉庫是面向主題的,主題是一個歸類的標準,每個主題基本對應一個宏觀的分析領域,如交通運輸行業中的水運、陸運等。
(2)集成性。不同操作型系統之間的數據一般是相互獨立、異構的;數據倉庫中的數據來自于對分散數據的抽取、轉換和加載,保證數據倉庫內的數據關于整個行業的一致性。
(3)數據的非易失性。在數據倉庫中只要保存過去的業務數據,不需實時更新每一筆業務,根據商業需要每隔一段時間進行一次新數據導入。
(4)數據的時變性。數據倉庫包含著各種歷史數據,有些數據可能與某個特定日期、星期、月份、季度或者年份有關,具有時間戳特性。
行業化數據中心的數據倉庫建設過程是一個不斷迭代的過程,從關鍵行業應用、全局應用出發,逐步地擴展模型,擴展分析主題。在不同的時間階段,用戶的需求是多變的,隨著數據中心的應用不斷增加,需要滾動式建設數據倉庫。
數據倉庫建設需要經歷需求調研的過程。首先是業務調研,對數據中心各應用系統和關鍵用戶需求的采訪,記錄客戶的需求。對搜集的需求要進行歸納整理,確定不同的優先級,劃定第一個迭代實施的范圍。收集供驗證模型正確的驗證數據、報表、報告等。其次是技術調研,對分析后的需求和用戶部門(掌握數據源信息)確認數據的支持范圍。
數據存儲設計要根據需求圈定的數據范圍,設計數據倉庫中表的結構。設計中要考慮數據倉庫的特點,考慮數據量,考慮數據問題、緩變維度的處理,采用聚合規則。同時根據上面技術調研的結果在數據倉庫設計過程中,進行數據的準備(ETL)的初步設計、數據更新規則、字段映射、維表處理等。ETL過程將涉及到的源系統中的數據對數據倉庫進行抽取、轉換與裝載。
按照以上數據倉庫建設方法,本人所在的交通運輸行業數據中心的數據倉庫,優先從行業行政主管部門的角度進行主題設計。以交通運輸行業為例,需要建設三層次的基礎數據庫:行業基礎數據庫、空間數據庫、元數據庫。如圖1所示。

圖1 行業基礎數據庫
行業基礎數據庫包括:從業人員基礎數據庫,經營業戶基礎數據庫,車輛船舶基礎數據庫,基礎設施數據庫等。
行業主題數據庫以行業行政許可、執法管理、信用評價、應急指揮等方面業務和應用系統間的數據共享需求為導向進行建設。
空間數據庫,包括空間基礎地理數據和交通專題空間數據,是數據中心的重要組成部分,可以實現交通行業對空間數據資源的充分有效管理和綜合利用。它將空間數據和屬性數據有機地集成起來,實現有效的存儲和管理,并在此基礎上實現便利的空間索引、查詢和各種分析操作。
元數據,包括空間基礎地理數據和交通專題空間數據,是用于描述數據的數據,描述數據集的內容、質量、表示方式、空間參考、管理方式及數據集的其他特征。元數據庫統一保存了數據中心全生命周期的業務元數據、技術元數據與管理元數據,是數據管理中的元數據管理系統的數據支撐。
數據交換平臺是數據中心中將各應用數據庫、各機構數據庫、各主題數據庫進行整合交換共享的基礎平臺。行業數據中心的數據交換平臺主要是各業務數據庫的基礎上形成行業各機構共享數據庫(交換區),進而形成一個機構基準庫(存儲區),最終形成行業基礎數據庫或主題應用庫。其功能架構如圖2所示。

圖2 數據交換平臺功能架構
數據交換平臺基于ETL技術實現機構、應用系統之間的應用層交換和數據層交換;目錄層除了實現目錄服務的編目、注冊、發布、訂閱、查詢、維護等功能外,交換服務目錄還提供和數據交換平臺的接口,實現目錄平臺和交換平臺的功能關聯。交換平臺包括交換管理監控模塊、應用層交換模塊和數據層交換模塊。其中,交換管理監控模塊對數據交換進行有效管理和監控,包括流程配置、流程調度、交換監控;應用層交換模塊包括路由轉發組件;數據層交換模塊包括數據抽取組件、文件發送組件、文件接收組件、數據庫執行組件和數據裝載組件等。
3.1 交換管理監控模塊
數據交換平臺應通過圖形化界面等方式為交換任務配置具體的交換流程,供交換管理監控服務器調度。包括流程配置、流程調度、流程監控,其中,流程調度要能夠實現流程啟動、流程執行、流程結束等功能。
3.2 應用層交換模塊
先由相應用戶提出查詢請求,請求方前置機把請求發送給交換平臺的應用層交換模塊;如果有權限訪問,應用層交換模塊將請求信息路由轉發給服務提供方;服務提供方的前置機接收到請求,并通過業務系統取得響應數據,發回給交換平臺的應用層交換模塊;應用層交換模塊接收到響應,發回給請求方。
3.3 數據層交換模塊
數據層交換模塊的功能是實現數據交換,主要由數據抽取、文件發送、文件接收、數據裝載與數據庫執行等功能組件構成。
(1)數據抽取。數據抽取主要是針對各個部門不同的數據資源執行抽取操作。數據抽取類型分為結構化文件、非結構化文件和數據庫等幾種類型,抽取方式為增量或完全。前置機在抽取數據之后向交換管理監控服務器返回成功或失敗信息和抽取結果。
(2)文件發送。文件發送指前置機在接收到發送文件列表等信息之后,往URL地址發送文件內容,最后向交換管理監控服務器返回成功或失敗信息結果。
(3)文件接收組件。文件接收指前置機在接收到接收文件列表等信息之后,往URL地址接收文件內容,最后向交換管理監控服務器返回成功或失敗信息結果。
(4)數據庫執行組件。數據庫執行組件分為SQL執行和存儲過程執行組件。SQL語句的功能為清空表、備份等,執行存儲過程功能主要用于數據清洗比對等,最后向交換管理監控服務器返回成功或失敗信息結果。
(5)數據裝載組件。數據裝載主要針對各種不同的數據資源執行裝載操作。數據裝載類型分為結構化文件、非結構化文件和數據庫等幾種類型,數據裝載組件將待裝載的數據文件進行安全處理和解析后,按指定映射關系進入數據庫、結構化文件或非結構化文件,并根據裝載結果向管理監控服務器,返回成功或失敗信息結果。
數據挖掘(Data Mining)顧名思義就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘技術主要包括關聯規則、聚類、分類、回歸、決策樹等幾種算法。
行業數據中心的建設可以應用各種算法和功能實現具有行政、公益和商業價值的結果,提供給各級的行業從業人員進行決策支持。
4.1 基本統計功能
(1)均值分析。均值分析過程計算指定變量的綜合描述統計量,包括反映總體特征的分析和離散態勢兩部分。利用均值分析功能,行業數據中心可以研究行業內各從業人員和產品的收入情況、平均水平及差異情況等。
(2)多種統計分布函數。包括如正態分布、F分別、卡方分布等基本統計分布函數,利用分布函數可以計算行業中可能產生變化的相應概率值,實現對統計指標的評估判斷。
4.2 數據挖掘功能
(1)回歸分析。回歸分析是統計分析中應用最多、最廣泛的一個分支,在金融、工業技術、氣象、交通運輸等行業,都需要利用回歸分析從數據中建立模型,獲得參數。數據挖掘產品提供變量的全部選入和逐步回歸兩種處理方式,詳盡地計算主要統計量并進行方差分析。
(2)聚類分析。許多應用領域要求考察數據的聚集態勢,從而將數據劃分為合理的類別,如行業輿情分析的研究。在分類判據未知的情況下,聚類分析是主要的研究方法。數據挖掘產品提供屬性重要度指標用于衡量屬性在聚類過程中的重要性,不同的聚類數量對數據挖掘業務實施的指導程度不同。
(3)決策樹。決策樹本身使用明確的知識表示方式,從宏觀到細節逐層描述蘊涵在數據之中的因果規則。當數據庫龐大時,僅僅依賴分析人員的直覺和經驗幾乎無法發現這些蘊涵其中復雜而富有層次的因果關系。決策樹模塊提供主流的學習算法,能自動生成決策樹,并顯示為圖形,為數據分析人員提供幫助。在某些重大事件中,如“馬航”事件,通過決策樹模型進行數據分析,可以為領導提供決策支持。
(4)關聯分析。關聯規則常用于從大量的業務記錄和其他信息中提取出具有因果依賴關系的規則,利用這些規則,決策者能夠通過數據挖掘的關聯分析,分析行業內的產品和服務之間的消費關系。在交通運輸行業來看,包括不同地域對交通工具、通信服務、物流服務的依賴程度都不同,各產品之間的上下游關系可以通過關聯分析輔助得出,有利于產品設計和產業合理規劃布局的決策。
通過數據倉庫的建設可以規范行業數據的管理,建立各主題數據資源目錄,以及實現主題間數據資源的共享與交換,為數據挖掘與分析打下基礎。同時采用云計算和數據倉庫技術構建行業數據中心具有科學性和創新性,因此,筆者建議各行業關注基于“行業云”行業化數據中心的建設,以滿足各行業自身對信息化和數據資源的整合與共享服務的需求。
[1] 袁玉宇.云計算時代的數據中心.北京:電子工業出版社,2012.P3-4
[2] 王克照.智慧政府之路(大數據云計算物聯網架構應用).清華大學,2014.P137-151
[3] 陳文偉,黃金才.數據倉庫與數據挖掘,2004.P101-151
[4] (美)黃鎧,(美)福克斯,(美)唐加拉.云計算與分布式系統:從并行處理到物聯網.北京:機械工業出版社,2013
[5] (美)埃爾.云計算:概念、技術與架構.北京:機械工業出版社,2014
10.3969/J.ISSN.1672-7274.2015.05.017
TP392
B
1672-7274(2015)05-0064-04