楊勝利
摘 要:對于CRM系統而言,最重要的是全面豐富準確的客戶數據,在數據中心建設過程中ETL技術和數據庫技術是關鍵的兩個方面。作者以自己參加的期貨CRM項目為依托,闡述了期貨CRM數據中心建設及ETL系統設計,對ETL技術的研究,ETL系統的設計和實現是本文研究的重點。
關鍵詞:ETL技術 期貨CRM 數據中心 規劃與設計 數據庫
1. ETL技術
ETL是將分布的、異構數據源中的業務數據經過抽取、轉換、清洗后裝載到數據倉庫的過程。
典型的ETL工具具備數據抽取、數據轉換、數據加載、元數據管理、數據質量保證、調度與監控、異常錯誤管理等功能。數據抽取是從多種異構數據源獲取符合需求的數據過程,在一個ETL系統中,最起碼包括全量數據抽取、增量數據抽取兩種抽取模式;數據清洗與轉換從數據源中抽取的數據不一定能完全滿足目的庫的要求,可能存在數據格式不一致、數據不完整、字段含義不一致、空值等問題,并且還需對數據進行聚合、匯總、統計等操作,數據清洗和轉換過程是按照預先設計好的規則對抽取的數據進行處理并消除冗余、歧義、不完整、違反業務規則的數據,以滿足目標數據的數據模型和數據質量的要求;數據加載是ETL流程的最后一個步驟,即將轉換完的數據按照目標數據模型定義的表結構加載到目標數據庫系統中。
2.期貨CRM
期貨CRM是指以客戶為中心,恰當地提供期貨產品和服務,提高客戶的滿意度,最大限度地減少客戶流失,實現客戶和期貨公司的雙贏。應用上主要實現客戶關系管理、客戶服務管理、市場營銷管理、居間人管理及相關數據統計分析等,主要的業務需求:整合客戶資源、客戶分析與管理、統一營銷管理、整合資訊和研報。
3.數據中心
CRM最關注的是客戶數據,只有豐富全面的數據才能反映客戶的需求。數據中心建設是CRM的基礎關鍵所在,作為數據中心,其在整個信息化體系中,主要發揮以下作用:將傳統以業務為導向的數據,加以采集、清洗、轉換,成為以客戶為導向的數據組織;形成以客戶為中心的數據檔案形式;為后臺提供多形式的應用服務;為統計分析、數據挖掘提供基礎支撐。
數據中心系統結構分為ETL、中心數據庫、數據服務及管理程序四個子系統。ETL模塊主要負責數據的抽取、清洗和轉換,是數據中心建設的基礎,該模塊采用自主研發的ETL系統實現。中心數據庫用于存放經過數據抽取系統清洗轉換后的數據,并作為數據服務系統的數據來源。中心數據庫需要滿足對海量數據、高性能、高可用性和擴展性的支持,本項目采用ORACLE RAC數據庫系統。數據服務采用主動推送和服務訪問兩種方式互相結合,對外圍業務系統提供數據支持。管理程序對系統中涉及的各個應用程序進行統一的狀態監控、統一的日志查詢,同時用于管理數據中心的歷史數據,數據庫的日常備份等。
4. ETL規劃與設計
根據金融期貨數據中心的特點,本項目ETL系統采用自主研發形式實現,整個ETL由采集AR、采集AS、數據抽取組件、數據轉換組件、數據采集服務器組成。ETL體系結構如下。
(1)采集流程。ETL系統支持多個抽取程序并發處理,數據采集服務器向采集AR發出采集命令,采集AR再將采集命令路由到采集AS,由采集AS完成相應數據源的數據抽取工作,并將數據傳送到數據采集服務,這些數據經數據采集程序清洗轉換最終將數據存放在數據中心,以方便其他系統使用。
(2)數據抽取模式。系統支持實時、日終和歷史三種抽取模式:實時數據抽取是指主要用于實時監控功能;日終數據抽取是指抽取清算后的數據信息;歷史數據抽取是指將數據源中指定日期的歷史數據抽取到數據中心。
(3)數據清洗轉換。數據轉換的任務主要進行不一致數據的轉換,數據粒度的轉換,以及一些業務規則的計算,如空值處理,數據類型不一致處理,將細粒度數據聚合成粗粒度數據,業務規則計算,等等。系統數據清洗轉換通過兩種方式實現:采集程序在數據采集過程中通過轉換規則進行數據轉換,并將轉換的數據加載到數據中心;通過單獨的轉換組件對數據中心的數據進行統計、匯總。
(4)數據加載。將轉換完的數據按照目標數據模型定義的表結構加載到目標數據庫系統中。本ETL系統采用實時增量抽取模式和日終數據抽取和歷史數據抽取模式兩種數據加載方式。
(5)并發與負載均衡。為了提高ETL性能,系統具備并行處理能力,系統通過采集AS、采集AR、采集服務器的n∶1∶1的組合方式實現并行和負載均衡,同時也實現了分布式抽取的功能。
(6)數據質量保證。本ETL系統通過以下幾種方式保證數據的準確性和完整性:系統通過核對數據源端和數據中心端的記錄數,相關字段的匯總值,生成核對報告,以保證數據采集的一致完整性;數據中心的數據表上增加了數據庫規則的檢查,保證主鍵唯一、實體完整、字段非空;通過異常處理模塊,從另一個角度保證數據質量。
5.結語
建設一個高效CRM系統,最為關鍵的是通過建設數據中心,將分散在各個系統中的客戶數據進行整合和匯總,為CRM系統提供統一的客戶視圖,本文是基于期貨公司CRM系統數據中心的設計與實現基礎上完成的,介紹了期貨公司數據中心建設過程,并對ETL過程進行了重點研究。
目前,本ETL系統在期貨數據中心生產環境穩定運行,但隨著期貨行業的發展,數據量快速增加,實時性要求越來越高,開發一個能支撐海量數據、高吞吐量和響應時間的ETL系統是行業發展的必然要求。
參考文獻
[1]W.H.Inmon.王志海,林友芳等譯.數據倉庫(原書第四版)[M].北京:機械工業出版社,2006.8.
[2]Ralph Kimball著.唐富年,孫媛媛譯.數據倉庫生命周期工具箱(第二版)[M].北京:清華大學出版社,2009.9.
[3]PHILIP Russom.操作型數據倉庫——操作型應用和數據倉庫之間整合[M].TTNN Group,2010.6.