[摘 要] 數據倉庫是最近發展起來的數據存儲和管理模式,克服了傳統關系數據庫在管理決策應用中僅面向業務層流程的數據分析的缺點,具有面向主題、數據集成、數據相對穩定以及反映歷史變化的特點,在管理決策中還能進行趨勢分析等。本文概述了數據倉庫系統的原理和特點、數據倉庫系統結構、企業數據倉庫系統在管理決策中的應用,最后簡要介紹了構建數據倉庫系統平臺的工具Microsoft SQL Server2000。
[關鍵詞] 數據倉庫系統;數據倉庫;聯機分析處理OLAP;數據挖掘
[中圖分類號] F270.7
[文獻標識碼]A
[文章編號]1673-0194(2006)10-0016-04
0引 言
信息技術的迅速發展使信息系統的內容和作用在深度和廣度上都有了長足的發展,信息系統與管理模式、管理思想的融合逐步產生了MRP(物料需求計劃)、MRPⅡ(制造資源計劃)、ERP(企業資源計劃)、CRM(客戶關系管理)等一系列信息系統。但是在企業多個信息系統應用過程中會出現多個平臺,為實現多平臺上的數據共享,必須在多個平臺上構建多個數據接口為企業多個應用服務,而每個應用又可能形成一系列新的數據平臺,長時間多個應用反復構建就會形成一種復雜的、難以維護和繼續開發的蜘蛛網狀結構,這將使企業數據陷入極端混亂的狀態。為解決這一問題,必須構建統一的數據應用平臺——企業數據倉庫系統。
1數據倉庫
1.1建立分離的數據倉庫
被尊為數據倉庫之父的William H. Inmon將數據倉庫(DW)定義為一個面向主題的、集成的、隨時間變化的非易失性數據的集合,用于支持管理的決策過程。由這一定義不難看出,數據倉庫的初衷就是為管理決策服務的,建立DW是為了提高信息系統性能、進行輔助決策。首先,數據倉庫最吸引人的地方是其構建了多種形式信息處理的基礎;其次,對于決策理論所需要的復雜式查詢,以及大量的匯總計算,都需要特殊的數據結構、存取方法和基于多維圖表的實現方法,在未來的決策支持過程中還需要將來自異種源的數據聚集和匯總,產生高質量的、純凈的、集成的數據,而建立分離的DW正滿足了這些需求。
1.2數據倉庫系統的體系結構
數據倉庫系統本身是一個體系結構,而不是一個軟件工具,其結構由6個基本層次組成:數據源層、數據后端處理層、數據倉庫及其管理層、數據集市層、數據倉庫應用層、數據展示層。DW系統的層次結構示意見圖1。

數據源層 數據源是DW的數據來源,它們可以有多種不同的數據結構類型,數據源可以分布于網絡的各個節點,通過網絡數據接口與數據倉庫相互連接。
數據后端處理層 是數據源與數據倉庫的接口層,一般包括5個方面:數據提取、數據清洗、數據轉換、數據加載、數據刷新。該層的功能是將分布于網絡多結點、不同平臺、結構、語法的數據轉換成統一的數據平臺和結構,最終輸入數據倉庫。
數據倉庫及其管理層 數據倉庫管理系統是專門管理數據倉庫的軟件,包括DW中數據結構構建、數據操縱、數據維護、監控,數據服務等。該層中的元數據管理是DW管理的核心,元數據相當于數據庫中的數據字典,它描述了數據倉庫的數據和存儲環境、數據倉庫設計運行、維護與使用的基本參數。
數據集市層 是一種特殊形式的數據倉庫,它是面向企業中部門決策的數據集合。
數據倉庫應用層 建立DW系統主要是面向應用,目前該層應用主要包括兩方面:(1)分析與決策。以DW中統一的數據為對象作為歸納而進行分析,建立決策的規則和模式,包括兩種形式:一是采取試探的方法以獲得模型或規則的聯機分析處理,二是采用挖掘的方法從數據中獲得模式或規則的數據挖掘。(2)數據統一平臺。DW可以為企業已有的數據結構、語法、接口建立統一的數據平臺,目的是消除混亂的蜘蛛網狀結構。
數據展示層 將輔助分析和決策的結果以多媒體或網頁的形式發布給終端用戶,本質是一個人機交互的過程,為用戶提供直接支持。
2企業數據倉庫系統在管理決策中的應用
市場經濟條件下,企業管理者所面臨的環境瞬息萬變,如何才能使企業立于不敗之地?一個管理者所做的睿智的決策可能成為關鍵因素,而建立企業數據倉庫系統必將成為決策者的有力武器。
企業數據倉庫系統實現管理輔助決策首先要確立企業活動的相關主題。這里確立了3方面主題和11個子主題:
產品主題: ①產品總體情況分析
②暢銷產品生產周期及庫存分析
③劣質產品責任分析
④產品銷售情況分析
⑤產品銷售退貨分析
客戶關系主題:⑥客戶總體情況分析
⑦客戶結構分析
⑧促銷活動效果分析
⑨可入戶購買金額預測
財務主題:⑩應收賬分析
11固定資產分析
而數據倉庫系統實現企業上述相關主題的過程其實就是向管理者提供輔助決策的過程,實現這一過程可以通過DW系統的3個工具來實現。
(1)數據倉庫 在同一集成的數據平臺上,利用DW特定的查詢索引方法實現產品主題中的①、②、③,客戶關系主體中的⑥。
(2)OLAP分析聯機分析處理工具實現產品主題的④、⑤;客戶關系主題的⑦、⑧;財務主題的⑩、11。
數據挖據工具:實現客戶關系主題的⑨。
2.1數據倉庫的建立和應用
2.1.1數據倉庫的創建
創建企業數據倉庫首先創建基于企業基本信息和企業業務信息的分類信息表及其結構,這些數據表可以來源于存儲企業歷史數據的各種分類數據庫,也可以來自企業ERP各分系統的數據表。
企業基本信息表可以包括:產品信息表,生產狀況表,客戶信息表,員工信息表,部門信息表,物料信息表,倉庫信息表,產品成本表等。
企業主要業務數據表包括:銷售記錄表,退貨記錄表,促銷記錄表,固定資產明細表,工資明細表,應收賬表,庫存表,合同表等。
例如,產品信息表描述了產品的基本信息,如產品編號,產品類別,產品名稱等屬性;客戶信息表包括客戶編號,客戶類別,名稱,所在地域,行業性質,信譽等級,付款方式,開戶銀行賬號等;銷售信息表記錄了企業產品銷售情況,如客戶編號,產品編號,購買時間,地點,數量,單價等屬性。
2.1.2數據倉庫的應用
數據倉庫工具應用于管理決策分析,其本質亦是對DW進行查詢和統計工作,通過實現相關主題,對產品、客戶、暢銷產品庫存、生產周期、劣質產品責任進行詳細定性定量分析。
以產品總體情況分析為例。企業管理者希望從產品、銷售、成本、銷售額、利潤等各個方面全面了解企業產品情況。對于單個部門的分類操作數據庫完成詳細的一次查詢是很困難的,而通過建立在統一數據源的數據倉庫可以設計一個綜合的數據關系表來完成管理者的需求,例如從數據倉庫中的銷售記錄表統計出企業產品的銷量和銷售額,從生產狀況表中統計出產品生產情況,從產品成本表統計得到產品的總成本,還可以統計計算的中間結果并將產品編號連接在一起求得產品利潤等多個屬性。最終DW生成的這個表包括了產品編號、名稱、銷量、銷售額、總產量、總成本及利潤等多個屬性,管理者通過對該表的查詢和瀏覽充分地了解到本企業產品的全面情況。
同樣利用數據倉庫工具還可以完成客戶總體情況分析表,產品庫存和生產周期表,劣質產品責任分析表的創建工作,并為管理決策提供支持。
2.2聯機分析處理OLAP的生成和應用
OLAP在數據倉庫的基礎上實現其應用主要通過建立數據集市、生成OLAP立方體、進行數據展示3個步驟。首先是建立數據集市,數據集市是由數據倉庫派生而出的,應用于規模小、結構更集中的企業部門的數據集合體。在DW上建立數據集市更有其自身優勢。第二步是建立OLAP立方體,包括構建OLAP立方體所需的維度,以及基于維度、度量、存儲形式而進行聚合計算生成的OLAP立方體。最后是將顯示結果通過數據展示平臺將結果以多種形式顯現出來,給用戶以直觀參照。
以產品主題中的銷售概況分析為例,介紹OLAP工具在企業決策支持中的應用。
銷售分析是決策者需要了解企業產品的銷售情況,為決策產品的下一步生產和銷售情況提供依據。第一步,首先根據銷售情況的星狀模型建立數據集市,其數據表來源是銷售記錄表、客戶信息表和產品信息表,其關系如圖2;其次是建立數據集市的維表,包括時間、地域、產品和客戶維表。由于時間是多維模型中比較重要的屬性,可以為時間建立一個獨立公用的時間維表以供各個多維數據模型使用,其應滿足多維數據模型對時間的要求;對于地域、產品和客戶維表均可由數據倉庫的各分類信息表產生。最后是建立數據集市事實表,將銷售記錄表和相應的維表相連接,選取對應的屬性從而為銷售事實表加載數據。

第二步是由銷售概況分析的多維模型和數據集市構建相應的OLAP立方體,包括構建時間維度、地域維度、產品維度,最后選取購買數量和購買金額作為分析度量,以時間、地點、產品、客戶為分析維度,形成銷售分析的OLAP立方體。
在OLAP立方體生成之后可以利用OLAP分析工具對其進行鉆取、切片、旋轉、統計、排序等操作,最終滿足決策者如下的一些分析需求:
(1) 各個月份(年、季度)的產品銷售數量及金額變化以及隨地域變化的銷售情況;
(2) 各地域、各類別產品銷售情況;
(3) 各類客戶完成銷售情況;
(4) 特定地域內各產品隨時間變化的銷售情況等。
對于結果可以通過數據展示工具以各種形式展現給用戶,以同樣的邏輯和開發方法還可以進行產品退貨、促銷活動效果、應收賬、固定資產等相關主題的分析,為最終用戶決策提供分析支持。
2.3數據挖掘的應用
對于客戶關系主題的購買金預測,決策者經常需要了解客戶對企業銷售收入的貢獻,以制定相應的優惠政策和采取相應的促銷來保持已有的優質客戶,并吸引更多的潛在用戶。
數據挖掘和知識發現是基于潛在數據的發掘,要實現上述主題的預測,需要的是客戶基本信息和客戶對企業銷售收入的貢獻兩方面信息,而數據倉庫中的客戶信息表和銷售記錄表正滿足了挖掘的數據需求,其實現分為下述4個步驟:
(1) 在銷售記錄表中進行疊加統計組操作,計算出每個客戶總的購買金額;
(2) 確定“高、中、低”3個等級,并對客戶購買金額進行等級分類;
(3) 將客戶信息表和購買金額等級表通過客戶編號屬性連接起來,加入客戶類別、地域、行業類別、信譽、付款方式等屬性,形成一個最終的“客戶購買金額等級表”;
(4) 利用“決策樹”、“聚類”等數據挖掘算法對客戶購買金額等級進行發掘和歸納。
3SQL Server 數據倉庫系統開發工具
在理論形成之后,可以利用工具對數據倉庫系統進行開發實踐。Microsoft 公司的SQL Server 2000已經在性能和可擴展性方面確立了領先地位,在數據倉庫開發上,該工具通過一系列服務程序支持數據倉庫的應用:
SQL關系數據庫——提供數據倉庫的創建和維護;
數據傳輸服務DTS——提供數據輸入/輸出功能,在傳輸過程中完成數據驗證、清洗和轉換操作;
Analysis Services——支持在線分析處理OLAP、數據挖掘;
Print Table Services——提供客戶端OLAP訪問功能,開發人員可用編程語言開發前端數據展示程序;
MMC(Microsoft Management Console)——提供日程安排、存儲管理、性能鑒別、報警、通知等服務;
擴充服務MDC——支持對多維數據對象的查詢和操作。
利用上述開發工具創建數據倉庫系統,并對企業活動主題進行相關分析預測和數據展現,最終實現對用戶管理決策強有力的分析和支持。
4總結
數據倉庫技術作為企業決策支持工具的核心已經被理論和實踐得到證明,美國Meta Group市場調查機構的資料表明,《幸福》雜志所列全球2000家大公司中已有90%將Internet和數據倉庫這兩項技術列入企業計劃,實踐表明,多學科理論的融合以及信息技術與智能技術的綜合應用,是提高企業決策有效性和數據倉庫系統智能化水平的根本途徑。此外在數據倉庫創建開發后,操作人員對其熟練操作應用是數據倉庫系統最終成功的標志。
主要參考文獻
[1] 徐潔磐. 數據倉庫與決策支持系統[M].北京:科學出版社,2005.
[2] W H Inmon著.數據倉庫[M].王志海,林友芳等譯.北京:機械工業出版社,2003.
[3] 陳京民. 數據倉庫原理、設計和應用[M].北京:中國水利水電出版社,2004.
[4] Jiawei Han Micheline Kamber 著.數據挖掘—概念與技術[M].范明,孟小峰譯. 北京:機械工業出版社,2001.
[5] 張玉峰等. 決策支持系統[M]. 武漢:武漢大學出版社,2004.