摘要:數據倉庫是數據庫技術的一個新的發展方向,是當前熱門的一個研究領域。介紹了數據倉庫的概念、體系結構特點,對數據倉庫的創建過程進行了分析,對數據倉庫在國民經濟領域中的應用及其發展前景進行了描述。
關鍵詞:數據倉庫;體系結構;維度
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)15-20998-02
The Summary of the Data Warehouse Technology
WANG Min1,2, ZHOU Cong-jun2,DU Cheng-Long2
(1. Hubei University of Technology,Wuhan,430068;2.Hubei Professional College of Land Resource,Jingzhou,434003)
Abstract: Data warehouse is a new progressing direction of database technology,and is also a popular research fields currently.This paper introduces the data warehouse definition,architecture and characters.The article also analyzes the procedure of building Data Warehouse .In the end,it describes the application of data warehouse to the national economy fields and the prospect of the data warehouse in the future.
Key words: data warehouse;architecture of the warehouse;dimension
1 引言
在過去的幾十年中,人們為了能夠收集、存儲和處理大量的業務數據而開發了數據庫管理系統(DBMS)。由于數據庫系統的開發和使用,為企業記錄和處理業務提供了極大的方便,使得這種技術得以迅速的發展和應用。但隨著數據庫系統記錄和處理的數據越來越多,人們不再滿足僅僅使用數據庫系統來記錄企業的業務活動數據和對數據進行簡單處理,人們需要對企業業務活動的數據進行各種分析,以便找出影響企業成功的要素和企業未來的發展趨勢。而如何將這些大量的數據轉化為對企業管理者有用的,可供輔助決策的信息,也逐漸成為研究的熱點。
2 數據倉庫技術
2.1 數據倉庫的定義
數據倉庫的概念是由W.H.Inmon博士在1992年出版的《建立數據倉庫》(Building the Data Warehouse)一書中提出的。他在書中對數據倉庫是這樣說明的:“數據倉庫(data warehouse)是一個面向主題的、集成的、穩定的、不同時間的數據集合,它用于支持經營管理中的決策制定過程。”[1]實際上可以理解為數據倉庫就是從多個數據源收集數據,存儲于一個統一的數據模式下的數據體。從本質上講,數據倉庫就是一種信息集成技術。數據倉庫從多個信息源中獲取原始數據,經整理加工后,存儲在數據倉庫的內部數據庫中,通過向用戶提供訪問工具,向數據倉庫用戶提供統一、協調和集成的信息環境,從企業的角度來支持用戶的決策和幫助企業的管理進行深入綜合分析。[2]
2.2 數據倉庫與數據庫的區別
數據倉庫是在數據庫的基礎上發展起來的,因此數據倉庫與數據庫有著本質的區別,主要體現在以下幾個方面:
(1)數據庫中存儲的都是當前使用的值,而數據倉庫的建立是一個企業日積月累的建立過程因而其存儲的數據都是一些歷史的、存檔的數據,另外由于要提供分析決策,還需要存儲一些歸納的、計算的數據;
(2)數據庫的數據主要是面向業務操作程序的,可以重復處理,主要是用來進行事務處理的。而數據倉庫卻是面向主題,主要是用來分析與應用的;
(3)數據庫的數據結構是高度結構化的,比較復雜,適合于操作計算。而數據倉庫的數據卻比較簡單,適合于分析處理;
(4)數據庫中的數據的使用頻率是很高的。數據倉庫中的數據的使用則不是很高;
(5)通常對數據庫中的事務的訪問,只需要訪問少量的記錄數據。而對數據倉庫的事務的訪問就可能需要訪問大量的記錄;
(6)對數據庫的響應時間一般要求比較高,通常是以秒為單位。而對數據倉庫的響應時間要求則較低,通常比較長。
2.3 數據倉庫的主要特點
從數據倉庫的定義我們可以看出,它的特點主要體現在以下幾個方面:
(1)數據倉庫是面向主題的。也就是說數據是按其自然屬性來進行組織的。主題通常是在一個較高層次上將數據歸類的標準,每個主題對應一個宏觀分析領域。比如,在學生的學籍管理成績系統中,數據常被組織成“學生”、“課程”、“學生成績”等關系模式,描述了各個學生、各門課程以及學生學習各門課程的詳細信息。而在數據倉庫中,我們則要對學生、課程、學生成績進行綜合分析,以便進行決策,因而應重新組織數據,完成業務數據向主題數據的轉換。主題的抽取則應根據分析的要求進行確定。[3]如針對學生成績分析數據倉庫就可以設置以下主體:學生、課程、教師等。
(2)數據倉庫是集成的。數據在進入數據倉庫之前,必須經過加工與集成。對不同來源的數據進行數據結構統一編碼。統一原始數據中的所有矛盾之處,如字段的同名異義,單位不統一,字長不一致等情況。即將原始數據結構做一個從面向應用到面向主題的大轉變。[4]
要將決策分析建立在數據倉庫之上,數據系統就需要定期從各院系、各部門抽取適宜于進行決策分析的細節數據,然后按照不同的粒度要求匯總到各級數據集市或數據倉庫中。以“教師”主題為例,關于教師的完整信息是分散在各個院系、各部門的,每個部門都沒有關于“教師”的完整信息,而且這些數據可能是不一致的。比如:“教師”主題中的教師編號在“圖書管理系統”和“科研信息系統”中可能不同;性別在各部門中的表示方法也可能不同,在“科研信息系統”中用“M”、“F”來表示,而在“教師基本信息系統”中用“0”和“1”來表示。在經過了面向主題的數據組織后,消除同名異義、異名同義、單位不統一、字長不統一等數據不一致之處,按照元數據的定義形成關于教師的完整、一致的信息集合。[3]
2.4 數據倉庫的體系結構
數據倉庫系統通常由數據倉庫(DW)、倉庫管理和分析工具三部分組成,其結構形式如下圖所示。

(1)源數據:數據倉庫的數據來源多個不同的數據源,它可以是通常的數據庫系統,也可以是非傳統的數據,如文件、HTML文件、知識庫等。
(2)倉庫數據管理系統(DWMS):倉庫的管理主要包括對數據的案例、歸檔、備份、維護以及恢復等工作,這些工作需通過數據倉庫管理系統來完成。
(3)分析工具:數據倉庫的查詢不是指對記錄級數據的查詢,而是指對分析要求的查詢。一般包含兩種工具。一種是查詢工具,用來對分析要求的查詢。一種是挖掘工具,用于在大量數據中進行挖掘有規律性的知識。
2.5 數據倉庫的實施
數據倉庫的開發要以數據為中心,可大體分為以下幾個步驟:
(1)明確目標,制訂計劃
根據需求確定相應的數據倉庫的設計目標,并制定實施計劃,用發展的眼光創立架構方案。
(2)建立技術環境
建立支撐平臺建立技術環境,選擇實現數據倉庫的軟硬件資源,包括開發平臺、DBMS、網絡通信、開發工具、終端訪問工具等等。
(3)確定主題
通過對用戶、管理層的需求進行深入的了解與分析,然后對這些需求中比較迫切、重要程度初步確定幾個主題。
(4)概念模型設計
概念模型設計是主觀與客觀之間的橋梁,通過概念模型,可以用適合計算機世界的模型和語言對客觀世界中的問題進行具體的描述。主要包括事實的定義、維度的定義和級別的定義。所謂事實,即指決策者分析的目標數據,可以幫助決策者了解全局,作出相應決策。也稱為度量值。而維度,即指事實的屬性信息。也稱為考察事實的角度。
(5)邏輯模型設計
邏輯模型的設計是指根據事實、維度和級別之間的關系確定所采用的架構。通常采用星型構架進行設計,也就是以事實表為中心,四周與每個維度相關聯,不存在維度與維度相關聯的情況。
(6)物理模型設計
物理設計主要完成開發決策工具的選擇、數據表的創建與索引的創建。數據表主要包括事實表與維度表的創建。一般對維度都創建了主鍵索引,對事實表則設置了組合主鍵索引。
(7)數據轉換程序
實現從數據源中抽取、清理、聚集、轉換數據并加載數據等過程的設計。
(8)定義元數據
即定義數據的意義及系統各組成部件的關系。
(9)運行與維護
管理數據倉庫環境,定期進行數據的更新,使數據倉庫正常運行。
3 數據倉庫技術的應用
目前,國內數據倉庫的需求主要表現在如下方面:
(1)由于銀行商業化的步伐正在加大,各大、中型銀行開始重新考慮自身的業務,特別是加強對自身的信貸風險的管理,因而對有關信貸風險管理和風險規避的決策支持系統的需求逐漸多了起來。
(2)由于電子商務的迅速發展,不少網站開始考慮如何提高對顧客的忠誠度,為客戶提供更進一步的“貼身”服務。
(3)各大型企業如移動通信局等開始考慮著手進行決策支持以及數據倉庫規則。
4 結束語
雖然目前國內的數據倉庫市場經過了多年的發展,但是比起國外大企業所建的巨型企業級數據倉庫來講,還只能算是剛剛起步,還存在很多的不足之處,主要表現在計算機應用水平較低,無法提出決策支持需求,所以很多企業無法馬上實施數據倉庫。
但相信隨著相關計算機技術的進步,數據倉庫技術也一定能得到不斷的發展,為企業在商業競爭中提供更好的幫助。
參考文獻:
[1] w.H.Inmon.數據倉庫管理[M].北京:機械工業出版社,1999,8-9.
[2] 鐘愛軍,宋麒.基于數據倉庫的醫院決策支持系統的構建.數理醫藥學雜志,2007,13-19.
[3] 孟躍紅,黃智.數據倉庫技術在高校教育管理中的應用.徐州師范大學學報,2003,18-21,33-40.
[4] 陳文偉,黃金才.數據倉庫與數據挖掘.北京:人民郵電出版社,2006,2.