一、什么是數據倉庫
1.數據倉庫的定義
目前,數據倉庫一詞尚沒有一個統一的定義,著名的數據倉庫專家W.H.Inmon在其著作《BuildingtheDataWarehouse》一書中給予如下描述:數據倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(TimeVariant)的數據集合,用于支持管理決策。對于數據倉庫的概念我們可以從兩個層次予以理解,首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。
2.數據倉庫的特點
(1)面向主題。操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。
(2)集成的。面向事務處理的操作型數據庫通常與某些特定的應用相關,數據庫之間相互獨立,并且往往是異構的。而數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業的一致的全局信息。
(3)相對穩定的。操作型數據庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
(4)反映歷史變化。操作型數據庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,是一個過程。
二、決策支持系統(DSS)
1.數據倉庫化決策分析系統的體系結構
這一結構首先從各類異構的數據庫中通過數據復制技術,將數據復制到數據倉庫中。然后,在數據倉庫的基礎上建立數據立方體,實現OLAP。最后,客戶端訪問服務器采用了三層結構,通過HTTP方式直接訪問數據庫。而傳統的數據倉庫一般采用C/S結構。對于C/S結構,一般說來客戶端維護比較困難,而且應用局限在局域網內。對于網絡結構復雜,訪問需要經過防火墻的情況,難以處理。這里采用三層結構有效的解決了這一問題。
2.構建決策分析系統的幾個關鍵技術
(1)各庫管理系統。在DSS中有數據庫管理系統、模型庫管理系統、知識庫管理系統。它們分別對數據庫、模型庫、知識庫進行有效的管理。各庫管理系統有其共性也有各自的特點,需要進行分別處理。
①數據庫管理系統。作為DSS中的數據庫,系統可以采用已成熟的數據庫系統,也可以根據需要自行設計。采用已成熟的數據庫系統,可以減少實現數據庫管理系統的大量工作,但是要解決好決策支持系統與數據庫系統的接口。如果自行設計數據庫系統,就要按數據庫系統的要求,設計和完成一套數據庫語言來實現數據庫的功能。
②模型庫管理系統。建立模型庫管理系統同數據庫管理系統一樣,要設計一套模型庫管理語言來實現對模型庫的一般管理和特殊管理功能。一般的管理包括對模型的增加、刪除、修改以及查詢等功能。由于模型有源程序文件和目標程序文件的特點,故需要增加對模型源文件的編輯和編譯等功能,這是模型庫的特殊管理功能。
③知識庫管理系統。知識庫是由知識文件庫組成。類似于數據庫管理系統,知識庫管理系統需要有對各類知識的基本管理功能,即對知識進行增加、刪除、修改等維護功能以及查詢功能等。對知識需要進行特殊管理,即對知識的一致性檢查。
(2)接口技術。在數據庫系統、模型庫系統和知識庫系統建立以后,部件之間的接口技術就突出了。
①模型存取數據庫的接口。
②知識存取數據庫的接口。
③模型庫和知識庫之間的接口。
3.統一集成技術
DSS是人機交互、問題處理、數據庫系統、模型庫系統、知識庫的有機集成體。對任一個實際決策問題,首先需要建立數據庫系統、模型庫系統和知識庫系統。再在各庫間接口的基礎上,利用DSS集成語言,對決策問題進行形式
化描述,形成統一集成各庫的問題處理系統,即統一集成的DSS。
三、結論
基于數據倉庫的決策分析系統目前已經走向應用階段,好的決策支持系統能夠帶給用戶很大的方便和利益,但在實際的應用中仍會出現很多的問題。本文對實現基于數據倉庫的決策分析系統中的關鍵技術做了一些研究。但有很多問題還沒有在實際應用中解決,需要進一步研究。