冉朝霞
摘要:本文闡述了數據倉庫的三種構建策略,提出了一種聯合數據倉庫的體系結構。
關鍵詞:數據倉庫構建策略體系結構
數據倉庫是一種面向主題的、集成的、隨時間的變化且具非易失性的數據集合。它是對傳統數據庫技術在站場式數據管理需求下的提升,借助這項技術,不僅可以開展數據信息的知識化管理,將庫內各類數據、信息關聯起來,建立信息知識庫,并按照信息知識的含義,分門別類,達到實現知識應用的目的,同時還可以將檔案管理工作中的非數字化信息納入管理工作的范疇,提高檔案的利用率。
1數據倉庫的構建策略
數據倉庫最早是W.H.Inmon于1992年提出的,他指出,數據倉庫是面向主題的、集成的、時間變異的、非違約的一系列用于管理和決策制定的數據集。
數據倉庫按照范圍層次的不同,分為企業級全局數據倉庫和部門級數據倉庫。全局數據倉庫在全組織范圍內為各個部門提供管理、決策支持,又名中央數據倉庫:部門級數據倉庫一般只為某個局部范圍內的管理人員服務,也稱為數據集市。下面介紹數據倉庫常見的三種構建策略。
1.1“自底向上”建立數據倉庫。“自底向上”建立數據倉庫的過程如下:業務系統源數據庫——獨立數據集市——企業級數據倉庫,整個過程分為兩個步驟:
第一步是從關鍵的部分開始,先建立部門級數據集市,并不斷進行擴充和完善,每個數據集市包含某一特定業務領域的數據。在這一步中,通過ETL流程把業務系統中的數據經過抽取、轉換后加載到數據集市,然后通過OLAP工具或數據挖掘工具直接訪,問數據集市便可進行信息分析,從而把用于數據分析與決策支持的數據集市與業務處理系統物理上分離,每個數據集市可獨立實施來執行數據倉庫的職能,因此也稱為獨立數據集市,但需要指出的是。信息技術人員必須針對每個數據集市設計獨立的ETL處理程序,把各業務系統的操作數據按照需要分別轉換到相應的獨立數據集市中。
獨立數據集市的優點表現在:一是初期投資較少,并能迅速獲取回報;二是就單個數據集市來說。因其數據結構相對較簡單,管理比較容易。缺點表現在:一是各數據集市中存在數據不一致的問題,難以直接進行跨數據集市的信息訪問,導致出現一個個信息孤島:二是隨著數據集市的增加,系統結構將變得復雜而難以維護,并且系統整體投資迅速增加。因此,如果要以整個企業的視圖來分析數據,獨立數據集市不是合適的選擇。現在,人們在規劃數據倉庫時已經逐漸轉為實施企業級的數據倉庫。
第二步是當更多的主題加入數據集市時,將這些獨立數據集市進行再集成,最終建立的就是企業級數據倉庫。通過本步驟的實施雖然能最終解決數據的一致性問題,但缺點為:一是對數據集市的集成難度較大;二是企業級數據倉庫本身投資巨大,這會進一步加大系統的整體投資,同時將會導致第一步中對獨立數據集市的投資出現浪費現象。
1.2“自頂向下”建立數據倉庫。W.H.Inmon曾提出“自頂向下”建立數據倉庫的方法,也就是說,先建立一個全局的數據倉庫,然后在其基礎上建立部門級和個人級的數據集市。
ETL流程首先將所有業務處理系統中的數據按照統一的存儲模型加載到中央數據倉庫,然后再按照各部門特定的需求把相關數據復制到部門數據集市。因為中央數據倉庫匯集了來自各業務處理系統的數據,同時也負責向各數據集市提供信息。業務人員在進行數據分析與信息訪問時將根據需要連接到不同的數據集市。
這種結構的優點是解決了統一數據存儲模型和數據一致性的問題,有利于各級數據倉庫的一致性的控制。缺點主要體現在三個方面:一是業務人員對信息的訪問非常不方便,很難進行跨數據集市之間的信息分析:二是全局數據倉庫本身建設規模大,投資巨大,并且實施周期長,見效較慢;三是當數據集市增加時,會使系統整體投資迅速增加,同時管理的復雜性也隨之增加。
1.3建立統一的企業級數據倉庫。數據集市分為物理與邏輯兩種,物理數據集市設立在中央數據倉庫之外,具有專門的軟硬件設備,一般都使用OLAP服務器,按照特定需求組建多維立方體來提供多維信息分析;邏輯數據集市設立在中央數據倉庫之內,由在基礎數據之上形成的小結表或者邏輯視圖組成,數據集市主要針對粒度較粗、預先定義的分析需求,對于動態的業務查詢,粒度較細的或者針對基礎數據的分析則不能完成。中央數據倉庫采用符合數據庫范式理論(一般為第三范式、的存儲模型來保存基礎數據,從而為整個企業提供一致的信息視圖。在中央數據倉庫中還設立了一個數據轉換與緩沖區,作為ETL處理的一部分。這是因為在很多數據倉庫的ETL處理流程中,增加了一個ODS層來進行數據的整理,但這將大大增加整體投資和管理復雜性,理想的方法是,在中央數據倉庫中設置一部分存儲空間作為數據轉換與緩沖區,借助數據倉庫引擎強大的復雜查詢處理能力,通過SQL實現數據的轉換與清洗。
這種數據倉庫結構解決了其他數據倉庫結構中存在的諸多問題,是一種比較理想的企業級數據倉庫系統架構。但由于把詳細數據分析、部分的數據轉換與清洗等復雜處理均集中在中央數據倉庫,從而對作為數據倉庫引擎的RDBMS和相應的服務器帶來了極大的挑戰。選擇這種數據倉庫基礎平臺的基本要求是:數據倉庫引擎和相應的數據庫服務器具有優良的線性擴展能力,系統具有非常好的并行處理能力,能有效而簡單地進行系統管理。
2檔案管理中的聯合數據倉庫體系結構
數據倉庫的應用按用戶的需求可分為信息的使用和知識的挖掘兩類,數據挖掘即為知識發現中的一個步驟,知識發現過程一般由以下幾個步驟組成:①數據清理;②數據集成;③數據選擇;④數據變換;⑤數據挖掘;⑥模式評估;⑦知識表示。數據挖掘的概念就是從存放在數據庫、數據倉庫或其它信息庫中的大量數據中識別出有效的、新穎的、潛在有用的,以及最終可理解的知識的過程。利用數據倉庫技術建立知識管理工具庫,對相關的顯性和隱性知識資源進行明晰化、系統化地管理。定位擁有專門技能的人,建立專家網絡,讓所有人都能快速而方便地學習或了解所需要的信息和知識,無論數據庫、文檔、圖片還是音像信息。要達到這一目標,我們就需對知識進行合理地分類規劃,將它們分門別類地放進各個倉庫里,因此,分類整理、存儲及管理知識倉庫是數據挖掘的重要步驟。
將數據倉庫技術應用于檔案的知識化管理,較為常見的就是通過對檔案數據開展研究,形成專業的數據處理系統。數據處理系統主要形式有兩種:基于知識庫的模糊推理和基于庫存檔案資料的模糊推理。數據倉庫技術對各類工作過程中發生的所有數據進行了集成、綜合、對比,其數據真實可信,對比性和推理性強。因此,基于數據倉庫技術的知識化管理