袁國民

摘要:本文討論了數據倉庫技術在企業管理工作中的應用及其潛在價值,并提出了在企業中構建數據倉庫及其應用的方法和建議,認為數據倉庫技術必將在企業管理工作中起到積極有效的作用。
關鍵詞:數據倉庫管理信息化資源整合
中圖分類號:TP3-4
一、引言
隨著信息技術的發展,互聯網已成為人們進行信息共享的最有效的工具之一。伴隨著數字化建設的深入,相繼建設了眾多的資源管理系統和企業管理平臺,對網絡的依賴日趨增加,越來越多的管理信息通過數字化進入網絡環境,以文件、數據庫等多種形式出現在網絡上,并像滾雪球般在迅速堆積。信息的增長在給人們帶來方便的同時也給我們提出了一個重要的課題:能否從紛繁復雜的信息堆中及時挖掘出有價值的內容,為人們提供有效的服務,從而充分發揮網絡化系統的卓絕優勢。
數據倉庫正是解決上述問題的最好工具,它是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合,可以用于不同粒度的多維數據分析,通過數據挖掘提取有用的信息,其建立在公正的、全面而完善的歷史信息基礎之上的分析結果,可以為企業高層決策提供足夠有效的依據,最大限度地發揮信息技術的特點。
二、數據倉庫的實現方式
建立數據倉庫并不是要取代關系數據庫,與關系數據庫不同,數據倉庫并沒有嚴格的數學理論基礎,它更偏向于工程。數據倉庫建立在一個歷史“信息基”上的應用,用于支持決策分析,而事務處理數據庫承擔的是日常基礎業務的處理。數據倉庫是數據庫技術的一種應用,大部分依賴于關系數據庫管理系統來管理其中的數據。因而在技術上將建立數據倉庫的過程分為:數據的抽取、存儲和管理、數據的表現。系統架構主要由數據源、數據倉庫的后臺工具、數據倉庫服務器、0LAP(聯機分析處理)服務器和前臺分析查詢工具等幾部分組成。
本系統采用了Microsoft數據倉庫解決方案,使用SQLServer 2003進行數據倉庫的創建。Microsoft將OLAP(聯機分析處理)的功能集成到SOL Server中,提供可擴充的基于COM的OLAP接口,Microsoft Office 2003套件中的Excel可以作為數據展現工具,SQL Server本身也支持第三方數據展現工具。本數據倉庫的設計規范化,采用總線結構,建立統一的事實表和維度表,使用雪花型的數據結構。
把企業員工信息系統、員工績效信息系統、企業財務信息系統等中的相關數據利用SOLServer 2003中的DTS(數據轉換工具),經過抽取、轉換、清洗和裝載等過程,導入數據倉庫中,其系統組成如圖1所示:
必須注意到的是在將各種異構的數據源導入時要進行整合處理。數據準備好之后,就可以利用SOL Server 2003中安裝的分析服務器和其他工具軟件進行數據分析、數據挖掘和管理決策。
三、數據倉庫在企業管理中的應用
對企業管理來說,建立數據倉庫的數據可能來自本企業各級職能部門和企業外部等,所有這些數據從結構上看,是相對獨立的,按通常的經驗來說,企業管理者是沒有辦法進行全面分析和利用的。根據數據倉庫建立的要求,就必須把分散的、無法統一訪問的數據從各種信息系統中分離,經過抽取、凈化、轉換、遷移為統一、隨時可用的數據,通過進一步的加工把信息轉換成不同大小、各式各樣的數據集市以利于企業管理部門作為專題性分析和輔助決策之用。同時還要考慮采集、入庫以及刷新的自動處理,并為今后的擴展預留外部接口。總之,數據倉庫就是要把分散的、難以訪問的日常營運數據轉化為集中統一、隨時可用的信息。
通常要先分析原有業務數據庫,確定待建的數據倉庫主題。再根據用戶的需求來確定各個級別數據倉庫的存儲主題。這里我們選取員工銷售業績分析為例。首先我們要搜集所有和員工銷售業績有關的數據,這可能來自于多個部門的多個數據庫,為了保證數據的準確一致以及數據格式的統一,我們需要對原始數據進行數據預處理,一般經過數據清理、數據集成和數據變換三個步驟。例如,有的員工業績采用百分制,有的采用等級制,那我們要統一轉換成百分制來保證一致性。
經過數據預處理之后,便可確定數據倉庫的模型。在員工績效分析系統中,我們選取“員工銷售業績表”為基本事實表,選取“員工信息表”、“產品信息表”、“銷售區域信息表”、“客戶信息表”和“客戶投訴表”五個維度表。我們建立“雪花”模型,即該數據倉庫以員工銷售業績事實表為核心,員工信息表、產品信息表、銷售區域信息表、客戶信息表以及客戶投訴表五個表從邏輯上圍繞在核心表的周圍,構成雪花結構。
有了事實數據與維度數據,也設計了數據的雪花結構,就可以利用數據挖掘技術,實現對企業信息數據的查詢和應用,從中找出對企業生存和發展的有用信息,提供決策依據。數據挖掘支持知識發現,可以找出隱藏的模式和關聯,構造分析模型,進行分類和預測。
OLAP是數據匯總/聚焦工具,用于簡化數據分析過程。OLAP系統可以提供數據的一般描述,通過上卷、下鉆、旋轉、切片、切塊和其他操作實現數據匯總和比較。可以建立以關系型聯機分析處理(ROLAP)方式存儲的銷售業績分析多維數據集(以時間維、員工維、產品維、客戶維為維度,業績為度量值)、平均銷售業績分析多維數據集(以時間維、員工維、客戶維為維度,平均業績為度量值)等等許多個不同的多維數據立方體。從多種角度來分析銷售業績數據中蘊藏的規律。
四、結語
隨著產品類型的逐年增加以及客戶對產品質量期望值的一再提高,我們不能因循守舊的把企業的信息化建設簡單地理解為將企業的信息數字化,而是要充分利用海量歷史數據輔助我們的企業管理以及相關決策。這樣就必須建立數據倉庫并去發掘其隱藏的規律或模式,為企業管理提供有效的支持。雖然數據倉庫只是一種工具,它不能替代企事業管理者,但是它可以為企業管理者的決策提供科學的依據,為企業發展提供有力的支持。
參考文獻:
[1]李雄飛、李軍,《數據挖掘與知識發現》高等教育出版社,2003.
[2]Imnon,W. H.,Building the Data Warehouse [M].John Wiley and Sons,1996.
[3]劉翔.數據倉庫與數據挖掘技術[M].上海:上海交通大學出版社,2005.
[4]馬國俊.基于OLAP的企業數據倉庫規劃與建設.制造業自動化,2011(12).