[摘 要] ERP系統內部控制是企業管理信息化研究的一個重要內容,本文應用數據倉庫理論中的數據質量概念,借鑒數據預處理方法,從數據質量控制角度,研究數據倉庫環境下ERP系統的數據質量控制;在數據安全控制基礎上引入數據質量控制內容,將ERP系統內部控制內容之一 —— 數據控制的內涵延伸。
[關鍵詞] 數據倉庫;ERP;數據質量控制
[中圖分類號]F232[文獻標識碼]A[文章編號]1673-0194(2009)02-0010-03
近幾年,隨著ERP系統與數據倉庫領域的應用結合,數據倉庫環境下ERP系統內部控制成為目前研究的一個前端問題,本文中所討論的ERP系統數據質量控制,是指應用數據倉庫理論中的數據質量概念,通過數據收集、數據識別/匹配、數據標準化、數據清理和數據集成等,實現ERP系統數據優化的過程。
一、數據倉庫概念
數據倉庫是在數據庫發展的基礎上產生的,美國W.H.Inmon博士將數據倉庫定義為:“一個面向主題的、集成的、非易失的并且隨時間而變化的數據集合,用于支持管理層的決策過程”。數據庫為數據倉庫提供數據,是數據倉庫的基礎。數據倉庫主要應用于聯機決策分析。
二、數據質量定義
提到數據質量,人們首先想到的就是控制錯誤數據的輸入,以保證所輸入的都是合法的數據值。實際上,數據質量的定義不僅如此。數據質量反映數據倉庫中數據的固有屬性,可分為數據的完整性、源數據的可信性、數據的正確性、數據的一致性以及數據的唯一性等。
數據倉庫中對數據質量的定義如下:
(1)正確性。數據要正確,它的值就必須與數據域一致。
(2)準確性。數據值可能是正確的但不一定準確,而且不準確數據不會符合預先定義好的業務規則。
(3)一致性。數據用戶經常會發現一個文件中的某個字段的值與另一文件中相同字段的值不一樣。
(4)完整性。我們往往把關注的重點局限于某一個用戶或者部門的數據需求上,這樣會忽略一些重要的其他相關數據元素。
(5)數據整合。許多企業的數據是散布于眾多系統和文件中的,因此數據存在冗余且缺乏一致性。這些系統和文件中的數據模式不同,未經整合將無法使用。
三、數據出現問題的原因
ERP系統數據出現問題的主要原因是:①數據輸入不規范,同一部門不同的成員有不同的數據輸入格式,造成數據不單一。②數據操作權限混亂,數出多門,同一業務數據在不同部門出現不同值。③企業本身一些業務不規范,沒有及時形成業務數據,導致系統中的數據不完整。④數據儲存多樣性,數據以不同的模式存儲在不同的文件和數據庫中,數據存儲在物理上獨立的多個數據中心中,數據存儲在不同的硬件平臺之上,并且這些平臺運行不同的操作系統。⑤多數據源造成的,有的數據來自關系數據庫系統,有的來自文檔,數據源本身的正確性和質量會直接影響數據質量。
四、數據質量問題分類
ERP系統數據質量問題按照數據源可劃分為單數據源問題和多數據源問題兩類。
單數據源數據質量問題分為如下4類:
(l)屬性(字段)。這類錯誤僅僅局限于單個屬性的值。例如,city=“客戶”,屬于輸入錯誤。正確的輸入是城市名稱。
(2)記錄。這類錯誤表現在同一條記錄中不同的屬性值之間出現的不一致。例如,city=“北京”,zip=300012,屬性依賴沖突,城市名稱和郵編之間應該是相對應的。
(3)記錄類型。這類錯誤表現在同一個數據源中不同的記錄之間的不一致關系。例如,記錄1:(“李四”,“三星公司”),記錄2:(“李四”,“諾基亞公司”),同一實體被不同的值描述,屬于沖突錯誤。
(4)數據源。這類錯誤表現在數據源中的某些屬性值和其他數據源中相關值的不一致關系。例如,員工:name=“李四”,DEP=15,屬于引用錯誤,存在編號為15的部門,但該員工不在此部門。
多數據源數據質量問題包括:在多數據源集成過程中,每個數據源往往是為了滿足特定的服務需求而進行設計、部署和維護的,也就是說它們在設計開發時是相互獨立的,因此與這些數據源相關的數據庫管理系統、數據模型、數據模式的設計以及數據格式等都存在很大程度的不同。此外,每一個數據源中都可能包含臟數據,不同數據源對同一數據可能存在不同的表示形式、數據重復或者數據沖突。因而相同的數據質量問題在多數據源集成之后,會比在單數據源情形下表現得更為復雜和嚴重,比如結構沖突、命名沖突、重復記錄等。命名沖突是指相同的名字用于不同的數據對象,或者不同的名字用于同一個數據對象。結構沖突存在很多種不同的情況,往往是指在不同數據源中對同一個數據對象的不同表示,比如屬性的粒度、不同的組成結構、不同的數據類型、不同完整性約束等。此外,即使不同的數據源之間具有相同的屬性名稱和數據類型,也仍然可能存在不同的數據值表示(如,在某一個數據源中用M、F分別表示男、女,而在另一個數據源中用0、1來表示)。另外,不同數據源提供的信息可能聚焦在不同的聚合層次(如某個數據源中單條記錄描述的是某個產品的銷售信息,而另一個數據源中一條記錄描述的可能是一組同類產品的銷售信息)以及代表的時間地點都有可能不同。
五、數據倉庫環境下ERP系統數據質量控制實現
ERP數據質量的控制大體上可分為3種,即對數據源引起的數據質量問題進行控制,對抽取、轉換、加載過程引起的數據質量問題進行控制和對數據倉庫內部數據進行管理與控制。數據倉庫環境下ERP系統數據質量控制主要是通過數據預處理方法來實現的。
按照ERP系統業務處理流程,數據預處理內容劃分為3類:
(1)靜態數據(或稱固定信息),一般是指在生產活動前要準備的數據,即使是靜態數據,也要定期維護,保持其準確性。系統運行時,訪問靜態數據一般不作處理。
(2)動態數據,一般指生產活動中發生的數據,不斷發生、經常變動,如客戶合同、庫存記錄、完工報告等,一旦建立,就需要隨時維護。
(3)中間數據,是指根據用戶對管理工作的需要,由計算機系統按照一定的邏輯程序,綜合靜態數據和動態數據,經過系統運算形成的各種報表。
靜態數據和動態數據是輸入數據,中間數據是經過系統處理后的數據。如果輸入的數據是不可靠的,那么加工處理后的中間數據也是不可信的,不可能用它做出正確的決策。
ERP系統基礎數據來源主要有以下幾種:
(1)物料與產品信息,包括生產中所涉及的原材料、中間體、產成品、各種輔料及各種包材,涉及銷售、計劃、生產、供應、物料、成本、設計、工藝等部門,體現了數據共享和信息集成。
(2)生產管理信息,包括企業進行生產所必需的基礎輔助數據,包括企業工作中心、工藝流程和工作日歷等。
(3)其他數據信息,包括企業核算編碼體系;部門、職員信息;會計科目、貨幣、計量單位、結算方式的信息;客戶/供應商物品資料和價格的信息;客戶/供應商資料及權限的信息等。這些數據作為系統管理中的基礎數據,在進行系統初始化時,都必須首先準確錄入。
在數據倉庫環境下,通過提取、轉換和加載處理,將數據從數據庫中提取出來,轉換成與數據倉庫一致的格式,加載到數據倉庫中集中存儲,系統根據需要對數據倉庫中的相關數據進行數據挖掘(DM)或聯機分析處理(OLAP),然后將生成的結果傳遞給企業內部的或外部的人員,以滿足企業管理和決策的需要。
數據預處理主要包括5個過程:數據提取、數據清理、數據集成、數據變換與數據規約、數據加載。主要是根據要求從異地異構數據源(包括各平臺的數據庫、文本文件、HTML文件、知識庫等)提取相關的數據,然后對前一階段產出的數據進行再加工,檢查數據的完整性及數據的一致性,對其中的噪聲數據進行處理,對丟失的數據進行填補。
數據提取是將分散在多個數據源中的信息抽取出需要的數據。在Windows平臺環境下,利用基于ODBC等數據引擎的數據訪問工具可快捷地訪問幾乎所有的數據庫數據源,即為每個數據源建立相應的系統DSN,然后利用簡單的導入/導出(Import/Export)或使用SQL存儲過程實現數據提取。如果數據源以文本、表格等非數據形態出現,提取其中的數據需要按不同方式進行考慮。通常情況下,這種文本的格式是固定的或者具備某種特征的,或者在局部范圍內按一定規則變化,可以在描述數據格式的基礎上利用過程語言內嵌入的SQL語句或庫函數調用讓系統自動生成所需的提取代碼。
數據清理操作是消除噪聲或不一致數據,也稱為數據凈化,是針對原始數據中不完整的、含噪聲的、不一致的數據進行整理和補充的過程。噪聲數據是數據源中的錯誤或偏差數據。
數據集成操作是將來自不同數據源的數據整合成一致的存儲數據,這些來自不同數據庫中的數據按照某一標準進行統一,即將數據源中數據的單位、字長與內容統一起來,將源數據中字段的同名異義、異名同義現象消除掉,這些工作統稱為數據的清理。即數據必須加以轉換,從而以統一的編碼規則表示,將源數據加載進數據倉庫后進行某種程度的綜合。例如,有兩個數據源存儲與人員有關的信息,在定義人員性別屬性的類型時,一個可能是char(2),存儲的數據值為“男”和“女”;而另一個屬性類型為char(1),數據值為“F”和“M”。這兩個數據源的值都是正確的,但對于目標數據來說,必須以一種統一的方法來表示該屬性值,然后交由最終用戶進行驗證,這樣才能保證數據的質量。
數據變換是通過規格化和聚集形成適合挖掘的形式。數據規約操作是壓縮現有的數據集,既能減少數據集的大小,又不影響數據挖掘的結果。數據變換與數據規約實際是對數據進行匯總、聚集、壓縮,而且不丟失信息。
數據加載主要是將經過轉換和清洗的數據加載到數據倉庫里面,即入庫。用戶可以通過數據文件直接裝載或直聯數據庫的方式來進行數據裝載,充分地體現其高效性。
六、結束語
隨著ERP系統與數據倉庫領域應用的緊密結合,以及數據質量概念在ERP系統中的廣泛應用,將來ERP系統內部控制內容之一 —— 數據控制,其內涵不再局限于數據安全控制方面,同時數據質量控制也會成為數據控制的一個重要內容。
主要參考文獻
[1] 陳京民,等. 數據倉庫與數據挖掘技術[M]. 北京:電子工業出版社,2002:5.
[2] 錫德·阿德爾曼,等. 數據倉庫項目管理[M]. 薛宇,王劍鋒,譯. 北京:清華大學出版社,2003:293.
[3] 熊霞. 數據倉庫中數據質量控制問題研究[D]. 武漢:武漢大學,2004:24-26.
[4] 喻金龍. 基于ERP的數據管理研究[D]. 成都:西南石油學院,2005:27-29.