摘要:數據清理不僅是進行數據預處理的首要步驟,還是企業建立數據倉庫的前提。文章首先介紹了數據出現質量問題的原因。對數據清理的一些基本內容以及當前進行數據清理主要方法進行概述。最后對企業進行數據清理的未來發展進行了展望。
關鍵詞:企業數據;質量;清理
中圖分類號:TP311.13文獻標識碼:A文章編號:1006-8937(2011)20-0078-01
1數據質量問題
企業所掌握的大量數據中,數據質量的高低是一個關鍵性問題。因為數據質量是創建數據倉庫以及進行數據集成工作中的關鍵。如果企業沒有深刻地對數據進行有效地分析,沒有發現所掌握的信息數據所存在的問題,盲目進行開發、集成,造成的后果不僅是后來的數據倉庫創建失敗的經濟損失,更有可能造成嚴重的企業決策失誤,還有可能導致企業面臨倒閉的危險。從語義角度而言,數據是事實及意義的結合體。常見質量問題的數據主要的特征包括:不完整數據、錯誤數據和重復數據三種。
2企業數據清理基本概述
數據清理是構建數據倉庫和信息數據挖掘的必要因素。數據清理在不同的應用領域的要求是不完全相同的,很難有一致的定義,但總的來說,所謂數據清理就是:將雜亂無章的數據轉換成所需要的正確可靠的數據。因此,企業進行數據清理目的就是檢測所掌握的數據中存在的錯誤和不一致性,刪去或修正這些數據,以提高所掌握的數據的質量,為企業決策提供有效地幫助。
2.1數據清理步驟
①數據分析。用恰當的統計方法對企業收集來的大量一手資料數據信息以及二手資料數據信息進行分析,以求最大化地開發挖掘數據資料的功能,發揮數據的作用。通過對數據的分析,可以把隱藏在大量雜亂無章的數據中的數據信息集中、提取、提煉出來,以找出所研究對象的內在規律,并研究找出合適的清理算法。
②數據檢測。根據預先設定的清理規則及相關數據清理算法,對數據進行檢測,例如數據是否滿足字段域、業務規則,或檢測記錄是否重復等。
③對掌握的數據進行修正。數據修正是指通過人工或軟件自動的修正檢測到出現錯誤的數據或對數據進行的處理重復記錄。結合學者們的觀點,按照對數據清理的實現方式與范圍,數據清理可分為四種:其一,人工實現對數據的修正。其二,通過編寫專門的應用程序來自動的進行對數據的修正。其三,解決某類特定應用領域的問題,例如按照概率統計學原理查找異常的數值記錄,對姓名、地址、郵政編碼等數據,這是目前研究得較多的領域,也是應用最廣泛、最成功的一類。其四,對與特定應用領域無關的數據進行清理。這一部分的研究主要集中在清理數據的重復記錄上。
2.2當前解決數據異常的檢測方法
基于契比雪夫定理的統計學方法,這種方法可以隨機地選取樣本數據進行分析。優點是加快了檢測速度,但是這種方法不足的地方是以犧牲準確性作為代價的方法。模式識別法,基于數據挖掘和機器學習算法來查找異常數據,這種方法用了關聯規則算法。基于距離的聚類方法,此類方法重點在于它的評測標準為歐幾里德距離或 Edit 距離,以此發現數據集中的重復記錄。增量式的方法,如果數據源允許,可以隨機的方法獲取元組,輸入一個隨機的元組流。
3數據清理未來發展趨勢
數據清理是提供正確信息的前提,而正確信息又是提供企業正確決策的必備參考。將來數據清理將有以下幾個發展趨勢:未來轉換、檢測將盡可能的會具有通用性,而且不是每次依賴大量的編程工作。未來要在現有的算法和功能基礎上,完成設計相應的數據清理系統,使他具有相對的通用性。未來通用性主要需要實現的技術有數據標準化、術語化,通用的接口標準,即通用的過程描述語言。研究設計一種可交互并且具備可擴展性的數據清理系統也將是未來數據清理的發展趨勢。可交互性支持用戶通過系統反饋的檢測統計圖表,實時地修改轉換過程,避免用戶與系統的隔離,可擴展性更加推進數據清理工作的完成。所以未來將二者有機結合將是數據清理未來的發展趨勢。
4結語
數據清理不僅是有效地進行信息挖掘前提,而且是進行數據集成、數據變換、數據歸約的基礎以及首要工作。數據清理的質量如何,直接影響到數據倉庫中的數據信息對企業決策的支持水平。當前,數據清理可以說是企業信息化建設中的一項非常重要任務。因此,數據清理對現今企業來說至關重要。
參考文獻:
[1] [加]韓家煒,堪博著.范明,孟小峰譯.數據挖掘[M].北京:機 械工業出版社,2007.