李俊達 吳昊 毛秋宇 張復生
摘 要:數據質量問題會給數據分析和挖掘帶來致命的影響,因此需要對存在質量問題的數據進行清洗。數據清洗的方法和策略與具體的數據質量問題有關,本文以工業物料系統中的數據為實驗對象,提出了一套簡易高效的數據清洗流程,將通用的數據清洗的方法和策略實現具體化并加以改進。實驗結果表明,該流程具有良好的應用價值。
關鍵詞:數據質量;數據清洗;工業物料系統
中圖分類號:TP311.13 文獻標識碼:A 文章編號:2096-4706(2018)03-0022-03
The Process of the Data Cleaning Based on Industrial Material System
LI Junda1,WU Hao1,MAO Qiuyu1,ZHANG Fusheng2
(1.School of Computer Science and Technology,Jilin University,Changchun 130012,China;
2.Shanxi Youbai Information Technology Co.,Ltd.,Xian 710065,China)
Abstract:Data quality issues will result in lethal effects of the analysis and excavation of data,so it is needed to clean the data with the problem of data quality. Data cleaning techniques are related to specific data quality issues,this study takes the data of industrial material system as the experimental object,put forward a simple and efficient data cleaning process,externalizes and improves the methods and policies of general data cleaning. The experimental results show that the process has good application value.
Keywords:data quality;data cleaning;industrial material system
0 引 言
在早期建設的企業信息化系統中,企業不同部門一般擁有各自的數據庫。由于沒有嚴格的數據模式,即使是描述同一實體的數據對象在相同屬性上的值也可能存在不同的表示形式。例如,對“電流互感器”這一實體,在其他數據庫中可能表示為“電流互感組件”或者“電流互感器組件”。在統計物料數量時,如果把同一物料的不同描述當作是不同物料,會導致統計數量少于物料的實際數量。為了有效利用企業信息系統來支持決策,需要正確識別出數據庫中描述同一實體的元組。另外,早期企業信息化系統中的數據錄入多數采取人工的方式,會出現大量的異常數據。這里的異常數據即不一致、無效或數值缺失的數據,例如拼寫錯誤、不合法值、空值、沖突、簡寫、重復等,也稱為“臟數據”。
本文從某一國有企業的工業物料系統數據入手,來進行數據清洗。通過檢測數據集合中存在的不符合規范的數據,并進行數據修復,將原數據庫的數據提取、轉換并存儲到新的數據庫中,以提高數據質量。……