劉政宇
摘要:本文探討了數據清洗技術,研究了大數據的數據清洗技術及運用,希望為研究數據清洗技術的專家和學者提供理論參考依據。
關鍵詞:大數據;數據清洗技術;應用
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2019)04-0092-01
0 引言
大數據時代來臨,數據的類型多樣化,數據的數量增多,這給數據清洗帶來一定的問題,如何科學有效的對數據清洗,滿足現代企業發展需要。傳統的數據清洗方法已經不適合現代社會發展需要,尤其大數據時代數據的多元化,必須更新現在數據清洗技術,提高數據清洗的能力,滿足大數據時代數據清洗的需要。
1 數據清洗技術概述
數據在采集的過程中出現錯誤的數據是一種正常現象,一旦數據在應用與模型中已經形成,需要在數據庫中對錯誤數據進行處理,這時候需要發揮數據清洗技術的作用。為了提高數據質量而剔除數據中錯誤記錄的一種技術手段,在實際應用中通常與數據挖掘技術、數據倉庫技術、數據整合技術結合應用。在具體數據清洗的過程中,根據清洗數據的特點,需要選擇合適的數據清洗方式,同時選用其它數據分析相應的數據技術,對錯誤的數據進行科學有效的清洗,達到數據清洗的目的。
數據清洗技術的基本原理為:在分析數據源特點的基礎上,找出數據質量問題原因,確定清洗要求,建立起清洗模型,應用清洗算法、清洗策略和清洗方案對應到數據識別與處理中,最終清洗出滿足質量要求的數據。在對數據進行處理的過程中,數據清洗一般起到重要作用,其需要把錯誤的數據清洗,這樣對數據進行分析才有一定的意義。數據清洗是數據分析、數據挖掘的前提,也是數據預處理的關鍵環節,可保證數據質量和數據分析的準確性。數據處理是一個多元化因素,必須利用現有的技術進行科學有效的進行數據處理,在數據處理的過程中,數據清洗起到重要作用,數據分析前提必須數據正確,數據錯誤進行分析沒有任何意義。在大數據環境下,數據清洗技術已經被廣泛應用于大健康、銀行、移動通信、交通等領域,在一定程度上保證了數據質量,為大數據決策提供了可靠依據。數據清洗應用的范圍廣,有數據的地方,基本都需要數據清洗,在互聯網+時代,數據采集的多元化,這是增加數據錯誤的概率,進行數據清洗是非常必要的,也是非常重要的,是保障數據分析正確性起到決定性作用[1,2]。
2 大數據的數據清洗技術及運用
2.1 基于函數依賴的數據清洗技術
(1)建立數據庫。數據庫建立是數據清洗的重要過程,對數據的分析起到重要作用,數據庫對數據進行有效存儲,數據清洗過程中可以通過數據庫進行數據清洗,對數據庫中的數據質量,通過數據庫可以優化數據,在數據查找中起到重要作用,對原始數據庫進行科學有效的添加,刪除,選擇有用數據進行分析,對一些錯誤數據可以利用數據庫進行刪除,提高了數據的利用效率,對提升數據清洗效果起到重要作用。(2)數據篩選。數據篩選是數據清洗,數據挖掘,數據分析中常用的手段,在海量的數據中,通過數據篩選對數據進行分類,有助于進行科學數據清洗,對提高數據清洗的效率,保證數據清洗的質量都起到重要作用。數據篩選都需要利用數據庫中的字段進行數據篩選,字段之間有一定的關聯,通過函數之間讓字段產生一定聯系,確定數據清洗的關聯性,完整性,科學性,對提升數據分析起到促進作用。(3)數據查找。數據查找是數據庫的基本功能,在數據庫中進行數據查找非常方便,提高了數據查找的效率。在數據清洗,數據挖掘、數據分析中都涉及數據查找,數據查找對數據清洗都起到重要作用,利用數據庫字段進行查找,提升查找效率,對數據之間的實際應用起到重要作用。(4)數據清洗。數據庫之間利用字段之間的聯系,對提高數據清洗的效率,完成數據清洗的能力都起到重要作用,在實際數據清洗的過程中,利用數據庫之間函數之間的關系,通過字段之間的關聯,對數據清洗,修復、挖掘、分析等都起到重要作用,對提升數據清洗的效率起到重要作用[3]。
2.2 相似重復數據清洗技術
數據清洗技術在具體清洗數據的過程中,一般需要結合算法一起使用,對提高數據清洗的效率起到重要作用。基于排列合并算法是數據清洗技術中常用的算法,在數據清洗中起到重要作用。基于排列合并算法涉及數據庫的知識,對字段等進行實踐應用,對提高數據篩選,數據查找等都起到重要作用,對數據清洗起到基本保障作用,數據清洗的效率提升,對數據分析起到重要作用,數據庫中字段之間存在一定的關聯,對其中錯誤的數據記錄進行科學有效的清洗起到重要作用,在數據庫中數據冗余現象是一種常態,數據清洗重復記錄,對提高數據分析起到重要作用。基于排列合并算法的數據清洗技術對提高數據清洗效率起到重要作用,也是符合現代數據清洗技術發展的需要。
2.3 不完整數據清洗技術
不完整數據清洗技術主要針對數據庫字段是空值或錯誤字段,大數據時代,數據類型的多變性,對數據庫的數據采集,存儲都帶來了一定的挑戰,在實際應用過程中,其中在數據清洗過程中涉及一些常用數據庫函數,比如求和、平均、最大、最小值等。不完整數據清洗技術對數據清洗的流程有一定轉變,但在實際清洗過程中根據需要科學選擇清洗方法結合其它數據分析技術進行科學清洗。
2.4 不一致數據修復技術
大數據時代數據采集的多樣化,數據類型的多元化,這增加了數據錯誤的概率,同時為數據清洗增加了難度。在數據清洗的過程中存在數據類型等不一致情況,利用不一致數據修復技術不一定對數據清洗進行完整,起到數據清洗的效果。大數據環境下,數據源受多種因素的影響,違反完整性約束,造成大量不一致數據的產生。數據不一致的情況也是多樣化,必須對數據進行篩選,對數據科學進行歸類,為數據清洗進行科學準備。在數據清洗中,要利用不一致數據修復技術使不一致數據符合完整性約束,進而保證數據質量。但在數據實際清洗過程中,會出現多元化情況,這個數據清洗帶來一定的困難[4]。數據修復流程如:
(1)檢測數據源中的數據格式,對數據格式進行預處理;(2)檢測預處理數據后的數據是否符合完整性,如果不符合,則要修復數據。如果在數據修復之后依然存在著與數據完整性約束不一致的情況,則要再次修復數據,直到數據符合要求;(3)數據修復完成后,將其還原成原格式,為數據錄入系統打下基礎。數據清洗是數據分析的重要過程,需要把一些有問題的數據清洗,提高數據分析的準確性,也促使數據分析有意義,對促進其它行業的發展起到重要作用。
3 結語
總之,數據清洗是數據分析中的重要環節,在大數據時代,傳統的數據清洗方法已經不適合現代數據分析的要求,必須根據數據的轉變,結合數據挖掘等知識進行數據清洗,提高數據清洗的效果,滿足大數據時代企業對數據清洗的要求。
參考文獻
[1] 鄧線平.大數據清洗的方法論考察[J].江南論壇,2018(3):31-32.
[2] 葉鷗,張璟,李軍懷.中文數據清洗研究綜述[J].計算機工程與應用,2012(14):121-129.
[3] 譚暉,廖振松,周小翠,賀凡.大數據的數據清洗方法研究[J].信息通信,2017(01):238-239.
[4] 王志剛,毛亞瓊,徐越,梁永春.生態環境監測的數據清洗研究[J].網絡安全技術與應用,2019(1):94-95.