999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據清洗研究綜述

2020-08-26 07:46:55廖書妍
電腦知識與技術 2020年20期
關鍵詞:數據質量

摘要:數據清洗是數據分析、數據挖掘等研究的起點。本文對數據清洗的研究進行了綜述。首先闡述了數據清洗與數據質量的關系,然后說明了數據清洗的概況,并分析了數據清洗的步驟及方法,最后簡要介紹了國內外關于數據清洗的研究近況,同時對中文數據清洗研究做了展望。

關鍵詞:臟數據;數據清洗;數據質量;相似重復數據;清洗步驟

中國分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2020)20-0044-04

A Review of The Development of Data Cleaning

LIAO Shu-yan

( Central China Normal University, Wuhan 430079, China)

Abstract: Data cleaning is the starting point of data analysis, data mining and so on. In this paper, the research of data cleaning isreviewed. Firstly, the relationship between data cleaning and data quality is explained, and then the data cleaning is described. andthe steps and algorithms of data cleaning are analyzed, and the research situation on data cleaning at home and abroad is brieflY- in-troduced. and the research on Chinese data cleaning is a prospect.

Key words: dirtV data; data cleaning; data quality; similar duplicate data; cleaning steps

1引言

數據是信息時代的標志性產物,逐漸獨立于軟件產品,甚至主導了某些軟件產品的發展。在互聯網蓬勃發展的時代,人們能夠從各個方面獲得海量數據。在獲得數據之后,人們往往希望能對這些數據進行不同的處理,并從中抽取出有價值的信息。為了得到滿足人們需要的有價值的信息,就要求所獲得的數據具有可靠性,同時能夠準確反映實際情況。但是實際上,人們獲得的第一手數據通常是“臟數據”。“臟數據”主要指不一致或不準確數據、陳舊數據以及人為造成的錯誤數據等[1]。如果對臟數據不加以必要的清洗處理就直接分析,那么從這些數據中得出的最終結論或規律必然是不準確。數據清潔的重要性由此凸顯出來一它能提高數據的公信力和準確度,因而對數據清洗的研究就顯得至關重要。

2數據清洗與數據質量的關系

數據清洗過程的主要加工處理對象是臟數據。臟數據本身具有的不一致和不準確性等特點,直接影響了數據的顯式和隱式價值,即直接影響了數據的質量。良好的數據清洗過程,能有效地剔去臟數據中的糟粕,使其內含的價值顯露。因此數據清洗在提高數據質量上起著決定性的作用。

數據質量指的是數據的準確性、及時性、一致性和完整性,這幾個指標在信息系統中得到滿足的程度[2]。通常將數據質量問題分為四類:單數據源模式層問題、單數據源實例層問題、多數據源模式層問題和多數據源實例層問題[3]。缺乏完整性約束以及架構設計差是導致單數據源模式層問題出現的重要原因。由數據記錄異常引發的單數據源實例層問題,主要包括拼寫錯誤、冗余記錄、數據內部的字段矛盾等。由異構數據模型和架構設計引發的多數據源模式層的問題,主要包括命名沖突、結構沖突等。由重疊不一致的數據引發的多數據源實例層的問題,主要包括聚合不一致、時間不一致等。數據質量問題的分類如圖1所示。數據清洗是一種提高數據質量的可行有效的技術方法,它主要用于處理在數據質量問題(例如冗余記錄和聚合不一致記錄)中,出現在實例層的臟數據。數據清洗具有一定的局限性,它需要與在模式層處理臟數據的數據整合技術共同使用,以充分提高數據的質量。

3數據清洗概況

3.1數據清洗的概念

由于數據清洗的應用領域多、應用范圍廣,因此尚未形成公認的定義。本文采用王曰芬教授[4]對數據清洗的定義:數據清洗為清除錯誤和不一致數據的過程,并需要解決孤立點和元組重復問題。從這個定義可以看出,數據清洗是一個復雜的過程,不僅僅要檢測出數據中存在的差錯、清除數據中存在的不一致,更重要的是對數據進行整合和分解,將臟數據轉變成干凈數據,供數據分析及數據挖掘使用,以便更好地找出數據之間的關聯,挖掘其內在價值。

3.2數據清洗的對象

數據清洗的對象可分成宏觀層面對象以及微觀層面對象。從宏觀層面上,數據清洗用于許多特定領域,如經濟領域、政治領域等。從微觀層面上看,數據清洗主要用于解決數據質量中在實例層出現的問題,如時間不一致等。

4數據清洗步驟

目前比較成熟的數據清洗框架已經有很多了,例如Trilli-um模型、AJAX模型等。這些模型雖然有所差異,但其中數據清洗的一般步驟大致相同,可以分為五個步驟。

1)需求分析。此階段的目的是通過分析數據的作用領域與運用環境,來明確有效數據的格式,并據此得到數據清洗的目標。

2)預處理。通過數據分析技術,從實例層和模式層出發,識別數據中存在的邏輯錯誤、不一致等數據質量問題,將獲取的數據質量信息整理歸檔。

3)確定清洗規則。根據預處理結果獲得的數據質量信息,分析臟數據產生的根本原因,從而定義數據清洗規則。數據清洗規則包括空值數據清洗規則、異常數據清洗規則、冗余數據清洗規則[5]等。不同的數據集的特性差異明顯,因此數據清洗要選擇適合數據集特點的規則。

4)清洗與修正。為避免錯誤的清洗導致數據遺失,在清洗之前有必要對數據進行備份。根據選擇的清洗規則或模型,對數據進行清洗。不同的清洗規則作用于相同的數據集所得的效果不盡相同。分析清洗后的效果,若不盡人意,則可能需要重新選擇清洗規則,再次清洗。根據最終清洗結果,修正已經歸檔的數據質量信息。

5)檢驗。使用相應的檢驗操作,驗證經過清洗后的數據是否符合預期要求。若不符合任務要求,可適當修改清洗規則或模型,重新進行數據清洗過程,并重新對結果進行檢驗評估。

5數據清洗方法

數據清洗技術與數據整合技術相輔相成,都用于解決數據質量問題。因此目前大多數數據清洗方法都內含了數據整合技術,主要從兩個方面對臟數據進行處理,一是從模式層著手,二是從實例層著手。從這兩個方面對臟數據進行分析與修正,以提高數據的質量。

5.1模式層的清洗方法

結構沖突和屬性約束是導致模式層臟數據出現的主要原因。針對這兩個方面,目前的清洗方法有面向結構沖突的清洗方法以及面向噪聲數據的清洗方法[6]。

5.1.1面向結構沖突的清洗方法

為解決結構沖突中的類型沖突、關鍵字沖突等,當前使用的主要清洗方法為人工手動清洗。與程序相比,人工手動清洗的方法更能夠識別數據中隱藏的結構沖突。盡管人工手動清洗方法的準確性很高,但面對內容過多的數據集,人工手動清洗的方法既費時又費力,效率也不高。

為解決結構沖突中的依賴沖突,目前采用的主要方法是函數依賴方法。此方法用于查找發現違反了函數依賴關系的數據從而進行清洗,但這種方法只能在滿足依賴關系的場合下使用,具有局限性。

5.1.2面向噪聲數據的清洗方法

噪聲數據的處理方法有分箱方法、人機組合方法、簡單規則庫方法等。

分箱方法是指通過檢查周圍的值來提高存儲的數據的擬合度。它屬于局部平滑方法,可以離散化數據并增加粒度,適用于數字型數據。

人機組合方法是指先參照計算機檢測到的可疑數據,再由相關人員根據專業知識對數據進行修改。此方法大大提高了數據清洗的效率,但不適用于大數據集。

簡單規則庫方法則是指通過建立某些規則以達到數據約束的目的。清洗時,檢查數據是否符合相應的規則,如果不符合則進行修正。此方法適用于規則性強的數據,并根據數據的規則來建立簡易規則庫,具有一定的局限性。

5.2實例層的清洗方法

數據本身的錯誤是導致實例層數據不干凈的主要原因。實例層數據清洗的核心在于檢測。檢測的主要內容包括屬性值的檢測、重復數據檢測以及離群點檢測。

5.2.1面向屬性值檢測的方法

屬性值的檢測主要是屬性錯誤值和空值。用于檢測屬性錯誤值的方法包括統計方法、聚類方法等[7]。用于空值檢測的方法主要是人工法、代表性函數值填充法等。

5.2.2面向重復數據檢測的方法

重復數據的檢測方法有很多,根據檢測內容進行分類,可以分為基于字段的檢測和基于記錄的檢測。

基于字段的檢測算法有Levenshtein Distance算法、余弦相似度函數算法[8]等。Levenshtein DistanCe算法易于實現。余弦相似度算法更多地用于檢測文本的相似度。通過該算法獲得的相似性度量的值越小,說明個體間越相似。

基于記錄的檢測算法有N-Crams算法、聚類算法、SNM算法、MPN算法等[9]。N-Crams算法生成一個哈希表,然后根據哈希表來判斷記錄之間的相似性;聚類算法通過計算將相似的數據歸為一類;SNM算法實現較為容易,但在很大程度上取決于關鍵字,依賴性較強;MPN算法的優點是它可以更為全面地收集重復的數據,但使用起來較為煩瑣。

5.2.3面向離群點檢測的方法

離群點檢測是用于檢測與其他數據點明顯不同的對象,這樣的對象也被稱為離群值。離群點檢測算法主要包括基于統計模型的算法、基于接近度的算法、基于密度的算法以及基于聚類的算法等。基于統計模型算法的檢測步驟為:首先建立數據模型,然后根據模型進行分析,最終得到離群點。基于接近度的算法主要定義對象之間的接近度。基于密度的算法核心是檢測物體的局部密度,當它的局部密度低于大多數鄰域內對象時,則被判斷為離群點。基于聚類算法用于查找局部強烈關聯的對象組,而孤立點是與其他對象沒有強烈關聯的對象。檢測完成之后,根據數據檢測結果對錯誤數據進行校正,以達到清洗的目的。

6數據清洗國內外研究現狀

6.1國外研究現狀

數據清洗的研究最早出現在美國,從對全美社會保險號錯誤的糾正開始[10]。數據清洗的早期研究主要集中在英文信息數據上。研究的內容主要涉及:1)異常數據的檢測與消除;2)近似重復數據的檢測與消除;3)數據整合;4)特定領域的數據清洗。為了滿足信息產業和商業業務發展的需求,國外市場已經在相關的領域開發了清洗軟件。

6.2國內研究現狀

由于中英文語法的差異,國外有關數據清洗的研究并不完全適用于中文數據清洗。國內有關數據清洗的研究起步較晚,并將長期處于起步發展階段。同時,國內對數據清洗的研究主要是對外文清洗方法的改進,結合中文語法的特點,將其運用于中文數據清洗中。研究的內容主要在數據倉庫、決策支持、數據挖掘等方面[11]。

國內對于數據清洗的研究團隊主要有:

1)處理數據重復問題:復旦大學的周傲英教授團隊[12]、沈陽航空工業學院的夏秀峰教授[13]、李蜀瑜博士[14]、東南大學的董逸生教授的團隊[15];

2)處理數據集成問題:北京大學的楊冬青教授的團隊[16]、武漢理工大學的袁景凌副教授[17]、東南大學的董逸生教授團隊、復旦大學的周傲英教授團隊;

3)處理特定領域問題:中科院的劉清[18]、山東理工大學的王曉原教授[19]、西安理工大學張璟教授[20]、沈陽航空航天大學的夏秀峰教授團隊。

7中文數據清洗展望

國內對于數據清洗的理論研究尚未成熟,因此鮮有中文數據清洗軟件在市場流行。但在大數據盛行的時代,中文數據清洗的研究仍有廣闊的發展前景,針對不同領域的數據清洗仍將是研究重點。

參考文獻:

[1] Fan Wenfei.Extending dependencies with conditions for datacleaning[C]//8th IEEE International Conference on Computerand Information Technology,2008: 185-190.

[2] Aebi Daniel. Perrochon Louis. Towards Improving Data Quality[M].1993:278-281.

[3] RAHM E,DO H H.Data cleaning:problems and current ap-proaches[J]. 2000,23(4):3-13.

[4]王曰芬,章成志,張蓓蓓,等.數據清洗研究綜述[J].現代圖書情報技術,2007(12):50-56.

[5]趙月琴,范通讓.科技創新大數據清洗框架研究[J].河北省科學院學報,2018,35(2):35-42.

[6]葉鷗,張璟,李軍懷.中文數據清洗研究綜述[J].計算機工程與應用2012,48(14):121-129.

[7] Maletic J I,Marcus A.Data cleansing: beyond integrity analysis[J].Division of Computer Science,2000.

[8] Salon G,Mcgill M J.lntroduction to modern information retriev-al[M].New York: McGraw-Hill Book Co,1983.

[9]蔣園,韓旭,馬丹璇,等.相似重復數據檢測的數據清洗算法優化[J/OL].計算機技術與發展,2019(10):1-9.

[10] Calhardas H,Florescu D.An Extensible Framework for Da-ta Clean-ing[C]. In: Proceedings of the 16 th IEEE International Conf erence on Dat a Engineering. San Di ego, Califor-nia.2000:312-312.

[11]王曰芬,章成志,張蓓蓓,吳婷婷.數據清洗研究綜述[J].現代圖書情報技術,2007(12):50-56.

[12]邱越峰,田增平,李文,等.一種高效的檢測相似重復記錄的方法[J].計算機學報,2001,24(1):69-77.

[13]劉哲,夏秀峰,宋曉燕,等.一種中文地址類相似重復信息的檢測方法[J].小型微型計算機系統,2008,29(4):726-729.

[14]石彥華,李蜀瑜.聚類反饋學習的數據清洗研究[J].計算機工程與應用,2011,47(30):127-131.

[15]韓京宇,徐立臻,董逸生.一種大數據量的相似記錄檢測方法[J].計算機研究與發展,2005,42(12): 2206-2212.

[16]方幼林,楊冬青,唐世渭,等.數據轉換過程的串行化方法[J].計算機工程與應用,2003,39(17):4-6,187.

[17]袁景凌,徐麗麗,苗連超.基于XML的虛擬法異構數據集成方法研究[J].計算機應用研究,2009,26(1):172-174.

[18]張晉輝,劉清.基于推理機的SCI地址字段數據清洗方法設計[J].情報科學,2010,28(5):741-746.

[19]王曉原,張敬磊,吳芳.交通流數據清洗規則研究[J].計算機工程,2011,37(20):191-193.

[20]劉嘉,張璟,李軍懷.一種基于Token匹配的中文數據清洗方法[J].計算機應用與軟件,2009,26(11):4345,53.

【通聯編輯:梁書】

收稿日期:2020-03-23

基金項目:文章由“華中師范大學大學生創新創業訓練計劃項目資助”(項目編號為20190410005)

作者簡介:廖書妍(1999-),女,福建長汀縣人,華中師范大學計算機學院本科生,主要研究方向為軟件工程。

猜你喜歡
數據質量
電子商務平臺數據質量控制系統及仿真模型分析
現代情報(2016年11期)2016-12-21 23:41:05
基于大數據背景下提高供電局數據質量對策分析
強化統計執法提高數據質量
淺析統計數據質量
中國市場(2016年40期)2016-11-28 04:58:19
金融統計數據質量管理的國際借鑒與中國實踐
時代金融(2016年27期)2016-11-25 19:02:25
淺談統計數據質量控制
提高政府統計數據質量,增強政府公信力
企業統計工作之我見
統計學在質量管理中的應用研究
商(2016年13期)2016-05-20 09:28:35
關于突發環境事件應急監測的問題分析及措施
主站蜘蛛池模板: 亚洲无码久久久久| 波多野结衣视频网站| 伊人久久大香线蕉影院| 秋霞一区二区三区| 国产精品极品美女自在线| 亚洲成a人片7777| 久久国产成人精品国产成人亚洲 | 九一九色国产| 中文字幕亚洲精品2页| 亚洲经典在线中文字幕| 日韩免费毛片| 精品国产一二三区| 22sihu国产精品视频影视资讯| 天天色天天操综合网| 日日拍夜夜嗷嗷叫国产| P尤物久久99国产综合精品| 色婷婷国产精品视频| 综合色天天| 国产精品三级专区| 欧美精品亚洲精品日韩专区va| 无码乱人伦一区二区亚洲一| 亚洲人成网站色7777| 毛片视频网| 亚洲AⅤ波多系列中文字幕| 奇米影视狠狠精品7777| 国产成人无码播放| 亚洲精品自拍区在线观看| 中文字幕免费视频| 在线视频亚洲欧美| 欧美色综合网站| 亚洲国产日韩欧美在线| 99re在线观看视频| 三上悠亚一区二区| 日韩AV无码一区| 免费女人18毛片a级毛片视频| 精品一区国产精品| 亚洲热线99精品视频| 一本一道波多野结衣一区二区| 在线亚洲精品福利网址导航| 午夜高清国产拍精品| 亚洲人成网7777777国产| 青青草国产精品久久久久| 波多野结衣一区二区三区四区视频| 国产超碰在线观看| 国产精品久久自在自2021| 亚洲天堂网在线播放| 无码专区第一页| 亚洲无码熟妇人妻AV在线| 91国语视频| 国产网友愉拍精品| 77777亚洲午夜久久多人| 欧美影院久久| 成年人久久黄色网站| 国产成人精品视频一区二区电影 | 欧美日韩另类国产| 日韩欧美中文字幕一本| 国产制服丝袜无码视频| 无码精品一区二区久久久| V一区无码内射国产| 国产在线精品美女观看| 亚洲无码高清免费视频亚洲| 国产自在自线午夜精品视频| 国产亚洲精品va在线| 久久精品无码中文字幕| 一级在线毛片| 手机成人午夜在线视频| 精品人妻AV区| 欧美一区二区三区国产精品| 在线无码私拍| 中文字幕av无码不卡免费| 久青草国产高清在线视频| h视频在线播放| 99re66精品视频在线观看| 亚洲欧美国产五月天综合| 日韩一区二区在线电影| 久久精品一品道久久精品| 国产va免费精品| 国产特级毛片aaaaaa| …亚洲 欧洲 另类 春色| 91免费观看视频| 最新亚洲av女人的天堂| 亚洲五月激情网|