999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下的數據清洗框架研究

2018-01-02 08:44:52封富君姚俊萍李新社馬俊春
軟件 2017年12期
關鍵詞:數據庫環境檢測

封富君,姚俊萍,李新社,馬俊春

(西安高新技術研究所,陜西 西安 710025)

大數據環境下的數據清洗框架研究

封富君,姚俊萍,李新社,馬俊春

(西安高新技術研究所,陜西 西安 710025)

在大數據環境下會不可避免的存在一些臟數據,嚴重的影響了數據質量,而數據清洗是提高數據質量的重要方法,對數據清洗框架的研究可以幫助大數據的系統決策。提出了一個大數據環境下數據清洗的一般框架,并對核心的數據清洗模塊中的三個子模塊進行詳細的分析,包括不完整數據清洗子模塊、不一致數據修復子模塊和相似重復記錄數據清洗子模塊,且討論了其清洗的具體流程。

大數據;數據質量;數據清洗;相似重復記錄

0 引言

大數據環境呈現出“4V + 1C”的特點:數據量巨大(Volume)、數據類型繁多(Variety) 、價值密度低(Value)、處理速度快(Velocity) 和具有較強的復雜性(Complexity),原始大數據信息中混雜著許多不完整、錯誤和重復的“不清潔”數據,導致大數據存在著不一致、不完整性、低價值密度、不可控和不可用的特性[1-2]。面對如此龐大的數據量,人們希望從海量數據中挖掘出有價值的信息或知識,為決策者提供參考。由于數據錄入錯誤、不同表示方法的數據源合并或遷移等原因,不可避免的使系統存在冗余數據、缺失數據、不確定數據和不一致數據等諸多情況,這樣的數據稱為“臟數據”,嚴重影響了數據利用的效率和決策質量。因此,為使系統中的數據更加準確、一致,并能夠支持決策,數據清洗變得尤為重要,數據清洗的任務就是過濾或修改那些不符合要求的數據,輸出符合系統要求的清潔數據。

大數據技術由傳統的數據技術發展而來,繼承了傳統數據技術的概念與分析方法[3-4],例如數據清洗、數據倉庫等。傳統的數據清洗技術可以提供高質量的數據,并提高了數據分析的效率和正確性。大數據環境下的數據清洗同樣是大數據分析的基礎,是整個大數據處理的起始階段,決定了大數據處理結果的數據質量。本文對大數據環境下的數據清洗技術進行分析,并提出一個一般性的數據清洗框架。

1 數據清洗定義

產生數據質量問題的原因很多,例如:縮寫的濫用會造成數據的混亂;相似重復的數據記錄會增加數據庫的負荷,降低數據處理的效率;人為的失誤或系統的故障會造成缺失數據、不完整數據或異常數據等,這些原因都會導致“臟數據”的產生。數據清洗是將數據庫精簡以除去重復記錄,并使剩余部分轉換成符合標準的過程;狹義上的數據清洗特指在構建數據倉庫和實現數據挖掘前對數據源進行處理,使數據實現準確性(accuracy)、完整性(compliteness)、一致性(consistency)、適時性(timeliness)、有效性(validity)以適應后續操作的過程。從提高數據質量的角度來說,凡是有助于提高數據質量的數據處理過程,都可以認為是數據清洗。數據清洗是對數據進行處理以保證數據具有較好質量的過程,即得到干凈數據的過程。

對數據清洗定義的理解需要注意以下問題[5]:

(1)數據清洗洗掉的是“數據錯誤”而不是“錯誤數據”,目的是要解決“臟數據”的問題,即不是將“臟數據”洗掉,而是將“臟數據”洗干凈。

(2)數據清洗主要解決的是實例層數據質量問題,對一個給定的數據集,實例層數據質量問題是有限的、可檢測的和可隔離的。

(3)數據清洗不能完全解決所有的數據質量問題,即通過數據清洗提高數據質量的程度是有限度的,如對缺失值的估計有不確定性。

因此,對數據清洗的正確理解應該是“在盡可能不破壞有用信息的前提下,盡可能多地去除數據錯誤”,數據清洗可能損失有用信息,也可能產生新的數據質量問題。

2 數據清洗的基本原理

數據清洗原理是利用數據挖掘相關技術, 按照設計好的清理規則或算法將未經清洗的數據,即臟數據,轉化為滿足數據挖掘所需要的數據,如圖 1所示。數據清洗的一般過程是:對收集到的信息進行數據分析得到“臟數據”;定義數據清洗規則和清洗算法,對數據進行手工清洗或自動清洗,直到處理后的數據滿足數據清洗的要求。

手工清洗的特點是速度慢,準確度高,一般適用于小規模的數據清洗,在較大規模的數據處理中,手工清洗的速度和準確性會明顯下降,通常采用自動清洗方式。自動清洗的優點是清洗的完全自動化,但是需要根據特定的數據清洗算法和清洗方案,編寫數據清洗程序,使其自動執行清洗過程。缺點是實現過程難度較大,后期維護困難。在大數據環境下,由于數據量的巨大,數據清洗通常采用自動清洗的方式來完成。

圖1 數據清洗原理Fig.1 Data cleaning principle

3 數據清洗系統框架

對數據清洗框架的研究也較多,文獻[6]將邏輯規范層和物理實現層分離,提出了一種描述性語言,可以在邏輯層上指定數據清洗過程所需采取的數據轉化操作,要求用戶的交互。文獻[7]實現了一個可擴展的數據清洗工具 AJAX,文獻[8]提出了數據清洗的一個交互式系統框架,它集成了數據轉化和差異檢測,具有良好的交互性。文獻[9]提出了一個粗粒度的、緊耦合的自動化數據清洗框架。

本文提出了一個大數據環境下數據清洗的一般性系統框架,如圖2所示。該框架分為三部分:外部的支持模塊、數據清洗模塊和內部的數據庫模塊。其中外部的支持模塊主要包括系統日志、監控系統和訪問接口;內部的數據庫模塊主要包括在數據清洗過程中需要調用的數據庫,例如字典庫、算法庫和規則庫等。數據清洗模塊是數據清洗系統的主要模塊,數據清洗模塊根據制定的算法和規則在內部數據庫中進行搜索和調用,并接受外部支持模塊的訪問和監控。數據清洗模塊主要列出了在數據清洗過程中研究最多的不完整數據清洗、不一致數據清洗和重復數據清洗三個子模塊。

3.1 不完整數據清洗子模塊

在復雜網絡環境下,當數據上報、接口調用時會產生大量的缺失值,因此不完整數據是不可避免的現象,而不完整的數據對大數據環境下的決策具有一定的影響。缺失值主要包括屬性值錯誤和空值兩個方面。屬性錯誤值檢測主要包括括統計法、聚類方法以及關聯規則方法[10],這些方法都是以統計和總結規律的方式計算并查找錯誤值,進而修正錯誤數據;而空值檢測主要采用人工填寫空缺值法手工檢測并填寫屬性值,也可以采用屬性的平均值、中間值、最大值、最小值或更為復雜的概率統計函數值填充空缺值法。不完整數據清洗子模塊流程如圖3所示。

圖2 數據清洗系統框架Fig.2 Data cleaning framework

主要過程為:

(1)對獲得的數據源進行缺失值的參數估計,為后續的數據處理提供所需數據;

(2)根據數據填充算法對不完整數據進行缺失值的數據填充;

(3)輸出填充后的完整數據。

3.2 不一致數據修復子模塊

大數據環境下數據量的劇增使得獲得的數據源會由于各種原因違反數據定義的完整性約束,存在大量的不一致數據。不一致數據修復子模塊的功能就是將不一致的數據進行修復,使得其符合數據的完整性約束,保持數據的一致性,其流程如圖4所示。

圖4 不一致數據修復流程Fig.4 Inconsistent data repairing process

不一致數據修復子模塊主要過程為:

(1)將數據源按照規定的數據格式進行檢測,并執行預處理,方便后續的處理;

(2)對預處理后的數據進行數據不一致的檢測,如果與原始的數據完整性約束不一致,則進行數據修復的過程,得到修復后的數據。通常修復后的數據有可能帶來新的數據不一致,因此要將修復結果再次進行不一致的檢測與修復,直到符合要求為止。

(3)最后將修復的數據結果還原為原格式,以方便其他系統的使用。

3.3 相似重復數據清洗子模塊

相似重復數據在“臟數據”中占的比重較大,其產生的原因較多,例如數據錄入時的拼寫錯誤,縮寫不同或存儲類型不同等,通常表現為多條記錄所表達的含義相同,或同一目標實體的記錄雖然在形式上有所不同,但其描述的目標卻相同。這些相似重復記錄的數據特征并不明顯,對數據識別和數據清洗造成了很大的難度。因此,對相似重復記錄數據進行清洗,可以提高數據庫的使用率,降低系統消耗,并提高數據質量。

重復數據檢測主要分為基于字段和基于記錄的重復檢測。基于字段的重復檢測算法主要包括編輯距離算法等。基于記錄的重復檢測算法主要包括排序鄰居算法、優先隊列算法、N-Gram 聚類算法[11]。重復數據清洗子模塊采用排序合并算法,如圖5所示。

重復數據清洗的主要過程為:

(1)通過對源數據庫屬性段的分析,找到屬性的關鍵值,并根據關鍵值對源數據庫中的數據記錄進行排序,可以選擇自上而下或者自下而上的順序來排序;

圖5 相似重復數據清洗流程Fig.5 Approximate duplicate data cleaning process

(2)按順序掃描數據庫中的每一條記錄,并將它與相鄰的記錄進行比較,進行記錄的相似度匹配計算;

(3)如果計算出的相似度數值大于系統設定的閾值,說明該記錄或連續的幾條記錄為相似重復記錄,則進行數據記錄的合并或刪除操作;否則,掃描下一條數據記錄,重復以上第2)和3)的步驟。

(4)當所有數據記錄檢測完畢,輸出最后結果。

4 結語

大數據環境下數據具有數據量大、價值密度低等的特點,由于拼寫錯誤、數據合并等原因導致信息中包含一些缺失數據、異常數據和不一致數據,這樣的數據稱為“臟數據”,嚴重影響了數據利用的效率和決策質量,而數據清洗技術則可以提高數據質量,使系統中的數據更加準確、一致,并能夠支持決策。數據清洗技術在各個領域中應用較廣泛,例如:銀行、交通、水利[12]等。本文對數據清洗的定義和原理進行研究,提出大數據環境下的數據清洗的一般性框架,詳細分析了不完整數據清洗子模塊、不一致數據修復子模塊和相似重復記錄數據清洗子模塊中的清洗流程,對相似重復記錄清洗算法效率的優化是下一步的研究重點。

[1] 馬曉亭. 基于大數據決策分析需求的圖書館大數據清洗系統設計[J]. 現代情報, 2016, 36(9): 107-111.

[2] 馬凱航, 高永明, 吳止鍰. 大數據時代數據管理技術研究綜述[J]. 軟件, 2015, 36(10): 46-49.

[3] 王書夢, 吳曉松. 大數據環境下基于MapReduce 的網絡輿情熱點發現[J]. 軟件, 2015, 36(7): 108-113.

[4] S. Madden. From databases to big data[J]. IEEE Internet Computing, 2012: 4-6.

[5] 葉歐, 張璟, 李軍懷. 中文數據清洗研究綜述[J]. 計算機工程與應用, 2012, 48(14): 121-129.

[6] Galharda H, Florescu D, Shasha D. Declarative Data Cleaning: Language, Model and Algorithms[C]. Proceedings of the 27thInternational Conference on the Very Large Data Bases,Roma: Morgan Kaufmann, 2001: 371-380.

[7] Galhardas H, Florescu D, Shasha D. AJAX: an Extensible Data Cleaning Tool [C]. Proceedings of the ACM SIGMOD International Conference on Management of Data, 2000:590-598.

[8] Raman V, Hellerstein J. Potter’s Wheel: an Interactive Data Cleaning Systems [C]. Proceedings of the 27thInternational Conference on the Very Large Data Bases, 2001: 381-390.

[9] 王芳瀟, 曹建軍, 汪挺. 一種通用數據清洗框架的研究與應用[J]. 現代軍事通信, 2010, 18(1): 60-63.

[10] Maletic J, Marcus A. Data cleansing: beyond integrity analysis[J]. Division of Computer Science, 2000.

[11] 邱越峰, 田增平, 周傲英. 一種高效的檢測相似重復記錄的方法[J]. 計算機學報, 2001, 24(1): 69-75.

[12] 王海沛, 馮軍軍, 賈如春. 水利云下的數據清洗策略研究與實現[J]. 軟件, 2016, 37(10): 89-93.

Research on the Data Cleaning Framework in Big Data

FENG Fu-jun, YAO Jun-ping, LI Xin-she, MA Jun-chun
(Research Inst. of High-Tech, ShaanXi Xi'an, 710025, China)

Some dirty data exists inevitably under big data environment, and it seriously affects the data quality,while the technology of data cleaning is one of the most important mothes to improve data quality, and the researches on the data cleaning framework are helpful for big data decision. A general framework of data cleaning in big data is proposed, the core data cleaning module includes three submodules, which are imcompleted records cleaning, inconsistent data repairing and approximate duplicate records cleaning, and the processes of data cleaning are discussed specifically.

Big data; Data quality; Data cleaning; Approximate duplicate records

TP393

A

10.3969/j.issn.1003-6970.2017.12.037

本文著錄格式:封富君,姚俊萍,李新社,等. 大數據環境下的數據清洗框架研究[J]. 軟件,2017,38(12):193-196

封富君(1978-),女,講師,主要研究方向:信息安全、大數據;姚俊萍(1978-),女,副教授,研究方向:信息安全、大數據;李新社(1965-),男,副教授,研究方向:信息安全、大數據;馬俊春(1983-),女,講師,研究方向:信息安全、大數據。

猜你喜歡
數據庫環境檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
孕期遠離容易致畸的環境
環境
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 成人一级黄色毛片| 久996视频精品免费观看| 日韩在线欧美在线| 成人韩免费网站| 欧美日韩国产在线播放| 26uuu国产精品视频| 亚洲αv毛片| 国产av一码二码三码无码| 国产福利大秀91| 国产电话自拍伊人| 日本不卡免费高清视频| 色天堂无毒不卡| 久久国产精品无码hdav| 72种姿势欧美久久久大黄蕉| 国产成人一区| 波多野结衣无码AV在线| 婷婷色中文| 久久人搡人人玩人妻精品| 91免费国产在线观看尤物| 啦啦啦网站在线观看a毛片| 精品视频在线一区| 欧美色图久久| m男亚洲一区中文字幕| 中文字幕天无码久久精品视频免费| 麻豆国产精品视频| 亚洲国产日韩欧美在线| 一区二区三区精品视频在线观看| 久久精品亚洲专区| 毛片手机在线看| a天堂视频| 午夜啪啪网| 丁香五月婷婷激情基地| 91精品专区国产盗摄| 四虎永久在线| 亚洲国语自产一区第二页| 狠狠色丁婷婷综合久久| 久久一日本道色综合久久| 国产成人综合久久精品尤物| 国产精品青青| 尤物成AV人片在线观看| 国产AV毛片| 日韩av高清无码一区二区三区| 国产免费久久精品44| 综合色亚洲| 又粗又硬又大又爽免费视频播放| 欧美激情第一欧美在线| 亚洲国产成人在线| 免费A级毛片无码免费视频| 无码粉嫩虎白一线天在线观看| 91在线播放国产| 成人毛片在线播放| 91娇喘视频| 日本一区中文字幕最新在线| 欧美午夜在线播放| 国产毛片高清一级国语| 国产成人精品在线1区| 精品福利视频导航| 国产靠逼视频| 四虎永久在线精品国产免费| 亚洲天堂在线视频| 国产在线专区| 好久久免费视频高清| 2020国产精品视频| 成人国产精品一级毛片天堂| 狠狠ⅴ日韩v欧美v天堂| 久久精品国产国语对白| 午夜视频免费一区二区在线看| 激情無極限的亚洲一区免费| 强乱中文字幕在线播放不卡| 日韩无码视频网站| 精品无码人妻一区二区| 国产99在线观看| 人妻夜夜爽天天爽| 91久久天天躁狠狠躁夜夜| 99在线视频精品| 老司机精品99在线播放| 亚洲国产无码有码| 久久福利片| 国产精品香蕉| 国产极品美女在线播放| 久久人人97超碰人人澡爱香蕉 | 91外围女在线观看|