999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的大數據Data CIeaning優化分

2018-08-07 08:17:54張軍鵬張蕾
商情 2018年28期
關鍵詞:大數據

張軍鵬 張蕾

[摘要]海量數據的持續劇增促成大數據時代的到來,如何在信息化浪潮中挖掘“數字石油”,將大數據轉換為大市場、大智慧和大生態,是我們面臨的歷史機遇。大數據的質量保障大數據的價值。而數據清洗的最終目的就是提高大數據的質量,本文以Hadoop平臺為例介紹大數據中數據清洗并分析其處理框架。

[關鍵詞]大數據 數據清洗 Hadoop

無所不在的移動設備、RFID、無線傳感器分秒都在產生數據,數以億計的用戶互聯網服務時刻在產生巨大的信息交互。要處理的數據量越來越大,而且還將更加快速地增長,傳統的數據處理技術已經無法應付,大數據時代已經來臨。充分利用和挖掘大數據價值,對于各行業提升用戶服務質量,降低運營成本有著重要意義。大數據的維度包含了數量、多樣性、速度、精確性等,在如此大維度中不可避免的存在著粗糙的、不合時宜的數據,如何將這些非潔凈數據有效轉化成高質量的干凈數據,涉及到大數據中的數據清理工作。基于劣質數據的數據決策不僅影響效率而且存在誤差,高效的數據清洗解決“非潔凈數據”的問題'從而保證了原始大數據的正確性和準確性。大數據有類別繁多的典型特點,同時處理速度快亦是大數據的鮮明特征,其包含大量在線或實時數據分析處理的需求,要求時效性即1秒定律,這也給數據清洗帶來巨大的挑戰。

1.大數據環境下的數據清洗

目前被廣泛認可的數據清洗定義為發現和清除數據中的錯誤和不一致來提高數據的質量,那么數據清洗的任務就是通過各種措施從準確性、一致性、無冗余、符合應用的需求等方面提高已有數據的質量。大數據的數據清洗可以視作知識發現(KDD)的預備階段。

傳統數據信息主要產生于服務器或個人電腦,這些設備位置相對固定。隨著移動終端的快速發展,手機、平板電腦、GPS等產生的數據量呈現爆炸式增長,且產生的數據帶有明顯的時空特性。要盡可能收集異源甚至是異構的數據,多角度驗證數據的全面性和可信性,數據的篩選在質與量之間需要考量權衡。

產生數據質量問題的原因很多,導致大數據中存在質量問題,如數據的數值重復、缺失、數據的噪聲和異常值。數據清洗是一個非常復雜的任務,并且包含著一些互相關聯的問題。一方面轉換必須盡可能具有通用性,而且不依賴大量的編程工作,也就是支持在多領域內的多種錯誤檢測算法;另一方面,系統需要支持一種簡單的接口定義來進行錯誤檢測和數據轉換。因此,需要在現有的算法和功能基礎上,設計相應的數據清洗系統,使它具有相對的通用性和可交互性。通用性的主要實現技術有數據標準化、術語化、通用的接口標準,即通用的過程描述語言,通用的數據結構以支持用戶進行擴展。可交互性支持用戶通過系統反饋的檢測統計圖表,實時地修改轉換過程,避免用戶與系統的隔離。

2.Hadoop大數據核心架構

Hadoop之所以在大數據處理應用中得到廣泛應用,得益于其自身在數據提取、變形和加載(ETL方面上的天然優勢。Hadoop的分布式架構,將大數據處理引擎盡可能的靠近存儲。

Hadoop由節點元素組成,主要包括NameNode節點和DataN-ode節點。NameNode節點負責管理文件系統名稱空間和控制外部客戶機的訪問。決定是否將文件映射到DataNode上的復制塊上,位于HDFS的頂端。DataNode節點是Hadoop集群的計算節點,通常以機架的形式組織,機架通過一個交換機將所有系統連接起來。

3.Hadoop大數據中數據清洗模型分析

大數據處理平臺Hadoop及其Map-Reduce框架廣泛應用于數據密集領域,Map-Reduce框架被廣泛使用,特別是TB級及以上數據處理方面有其獨特的優勢,由Map和Reduce函數組成,越來越多的ETL清洗過程都在使用Map-Reduce框架編程模式,需要對其運行機制、算法、性能優化、編程框架設計進行開發定制。實現一個通用性比較強的Map-Reduce程序比較困難,由于各種數據源的復雜性和需求的不確定性,實際應用中都存在大量的重復開發,并沒有這樣減少開發的設計框架提出。

基于Hadoop的數據清洗框架設計思路基于使用Hadoop提高數據清洗性能,封裝隱藏Map-Reduce程序開發的復雜性,這對不熟悉Hadoop的開發人員起到很大的幫助。設計框架具備良好的可擴展性,提高開發效率,提供配置文本,使得多路輸出分配到不同的HDFS目錄中,方便建立Hive分區表。

數據清洗使用了Map-Reduce數據流,在數據清洗的數據流中Map階段是核心。Map函數采用XML配置,相應的清洗類動態獲取、清洗規則設置,將數據從原始狀態清洗出來,并格式化為結構化數據。Partitioner數據分區同樣在Map-Reduce框架設計中特別重要,其任務是分發Map端的輸出數據作為Reducer端的輸入數據,如果處理不好,會造成Reducer端的數據不均勻,導致有些Re-duce任務運行慢,進而影響整體速度。Reduce的主要目的是將數據清洗的結果多路輸出到相應的目錄,如果只需要將結果分配的單一目錄,可以不用Reducer更能提高性能。

目前對Hadoop的研究和使用已經有了相應的基礎和積累,但是對Map-Reduce框架理解和應用不盡理想,利用Map-Reduce設計的軟件系統效率不高。本文對Map-Reduce編程框架的進一步設計分析,以求達到優化的目的。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 日韩在线2020专区| 午夜福利视频一区| 亚洲大学生视频在线播放| 99视频免费观看| 久草视频中文| 欧美精品另类| 在线看AV天堂| 久久久久久久蜜桃| 热这里只有精品国产热门精品| 成人另类稀缺在线观看| 精品成人免费自拍视频| 国产欧美在线观看视频| 色哟哟国产精品| 亚洲天堂区| 亚洲成人免费在线| 色亚洲成人| 国产白浆在线| 中文字幕人妻av一区二区| 久久综合九色综合97网| 六月婷婷精品视频在线观看| 真实国产精品vr专区| 天堂av综合网| 亚洲成人播放| 亚洲一区毛片| 欧美精品高清| 香蕉eeww99国产精选播放| 精品久久久无码专区中文字幕| 免费看美女自慰的网站| 久久婷婷国产综合尤物精品| 一级毛片网| www成人国产在线观看网站| 亚洲人成人伊人成综合网无码| 亚洲欧美成aⅴ人在线观看| 超薄丝袜足j国产在线视频| 亚洲区第一页| 一本一道波多野结衣av黑人在线| 一级一级一片免费| 日本亚洲国产一区二区三区| 91成人精品视频| 国产不卡网| 国产凹凸一区在线观看视频| 欧美翘臀一区二区三区| 免费观看成人久久网免费观看| 亚洲第一视频区| 欧美色亚洲| 热re99久久精品国99热| 国产人人乐人人爱| 亚洲乱码在线播放| 亚洲av无码专区久久蜜芽| 九九视频免费看| 亚洲欧美激情小说另类| 精品撒尿视频一区二区三区| 婷婷六月在线| 亚洲成A人V欧美综合天堂| 亚洲男女在线| 日本一区中文字幕最新在线| 国产精品成人AⅤ在线一二三四| 日韩精品久久无码中文字幕色欲| 动漫精品中文字幕无码| 午夜啪啪福利| 中文字幕有乳无码| 亚洲欧美h| 亚洲精品男人天堂| 国产黄网永久免费| 高清国产在线| 18禁黄无遮挡网站| 欧美一级片在线| Aⅴ无码专区在线观看| 欧美成人国产| 手机永久AV在线播放| 黄色a一级视频| 亚洲娇小与黑人巨大交| 色综合天天操| 亚洲娇小与黑人巨大交| 97se亚洲综合在线韩国专区福利| 老司国产精品视频91| 欧美中文一区| 国产熟女一级毛片| 久久午夜夜伦鲁鲁片不卡| 亚洲无码精彩视频在线观看| 国外欧美一区另类中文字幕| 亚洲日韩国产精品无码专区|