999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于大數據的研究與探討

2018-05-30 16:14:10袁琴
大東方 2018年1期
關鍵詞:數據處理

摘要:隨著通信技術的發展,移動終端的隨時接入,大數據如排山倒海之勢充斥著我們的生活,如何處理大數據以及對大數據的利用是我們未來所面臨的主要問題。文章對大數據的概念及特點進行了簡要分析與介紹,主要針對目前大數據分析與處理的常用六大工具進行深入剖析與比較,旨在為大數據方向的科研工作者提供一些理論依據。

關鍵詞:大數據;Hadoop;HPCC;Storm;Apache Drill;RapidMiner;Pentaho BI

1大數據的概念

繼蒸汽時代、電氣時代、信息時代三大工業革命漸漸退出歷史舞臺之時,以物聯網(IoT)與智能制造為主導的第四代工業革命悄然而至。云計算技術的興起,數據量出現了井噴現象,標志著大數據(MegaData,BigData)時代的到來。與傳統的數據、海量數據(SeaData)所不同的是:大數據從數量上、類型上以及價值等方面都極具特色。

目前,對大數據的定義還沒有一個統一的標準和認可,眾家各持己見。其中全球知名的咨詢公司麥肯錫提出了大數據的概念:大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合。而研究機構Gartner對大數據提出的概念是:大數據是指需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產Ⅲ。在維基百科中大數據的概念定義為:大數據指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策目的的資訊。

2大數據的特點

在實際應用中,也把大數據稱為巨量資料(Huge Data),從技術角度來看,大數據技術實際上是指從種類繁多的“數據”中,剔除數據噪音,迅速獲取有用信息的能力。云計算技術的出現為大數據的產生提供了“肥沃的土壤”,二者之間是密不可分的,也可以簡單的說:云計算技術促進了大數據的發展,二者之間的關系就如同手心與手背的關系。

目前對大數據的特點可概括為4V:

*Volume(數量),數據量從過去的TB級別躍升至PB級別,甚至是EB級別。

*Variety(類型),過去我們所處理的數據大部分都是結構化數據,少部分非結構化數據;如今,移動終端的實時接入、互聯網的快速發展,所產生的網絡日志、影視、圖片、動畫以及聲音等更多的是非結構化數據或者是半結構化數據,其中個性化數據占近乎總數據量的三分之二。

*Value(價值),數據量雖然很大,但是在這些數據中所包含的價值密度卻很低,以我們日常生活中的影像資料為例,一般時長為六十分鐘的視頻,對某類用戶來說有價值的數據可能只有那么一兩秒鐘,其余的都是數據噪音。

*Velocity(速度),大數據要求其處理速度很快,也就是我們常說的1秒定律,它主要是從數據有效的實時性角度來考慮的。

伴隨日益普及的網絡而產生的大數據,給企業、事業、政府等部門帶來“困惑”的同時也帶來了潛在的“價值”。因為,在大數據中蘊含著數據生產者的真實意圖與喜好。比如阿里巴巴、天貓等通過訪問量與訪問內容就可以提取出客戶的喜好與需求,更好的為電子商務的擴展業務提供數據支持。但是,從海量數據中去除噪音,提純信息使其更具價值,這對網絡的架構來說是一項艱巨的任務,對提高數據處理能力來說是一個難攻克的課題。因此,針對不同領域的大數據分析、大數據處理將是大數據產業健康、持續發展的關鍵。

3大數據處理分析的六大常用工具

1)Hadoop

2006年,Apache Lucene的創始人Doung Cutting創建了Hadoop,Hadoop是Apache的Lucene項目的一個子項目。與此同時,Doung加入yahoo,yahoo將Hadoop發展成一個能夠處理Web數據的系統。Hadoop作為對大量數據進行分布式處理的軟件框架具有高可靠性、高容錯性、高效性以及可伸縮性等優點,以至于在2008年短短幾年期間,它就基本成了大數據的代名詞。

2)HPCC

HPCC(High Performance Computing and Communications)是LexisNexis公司發布的一款開源的數據處理工具。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交的一份關于HPCC的報告,其主要目標是提高網絡的傳輸性能、擴展網絡連接能力等。

3)Storm

Storm由Twitter開源而來,通常被比作“實時的Hadoop”,與Hadoop相比較為簡單,它是一個實時的、分布式以及具備高容錯的計算系統。

4)ApacheDrill

Apache Drill是Apache參考Googlel的Dremel所創建的開源項目,是一個能夠對大數據進行交互分析、開源的分布式系統,它能夠運行在上千個節點的服務器集群上,且能在幾秒內處理PB級或者萬億條的數據記錄。

5)RapidMiner

RapidMiner是目前世界上較為領先的開源數據挖掘軟件,它提供了一些有用的、可擴展的數據分析挖掘算法,可以用來搭建推薦系統和評論挖掘系統,最終幫助用戶方便、快捷地創建智能應用程序。

6)Pentaho BI

Pentaho BI平臺與傳統的BI產品有所不同,它是一個以流程為中心的,工作流驅動的,可擴展平臺的,用于解決商業智能問題的框架,側重于大中型企業應用。Pentaho BI平臺是在MozillaPublic License(MPL)下基于Java的開放源碼。

4結論

大數據的分析工具是更好地利用大數據的必不可少的手段,這些工具都有或多或少的弊端,需要我們后續的科研工作者在前人的基礎上,進行深入研究,為大數據更好地服務于企業、事業單位以及政府而不斷努力。

作者簡介

袁琴(1983-),女,江西吉安,講師,研究方向:計算機科學與技術。

(作者單位:江西工程學院)

猜你喜歡
數據處理
驗證動量守恒定律實驗數據處理初探
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
ADS-B數據處理中心的設計與實現
電子測試(2018年4期)2018-05-09 07:28:12
MATLAB在化學工程與工藝實驗數據處理中的應用
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
大數據處理中基于熱感知的能源冷卻技術
計算機工程(2015年4期)2015-07-05 08:28:04
Matlab在密立根油滴實驗數據處理中的應用
數據處理能力在求職中起關鍵作用
我國首個“突發事件基礎數據處理標準”發布
主站蜘蛛池模板: 国产成人精品18| 91精品视频播放| 国产女人在线| 一区二区偷拍美女撒尿视频| 天天操精品| 综合色88| 精品一區二區久久久久久久網站| 久久婷婷六月| 国产精品久线在线观看| 国产一区二区三区精品久久呦| 99视频在线免费| 亚洲综合婷婷激情| 亚洲视频在线观看免费视频| 国产va欧美va在线观看| 奇米精品一区二区三区在线观看| 91视频精品| 最近最新中文字幕免费的一页| 国产精品网拍在线| 国产在线精品人成导航| 免费精品一区二区h| 黄色a一级视频| 白丝美女办公室高潮喷水视频| 日韩一级毛一欧美一国产| 日韩精品一区二区三区中文无码| 少妇露出福利视频| a级毛片在线免费观看| 中文字幕不卡免费高清视频| 91在线丝袜| 国产成人在线小视频| 伊人久久久久久久久久| 色悠久久久| 国产美女在线观看| 国产新AV天堂| 国产激情国语对白普通话| 在线一级毛片| 欧美精品成人| 亚洲日本中文综合在线| 天天视频在线91频| 欧美日韩国产在线人| 99免费视频观看| 国产综合网站| 99热国产这里只有精品无卡顿"| 久久久国产精品无码专区| 亚洲国产欧美中日韩成人综合视频| av尤物免费在线观看| 国产成人精品一区二区不卡| 亚洲人成网址| 97无码免费人妻超级碰碰碰| 中文一区二区视频| 亚洲国产91人成在线| 丁香六月综合网| 国产精品嫩草影院av| 欧美精品v日韩精品v国产精品| 久久久黄色片| 丁香婷婷综合激情| 日本一区二区不卡视频| 又污又黄又无遮挡网站| 在线一级毛片| 亚洲高清在线天堂精品| 欧美福利在线| 在线观看国产网址你懂的| 欧美国产成人在线| 久久这里只有精品免费| 亚洲最大在线观看| 国产成人无码综合亚洲日韩不卡| 天天躁夜夜躁狠狠躁躁88| 欧美五月婷婷| 69综合网| 午夜视频日本| 欧美成人二区| 欧美日韩综合网| 激情六月丁香婷婷| 九色视频最新网址| 成AV人片一区二区三区久久| 国产女同自拍视频| 91福利在线看| 亚洲国产成人久久精品软件| 国产高潮流白浆视频| 天天综合色网| 欧美日韩导航| 亚洲另类国产欧美一区二区| 99伊人精品|