999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于大數據的研究與探討

2018-05-30 16:14:10袁琴
大東方 2018年1期
關鍵詞:數據處理

摘要:隨著通信技術的發展,移動終端的隨時接入,大數據如排山倒海之勢充斥著我們的生活,如何處理大數據以及對大數據的利用是我們未來所面臨的主要問題。文章對大數據的概念及特點進行了簡要分析與介紹,主要針對目前大數據分析與處理的常用六大工具進行深入剖析與比較,旨在為大數據方向的科研工作者提供一些理論依據。

關鍵詞:大數據;Hadoop;HPCC;Storm;Apache Drill;RapidMiner;Pentaho BI

1大數據的概念

繼蒸汽時代、電氣時代、信息時代三大工業革命漸漸退出歷史舞臺之時,以物聯網(IoT)與智能制造為主導的第四代工業革命悄然而至。云計算技術的興起,數據量出現了井噴現象,標志著大數據(MegaData,BigData)時代的到來。與傳統的數據、海量數據(SeaData)所不同的是:大數據從數量上、類型上以及價值等方面都極具特色。

目前,對大數據的定義還沒有一個統一的標準和認可,眾家各持己見。其中全球知名的咨詢公司麥肯錫提出了大數據的概念:大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合。而研究機構Gartner對大數據提出的概念是:大數據是指需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產Ⅲ。在維基百科中大數據的概念定義為:大數據指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策目的的資訊。

2大數據的特點

在實際應用中,也把大數據稱為巨量資料(Huge Data),從技術角度來看,大數據技術實際上是指從種類繁多的“數據”中,剔除數據噪音,迅速獲取有用信息的能力。云計算技術的出現為大數據的產生提供了“肥沃的土壤”,二者之間是密不可分的,也可以簡單的說:云計算技術促進了大數據的發展,二者之間的關系就如同手心與手背的關系。

目前對大數據的特點可概括為4V:

*Volume(數量),數據量從過去的TB級別躍升至PB級別,甚至是EB級別。

*Variety(類型),過去我們所處理的數據大部分都是結構化數據,少部分非結構化數據;如今,移動終端的實時接入、互聯網的快速發展,所產生的網絡日志、影視、圖片、動畫以及聲音等更多的是非結構化數據或者是半結構化數據,其中個性化數據占近乎總數據量的三分之二。

*Value(價值),數據量雖然很大,但是在這些數據中所包含的價值密度卻很低,以我們日常生活中的影像資料為例,一般時長為六十分鐘的視頻,對某類用戶來說有價值的數據可能只有那么一兩秒鐘,其余的都是數據噪音。

*Velocity(速度),大數據要求其處理速度很快,也就是我們常說的1秒定律,它主要是從數據有效的實時性角度來考慮的。

伴隨日益普及的網絡而產生的大數據,給企業、事業、政府等部門帶來“困惑”的同時也帶來了潛在的“價值”。因為,在大數據中蘊含著數據生產者的真實意圖與喜好。比如阿里巴巴、天貓等通過訪問量與訪問內容就可以提取出客戶的喜好與需求,更好的為電子商務的擴展業務提供數據支持。但是,從海量數據中去除噪音,提純信息使其更具價值,這對網絡的架構來說是一項艱巨的任務,對提高數據處理能力來說是一個難攻克的課題。因此,針對不同領域的大數據分析、大數據處理將是大數據產業健康、持續發展的關鍵。

3大數據處理分析的六大常用工具

1)Hadoop

2006年,Apache Lucene的創始人Doung Cutting創建了Hadoop,Hadoop是Apache的Lucene項目的一個子項目。與此同時,Doung加入yahoo,yahoo將Hadoop發展成一個能夠處理Web數據的系統。Hadoop作為對大量數據進行分布式處理的軟件框架具有高可靠性、高容錯性、高效性以及可伸縮性等優點,以至于在2008年短短幾年期間,它就基本成了大數據的代名詞。

2)HPCC

HPCC(High Performance Computing and Communications)是LexisNexis公司發布的一款開源的數據處理工具。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交的一份關于HPCC的報告,其主要目標是提高網絡的傳輸性能、擴展網絡連接能力等。

3)Storm

Storm由Twitter開源而來,通常被比作“實時的Hadoop”,與Hadoop相比較為簡單,它是一個實時的、分布式以及具備高容錯的計算系統。

4)ApacheDrill

Apache Drill是Apache參考Googlel的Dremel所創建的開源項目,是一個能夠對大數據進行交互分析、開源的分布式系統,它能夠運行在上千個節點的服務器集群上,且能在幾秒內處理PB級或者萬億條的數據記錄。

5)RapidMiner

RapidMiner是目前世界上較為領先的開源數據挖掘軟件,它提供了一些有用的、可擴展的數據分析挖掘算法,可以用來搭建推薦系統和評論挖掘系統,最終幫助用戶方便、快捷地創建智能應用程序。

6)Pentaho BI

Pentaho BI平臺與傳統的BI產品有所不同,它是一個以流程為中心的,工作流驅動的,可擴展平臺的,用于解決商業智能問題的框架,側重于大中型企業應用。Pentaho BI平臺是在MozillaPublic License(MPL)下基于Java的開放源碼。

4結論

大數據的分析工具是更好地利用大數據的必不可少的手段,這些工具都有或多或少的弊端,需要我們后續的科研工作者在前人的基礎上,進行深入研究,為大數據更好地服務于企業、事業單位以及政府而不斷努力。

作者簡介

袁琴(1983-),女,江西吉安,講師,研究方向:計算機科學與技術。

(作者單位:江西工程學院)

猜你喜歡
數據處理
驗證動量守恒定律實驗數據處理初探
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
ADS-B數據處理中心的設計與實現
電子測試(2018年4期)2018-05-09 07:28:12
MATLAB在化學工程與工藝實驗數據處理中的應用
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
大數據處理中基于熱感知的能源冷卻技術
計算機工程(2015年4期)2015-07-05 08:28:04
Matlab在密立根油滴實驗數據處理中的應用
數據處理能力在求職中起關鍵作用
我國首個“突發事件基礎數據處理標準”發布
主站蜘蛛池模板: 久久久久免费精品国产| 国产精品视频系列专区| 国产a在视频线精品视频下载| 又黄又爽视频好爽视频| 色欲国产一区二区日韩欧美| 极品尤物av美乳在线观看| 日本人妻丰满熟妇区| 青青久久91| 欧美不卡视频在线观看| 国产午夜在线观看视频| 99热这里只有精品5| 中文字幕资源站| 日本久久久久久免费网络| 青青草原国产精品啪啪视频| 欧美精品1区| 亚洲欧洲综合| 国产精品一区二区不卡的视频| 国产99在线| 亚洲第一在线播放| 精品人妻AV区| 国产一级毛片yw| 国产又黄又硬又粗| 亚洲国产精品一区二区第一页免 | 亚洲a免费| 五月婷婷丁香综合| 久久99国产乱子伦精品免| 天天综合色网| 亚洲av色吊丝无码| 国产肉感大码AV无码| 欧美性久久久久| 国产精品极品美女自在线网站| 一区二区三区成人| 久久semm亚洲国产| 亚洲色精品国产一区二区三区| 国产99热| 18禁影院亚洲专区| 国产乱子伦精品视频| 免费国产高清精品一区在线| 免费毛片a| 亚洲精品午夜无码电影网| 国产无码精品在线| 国产理论精品| 亚洲天堂.com| 51国产偷自视频区视频手机观看| 色综合a怡红院怡红院首页| 久热精品免费| 国产精品成人一区二区| 国产精品无码AⅤ在线观看播放| 免费观看成人久久网免费观看| 2020久久国产综合精品swag| 国产午夜人做人免费视频| 欧美成人精品高清在线下载| 国产人人乐人人爱| 女人一级毛片| 日本在线亚洲| 狠狠亚洲婷婷综合色香| 美女啪啪无遮挡| 久久久精品国产亚洲AV日韩| 亚洲av中文无码乱人伦在线r| 欧美日本在线观看| 99热这里只有精品在线播放| 国产精品亚洲专区一区| 国产男女XX00免费观看| 欧美一级专区免费大片| www成人国产在线观看网站| 高清无码一本到东京热| 日韩天堂在线观看| av在线人妻熟妇| 日本国产在线| 亚洲第七页| 熟妇无码人妻| 国产伦精品一区二区三区视频优播| 色综合热无码热国产| 免费高清a毛片| 97人妻精品专区久久久久| 99这里只有精品6| 亚洲视频四区| 色婷婷啪啪| 亚洲国产理论片在线播放| 青青热久免费精品视频6| 无码中字出轨中文人妻中文中| 久久网综合|