999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

什么是大數(shù)據(jù)?您需要知道的一切

2017-10-27 16:26:11Charles
計算機(jī)世界 2017年39期
關(guān)鍵詞:分析

Charles

分析大量數(shù)據(jù)只是大數(shù)據(jù)不同于以前數(shù)據(jù)分析的部分因素。了解其他三個因素是什么。

人類每天都在吃飯、睡覺、工作和玩耍,這產(chǎn)生了數(shù)據(jù)——非常非常多的數(shù)據(jù)。據(jù)IBM,人類每天產(chǎn)生2.5垓字節(jié)(250十億個十億)的數(shù)據(jù)。這相當(dāng)于堆疊到月球又返回來的DVD碟片,包括了從我們發(fā)送的文本和我們上傳的照片,直至工業(yè)傳感器數(shù)據(jù)和機(jī)器到機(jī)器通信的所有數(shù)據(jù)。

這就是為什么“大數(shù)據(jù)”成為如此常見用語的主要原因。簡單地說,當(dāng)人們談?wù)摯髷?shù)據(jù)時,他們指的是能夠獲得大量的數(shù)據(jù),分析數(shù)據(jù),并將其變成有用的東西。

大數(shù)據(jù)究竟什么是?

但大數(shù)據(jù)遠(yuǎn)不止這些,它涉及到:

大量的數(shù)據(jù),通常來自多個來源。

不僅是大量的數(shù)據(jù),而且是不同類型的數(shù)據(jù)——通常是同時有多種數(shù)據(jù),而且數(shù)據(jù)還隨時間變化,這些數(shù)據(jù)不需要先轉(zhuǎn)換成特定的格式,也不需要使其一致。

分析數(shù)據(jù)所采用的方式允許出于不同的目的對相同數(shù)據(jù)池進(jìn)行持續(xù)分析。

所有這一切都能夠迅速完成,甚至是實(shí)時的。

在早期,業(yè)界提出了一個縮寫詞來描述四個特征中的三個:VVV,代表了體量(volume,體量巨大)、類型繁多(variety,不同類型的數(shù)據(jù),數(shù)據(jù)隨時間變化)、速度(velocity)。

大數(shù)據(jù)和數(shù)據(jù)倉庫

VVV首字母縮寫遺漏了一個關(guān)鍵的概念,即不需要永久地改變(轉(zhuǎn)換)要分析的數(shù)據(jù)。這種非破壞性的分析意味著誰都可以出于不同的目的去分析相同的數(shù)據(jù)池,并可以分析從不同源收集的數(shù)據(jù)。

作為對比,數(shù)據(jù)倉庫是專門設(shè)計用于出于特定目的而分析特定的數(shù)據(jù),并對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,轉(zhuǎn)換為特定的格式。在整個過程中,原始數(shù)據(jù)基本上被破壞,是為了特定目的而不是其他目的——這被稱之為提取、轉(zhuǎn)換和加載(ETL)。數(shù)據(jù)倉庫的ETL方法只針對特定的數(shù)據(jù)進(jìn)行特定的分析。這適用于所有數(shù)據(jù)都是在您的工作系統(tǒng)中的情況,但是在今天互聯(lián)網(wǎng)連接的世界里,數(shù)據(jù)來自四面八方,這就不太適用了。

但是,不要認(rèn)為大數(shù)據(jù)會使數(shù)據(jù)倉庫過時。大數(shù)據(jù)系統(tǒng)可以讓您非常方便地處理非結(jié)構(gòu)化數(shù)據(jù),但您得到的查詢結(jié)果類型遠(yuǎn)沒有數(shù)據(jù)倉庫的那么復(fù)雜。畢竟,數(shù)據(jù)倉庫的目的是深入分析數(shù)據(jù),它之所以能很好地做到這一點(diǎn),是因?yàn)樗阉袛?shù)據(jù)都轉(zhuǎn)換為一致的格式,使您能夠去構(gòu)建用于深度挖掘的數(shù)據(jù)集等類似的工作。數(shù)據(jù)倉庫供應(yīng)商花了多年的時間來優(yōu)化他們的查詢引擎,回答典型業(yè)務(wù)環(huán)境中的問題。

大數(shù)據(jù)支持您分析來自多個數(shù)據(jù)源的大量數(shù)據(jù),但分辨率較低。因此,在未來一段時間內(nèi),我們將同時使用傳統(tǒng)的數(shù)據(jù)倉庫和新方法。

大數(shù)據(jù)背后的技術(shù)突破

為實(shí)現(xiàn)大數(shù)據(jù)四方面的特征——體量巨大、類型繁多、非破壞式使用和速度,這需要一些技術(shù)上的突破,包括分布式文件系統(tǒng)(Hadoop)的發(fā)展,一種方便快捷地了解不同數(shù)據(jù)的方法(最早是谷歌的MapReduce,還有最近的Apache Spark),以及根據(jù)需要訪問和移動數(shù)據(jù)的云/互聯(lián)網(wǎng)基礎(chǔ)設(shè)施。

直到大約十年前,一次處理的數(shù)據(jù)量還相對較少。(嗯,當(dāng)時,我們都認(rèn)為數(shù)據(jù)倉庫是非常巨大的。自從互聯(lián)網(wǎng)產(chǎn)生數(shù)據(jù)并把各處的數(shù)據(jù)連接起來之后,情況發(fā)生了巨大的變化。)有限的數(shù)據(jù)存儲數(shù)量和位置,計算能力不足,處理來自多個源的不同數(shù)據(jù)格式的能力也有限,這些因素使得幾乎不可能完成數(shù)據(jù)處理任務(wù)。

隨后,大約2003年的時候,谷歌的研究人員開發(fā)了MapReduce。這種編程技術(shù)首先把數(shù)據(jù)映射到一系列鍵/值對,對類似的鍵值進(jìn)行計算,將它們縮減為單個值,然后在數(shù)百臺或者數(shù)千臺低成本機(jī)器上并行處理每一批數(shù)據(jù),從而簡化了大規(guī)模數(shù)據(jù)集的處理。這種龐大的并行特性使谷歌能夠從越來越大量的數(shù)據(jù)中更快的得到搜索結(jié)果。

2003年左右,谷歌實(shí)現(xiàn)了兩個突破,這使得大數(shù)據(jù)成為可能:一是Hadoop,它是由兩項關(guān)鍵服務(wù)組成的:

使用Hadoop分布式文件系統(tǒng)(HDFS),可靠的存儲數(shù)據(jù)。

使用稱為MapReduce的技術(shù)進(jìn)行高性能并行數(shù)據(jù)處理。

Hadoop運(yùn)行在商用無共享服務(wù)器集群上。您可以隨意添加或者刪除Hadoop集群中的服務(wù)器;系統(tǒng)會檢測并修復(fù)任何服務(wù)器上的硬件或者系統(tǒng)問題。換句話說,Hadoop是自我修復(fù)的。不管系統(tǒng)進(jìn)行了修改還是出現(xiàn)了故障,它都能提供數(shù)據(jù),運(yùn)行大規(guī)模、高性能處理工作。

雖然Hadoop為數(shù)據(jù)存儲和并行處理提供了一個平臺,但真正的價值來自于附加組件、交叉集成和技術(shù)的定制實(shí)現(xiàn)。為此,Hadoop提供了子項目,這些子項目為平臺增加了功能和新特性:

Hadoop Common:支持其他Hadoop子項目的公共實(shí)用程序。

Chukwa:一個用于管理大型分布式系統(tǒng)的數(shù)據(jù)采集系統(tǒng)。

Hbase:一個可擴(kuò)展的分布式數(shù)據(jù)庫,為大型表提供結(jié)構(gòu)化數(shù)據(jù)存儲支持。

HDFS:一種分布式文件系統(tǒng),支持對應(yīng)用數(shù)據(jù)的大吞吐量訪問。

Hive:提供數(shù)據(jù)摘要和即席查詢的數(shù)據(jù)倉庫基礎(chǔ)設(shè)施。

MapReduce:計算集群上大數(shù)據(jù)集分布式處理的軟件框架。

Pig:并行計算的高級數(shù)據(jù)流語言和執(zhí)行框架。

ZooKeeper:分布式應(yīng)用的高性能協(xié)調(diào)服務(wù)。

大部分Hadoop平臺的實(shí)現(xiàn)應(yīng)至少包括其中的一些子項目,因?yàn)樗鼈兺ǔJ情_發(fā)大數(shù)據(jù)所必需的。例如,大多數(shù)企業(yè)選擇使用HDFS作為主要的分布式文件系統(tǒng),把HBase作為數(shù)據(jù)庫,它可以存儲數(shù)十億條數(shù)據(jù)。使用MapReduce或者最近的Spark幾乎是必須的,因?yàn)樗鼈兲岣吡薍adoop平臺的速度和敏捷性。

采用MapReduce,開發(fā)人員可以在分布式處理器集群或者單機(jī)上開發(fā)并行處理大量非結(jié)構(gòu)化數(shù)據(jù)的程序。MapReduce框架分為兩個功能區(qū):endprint

Map,這一功能把工作分發(fā)到分布式集群中的不同節(jié)點(diǎn)上。

Reduce,這一功能將工作排序并把結(jié)果解析為單個數(shù)值。

MapReduce的主要優(yōu)點(diǎn)之一是它是容錯的,這通過監(jiān)視集群中的每個節(jié)點(diǎn)來實(shí)現(xiàn);每個節(jié)點(diǎn)都需要定期報告完成的工作和狀態(tài)更新。如果一個節(jié)點(diǎn)保持沉默的時間比預(yù)期的間隔長,那么主節(jié)點(diǎn)會發(fā)出通知并將工作重新分配給其他節(jié)點(diǎn)。

Apache Hadoop是以MapReduce為核心的一種開源框架,兩年后才開發(fā)出來。Hadoop最初是用來索引現(xiàn)在不太常用的Nutch搜索引擎的,現(xiàn)在幾乎所有的主要行業(yè)都使用Hadoop來進(jìn)行多種大數(shù)據(jù)工作。在Hadoop的分布式文件系統(tǒng)和YARN(Yet Another Resource Negotiator,另一種資源調(diào)度器)的支持下,該軟件使用戶能夠處理分布在數(shù)千臺設(shè)備上大量的數(shù)據(jù)集,就好像它們都在一臺巨大的機(jī)器上一樣。

2009年,加州大學(xué)伯克利分校的研究人員開發(fā)了Apache Spark來替代MapReduce。Spark使用內(nèi)存存儲進(jìn)行并行計算,因此,它比MapReduce快100倍。Spark可以作為一個獨(dú)立的框架或者在Hadoop內(nèi)部運(yùn)行。

即使使用Hadoop,您仍然需要一種方法來存儲和訪問數(shù)據(jù)。這通常是通過MongoDB、CouchDB或者Cassandra等NoSQL數(shù)據(jù)庫來實(shí)現(xiàn)的,它們專門處理分布在多臺機(jī)器上的非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)。對于數(shù)據(jù)倉庫,大量不同類型的數(shù)據(jù)融合成統(tǒng)一的格式,并存放在一個數(shù)據(jù)存儲中,與數(shù)據(jù)倉庫不同,這些工具不會改變數(shù)據(jù)的根本性質(zhì)或者位置——電子郵件仍然是電子郵件,傳感器的數(shù)據(jù)仍然是傳感器的數(shù)據(jù),而且可以存儲在任何地方。

然而,把體量巨大的數(shù)據(jù)存儲在機(jī)器集群上的NoSQL數(shù)據(jù)庫中,如果您不使用這些數(shù)據(jù),那就體現(xiàn)不出這種方式的優(yōu)勢所在。而這才是大數(shù)據(jù)分析的用武之地。Tableau、Splunk和Jasper BI等工具支持您解析數(shù)據(jù),以識別模式、提取含義,并揭示出新的深度分析結(jié)果。您由此要開展的工作會因您的需求而有所不同。

InfoWorld的執(zhí)行編輯Galen Gruman、InfoWorld的特約編輯Steve Nunez、自由撰稿人Frank Ohlhorst和Dan Tynan為本文做出了貢獻(xiàn)。

原文網(wǎng)址:

http://www.infoworld.com/article/3220044/big-data/what-is-big-data-everything-you-need-to-know.htmlendprint

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實(shí)施的分析
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫(yī)結(jié)合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 青草娱乐极品免费视频| 99精品视频在线观看免费播放| 日韩欧美高清视频| 国产69精品久久久久孕妇大杂乱 | 国产精品爆乳99久久| 亚洲第一成年人网站| 亚洲女人在线| 亚洲成人在线免费观看| 无码国产偷倩在线播放老年人| 毛片国产精品完整版| 久久久黄色片| 激情综合激情| 精品福利视频网| 国产一区二区网站| 国产精品尤物铁牛tv| 國產尤物AV尤物在線觀看| 黄片一区二区三区| 国产在线视频二区| 一区二区三区在线不卡免费| 久久婷婷六月| 亚洲国产中文在线二区三区免| vvvv98国产成人综合青青| 国产SUV精品一区二区6| 久久精品aⅴ无码中文字幕| 国产最爽的乱婬视频国语对白| 国产极品美女在线观看| 久久伊人操| 亚洲高清资源| 91麻豆精品视频| 欧美日韩91| 国产亚洲精品91| 最新国产你懂的在线网址| 欧美 国产 人人视频| 日韩毛片基地| 欧美啪啪网| 久久国产成人精品国产成人亚洲| 中文字幕久久波多野结衣| 国产福利免费观看| 亚洲精品视频在线观看视频| 国产成人免费高清AⅤ| 久久精品中文字幕少妇| 国产白丝av| 偷拍久久网| 性做久久久久久久免费看| 中文字幕人妻av一区二区| 中文字幕调教一区二区视频| 日韩无码一二三区| 视频一本大道香蕉久在线播放 | 国国产a国产片免费麻豆| 久久这里只有精品2| 日日噜噜夜夜狠狠视频| AV色爱天堂网| 高清视频一区| 在线一级毛片| 毛片最新网址| 精品久久久久久成人AV| 潮喷在线无码白浆| 二级特黄绝大片免费视频大片| 亚洲性网站| 亚洲爱婷婷色69堂| 97国产在线播放| 亚洲—日韩aV在线| 欧美有码在线观看| 色一情一乱一伦一区二区三区小说 | 成人第一页| 亚洲日韩精品无码专区97| 欧美 亚洲 日韩 国产| 99国产精品国产高清一区二区| 精品久久久久久中文字幕女| 青青青国产精品国产精品美女| 国产成人你懂的在线观看| 亚洲男人天堂久久| 97在线公开视频| 日本国产精品一区久久久| 亚洲丝袜中文字幕| 亚洲V日韩V无码一区二区| 国产成人亚洲综合a∨婷婷| 天天综合网亚洲网站| 国产在线98福利播放视频免费| 波多野结衣一区二区三区88| 久久久久亚洲精品无码网站| 日韩亚洲高清一区二区|