999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)技術(shù)初探

2014-06-16 04:52:48譚琳
關(guān)鍵詞:數(shù)據(jù)處理大數(shù)據(jù)

譚琳

摘 要:大數(shù)據(jù)是繼物聯(lián)網(wǎng)、云計(jì)算技術(shù)后世界又一熱議的信息技術(shù),這種密集型數(shù)據(jù)爆炸現(xiàn)象的出現(xiàn),標(biāo)志著“大數(shù)據(jù)”時(shí)代的到來(lái)。文章介紹了大數(shù)據(jù)的概念,分析闡述了大數(shù)據(jù)相關(guān)技術(shù)。

關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)處理 相關(guān)技術(shù)

中圖分類(lèi)號(hào):TP334 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)02(a)-0048-01

“大數(shù)據(jù)”是從英語(yǔ)“Big Data”一詞翻譯而來(lái)的,是當(dāng)前IT界熱議和追逐的對(duì)象,是繼物聯(lián)網(wǎng)、云計(jì)算技術(shù)后世界又一熱議的信息技術(shù),發(fā)展迅速。截至2011年年底,全球互聯(lián)網(wǎng)總數(shù)據(jù)存儲(chǔ)量已達(dá)100億TB以上,并且以59%以上的年增長(zhǎng)率遞增。麥肯錫公司在2011年的報(bào)告(Bigdata:the Next FrontierforInnovation)中,對(duì)這種密集型數(shù)據(jù)爆炸的現(xiàn)象稱(chēng)為“大數(shù)據(jù)”時(shí)代的到來(lái)。大數(shù)據(jù)領(lǐng)域出現(xiàn)的許多新技術(shù),是大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的有力武器。

1 大數(shù)據(jù)概念

大數(shù)據(jù)概念的前身是海量數(shù)據(jù),但兩者有很大的區(qū)別。海量數(shù)據(jù)主要強(qiáng)調(diào)了數(shù)據(jù)量的規(guī)模,對(duì)其特性并沒(méi)有特別關(guān)注。而大數(shù)據(jù)對(duì)傳播速率、體積、特征等數(shù)據(jù)的各種特性進(jìn)行了描述。目前對(duì)大數(shù)據(jù)最廣泛的定義是:大數(shù)據(jù)是無(wú)法在一定時(shí)間內(nèi)用通常的軟件工具進(jìn)行收集、分析、管理的大量數(shù)據(jù)的集合。大數(shù)據(jù)的特點(diǎn)一般用“4V”概括,即:Volume:數(shù)據(jù)量大,目前大數(shù)據(jù)的最小單位一般被認(rèn)為是10~20TB的量級(jí);Variety:數(shù)據(jù)類(lèi)型多,包括了結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù);value:數(shù)據(jù)的價(jià)值密度很低;velocity:數(shù)據(jù)產(chǎn)生和處理的速度非常快。

2 大數(shù)據(jù)相關(guān)技術(shù)

2.1 大數(shù)據(jù)處理通用技術(shù)架構(gòu)

大數(shù)據(jù)的基本處理流程與傳統(tǒng)數(shù)據(jù)處理流程的主要區(qū)別在于:由于大數(shù)據(jù)要處理大量、非結(jié)構(gòu)化的數(shù)據(jù),所以在各個(gè)處理環(huán)節(jié)中都可以采用并行處理。目前,MapReduce等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方法。

MapReduce分布式方法最先由谷歌設(shè)計(jì)并實(shí)現(xiàn),包括分布式文件系統(tǒng)GFS、MapReduce分布式編程環(huán)境以及分布式大規(guī)模數(shù)據(jù)庫(kù)管理系統(tǒng)Bigrable。MapReduce是一套軟件框架,包括Map和Reduce兩個(gè)階段,可以進(jìn)行海量數(shù)據(jù)分割、任務(wù)分解與結(jié)果匯總,從而完成海量數(shù)據(jù)的并行處理。MapReduce的工作原理是先分后合的數(shù)據(jù)處理方式。Map即“分解”,把海量數(shù)據(jù)分割成若干部分,分給多臺(tái)處理器并行處理;Reduce即“合并”,把各臺(tái)處理器處理后的結(jié)果進(jìn)行匯總操作,以得到最終結(jié)果。用戶(hù)只需要提供自己的Map函數(shù)以及Reduce函數(shù)就可以在集群上進(jìn)行大規(guī)模的分布式數(shù)據(jù)處理。MapReduce將處理任務(wù)分配到不同的處理節(jié)點(diǎn),因此具有更強(qiáng)的并行處理能力。

2.2 大數(shù)據(jù)采集

大數(shù)據(jù)的采集是指利用數(shù)據(jù)庫(kù)等方式接收發(fā)自客戶(hù)端(Web、App或者傳感器形式等)的數(shù)據(jù)。大數(shù)據(jù)采集的主要特點(diǎn)是并發(fā)訪(fǎng)問(wèn)量大,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶(hù)來(lái)進(jìn)行訪(fǎng)問(wèn)和操作,比如火車(chē)票售票網(wǎng)站的并發(fā)訪(fǎng)問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),這時(shí)傳統(tǒng)的數(shù)據(jù)采集工具很容易失效。大數(shù)據(jù)采集方法主要包括:系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫(kù)采集、其他數(shù)據(jù)采集等四種。

2.3 大數(shù)據(jù)分享

目前數(shù)據(jù)分享主要通過(guò)數(shù)據(jù)集市和開(kāi)放數(shù)據(jù)平臺(tái)等方法實(shí)現(xiàn)。開(kāi)放數(shù)據(jù)平臺(tái)可以提供涵蓋本地服務(wù)、娛樂(lè)、教育和醫(yī)療等方方面面的數(shù)據(jù)集合,用戶(hù)不但可以通過(guò)API訪(fǎng)問(wèn),還可以很方便地通過(guò)SDK集成到移動(dòng)應(yīng)用當(dāng)中。在線(xiàn)數(shù)據(jù)集市除了提供下載數(shù)據(jù)的功能外,還為用戶(hù)提供上傳和交流數(shù)據(jù)的場(chǎng)所。數(shù)據(jù)平臺(tái)和數(shù)據(jù)集市不但吸引有數(shù)據(jù)需求用戶(hù),還能夠吸引很多數(shù)據(jù)開(kāi)發(fā)者在平臺(tái)上進(jìn)行開(kāi)發(fā)。

2.4 大數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理就是對(duì)采集的數(shù)據(jù)進(jìn)行清洗、填補(bǔ)、平滑、合并、規(guī)格化以及檢查一致性等處理,并對(duì)數(shù)據(jù)的多種屬性進(jìn)行初步組織,從而為數(shù)據(jù)的存儲(chǔ)、分析和挖掘做好準(zhǔn)備。通常數(shù)據(jù)預(yù)處理包含三個(gè)部分:數(shù)據(jù)清理、數(shù)據(jù)集成和變換和數(shù)據(jù)規(guī)約。

2.5 大數(shù)據(jù)存儲(chǔ)及管理

大數(shù)據(jù)需要行之有效的存儲(chǔ)和管理,否則人們不能處理和利用數(shù)據(jù),更不能從數(shù)據(jù)中得到有用的信息。目前,大數(shù)據(jù)的存儲(chǔ)和管理技術(shù)主要分三類(lèi):分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù)(NoSOL)。

2.6 大數(shù)據(jù)分析及挖掘

大數(shù)據(jù)的分析和挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)等技術(shù),高度自動(dòng)化地分析大數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,從而在大數(shù)據(jù)中提取有用信息。大數(shù)據(jù)的分析和挖掘與傳統(tǒng)的數(shù)據(jù)挖掘比較有兩個(gè)特點(diǎn):一是通常采用并行處理的方式;二是大數(shù)據(jù)分析對(duì)實(shí)時(shí)處理的要求很高,流處理等實(shí)時(shí)處理技術(shù)受到人們歡迎。常用的方法有:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別、統(tǒng)計(jì)分析、并行處理。

2.7 大數(shù)據(jù)檢索

①數(shù)據(jù)庫(kù)實(shí)時(shí)檢索:在數(shù)據(jù)倉(cāng)庫(kù)或者NoSOL等大數(shù)據(jù)存儲(chǔ)平臺(tái)上,或者多個(gè)不同結(jié)構(gòu)的數(shù)據(jù)存儲(chǔ)平臺(tái)之間快速、實(shí)時(shí)地查詢(xún)和檢索不同結(jié)構(gòu)的數(shù)據(jù)。②實(shí)時(shí)搜索引擎:對(duì)互聯(lián)網(wǎng)上的大量數(shù)據(jù)和信息進(jìn)行即時(shí)、快速搜索,實(shí)現(xiàn)即搜即得的效果。目前各大搜索引擎都在致力于實(shí)時(shí)搜索的實(shí)現(xiàn)。

2.8 大數(shù)據(jù)可視化

可以提供更為清晰直觀的數(shù)據(jù)感官,將錯(cuò)綜復(fù)雜的數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系,通過(guò)圖片、映射關(guān)系或表格,以簡(jiǎn)單、友好、易用的圖形化、智能化的形式呈現(xiàn)給用戶(hù)供其分析使用,可通過(guò)數(shù)據(jù)訪(fǎng)問(wèn)接口或商業(yè)智能門(mén)戶(hù)實(shí)現(xiàn),通過(guò)直觀的方式表達(dá)出來(lái)。可視化與可視分析通過(guò)交互可視界面來(lái)進(jìn)行分析、推理和決策;從海量、動(dòng)態(tài)、不確定甚至相互沖突的數(shù)據(jù)中整合信息,獲取對(duì)復(fù)雜情景的更深層的理解;可供人們檢驗(yàn)已有預(yù)測(cè),探索未知信息,同時(shí)提供快速、可檢驗(yàn)、易理解.的評(píng)估和更有效的交流手段。可視化是人們理解復(fù)雜現(xiàn)象,診釋復(fù)雜數(shù)據(jù)的重要手段和途徑。

2.9 大數(shù)據(jù)應(yīng)用

①視頻搜索;②內(nèi)容分析;③理賠分析;④社交網(wǎng)絡(luò)分析;⑤社會(huì)分析;⑥社交媒體監(jiān)控。

2.10 大數(shù)據(jù)安全

大數(shù)據(jù)技術(shù)的發(fā)展,使得人們能夠從這些數(shù)據(jù)中觀察和分析社會(huì)動(dòng)態(tài)、人群的動(dòng)作和行為、人群活動(dòng)規(guī)律以及企業(yè)的商業(yè)秘密。海量數(shù)據(jù)本身,以及數(shù)據(jù)中蘊(yùn)藏的信息涉及到國(guó)家、社會(huì)、企業(yè)和人們的隱私,這對(duì)大數(shù)據(jù)時(shí)代的信息安全提出巨大挑戰(zhàn)。因此,大數(shù)據(jù)時(shí)代需要發(fā)展信息安全技術(shù),確保關(guān)系到人們生活方方面面的數(shù)據(jù)和信息不會(huì)被泄漏。

目前除了傳統(tǒng)的信息安全方法外,大數(shù)據(jù)領(lǐng)域還有安全基礎(chǔ)設(shè)施、安全數(shù)據(jù)倉(cāng)庫(kù)等。此外,一些數(shù)據(jù)庫(kù)安全管理軟件能夠?qū)Σ煌僮飨到y(tǒng)上運(yùn)行的異構(gòu)關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行實(shí)時(shí)監(jiān)控,一些大型安全數(shù)據(jù)庫(kù)能夠?qū)εc商務(wù)數(shù)據(jù)結(jié)合在一起的數(shù)據(jù)進(jìn)行預(yù)防性的分析,以便識(shí)別釣魚(yú)攻擊,防止詐騙和阻止黑客入侵。endprint

猜你喜歡
數(shù)據(jù)處理大數(shù)據(jù)
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶(hù)端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
MATLAB在化學(xué)工程與工藝實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
Matlab在密立根油滴實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
基于POS AV610與PPP的車(chē)輛導(dǎo)航數(shù)據(jù)處理
依托陸態(tài)網(wǎng)的GNSS遠(yuǎn)程數(shù)據(jù)處理軟件開(kāi)發(fā)
主站蜘蛛池模板: 国产成人精品视频一区二区电影| 亚洲第一福利视频导航| 无码又爽又刺激的高潮视频| 99国产精品国产| 亚洲国产亚综合在线区| 国产精品亚洲一区二区三区在线观看| 欧美成人影院亚洲综合图| 91精品网站| 国产真实自在自线免费精品| 成人小视频在线观看免费| 精品久久高清| 色窝窝免费一区二区三区 | 亚洲AV无码久久精品色欲| 欧美特黄一级大黄录像| 亚洲色无码专线精品观看| 九九热免费在线视频| 中文字幕在线看视频一区二区三区| 亚洲av无码人妻| 在线不卡免费视频| 国产原创第一页在线观看| 又污又黄又无遮挡网站| 久久熟女AV| 免费无码一区二区| 国产男女XX00免费观看| 99ri国产在线| 国产精品网曝门免费视频| 99ri国产在线| 亚洲人成网站观看在线观看| 亚洲天堂.com| 亚洲成a人片| 五月婷婷欧美| 人妻丰满熟妇αv无码| 亚洲欧美激情另类| 中文字幕免费播放| 亚洲高清中文字幕在线看不卡| 国产99在线观看| 亚洲精品爱草草视频在线| 亚洲中文字幕在线精品一区| 久久精品视频亚洲| 天天摸夜夜操| 久久综合伊人 六十路| 青草国产在线视频| 亚洲愉拍一区二区精品| 日韩高清一区 | 88av在线播放| 1024你懂的国产精品| 毛片基地视频| 久久一本日韩精品中文字幕屁孩| 高潮毛片免费观看| 一区二区三区在线不卡免费 | 国产白浆在线观看| 丝袜高跟美脚国产1区| 狠狠躁天天躁夜夜躁婷婷| 自慰高潮喷白浆在线观看| 精品国产免费观看| 国产噜噜噜| 视频国产精品丝袜第一页| 中国黄色一级视频| 精品国产成人a在线观看| 夜夜操国产| 中文字幕在线播放不卡| 狠狠做深爱婷婷综合一区| 91探花在线观看国产最新| 亚洲欧美综合另类图片小说区| 乱系列中文字幕在线视频| 福利在线不卡一区| 国产亚洲一区二区三区在线| 日本a∨在线观看| 国产成人无码Av在线播放无广告 | 日本在线亚洲| 免费无码网站| 国内精品小视频福利网址| 成人中文在线| 3D动漫精品啪啪一区二区下载| 中文字幕啪啪| 97国产精品视频自在拍| 日韩精品亚洲人旧成在线| 亚洲精品视频免费| 午夜免费小视频| 免费毛片在线| 欧美日韩成人| 国产va欧美va在线观看|