999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)概念及主要技術分析研究

2016-12-27 15:01:13李真春裴彥芳
科技傳播 2016年19期
關鍵詞:分析

李真春+裴彥芳

摘 要 本文全方位多角度分析了大數(shù)據(jù)概念的提出及發(fā)展歷程,闡述了大數(shù)據(jù)概念的內涵和外延,特別對大數(shù)據(jù)的“4V”特征進行了深入解讀,剖析了大數(shù)據(jù)技術快速發(fā)展的深層次原因,為大家正確認識大數(shù)據(jù)提供了有益的探索。簡要介紹了主要的大數(shù)據(jù)技術,包括:大數(shù)據(jù)采集與預處理的技術、大數(shù)據(jù)存儲與管理技術、大數(shù)據(jù)計算技術、大數(shù)據(jù)分析技術和大數(shù)據(jù)呈現(xiàn)技術,詳細介紹了在大數(shù)據(jù)研究領域影響最廣泛的大數(shù)據(jù)技術-Hadoop,在此基礎上,簡要介紹了大數(shù)據(jù)技術的基本應用。

關鍵詞 大數(shù)據(jù);4V特征;大數(shù)據(jù)技術;hadoop

中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2016)172-0105-002

1 大數(shù)據(jù)概念的內涵和外延

大數(shù)據(jù)是一個很寬泛的概念,仁者見仁,智者見智。

亞馬遜(全球最大的電子商務公司)大數(shù)據(jù)科學家John Rauser認為大數(shù)據(jù)是任何超過了一臺計算機處理能力的數(shù)據(jù)量。(Big data is ‘a(chǎn)ny amount of data thats too big to be handled by one computer)。

在《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)率的前沿》當中,麥肯錫對于大數(shù)據(jù)做出了一下定義,即:所謂的大數(shù)據(jù),主要就是指那些大小比常規(guī)數(shù)據(jù)庫工具的獲取、存儲等更大的數(shù)據(jù)集。一般來說,大數(shù)據(jù)概念的內涵通常用4V特征來表述。

第一個V是Volume,就是數(shù)據(jù)體量大。大到運用常用的數(shù)據(jù)庫軟件無法對其進行管理。現(xiàn)在來看,基本上是指幾十TB到幾個PB的數(shù)量級。當然,隨著技術的進步,數(shù)據(jù)的積累,這個數(shù)值會變得更多,有人預測5年后,也許只有EB數(shù)量級的數(shù)據(jù)量才能夠稱得上是大數(shù)據(jù)。

第二個V是Variety,是指數(shù)據(jù)類型繁多,來源各異。有來自網(wǎng)絡的網(wǎng)頁、日志、圖片,有來自傳感器的監(jiān)測數(shù)據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)、位置信息,還有來自日常運營系統(tǒng)的各類信息等。

第三個V是Velocity,速度快。它包含兩個含義,一是數(shù)據(jù)產(chǎn)生和更新的頻率快,數(shù)據(jù)量增長速度快。如今,只需兩天就能產(chǎn)生出自人類文明誕生以來到2003年所產(chǎn)生數(shù)據(jù)的總量。谷哥搜索引擎每個月處理的數(shù)據(jù)量超過400PB;百度每天大約要處理幾十PB字節(jié)數(shù)據(jù);淘寶在線商品10億多件,每天發(fā)生數(shù)千萬筆交易,產(chǎn)生約20TB數(shù)據(jù)。各個城市的視頻監(jiān)控每時每刻都在采集巨量的流媒體數(shù)據(jù)。二是響應快,要有很高的時效性。對大數(shù)據(jù)的處理要求也要遵循1秒定律,就是在1秒內出結果。

第四個V是Value,價值性。包含3層含義。一是價值密度低,在數(shù)據(jù)總量中有用數(shù)據(jù)所占比例低。以視頻數(shù)據(jù)為例,在連續(xù)不間斷的監(jiān)控圖像中,可能有用的數(shù)據(jù)僅有一兩秒。二是整體價值高,設想一下,研究問題領域相關的、全部的、真實的數(shù)據(jù)被匯集起來形成的大數(shù)據(jù)集,其價值是何等珍貴。三是潛在價值大。大量數(shù)據(jù)的價值尚未完全被挖掘利用,大數(shù)據(jù)挖掘就像沙里淘金。

2 大數(shù)據(jù)為什么能“火”

一是大數(shù)據(jù)的大眾化。事實上,大數(shù)據(jù)并不是一個新名詞,尤其是當我們只從數(shù)據(jù)量的方向來對其進行分析的話,大數(shù)據(jù)早已存在。例如,飛機汽輪機壓縮器葉片的監(jiān)控數(shù)據(jù)為每天588GB,生物技術領域中的基因組分析用的數(shù)據(jù)、氣象數(shù)據(jù)分析用的數(shù)據(jù)等,很早之前就已經(jīng)屬于大數(shù)據(jù)了,并且其已經(jīng)大到需要運用一些相對昂貴的超級高端計算機,進行數(shù)據(jù)的處理與分析。

二是大數(shù)據(jù)的硬軟件條件具備了。計算基礎條件:IT的摩爾定律使得計算機處理速度更快卻更便宜。(1965年,Intel的主要創(chuàng)始人戈登?摩爾就曾經(jīng)提出一個非常有名的“摩爾定律”:在價格保持不變時,在集成電路當中,其所能夠容納的晶體管數(shù)目,通常都會在18個月之后增加一倍,并提升一倍的性能)。

存儲條件:其磁盤的價格出現(xiàn)了非常顯著的下降,其中,在2000年的時候,每GB硬盤的單價大約為19美元,但是到了2010年時,其已經(jīng)降到了7美分,10年下降了近300倍;而且體積比以前更小。

分布并行計算條件:大規(guī)模數(shù)據(jù)分布式處理技術的發(fā)明與應用,成為了現(xiàn)階段大數(shù)據(jù)浪潮的第一推動力。

三是云計算的普及。云計算,就是一種利用大規(guī)模、低成本運算單元,通過網(wǎng)絡連接,提供各種計算和存儲服務的信息平臺。云計算改變了數(shù)據(jù)的存儲、計算和訪問方式。因為有了云計算,大數(shù)據(jù)的硬軟件環(huán)境就不需要自行搭建了。

3 大數(shù)據(jù)技術及應用

3.1 主要的大數(shù)據(jù)技術

通俗地講,所謂的大數(shù)據(jù)技術,指的就是從各種數(shù)據(jù)當中,來快速獲得有一定價值的信息的一種技術。

依據(jù)相應的數(shù)據(jù)處理流程,大數(shù)據(jù)技術主要包括大數(shù)據(jù)采集與預處理技術,大數(shù)據(jù)存儲與管理技術、大數(shù)據(jù)分析技術、大數(shù)據(jù)計算技術和大數(shù)據(jù)呈現(xiàn)技術等。

大數(shù)據(jù)采集與預處理技術,用于解決數(shù)據(jù)來源和數(shù)據(jù)質量等問題,主要包括異構數(shù)據(jù)庫集成、WEB信息實體識別、傳感器網(wǎng)絡數(shù)據(jù)融合、數(shù)據(jù)清洗和數(shù)據(jù)質量控制等。

從某種意義上來說,大數(shù)據(jù)的存儲與管理技術,能夠用來解決大數(shù)據(jù)的可靠存儲和快速檢索訪問等問題,主要包括分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、大數(shù)據(jù)索引和查詢、實時/流式大數(shù)據(jù)存儲與處理等。

大數(shù)據(jù)計算技術,用于解決分布式高速并行計算問題,主要包括分布式查詢計算技術、批處理計算、流式計算、迭代計算、圖計算、內存計算等。

大數(shù)據(jù)分析技術,用于揭示規(guī)律、發(fā)現(xiàn)線索、探尋答案問題,主要包括數(shù)據(jù)挖掘、機器學習、模式識別、聚類分析等技術。

大數(shù)據(jù)呈現(xiàn)技術,用于將數(shù)據(jù)分析結果顯示給用戶,使得用戶能夠更清晰、方便、深入理解數(shù)據(jù)分析結果。主要包括可視化技術、歷史流展示技術、空間流展示技術等。

3.2 大數(shù)據(jù)應用

利用電子商務平臺所擁有的大數(shù)據(jù),對客戶的行為進行大數(shù)據(jù)挖掘分析,提供了相似選購行為分析-用于推薦相似產(chǎn)品-經(jīng)典臺詞是“看過本商品的顧客還看了”;提供了相似購買行為分析-用于推薦組合產(chǎn)品-經(jīng)典臺詞是“購買本商品的顧客還購買了”;根據(jù)客戶的瀏覽歷史預測客戶喜好分析-用于推薦最適合的產(chǎn)品-經(jīng)典臺詞是“建議購買以下產(chǎn)品”。

利用社區(qū)網(wǎng)站所擁有的大數(shù)據(jù),根據(jù)用戶上網(wǎng)行為向用戶推送定向廣告。如根據(jù)我在新浪微博中的“男士休閑服”的話題,為我推薦淘寶店中出售的休閑套裝;根據(jù)我的身份信息,為我推薦的產(chǎn)品基本符合我的年齡、身份和喜好;并根據(jù)我對套裝的關注,為我推薦黃金絨的牛仔褲;根據(jù)我的喜好和評介,將類似的產(chǎn)品推薦給我的好友。

目前,大數(shù)據(jù)已在社會各領域進行了應用,從應用方向上看,在實現(xiàn)了大數(shù)據(jù)的存儲、挖掘與分析之后,大數(shù)據(jù)被廣泛運用在企業(yè)管理、數(shù)據(jù)標準化分析等領域中。而從應用行業(yè)的角度來說,通過大數(shù)據(jù)的運用,能夠在很大程度上改進客戶的營銷方式與服務水平,這樣能夠有效幫助行業(yè)降低成本,實現(xiàn)運營效益的提升。此外,其還可以幫助企業(yè)創(chuàng)新商業(yè)模式,并發(fā)現(xiàn)新的市場商機。從對整個社會的價值來看,大數(shù)據(jù)在智慧城市、智慧交通及災難預警等方面都有巨大的潛在應用價值。

參考文獻

[1]城田真琴.大數(shù)據(jù)的沖擊[M].北京:人民郵電出版社,2013,6.

[2]涂子沛.大數(shù)據(jù)[M].北京:廣西師范大學出版社,2012,7.

[3]維克托?邁爾?舍恩伯格.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2012,12.

[4]特金頓(Garry Turkington).Hadoop基礎教程[M].北京:人民郵電出版社,2014,1.

[5]劉蔚然,劉莉娜.大數(shù)據(jù)技術[J].冶金設備管理與維修,2014(4):33-36.

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
經(jīng)濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫(yī)結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 久久黄色视频影| 亚洲三级视频在线观看| A级毛片高清免费视频就| 国产一区二区三区在线精品专区| 亚洲青涩在线| 日韩在线观看网站| 中文字幕av一区二区三区欲色| www.99精品视频在线播放| 国产玖玖视频| 国产高清不卡视频| 色老二精品视频在线观看| 97国产一区二区精品久久呦| 欧美三级视频在线播放| 91美女视频在线| 婷婷开心中文字幕| 四虎综合网| 国模私拍一区二区三区| 久久久久无码精品| 日韩av电影一区二区三区四区| 人妻丰满熟妇αv无码| 亚洲中字无码AV电影在线观看| 国产浮力第一页永久地址| 亚洲品质国产精品无码| 久久夜夜视频| 国产在线精品99一区不卡| 国产正在播放| 三级国产在线观看| 国产精品亚欧美一区二区| 国内精品久久人妻无码大片高| 亚洲国产看片基地久久1024| 国产尤物视频网址导航| 亚洲精品爱草草视频在线| 日韩一区二区在线电影| 亚洲AⅤ综合在线欧美一区| 在线观看网站国产| 精品国产欧美精品v| 亚亚洲乱码一二三四区| 国产一区免费在线观看| 精品五夜婷香蕉国产线看观看| 国产亚洲美日韩AV中文字幕无码成人 | 最新加勒比隔壁人妻| 毛片免费在线视频| 白浆视频在线观看| 一区二区影院| av天堂最新版在线| 免费不卡视频| 久久成人国产精品免费软件| 无码专区国产精品一区| 91亚洲影院| 国产在线一区视频| 91丝袜美腿高跟国产极品老师| 精品视频第一页| 中文字幕天无码久久精品视频免费| 九色国产在线| 国产成人精品日本亚洲77美色| 无码精品国产dvd在线观看9久 | 内射人妻无码色AV天堂| 亚洲精品无码在线播放网站| 欧美在线国产| 亚洲精选无码久久久| 日本尹人综合香蕉在线观看| 波多野结衣一区二区三区88| 亚洲三级电影在线播放| www.youjizz.com久久| 免费视频在线2021入口| 亚洲经典在线中文字幕| 亚洲日韩精品综合在线一区二区| 69av在线| 久久久久久高潮白浆| 国产成人亚洲日韩欧美电影| 黄色网址免费在线| 91精品啪在线观看国产| 中文字幕在线欧美| 一本色道久久88| 国产亚洲视频中文字幕视频 | 国产全黄a一级毛片| 国产一区二区色淫影院| aⅴ免费在线观看| 色噜噜狠狠狠综合曰曰曰| 国产精品午夜电影| 免费99精品国产自在现线| 亚洲欧美另类色图|