999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

解析大數(shù)據(jù)

2014-04-13 00:39:16張海洋

季 偉,張海洋

(1.安徽新聞出版職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)中心,安徽 合肥 230601;2宿州學(xué)院 辦公室,安徽 宿州 234000)

IT領(lǐng)域從來不缺乏新概念,當(dāng)云計(jì)算,物聯(lián)網(wǎng)等方興未艾之時(shí),大數(shù)據(jù)概念又被業(yè)界提出來.實(shí)際上,大數(shù)據(jù)概念的提出是比較早的,早在1980年托夫勒的《第三次浪潮》中就有所提及,只是當(dāng)時(shí)影響較小,沒有引起業(yè)界的廣泛關(guān)注.2008年《Nature》推出了 Big Data專利[1].2011年《Science》推出了“Dealing with Data”[2],著重研究大數(shù)據(jù)在科學(xué)研究中的重要性.到后來,美國(guó)的一些專家、機(jī)構(gòu)對(duì)大數(shù)據(jù)進(jìn)行了一系列的研究,詳細(xì)的研究了大數(shù)據(jù)的產(chǎn)生,核心技術(shù),應(yīng)用領(lǐng)域等關(guān)鍵問題,并分析了大數(shù)據(jù)可能產(chǎn)生的影響,以及未來大數(shù)據(jù)所可能面臨的挑戰(zhàn).以至于在2012年3月,美國(guó)奧巴馬政府發(fā)布了“大數(shù)據(jù)發(fā)展計(jì)劃”,旨在提高人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識(shí)的能力,發(fā)展收集、存儲(chǔ)、管理、分析和共享海量數(shù)據(jù)所需的技術(shù).這是繼1993年美國(guó)政府“信息高速公路計(jì)劃”后在國(guó)家戰(zhàn)略層面上的又一項(xiàng)重大舉措[3].

從數(shù)據(jù)量或者說從數(shù)據(jù)來源來看,之所以產(chǎn)生如此規(guī)模巨大的數(shù)據(jù):一是現(xiàn)代科技的發(fā)展使得事物基本上都能夠數(shù)字化,因此產(chǎn)生了巨大的諸如文字、圖片、音頻、視頻等數(shù)據(jù);二是計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,尤其是現(xiàn)代移動(dòng)通訊和物聯(lián)網(wǎng)的迅猛發(fā)展產(chǎn)生了大量數(shù)據(jù),如全球最大的網(wǎng)絡(luò)—互聯(lián)網(wǎng),無時(shí)無刻不在產(chǎn)生新的數(shù)據(jù),又如無線傳感器,始終在產(chǎn)生新的數(shù)據(jù),這些都是導(dǎo)致數(shù)據(jù)量成倍的增長(zhǎng)重要原因.

從數(shù)據(jù)類型來看大數(shù)據(jù)主要包括三種數(shù)據(jù)類型:(1)結(jié)構(gòu)化數(shù)據(jù),一般是存儲(chǔ)在數(shù)據(jù)庫(kù)中(主要指關(guān)系數(shù)據(jù)庫(kù)),這也是我們平常在實(shí)際應(yīng)用中處理大量數(shù)據(jù)的基本方式.(2)半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)多見于Web上的信息.(3)非結(jié)構(gòu)化數(shù)據(jù),主要指圖像、音頻、視頻等數(shù)據(jù).

根國(guó)際數(shù)據(jù)咨詢公司(IDC)監(jiān)測(cè),2011年全球數(shù)據(jù)量已達(dá)到1.8ZB,預(yù)計(jì)到2020年,全球數(shù)據(jù)量將達(dá)到35ZB,其中非結(jié)構(gòu)化數(shù)據(jù)將占其中絕大部分.這種數(shù)據(jù)量激增勢(shì)必會(huì)打破依賴傳統(tǒng)軟件處理信息的能力,對(duì)于人們?nèi)绾螐娜绱司薮蟮臄?shù)據(jù)中獲取、存儲(chǔ)、處理、分析、共享和顯示數(shù)據(jù)來說,這無疑是一項(xiàng)巨大的挑戰(zhàn),大數(shù)據(jù)的研究顯得尤為必要.

1 大數(shù)據(jù)概念、特征及應(yīng)用

1.1 大數(shù)據(jù)的概念

大數(shù)據(jù)的概念較抽象,目前為止,尚未有一個(gè)統(tǒng)一定義.一般意義上,大數(shù)據(jù)指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合.世界著名IT咨詢公司Gartner給出的定義是:大數(shù)據(jù)指的是所涉及的資料規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策目的的資訊.

關(guān)于大數(shù)據(jù)的定義,還有很多其他研究機(jī)構(gòu)或者學(xué)者給出的定義,但不論是哪種定義,大數(shù)據(jù)的概念結(jié)合大數(shù)據(jù)的特征來描述可能更準(zhǔn)確些.

1.2 大數(shù)據(jù)的特征

關(guān)于大數(shù)據(jù)的特征,目前普遍比較公認(rèn)的是4V定義[4],即規(guī)模性,多樣性,高速性和價(jià)值性.

表1 大數(shù)據(jù)的特征

1.3 大數(shù)據(jù)的應(yīng)用

大數(shù)據(jù)研究中具有普遍的關(guān)聯(lián)關(guān)系和因果關(guān)系[5],因此,大數(shù)據(jù)中隱含著巨大的科研信息和商業(yè)價(jià)值,若能有效的組織和使用這些數(shù)據(jù)信息,勢(shì)必會(huì)產(chǎn)生巨大的效益.目前,除了一些商業(yè)化的大數(shù)據(jù)處理方案外,還有一些開源項(xiàng)目,如Hadoop(由HDFS和MapReduce組成)就是一個(gè)典型的分布式計(jì)算平臺(tái),在這個(gè)平臺(tái)上可編寫分布式并行程序,從而在計(jì)算機(jī)集群上完成海量數(shù)據(jù)計(jì)算.

2 核心問題

2.1 云計(jì)算

大數(shù)據(jù)與云計(jì)算概念不同,但卻具有很多相似之處,大數(shù)據(jù)用到了云計(jì)算的核心技術(shù),如MapReduce并行處理技術(shù),海量數(shù)據(jù)存儲(chǔ)技術(shù)等.實(shí)際上云計(jì)算為大數(shù)據(jù)提供了基礎(chǔ)平臺(tái)和支撐技術(shù),他們之間是工具和用途的關(guān)系,相當(dāng)于云計(jì)算技術(shù)為大數(shù)據(jù)提供了基本架構(gòu)平臺(tái),大數(shù)據(jù)以分布式方式應(yīng)用在這個(gè)基本架構(gòu)平臺(tái)上.大數(shù)據(jù)側(cè)重于計(jì)算對(duì)象而云計(jì)算則更加側(cè)重于計(jì)算能力,兩者相輔相成.

2.2 大數(shù)據(jù)基本架構(gòu)

大數(shù)據(jù)涵蓋了各種技術(shù),包括異構(gòu)數(shù)據(jù)融合、分布式技術(shù)、NoSQL數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)挖掘和可視化技術(shù)等.一個(gè)典型的大數(shù)據(jù)處理系統(tǒng)體系架構(gòu)如下圖所示.

圖1 大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)

關(guān)鍵部分解釋如下:

(1)獲取數(shù)據(jù).對(duì)大數(shù)據(jù)來說,數(shù)據(jù)規(guī)模并不是越大越好,因?yàn)榇髷?shù)據(jù)中可能含有一些錯(cuò)誤信息,這些錯(cuò)誤信息如果不加以約束,就可能導(dǎo)致后續(xù)的分析過程完全錯(cuò)誤.因此在獲取數(shù)據(jù)前,要盡可能保證數(shù)據(jù)的正確性,盡可能詳盡的描述數(shù)據(jù).

(2)數(shù)據(jù)處理.大量數(shù)據(jù)在被處理的時(shí)候,考慮到數(shù)據(jù)的時(shí)效性,因此要具備實(shí)時(shí)處理數(shù)據(jù)的能力.實(shí)時(shí)獲取數(shù)據(jù)難度并不大,但因數(shù)據(jù)處理是數(shù)據(jù)分析的基礎(chǔ),導(dǎo)致數(shù)據(jù)的實(shí)時(shí)處理能力是大數(shù)據(jù)系統(tǒng)的關(guān)鍵,處理不好就可能成為系統(tǒng)的瓶頸.

(3)數(shù)據(jù)分析.大量的數(shù)據(jù)本身并沒有多大實(shí)際意義,正是有了針對(duì)性的分析數(shù)據(jù),才使得這些數(shù)據(jù)發(fā)揮特定的作用.對(duì)于數(shù)據(jù)的分析,我們可以結(jié)合數(shù)據(jù)挖掘相關(guān)知識(shí)來進(jìn)行.

(4)數(shù)據(jù)顯示.大數(shù)據(jù)數(shù)據(jù)類型多樣,可采用動(dòng)作捕捉技術(shù)獲取用戶動(dòng)作,將用戶和數(shù)據(jù)融合在一起,直接使用戶與結(jié)果交互.摒棄了傳統(tǒng)技術(shù)方法顯示難以達(dá)到預(yù)期效果的弊端.

3 面臨的挑戰(zhàn)

3.1 集成中的異構(gòu)性

3.1.1 數(shù)據(jù)異構(gòu)性

大數(shù)據(jù)是基于云計(jì)算技術(shù)的,也就是說大數(shù)據(jù)需要將分布在各地的數(shù)據(jù)進(jìn)行集成,但這些分散在各地的數(shù)據(jù)具有異構(gòu)性,主要由結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)或者是其中幾種的融合,這就造成了數(shù)據(jù)集成的困難.

3.1.2 平臺(tái)異構(gòu)性

大數(shù)據(jù)都是要存儲(chǔ)在實(shí)際載體上,不同的載體實(shí)際上就是不同的硬件環(huán)境,盡管目前硬件技術(shù)較過去有了很大的進(jìn)步,但各廠家在不同時(shí)期生產(chǎn)出來的硬件還是有區(qū)別的,不同品牌的硬件差異更大.導(dǎo)致集成過程中由于硬件的異構(gòu)性,大大降低數(shù)據(jù)的處理效率,特別是對(duì)大規(guī)模數(shù)據(jù)來說,這種差異化帶來的效果將是不能忽視的.

3.2 數(shù)據(jù)存儲(chǔ)

在大數(shù)據(jù)環(huán)境下,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)已不能滿足存儲(chǔ)需求.采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)在設(shè)計(jì)上往往是無法實(shí)現(xiàn)的,大部分關(guān)系數(shù)據(jù)庫(kù)不支持分布式存儲(chǔ),而海量數(shù)據(jù)的分布式存儲(chǔ)正是大數(shù)據(jù)的特點(diǎn)之一,這就產(chǎn)生了矛盾.當(dāng)前應(yīng)用系統(tǒng)逐漸使用NoSQL來解決大數(shù)據(jù)此類問題,放棄了對(duì)傳統(tǒng)關(guān)系操作的支持,作為大數(shù)據(jù)存儲(chǔ)的一種解決方案.

3.3 數(shù)據(jù)分析

傳統(tǒng)的針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行的數(shù)據(jù)分析,已經(jīng)形成了一套行之有效的分析體系.大數(shù)據(jù)中數(shù)據(jù)處理對(duì)象具有明顯的差異化,因此傳統(tǒng)的數(shù)據(jù)分析技術(shù)難以勝任.傳統(tǒng)數(shù)據(jù)分析針對(duì)的處理方式較多.大數(shù)據(jù)時(shí)代,數(shù)據(jù)的時(shí)效性增強(qiáng),如果還停留在批處理技術(shù)階段則會(huì)導(dǎo)致數(shù)據(jù)“貶值”,因此需要實(shí)時(shí)分析數(shù)據(jù),一般是采用流處理技術(shù),也可將流處理技術(shù)和批處理技術(shù)相結(jié)合.

3.4 數(shù)據(jù)安全

信息安全問題一直是伴隨著信息傳播發(fā)展起來的.大數(shù)據(jù)時(shí)代,信息呈爆炸式增長(zhǎng),隱私問題凸顯.單個(gè)的信息可能并不具有明顯價(jià)值性,但如果通過某些手段,把單個(gè)信息累積并關(guān)聯(lián)起來,那么這些聚集起來的信息就可能具有一定的威脅性.相反,如果為了保護(hù)數(shù)據(jù)隱私將數(shù)據(jù)進(jìn)行隱藏,那么又將無法體現(xiàn)數(shù)據(jù)的價(jià)值.

4 結(jié)語

數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),促使大數(shù)據(jù)時(shí)代到來,正確利用大數(shù)據(jù),會(huì)給人們帶來極大益處,但與此同時(shí)也會(huì)給傳統(tǒng)的數(shù)據(jù)管理模式帶來極大的挑戰(zhàn).文章從大數(shù)據(jù)的概念、特征和應(yīng)用為出發(fā)點(diǎn),研究了大數(shù)據(jù)的一些核心問題和大數(shù)據(jù)可能面臨的挑戰(zhàn).目前對(duì)大數(shù)據(jù)的研究還不夠成熟,或多或少還面臨著一些難題,相信未來更加成熟的大數(shù)據(jù)定會(huì)給人們帶來革命性的改變.

〔1〕Nature.Big Data [EB/OL]. [2012-10-02].http://www.nature.com/new s/specials/big data/index.htm l.

〔2〕Science.Special online collection:Dealing w ith data[EB/OL].[2012-10-02].http://www.sciencemag.org/site/special/data/,2011.

〔3〕孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展.2013,50(1):146-169.

〔4〕Barw ich H.The “four Vs” of Big Data.Implementing Information Infrastructure Symposium [EB/OL].[2012-10-02].http://www.computerworld.com.au/article/39619 8/iiis_four_vs_big_data/.

〔5〕李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考.戰(zhàn)略與決策研究[J].中國(guó)科學(xué)院院刊,2012.11.12.

主站蜘蛛池模板: 色综合天天操| 日本三级欧美三级| 成人午夜免费观看| 久久黄色一级片| 欧美日韩激情在线| 久久无码av三级| 亚洲综合二区| 国产尹人香蕉综合在线电影 | 国产精品天干天干在线观看| 极品私人尤物在线精品首页| 丝袜高跟美脚国产1区| 成人字幕网视频在线观看| 欧美一级色视频| 天天综合网站| 亚洲毛片在线看| 色婷婷亚洲十月十月色天| 亚洲二区视频| 露脸国产精品自产在线播| 午夜a视频| 看看一级毛片| 亚洲侵犯无码网址在线观看| 99这里只有精品免费视频| 欧美成人精品一级在线观看| 欧美三級片黃色三級片黃色1| 亚洲AV无码精品无码久久蜜桃| 欧美国产日产一区二区| 日韩毛片视频| 亚洲无线一二三四区男男| 九九热精品视频在线| 亚洲国产精品VA在线看黑人| 国产一区二区三区在线精品专区| 啪啪免费视频一区二区| 九九香蕉视频| 99热最新在线| 久久性妇女精品免费| 无遮挡国产高潮视频免费观看| 国产经典在线观看一区| 欧美一级高清片欧美国产欧美| 2020国产精品视频| 日韩第九页| 国产91透明丝袜美腿在线| 亚洲最大福利视频网| 国产美女无遮挡免费视频| 国产农村1级毛片| 成人午夜视频网站| 99热这里只有精品2| 国产专区综合另类日韩一区 | 午夜日b视频| 91精品啪在线观看国产91| 中文字幕精品一区二区三区视频| 91国内在线视频| 91精品专区国产盗摄| 一级毛片免费播放视频| 日韩国产一区二区三区无码| 亚洲成a人片在线观看88| 一本久道热中字伊人| av在线手机播放| 色天天综合| 99热这里只有精品5| 国产成人三级在线观看视频| 久久黄色毛片| 精品自拍视频在线观看| 免费国产好深啊好涨好硬视频| 亚洲综合久久一本伊一区| 国产精品视频3p| 久久综合九色综合97婷婷| 亚洲国产精品一区二区第一页免| 亚洲天堂网在线观看视频| 国产在线日本| 亚洲AV无码不卡无码 | 国产成年女人特黄特色毛片免| 中日韩欧亚无码视频| 国产午夜无码片在线观看网站| h视频在线播放| 国产精品久久久久久久久| 丝袜亚洲综合| 色综合中文字幕| 国产精品视频猛进猛出| 日本人又色又爽的视频| 久久精品国产电影| 中文字幕 欧美日韩| 色呦呦手机在线精品|