摘 要 互聯(lián)網(wǎng)的快速發(fā)展帶動(dòng)了信息技術(shù)的飛速進(jìn)步,21世紀(jì)的到來(lái)使人類進(jìn)入了信息化的時(shí)代。這是一個(gè)數(shù)據(jù)爆炸的時(shí)代,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)模式已經(jīng)遠(yuǎn)遠(yuǎn)無(wú)法滿足現(xiàn)代人們生產(chǎn)、生活的需要。在這種背景下,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生而且發(fā)展迅猛,已經(jīng)迅速融入到人們生活的各個(gè)領(lǐng)域當(dāng)中。目前國(guó)家已經(jīng)將大數(shù)據(jù)的發(fā)展列為國(guó)家的重要戰(zhàn)略,各個(gè)互聯(lián)網(wǎng)公司也將大數(shù)據(jù)作為當(dāng)前發(fā)展的主要目標(biāo)應(yīng)用到新聞、民生等領(lǐng)域。本文闡述了大數(shù)據(jù)的概念以及其特點(diǎn),分析了大數(shù)據(jù)技術(shù)的進(jìn)展以及未來(lái)的發(fā)展趨勢(shì)。
【關(guān)鍵詞】大數(shù)據(jù) 進(jìn)展 發(fā)展趨勢(shì)
1 大數(shù)據(jù)技術(shù)特點(diǎn)
1.1 大數(shù)據(jù)的概念
相比傳統(tǒng)的數(shù)據(jù)概念,大數(shù)據(jù)可以說(shuō)是一種全新的思維模式和數(shù)據(jù)運(yùn)用方式。它不僅擁有龐大的數(shù)據(jù)量和種類繁多的數(shù)據(jù)集,而且它與傳統(tǒng)的數(shù)據(jù)有著本質(zhì)的區(qū)別。亞馬遜科學(xué)家認(rèn)為“大數(shù)據(jù)是任何一臺(tái)超過(guò)了一臺(tái)計(jì)算機(jī)處理能力的數(shù)據(jù)量”。大數(shù)據(jù)可以用4V特征來(lái)表述。第一個(gè)V是volume,指數(shù)據(jù)量大,而且還不斷增長(zhǎng),難以預(yù)測(cè);第二個(gè)v是variety,指種類繁多,來(lái)源廣泛,包含網(wǎng)頁(yè)、視頻、音頻等多種多樣的信息來(lái)源;第三個(gè)v是velocity,指速度快,大數(shù)據(jù)不僅產(chǎn)生速度快,而且影響快,時(shí)效性高;第四個(gè)v是value,指價(jià)值性,大數(shù)據(jù)的價(jià)值密度低,但是整體價(jià)值和潛在價(jià)值高,需要人們不斷去挖掘和開(kāi)發(fā)。
1.2 大數(shù)據(jù)的系統(tǒng)架構(gòu)
從大數(shù)據(jù)的系統(tǒng)觀點(diǎn)來(lái)看,大數(shù)據(jù)的整體架構(gòu)是通過(guò)分層結(jié)構(gòu)來(lái)實(shí)現(xiàn)的,主要包括5個(gè)環(huán)節(jié):數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)存儲(chǔ)與管理、計(jì)算處理、數(shù)據(jù)分析和結(jié)果展現(xiàn)。數(shù)據(jù)準(zhǔn)備階段是從各種數(shù)據(jù)源例如:互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、企業(yè)數(shù)據(jù)等采集和導(dǎo)入數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行加載、提取、轉(zhuǎn)換成統(tǒng)一格式的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)管理是將數(shù)據(jù)準(zhǔn)備階段轉(zhuǎn)換好的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。計(jì)算處理是在數(shù)據(jù)庫(kù)中通過(guò)批處理技術(shù)、流處理技術(shù)、交互分析技術(shù)等對(duì)大數(shù)據(jù)進(jìn)一步地分析和整理。
2 大數(shù)據(jù)技術(shù)進(jìn)展
2.1 大數(shù)據(jù)的采集和預(yù)處理
大數(shù)據(jù)主要通過(guò)集中采集和分布采集兩種方式來(lái)對(duì)數(shù)據(jù)進(jìn)行收集和整理。大數(shù)據(jù)通過(guò)兩種采集方式從各個(gè)系統(tǒng)中采集數(shù)據(jù),采集到的數(shù)據(jù)的存在形式也很多,包括表、樹(shù)、文件等。需要對(duì)這些采集到的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)一步地整合,通過(guò)轉(zhuǎn)換生成一種新的數(shù)據(jù)集,便于后面地處理。這些采集技術(shù)包括系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、其他數(shù)據(jù)采集等等。目前數(shù)據(jù)庫(kù)繼承、信息系統(tǒng)識(shí)別、集成融合技術(shù)都取得了突破性的進(jìn)展,發(fā)展前沿的互聯(lián)網(wǎng)公司已經(jīng)開(kāi)始推出數(shù)據(jù)清洗和質(zhì)量控制工具。
2.2 大數(shù)據(jù)存儲(chǔ)與管理
大數(shù)據(jù)時(shí)代的到來(lái),使傳統(tǒng)模式下的數(shù)據(jù)存儲(chǔ)容量無(wú)法滿足現(xiàn)代人們對(duì)其容量的需求。傳統(tǒng)數(shù)據(jù)存儲(chǔ)模式受時(shí)間和空間的限制,具有儲(chǔ)存容量小,處理能力慢,無(wú)法應(yīng)對(duì)大數(shù)據(jù)體量大、離散復(fù)雜的特點(diǎn)。而云計(jì)算采用分布式存儲(chǔ)系統(tǒng)將不同屬性的數(shù)據(jù)分類存儲(chǔ),通過(guò)屬性查詢來(lái)及時(shí)提取數(shù)據(jù),這大大提高了數(shù)據(jù)處理的效率;與此同時(shí),利用現(xiàn)代化的大數(shù)據(jù)計(jì)算機(jī)技術(shù)可以將一些數(shù)據(jù)壓縮起來(lái),使其占據(jù)內(nèi)存變得更小,方便對(duì)其進(jìn)行高效準(zhǔn)確的管理。
2.3 大數(shù)據(jù)計(jì)算模式
大數(shù)據(jù)計(jì)算模式是指根據(jù)大數(shù)據(jù)的不同數(shù)據(jù)特征和計(jì)算特征,從多樣性的大數(shù)據(jù)計(jì)算問(wèn)題和需求中提煉并建立的各種高層抽象和模型,雖然大數(shù)據(jù)計(jì)算模式應(yīng)用到的技術(shù)比較多,但是大數(shù)據(jù)計(jì)算模式的應(yīng)用并不是一蹴而就的,基本上無(wú)法用單一的計(jì)算模式來(lái)滿足大數(shù)據(jù)的計(jì)算需求。現(xiàn)在主流是應(yīng)用MapReduce來(lái)實(shí)現(xiàn)的數(shù)據(jù)的計(jì)算和處理,但是隨著數(shù)據(jù)量不斷地增長(zhǎng)和處理數(shù)據(jù)問(wèn)題復(fù)雜性以及難度的增加,其已經(jīng)不能完全滿足大數(shù)據(jù)的需要,目前人們正在不斷研究新的大數(shù)據(jù)技術(shù)來(lái)更好的對(duì)數(shù)據(jù)進(jìn)行計(jì)算和處理。
3 大數(shù)據(jù)的發(fā)展趨勢(shì)
3.1 可視化推動(dòng)大數(shù)據(jù)發(fā)展平民化
大數(shù)據(jù)的可視化技術(shù)基于大數(shù)據(jù)挖掘技術(shù),將這些信息形象化,從而方便人們更直觀地獲取深層次的重要信息。大數(shù)據(jù)可視化技術(shù)從存儲(chǔ)空間中將這些關(guān)鍵信息進(jìn)行提取,通過(guò)圖像、圖形的形式將這些信息更直觀地表達(dá)出來(lái),并運(yùn)用多種不同的分析手段來(lái)提取位置信息,將這些潛在信息通過(guò)圖形圖像等直觀方式展示出來(lái),從而幫助人們更好地理解、挖掘大數(shù)據(jù)下隱藏的信息,降低對(duì)數(shù)據(jù)檢索的時(shí)間,提高對(duì)數(shù)據(jù)處理的能力。
3.2 大數(shù)據(jù)與云計(jì)算的關(guān)系越來(lái)越密切
大數(shù)據(jù)的未來(lái)正朝著智能化的方向發(fā)展,涉及到讓機(jī)器用人的思維去思考,理解人類的行為模式,并對(duì)未來(lái)進(jìn)行預(yù)測(cè),這些智能化的實(shí)現(xiàn)都離不開(kāi)云計(jì)算。云計(jì)算是一種基于互聯(lián)網(wǎng)的計(jì)算方式,它意味著計(jì)算能力可以作為一種商品在互聯(lián)網(wǎng)上流通。它對(duì)終端用戶是完全開(kāi)放的,其可以為各行各業(yè)提供計(jì)算服務(wù),而且云計(jì)算效率高、速度快、成本低,不需要人們掌握專業(yè)的技術(shù)知識(shí)就可以使用,可以滿足客戶的各種需求,具有很強(qiáng)的靈活性。云計(jì)算的各項(xiàng)特性完全滿足大數(shù)據(jù)存儲(chǔ)、傳輸?shù)男枰谴髷?shù)據(jù)的最佳載體。云計(jì)算為大數(shù)據(jù)提供了無(wú)限制的存儲(chǔ)空間和處理能力,滿足大數(shù)據(jù)復(fù)雜計(jì)算的要求,改善了傳統(tǒng)數(shù)據(jù)存儲(chǔ)的缺點(diǎn)。
4 結(jié)語(yǔ)
綜上所述,大數(shù)據(jù)的發(fā)展給人們的生活帶來(lái)了翻天覆地地變化,通過(guò)對(duì)大數(shù)據(jù)的使用不僅能夠使得我國(guó)的計(jì)算機(jī)技術(shù)得到進(jìn)一步的提升,而且還可以使得我國(guó)各個(gè)行業(yè)經(jīng)濟(jì)發(fā)展搭上順風(fēng)車。因此,我國(guó)必須加快大數(shù)據(jù)的發(fā)展,加大對(duì)大數(shù)據(jù)技術(shù)的研發(fā)力度和應(yīng)用力度,從而推動(dòng)大數(shù)據(jù)的創(chuàng)新應(yīng)用造福于社會(huì)。
參考文獻(xiàn)
[1]方巍,鄭玉,徐江.大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,6(05):405-419.
[2]曾凌靜.大數(shù)據(jù)系統(tǒng)架構(gòu)及技術(shù)發(fā)展研究[J].石家莊學(xué)院學(xué)報(bào),2015,17(06):38-43.
[3]徐云.多通道數(shù)據(jù)采集系統(tǒng)數(shù)據(jù)預(yù)處理方法研究[D].浙江大學(xué),2014.
[4]荀亞玲,張繼福,秦嘯.MapReduce集群環(huán)境下的數(shù)據(jù)放置策略[J].軟件學(xué)報(bào),2015,26(08):2056-2073.
[5]何清.大數(shù)據(jù)與云計(jì)算[J].科技促進(jìn)發(fā)展,2014(01):35-40.
[6]顧榮.大數(shù)據(jù)處理技術(shù)與系統(tǒng)研究[D].南京大學(xué),2016.
[7]柏柳.大數(shù)據(jù)技術(shù)進(jìn)展與發(fā)展趨勢(shì)[J].電子技術(shù)與軟件工程,2017.
[8]常李艷.我國(guó)大數(shù)據(jù)技術(shù)研究趨勢(shì)[J].電腦知識(shí)與技術(shù),2017.
作者簡(jiǎn)介
王強(qiáng)(1982-),男,湖北省人。大學(xué)本科學(xué)歷。工程師。研究方向?yàn)橘|(zhì)量管理、大數(shù)據(jù)和人工智能。
作者單位
十堰市產(chǎn)品質(zhì)量監(jiān)督檢驗(yàn)所 湖北省十堰市 442000