李 恬
其實(shí),數(shù)據(jù)的存在由來已久,人類自從誕生以來就在源源不斷地創(chuàng)造著數(shù)據(jù),各行各業(yè)的發(fā)展都離不開對(duì)數(shù)據(jù)的處理,當(dāng)數(shù)據(jù)量增長到一定程度就形成了海量數(shù)據(jù)(達(dá)到TB級(jí)別的數(shù)據(jù)),但一般認(rèn)為海量數(shù)據(jù)還不足以稱作“大數(shù)據(jù)”[1]。在飛速發(fā)展的數(shù)字信息環(huán)境中,數(shù)據(jù)成本的下降促使數(shù)據(jù)量急劇增長至PB級(jí)別(1024TB)甚至更多,根據(jù)IDC作出的估測(cè),預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5億GB的數(shù)據(jù)量[2];數(shù)據(jù)類型除了結(jié)構(gòu)化數(shù)據(jù)外,還有半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),而且有調(diào)查發(fā)現(xiàn),85%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)之中的非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生往往伴隨著社交網(wǎng)絡(luò)、移動(dòng)計(jì)算和傳感器等新的渠道和技術(shù)應(yīng)用的不斷涌現(xiàn)[3]。
事實(shí)上,在“大數(shù)據(jù)”這個(gè)概念產(chǎn)生以前,一些商家就已經(jīng)發(fā)現(xiàn)了大規(guī)模數(shù)據(jù)的價(jià)值。早在20世紀(jì)70年代末,沃爾瑪公司就開始通過挖掘數(shù)據(jù)來改善自己的供應(yīng)鏈,陸續(xù)采用了條形碼掃描系統(tǒng)和公司內(nèi)部衛(wèi)星系統(tǒng),使得總分部之間可以實(shí)現(xiàn)實(shí)時(shí)、雙向的數(shù)據(jù)和聲音傳輸,在此基礎(chǔ)上于2007年建立了一個(gè)超大的數(shù)據(jù)中心,其存儲(chǔ)能力高達(dá)4PB以上[3]。通過對(duì)數(shù)據(jù)中心內(nèi)消費(fèi)者的購物行為等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,沃爾瑪成為了最了解顧客購物習(xí)慣的零售商,并創(chuàng)造了“啤酒與尿布”的經(jīng)典商業(yè)案例[4]。同樣,在醫(yī)療、交通、電信、城市管理等其他領(lǐng)域,移動(dòng)終端、社交網(wǎng)絡(luò)的全民化應(yīng)用以及信息化程度的提高,也使數(shù)據(jù)有了巨大的應(yīng)用空間。……