魯惠林
(安徽大學(xué)商學(xué)院,安徽 合肥 230601)
上世紀(jì)80年代,大數(shù)據(jù)這個詞匯就已經(jīng)出現(xiàn)。但是,一開始它僅是用來形容數(shù)據(jù)量大。而計算機技術(shù)的不斷發(fā)展,數(shù)據(jù)不在是簡單的數(shù)字集合,而是指無法在有限時間內(nèi)用傳統(tǒng)的IT技術(shù)和軟硬件工具對其進行感知、獲取、管理、處理的方式。但對于“大數(shù)據(jù)”的具體定義,目前學(xué)術(shù)界尚未形成明確統(tǒng)一的定義。2012年高德納咨詢公司認為:大數(shù)據(jù)是非常重要的信息資產(chǎn),但它需要新的運算方式來處理,以期提高這項信息資產(chǎn)的決策力、洞察力,并用這些特征來描述大數(shù)據(jù)。麥肯錫(McKinsey)認為:想要在特定時間內(nèi)對大數(shù)據(jù)的內(nèi)容進行搜集、存儲、分析運用,依靠過去傳統(tǒng)的數(shù)據(jù)處理方式已不能解決。
關(guān)于“大數(shù)據(jù)”的特征描述,代表性的觀點有,IBM將“大數(shù)據(jù)”的特點總結(jié)為“3V”,即大量化(Volume)、多樣化(Variety)和快速化(Velocity);著名的數(shù)據(jù)管理大師維克托·邁爾-舍恩伯格則認為大數(shù)據(jù)具有4個特點,即“4V”,在前面的基礎(chǔ)上增加了Value(價值密度低)。目前,“4V”特征已成最基本的共識,這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念。
1.2.1 數(shù)據(jù)規(guī)模大
數(shù)據(jù)量大是大數(shù)據(jù)的基本屬性。想要收集大量數(shù)據(jù)是十分困難的,只有部分機構(gòu)會采取抽樣調(diào)查,而現(xiàn)在,互聯(lián)網(wǎng)的普及,用戶通過智能化的媒介有意的分享或無意的點擊、瀏覽都會產(chǎn)生大量數(shù)據(jù);數(shù)據(jù)量大還體現(xiàn)在人們處理數(shù)據(jù)的方法和理念發(fā)生了改變。早期,人們對事物的認知一直依據(jù)抽樣調(diào)查,以部分?jǐn)?shù)據(jù)來描述整體事物。但在某些領(lǐng)域這種方法顯然不能完整的描述,可能會忽略很多重要信息。甚至得到的結(jié)果都是相反的。而現(xiàn)在,在大多數(shù)領(lǐng)域,大數(shù)據(jù)依托云計算不需要只采取部分樣本來反映總體數(shù)據(jù)。這樣,不刪減數(shù)據(jù)能提高準(zhǔn)確性。從更多方面來分析事物,這樣的結(jié)果必然是處理數(shù)據(jù)增多。
1.2.2 數(shù)據(jù)種類多
數(shù)據(jù)類型多,復(fù)雜多變是大數(shù)據(jù)的另一重要特性。雖然以往數(shù)據(jù)量也不小,但大多數(shù)數(shù)據(jù)都是結(jié)構(gòu)化數(shù)據(jù)。這種類型的數(shù)據(jù)存儲、處理、查詢方按事先定義的方法,抽取有用信息,簡單易于人們操作。而現(xiàn)在大數(shù)據(jù)涌現(xiàn),呈現(xiàn)的都是非結(jié)構(gòu)化數(shù)據(jù),它沒有固定的結(jié)構(gòu)屬性,數(shù)據(jù)及它的結(jié)構(gòu)都需要存儲。增加了數(shù)據(jù)處理的難度。各種半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)遍及工作、生活中各個角落,這些結(jié)構(gòu)復(fù)雜,其增長速度比結(jié)構(gòu)化數(shù)據(jù)快10倍到50倍。
1.2.3 數(shù)據(jù)處理速度快
要利用好大數(shù)據(jù),就必須要求對其進行快速處理。大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一是要求數(shù)據(jù)的快速處理。數(shù)據(jù)增長速度十分之快,這么多激增數(shù)據(jù)需要更快的數(shù)據(jù)處理速度,否則這些數(shù)據(jù)不僅未得到充分利用,不能解決問題,反而可能因為龐大的數(shù)據(jù)使問題變得復(fù)雜。也是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的特點之一也是對爆炸式增長的數(shù)據(jù)要求實時處理。
1.2.4 數(shù)據(jù)價值密度低
大數(shù)據(jù)包含事物各個細節(jié),并未進行刪減、歸納、處理,直接是原始的全部數(shù)據(jù),所以它也包含了大量的可能無用的信息。對于這種非結(jié)構(gòu)化數(shù)據(jù),未了保證它對于新產(chǎn)生的應(yīng)用有足夠的有效信息,就必須為此保留全部數(shù)據(jù)。這樣激增的數(shù)據(jù)中所含有效信息量的比例在減少,數(shù)據(jù)價值密度偏低。
學(xué)術(shù)界認為“大數(shù)據(jù)”概念的提出始于上世紀(jì)80年代,但起源尚未有嚴(yán)謹(jǐn)權(quán)威的考證。有資料說“大數(shù)據(jù)”概念最早是由麥肯錫公司提出,沒有提及具體的時間。從現(xiàn)有研究文獻或研究動態(tài)來看,美國《Nature》早在2008年就推出了Big Data專刊,從互聯(lián)網(wǎng)技術(shù)、網(wǎng)絡(luò)經(jīng)濟學(xué)、環(huán)境科學(xué)、生物醫(yī)藥等多個方面介紹了海量數(shù)據(jù)帶來的挑戰(zhàn),《Science》在2011年2月推出專刊“Dealing with Data”,主要圍繞著科學(xué)研究中的大數(shù)據(jù)的問題展開討論,說明大數(shù)據(jù)對于科學(xué)研究的重要性。
國外學(xué)者對“大數(shù)據(jù)”展開的相關(guān)研究逐漸引起了國內(nèi)學(xué)者的高度重視,圍繞“大數(shù)據(jù)”的研究工作也全面展開。李國杰、程學(xué)旗等為核心的計算機學(xué)科專家學(xué)者等對其進行了綜述性的歸納研究與探討,闡述了大數(shù)據(jù)的研究現(xiàn)狀與意義,介紹了大數(shù)據(jù)應(yīng)用與研究所面臨的問題與挑戰(zhàn),并對大數(shù)據(jù)發(fā)展戰(zhàn)略提出了建議。
在學(xué)者們的不斷研究探索中,在理論研究方面,2013年孟小峰、覃雄派等在《大數(shù)據(jù)管理:概念與挑戰(zhàn)》論文中主要是在數(shù)據(jù)分析、理論和數(shù)據(jù)查詢處理技術(shù)的相關(guān)研究中,列舉了一個數(shù)據(jù)分析平臺需要有幾個重要的特點,并對當(dāng)前主流的數(shù)據(jù)管理平臺進行了歸納。馬帥等就“大數(shù)據(jù)”的異構(gòu)數(shù)據(jù)模型和存儲復(fù)雜的數(shù)據(jù)智能分析、數(shù)據(jù)質(zhì)量以及大數(shù)據(jù)安全等方面的問題進行了分析與研究。朱志軍等人在《大數(shù)據(jù)、大機遇、大變革》中介紹數(shù)據(jù)生成的背景、特點和發(fā)展趨勢,并從實證的角度討論了對社會和商業(yè)智能數(shù)據(jù)的巨大影響,即數(shù)據(jù)可能給企業(yè)帶來巨大的商機。
綜上所述,隨著互聯(lián)網(wǎng)的發(fā)展,物聯(lián)網(wǎng)的發(fā)展,我們的大部分工作和生活都可以用數(shù)據(jù)信息來代表,所以大數(shù)據(jù)時代已經(jīng)悄然到來。目前學(xué)術(shù)界的研究主要集中在基礎(chǔ)研究上,即更多研究是數(shù)據(jù)的收集、傳輸、存儲和處理技術(shù)和基礎(chǔ)設(shè)施建設(shè),也有一些學(xué)者開始在各個領(lǐng)域的實證應(yīng)用研究數(shù)據(jù)。但在實踐研究和探索領(lǐng)域仍明顯小于理論研究。在大數(shù)據(jù)領(lǐng)域,多學(xué)科交叉及其應(yīng)用研究的基礎(chǔ)理論研究和應(yīng)用也開始了。
從國內(nèi)外研究現(xiàn)狀來看,“大數(shù)據(jù)”研究顯然是是當(dāng)前學(xué)術(shù)界關(guān)注的熱點問題。事實上,對大數(shù)據(jù)的認識是逐漸清晰的。從現(xiàn)有可以依據(jù)的學(xué)術(shù)成果來看,明確以“大數(shù)據(jù)”為主題詞的文獻研究是近5年來陸續(xù)產(chǎn)生的,時間較短,從現(xiàn)狀來看,主要有如下特點。
一是大數(shù)據(jù)的挖掘和處理技術(shù),很大程度上停留在理論研究階段。大數(shù)據(jù)研究關(guān)注地更多的是數(shù)據(jù)收集、傳輸、存儲、處理等技術(shù)問題以及相應(yīng)基礎(chǔ)平臺的構(gòu)建上。從其發(fā)展脈絡(luò)來看,已逐漸呈現(xiàn)出由理論研究到實踐運用的轉(zhuǎn)變,但大數(shù)據(jù)核心處理技術(shù)尚未成熟。
二是如何把“大數(shù)據(jù)”研究更好地應(yīng)用于實際,大數(shù)據(jù)在各個領(lǐng)域內(nèi)的實證應(yīng)用與研究分析開始受到關(guān)注,尤其是受到政府的關(guān)注。隨著社會、經(jīng)濟的發(fā)展,各行業(yè)各類用戶對于智能化的要求將越來越高,大數(shù)據(jù)公共領(lǐng)域、醫(yī)療衛(wèi)生、地礦能源、行業(yè)管理、營銷與客戶分析等各行各業(yè)的應(yīng)用研究逐步興起,目前這些應(yīng)用研究屬初始階段,簡單、分散、理論不穩(wěn)定,尚未有主流觀點出現(xiàn)。
三是對于大數(shù)據(jù)的相關(guān)理論與研究方法基本上處于認知階段,比如、概念、特征、現(xiàn)象、問題等,在管理科學(xué)領(lǐng)域,大數(shù)據(jù)在營銷、客戶分析、綜合評價等方面的研究有文獻成果,但數(shù)量很少,這些前瞻性研究由于缺乏系統(tǒng)理論和化學(xué)技術(shù)的支撐,遠遠不能撼動對傳統(tǒng)的管理理論與方法的影響。
本文從幾個常見的大數(shù)據(jù)概念的描述,分析了大數(shù)據(jù)的典型特征,在此基礎(chǔ)上討論了大數(shù)據(jù)技術(shù)解決問題的核心問題。大數(shù)據(jù)時代已經(jīng)到來,要想更好地從大數(shù)據(jù)中受益,我們必須充分利用大數(shù)據(jù),發(fā)揮其社會價值和科學(xué)價值。大數(shù)據(jù)的發(fā)展還處于初級階段,還有很多領(lǐng)域還需要我們積極探索,我們不斷開拓空間,如何快速有效地處理大數(shù)據(jù),合理利用大數(shù)據(jù)還需要不斷探索和發(fā)現(xiàn)。
[1] Manyika J,Chui M Brown J,etal.Big Data: The Next Frontier for Innovation,Competition and Productivity[R].McKinsey Global Institute,2011.
[2] 維克托·邁爾·舍恩伯格.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.
[3] Specials Archive. Big data[DB/OL].[2008-09-03].Nature,http://www.nature.com/news/.
[4] 李國杰.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域-大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(06):647-657.
[5] 覃雄派,王會舉,杜小勇,王珊.大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報,2012,23(01):32-45.
[6] 馬帥,李建欣,胡春明.大數(shù)據(jù)科學(xué)與工程的挑戰(zhàn)與思考[J].中國計算機學(xué)會通訊,2012,8(09):22-30.
[7] 朱志軍,佘叢國,閆蕾等.大數(shù)據(jù)、大機遇、大變革[M].北京:電子工業(yè)出版社,2012.