沈卜銘
摘 要 “大數(shù)據(jù)”是伴隨數(shù)據(jù)信息的存儲、分析等技術進步,而被人們所收集、利用的超出以往數(shù)據(jù)體量、類型具有更高價值的數(shù)據(jù)集合、信息資產。“大數(shù)據(jù)”仍然是數(shù)據(jù)信息的一類,之所以稱為“大數(shù)據(jù)”,因為其具有不同于傳統(tǒng)數(shù)據(jù)信息的特征。
關鍵詞 “大數(shù)據(jù)” 數(shù)據(jù)集合 信息資產
1大數(shù)據(jù)的由來
盡管“大數(shù)據(jù)”這一理念直到最近幾年才真正在國內受到高度的關注,但實際上早在上個世紀80年代,偉大的未來學家、社會思想家阿爾文·托夫勒(Alvin Toffler)就在其所著的《第三次浪潮(The Third Wave)》中提出了“大數(shù)據(jù)”這一理念,并在文中熱情地稱頌“大數(shù)據(jù)”為 “第三次浪潮的華彩樂章”。《自然(Nature)》雜志在2008年9月推出了名為“大數(shù)據(jù)”的封面專欄,從科學及社會經(jīng)濟等多個領域描述了“數(shù)據(jù)信息”在其中所扮演的越來越重要的角色,讓人們對“數(shù)據(jù)信息”的廣闊前景有了更多的期待,對身處或即將來臨的“大數(shù)據(jù)時代”充滿了好奇。
而真正讓“大數(shù)據(jù)”成為互聯(lián)網(wǎng)信息時代科技界熱詞的是全球著名管理咨詢公司麥肯錫的肯錫全球研究院(MGI)在2011 年 5 月份發(fā)布的一份名為《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產力的前沿(The next frontier for innovation,competition and productivity)》的研究報告,該報告作為第一份從經(jīng)濟和商業(yè)等多個維度闡述大數(shù)據(jù)發(fā)展?jié)摿Φ难芯砍晒瑢Α按髷?shù)據(jù)”的概念進行了描述,列舉了大數(shù)據(jù)相關的核心技術,分析了大數(shù)據(jù)在各行業(yè)的應用,同時在文中也為政府和企業(yè)的決策者們提出了應對大數(shù)據(jù)發(fā)展的策略。可以說該份報告的發(fā)布,極大地推動了“大數(shù)據(jù)”的發(fā)展。
此后,大數(shù)據(jù)迅速成為科技熱詞,并引起了各國政府以及商業(yè)巨頭的廣泛關注。2012 年1月,瑞士達沃斯世界經(jīng)濟論壇將大數(shù)據(jù)作為論壇的主題之一,并發(fā)布了《大數(shù)據(jù),大影響:國際發(fā)展新機遇(Big Data,Big Impact:New Possibilities for International Development)的報告》;2012年3月,美國奧巴馬政府頒布《大數(shù)據(jù)的研究和發(fā)展計劃》,啟動了一項耗資超過2億美元、涉及12個聯(lián)邦政府部門、共計82項與大數(shù)據(jù)相關的研究和發(fā)展計劃,希望通過提高大型復雜數(shù)據(jù)的處理能力,加快美國科技發(fā)展的步伐;2012年4月,成立于2003年的SPLUNK公司成為大數(shù)據(jù)處理領域第一家成功上市的公司,在 NASDAQ上市的首個交易日以109%的漲幅讓無數(shù)人對大數(shù)據(jù)充滿了想象空間;2012年5月,英國建立世界上首個關于政府數(shù)據(jù)信息開放的研究所;2013年,澳大利亞、法國等國家先后將大數(shù)據(jù)上升到國家戰(zhàn)略層面,這是繼美國和英國之后,歐美主流國家又一輪關于大數(shù)據(jù)國家發(fā)展戰(zhàn)略的動向;在國內,從2012年開始,以BAT(阿里巴巴、騰訊、百度)為首的互聯(lián)網(wǎng)企業(yè)以及傳統(tǒng)的運營商企業(yè)也紛紛啟動了關于大數(shù)據(jù)的研發(fā)和應用;2014年3月,“大數(shù)據(jù)”這一概念首次進入我國政府工作報告;2015年初,李克強總理在政府工作報告中提出“互聯(lián)網(wǎng)+”行動計劃,推動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)物聯(lián)網(wǎng)等與現(xiàn)代制造業(yè)的結合與應用。
2大數(shù)據(jù)的界定
關于“大數(shù)據(jù)”也就是英文的“Big Data”這一術語的概念目前并沒有學界或者實務界一致公認的十分確切的界定。維基百科對“大數(shù)據(jù)”的解讀是:“大數(shù)據(jù)”(Big Data),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。百度百科對“大數(shù)據(jù)”的定義為:“大數(shù)據(jù)”(Big Data),指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產。2011年5月,肯錫全球研究院 (MGI)在《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產力的前沿》的研究報告中,將“大數(shù)據(jù)”描述為“其大小超出了典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集。”,這一界定只是十分基礎的定義,僅僅從數(shù)據(jù)信息的體量上進行了界定。全球最具權威的IT研究與顧問咨詢公司研究機構 Gartner 則給出了以下的定義:“大數(shù)據(jù)是具有更強決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化力的海量、高增長率、多樣化的信息資產。”雖然對大數(shù)據(jù)尚未有公認的界定,但并不意味者大家對這個概念沒有較為普遍的共識,從以上定義來看,我們可以認為“大數(shù)據(jù)”是伴隨數(shù)據(jù)信息的存儲、分析等技術進步,而被人們所收集、利用的超出以往數(shù)據(jù)體量、類型具有更高價值的數(shù)據(jù)集合、信息資產。
從“大數(shù)據(jù)”這個術語的演進來看,大數(shù)據(jù)是一個修辭學意義上的詞匯,在數(shù)據(jù)方面,“大”是一個快速發(fā)展變化的術語,一方面,關于大數(shù)據(jù)標準的數(shù)據(jù)集大小是變化的,會隨著時間推移、技術進步而增長的;另一方面,不同行業(yè)、不同企業(yè)對于大數(shù)據(jù)標準的數(shù)據(jù)集大小也會存在認知上的差別。目前,大數(shù)據(jù)的一般范圍是從幾個TB 到數(shù)個PB(數(shù)千TB)。隨著信息技術的高速發(fā)展,數(shù)據(jù)體量已從 GB(1GB=1 024MB)升級到 TB(1TB=1 024GB)、PB(1PB=1 024TB),甚至EB(1EB=1 024PB)、ZB(1ZB=1 024EB)。據(jù)國際數(shù)據(jù)公司(IDC)預測,2020 年全球數(shù)據(jù)量將達到35.2ZB。據(jù)數(shù)名計算機科學家和業(yè)內高管稱,2008年“大數(shù)據(jù)”這一術語開始在技術圈內出現(xiàn)。起初,許多科學家和工程師都嘲笑“大數(shù)據(jù)”(下轉第188頁)(上接第186頁)只不過是一個營銷術語。2008年末,“大數(shù)據(jù)”得到部分美國知名計算機科學研究人員的認可,業(yè)界組織“計算社區(qū)聯(lián)盟”(Computing Community Consortium)發(fā)表了一份有影響力的白皮書《大數(shù)據(jù)計算:在商務、科學和社會領域創(chuàng)建革命性突破》,作者是一位知名計算機科學家,卡耐基·梅隆大學的蘭道爾·布賴恩特(Randal.E.Bryant)、加利福尼亞大學伯克利分校蘭迪·卡茲(Randy.H.Katz)、華盛頓大學的愛德華·拉佐斯加(Edward.D.Lazowska)。他們的認可對“大數(shù)據(jù)”術語提供了智力支持。而對于大數(shù)據(jù)發(fā)展史來說,2012年肯定也是一個十分重要的年份,大數(shù)據(jù)由技術圈走入了真正的主流市場。
3大數(shù)據(jù)的特征
首先“大數(shù)據(jù)”仍然是數(shù)據(jù)信息的一類,之所以稱為“大數(shù)據(jù)”,因為其具有不同于傳統(tǒng)數(shù)據(jù)信息的特征。關于大數(shù)據(jù)的特征,美國Gartner公司的分析師 道格拉斯·蘭尼(Douglas . Laney)2001年首次提出了大數(shù)據(jù)必須的3V 特征,即容量大(Volume)、多樣化(Variety)和速度快(Velocity)。短短幾年時間,隨著技術的進步,以及對于大數(shù)據(jù)研究的深入,人們對于大數(shù)據(jù)特征的認識也發(fā)生了一些變化,現(xiàn)在普遍比較認可的關于大數(shù)據(jù)的特征的理解是:目前業(yè)界普遍認可的一種理解是:(1)巨量 Volume,即數(shù)據(jù)體量十分龐大;(2)多樣 Variety,即信息類型多樣,即包括結構化信息,如消費者提交的信息、交易信息等,更包括大量非結構化的信息,例如微博、日志、GPS 定位信息等非結構化信息;(3)價值 Value,價值密度低,商業(yè)價值高,受限于數(shù)據(jù)體量以非機構性數(shù)據(jù)的大量存在,相對于傳統(tǒng)數(shù)據(jù)庫,其數(shù)據(jù)價值密度較低;但同時由于信息關聯(lián)性更強,其挖掘價值較大;(4)高速 Velocity,“數(shù)據(jù)處理需要通過高速運算迅速得到分析結果,以滿足大數(shù)據(jù)時代對于時效性的要求。
基于大數(shù)據(jù)的多個V的特征,維克托·邁爾·舍恩伯格(Victor · Maier ·Schoen Berg)在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中提出了三個基于大數(shù)據(jù)特征的重大思維轉變:首先,要分析與某事物相關的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本;其次,我們樂于接受數(shù)據(jù)的紛繁復雜,而不再追求精確性;最后,我們的思想發(fā)生了轉變,不再探求難以捉摸的因果關系,轉而關注事物的相關關系。當理解了上述在大數(shù)據(jù)背景下的思維轉變,回過頭來又能更深刻地理解大數(shù)據(jù)關于幾個V的特征。