
大數(shù)據(jù)是當前最時髦的技術詞匯,這股發(fā)端于互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)分析熱潮已經(jīng)遠遠超出了互聯(lián)網(wǎng)領域,越來越多的敢于為先的傳統(tǒng)企業(yè)已經(jīng)開始部署大數(shù)據(jù)相關技術。從中嗅出商機的廠商則因勢利導推出眾多相關產(chǎn)品,而媒體、分析機構紛紛搖旗吶喊。IDC最新發(fā)布的全球大數(shù)據(jù)市場預測稱,包含結構化和非結構化的大數(shù)據(jù)正在以每年60% 的增長率持續(xù)增長,相應地,大數(shù)據(jù)市場也將從2010年的32億美元增長至2015年的169億美元,年復合增長率達到40%。
中國是數(shù)據(jù)生產(chǎn)的大國,也將是可以從大數(shù)據(jù)中受益最多的國家之一。還是IDC提供的數(shù)據(jù),截止到2012年6月,中國有近3.9億的移動客戶、5.3億的互聯(lián)網(wǎng)客戶。在一個中等規(guī)模的智能城市中,每個季度就可能產(chǎn)生出200PB的視頻數(shù)據(jù)(如果以一個筆記本電腦存儲200GB,那就是100萬臺筆記本電腦所能夠存儲的數(shù)據(jù))。不過,其中究竟蘊藏著多少寶藏,還有待人們利用大數(shù)據(jù)相關技術來挖掘。這也正是大數(shù)據(jù)的魅力所在。
大數(shù)據(jù)的魅力
引發(fā)大數(shù)據(jù)熱的根本原因是它能為我們開啟一個新的可能,簡單地說,就是讓我們認識所不認識的、了解我們從未了解的,從而讓我們從此前模糊的決策,變成有理有據(jù)的科學決策。多少年來,由于技術手段的限制,我們對世界的認識都是采用抽樣方法,然而大數(shù)據(jù)卻為我們提供了一種新的方法,讓我們可以進行全樣本研究。
現(xiàn)實中,越來越多的用戶正在從大數(shù)據(jù)技術中受益。比如,北京百分點信息科技有限公司(以下稱百分點)推出了一種名為個性化搜索引擎的工具,庫巴等電子商務公司利用它來分析訪客的點擊行為,找出訪客的偏好、進行產(chǎn)品推薦。還有,可口可樂正在通過大數(shù)據(jù)技術處理其銷售數(shù)據(jù),來分析世界各地對各種口味的飲料的偏好,從而對各種飲料進行生產(chǎn)資料規(guī)劃,以及新產(chǎn)品研發(fā)。更為人們熟知的案例是奧巴馬在新一任美國總統(tǒng)大選中利用大數(shù)據(jù)技術隨時了解選民的傾向,從而開展針對性的工作,幫助他最終勝選。
未來,還有更多的大數(shù)據(jù)案例會不斷涌現(xiàn)。與此同時,“大數(shù)據(jù)是大忽悠、大謊言”的說法也不絕于耳,甚至也引來科學界的質疑,在互聯(lián)網(wǎng)廣為流傳的《大數(shù)據(jù)的詛咒(The curse of big data)》引發(fā)了業(yè)界關于“大數(shù)據(jù)好還是小數(shù)據(jù)好”的討論。
然而這些疑問擋不住廠商們的熱情。傳統(tǒng)的IT大佬們紛紛在大數(shù)據(jù)領域投入巨資:大數(shù)據(jù)已經(jīng)成為IBM今年最主要的市場戰(zhàn)略,IBM推出擁有4大核心能力的大數(shù)據(jù)平臺,即Hadoop系統(tǒng)、流計算(Stream Computing)、數(shù)據(jù)倉庫和信息整合與治理;甲骨文推出了軟硬一體的大數(shù)據(jù)庫機,其中內置了Cloudera版的Hadoop;SAP以其HANA為切入點,試圖在大數(shù)據(jù)市場分一杯羹;微軟推出了自己的Hadoop發(fā)行版本。另外,Intel、EMC等很多廠商也都在大數(shù)據(jù)方面有不小的投入。今年年初,EMC把其Greenplum等大數(shù)據(jù)業(yè)務獨立,與VMware的從事應用開發(fā)的部分合并,成立了Pivotal公司,專門針對大數(shù)據(jù)市場。
除了傳統(tǒng)IT大佬之外,市場還有很多難以計數(shù)的初創(chuàng)公司,盡管這些公司不大,也許持續(xù)時間不長,但專注于大數(shù)據(jù)業(yè)務,對于大數(shù)據(jù)市場而言,它們同樣也是不可或缺的一部分。
從BI到大數(shù)據(jù)
在大數(shù)據(jù)概念出現(xiàn)之前,在市場也有一個類似的概念紅極一時,至今長盛不衰,這就是商業(yè)智能,而眼下顯然大數(shù)據(jù)的風頭要勝過商業(yè)智能。實際上,這兩者是一脈相承的。因為大數(shù)據(jù)是以海量數(shù)據(jù)的處理和分析,發(fā)現(xiàn)數(shù)據(jù)背后的本質,增加企業(yè)洞察力為目的而誕生的,而這與商業(yè)智能的目的基本一致,從這個意義上說,兩者之間就存在著必然的聯(lián)系。畢竟,獲得洞察才是我們的目標。
業(yè)內專家的建議,可以把大數(shù)據(jù)看成是傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫以及商業(yè)智能這些概念的外延和擴展可能,特別是把大數(shù)據(jù)應用到傳統(tǒng)企業(yè)中,這一點可能更為明顯。因為大數(shù)據(jù)的長處在于處理非結構化數(shù)據(jù),而商業(yè)智能則擅長結構化數(shù)據(jù)。目前,絕大部分傳統(tǒng)企業(yè)的商業(yè)分析已經(jīng)投資于商業(yè)智能,對于結構化數(shù)據(jù)的分析和建模都相對熟悉,而對非結構化數(shù)據(jù)的分析則陌生一些,因此非結構化的數(shù)據(jù)想要被充分認知和分析,轉化為結構化數(shù)據(jù)之后處理不失為一種有效方法。比如,將大數(shù)據(jù)以及聚合數(shù)據(jù)輸入傳統(tǒng)商業(yè)智能系統(tǒng)中去做分析與展現(xiàn),最終形成報告,出分析結果。這也是傳統(tǒng)IT廠商最推薦的一個應用方法。
當然,也并非都必須如此,比如,那些率先引入大數(shù)據(jù)技術的互聯(lián)網(wǎng)企業(yè)就很少使用這些方法,這些缺乏傳統(tǒng)商業(yè)智能基礎的企業(yè)從一開始就將自己的解決方案完全架構在Hadoop等大數(shù)據(jù)技術上,直接從Hadoop中提出數(shù)據(jù),利用自己定制的MapReduce,完成數(shù)據(jù)的分析和展現(xiàn)。
大數(shù)據(jù)落地不容易
盡管大數(shù)據(jù)市場目前看起來很美,但從整體上說這個大數(shù)據(jù)市場才剛剛起步,整個市場的騰飛還有待時日,還存在諸多因素困擾大數(shù)據(jù)落地,人才瓶頸就是之一,特別是既懂得Hadoop相關技術同時還了解企業(yè)業(yè)務的人才。比如,金融企業(yè)在對數(shù)據(jù)進行分析和處理時就非常需要那些有統(tǒng)計學背景、了解銀行業(yè)務的專業(yè)人才,尤其需要懂得將統(tǒng)計學的知識應用到業(yè)務上并與之相結合。
在國外已經(jīng)出現(xiàn)了“數(shù)據(jù)科學家”(有的稱其為“數(shù)據(jù)分析師”或者“數(shù)據(jù)工程師”)的新職位。他們知道企業(yè)的數(shù)據(jù)在哪里、如何拿到它們,以及什么數(shù)據(jù)是關鍵、它們如何生成,并懂得構建相應的業(yè)務流程。其理想的候選人是對復雜的算法、分析和市場營銷都非常熟悉,此外,最好還能懂超高速計算、數(shù)據(jù)挖掘、統(tǒng)計甚至人工智能。
用戶可能面臨的另一個挑戰(zhàn)來自于Hadoop本身的技術和生態(tài)系統(tǒng)還有待完善。Hadoop是開源軟件,本身還處于不斷完善之中。同時,雖然有很多廠商圍繞Hadoop提供了一些服務和技術支持,而真正能提供全面技術支持的廠商卻很少,用戶所需要的技術支持大部分還來自于社區(qū)。而技術支持這一點對于金融、銀行這樣的客戶是非常重要的。
值得慶幸的是,這些隨著Hadoop的普及正在慢慢改觀,市場上逐步涌現(xiàn)出更多專業(yè)的工具和專業(yè)的服務,假以時日大數(shù)據(jù)必將為我們了解和認識我們所在的這個世界打開一扇新的大門。
在一個中等規(guī)模的智能城市中,每個季度就可能產(chǎn)生出200PB的視頻數(shù)據(jù)。如果以一個筆記本電腦存儲200GB,那就是100萬臺筆記本電腦所能夠存儲的數(shù)據(jù)。