繼云計算、社交網絡之后,如今大數據(Big Data)風起云涌,已成為2012 年信息技術領域最時髦的詞匯之一。而相比大數據的興起,以前以商業智能分析而著稱的BI開發商卻頗為失落。有人大膽預測,未來10年,與大數據相關的商務智能分析將引領管理信息化的發展。
大數據真的那么必須?
通常所說的大數據是具有3種特性的數據,即大數據量(Volume)、高生成速度(Velocity)和多數據類型(Variety)。大數據量指的是數據海量,如今有許多企業已經面臨單日數據量以數十、數百TB的速度增加,而總數據量也達到了PB(Petabyte)等級,這樣的數據量已讓傳統的數據庫難以處理;高生成速度是指企業數據增加的速度越來越快,諸如移動化、社交網絡的廣泛應用,使得數據增加的速度比傳統的企業應用程序要快很多,一旦數據增生速度加快,數據處理、分析的速度也得跟上;多數據類型是指數據的多樣性,時下人們上互聯網不只是看看資訊,同時也在不斷地產出數據:上傳照片、上傳視頻、發微博;另一方面,IT深入工作生活中的各個角落,各種各樣的傳感器、監控器也時刻不斷產生各種數據,數據的形式已日趨復雜、多樣了。這就催生了大數據技術的強烈需求。
雖然如何解決日漸緊迫的大數據處理已成了企業管理信息化、現代化的必然需求,但國內的大數據領域到底有多活躍?大數據真的如一些廠商所描繪的那么強大、好用,成為每個企業所必需的嗎?
在一片叫好聲中,部分專家和業內人士顯得小心謹慎,甚至不乏非議。一些專家認為,除了大量的研討會和各類公司宣稱進軍大數據領域的雄心之外,其實際進展至今難見成效。許多企業CIO認為,國內能利用大數據背后的價值的行業主要集中在金融、電信、能源、證券、煙草等超大型、壟斷型企業,其他行業談大數據為時尚早,大數據在企業的應用并不是說只要開放了數據、應用一些技術就可以輕易地發現“金礦”。目前國內大數據應用似乎正在呈現這樣的狀態:投資人活躍,技術和服務供應商熱心,媒體高調,而大量應用企業迷惑。
有人更是批評“大數據是在既有的方案上包裝了一下,實質是新瓶裝舊酒,只不過更時髦”,海量數據時代的數據應用并沒有給多少企業帶來革命性的變化,在 MapReduce(Hadoop中采用的編程模型,用于大規模數據集的并行運算)出現之前,也有企業能夠輕松地對數據進行大規模并行計算了,而 NoSQL 的出現也只是為處理數據的方式帶來了更多選擇罷了,并沒有革命性、實質性的飛躍。比如,某廠商說,利用其大數據技術,電子商務網站就能知道“什么地方的人買東西最瘋狂”或是“什么型號手機最好賣”,這就是大數據分析的結果。對此有專家反駁“難道同樣基于數據倉庫系統的BI分析出來的結果和基于這個大數據出來的結果會有不同?”
的確,從某些大數據應用中能挖掘出新的價值,但這個價值只是附加價值,沒有理由去夸大它,更沒有理由去無端地想象。大數據是機會,但現階段還只是少數人的機會,更多的是巨頭們的商業謀略。”廈門一位電子公司CIO也認為,“一些企業所需要的數據挖掘,傳統列式數據就能很好地處理。與其參加各種口沫橫飛的會議,還不如和工程師聊聊可以運用什么更實用的工具來解決具體問題。”
大數據當立,BI當下?
讓大數據取代BI也是當下熱議的話題。實際上,大數據與BI之間的確存在著天然聯系,但并不是互相替代、排斥的關系。大數據與BI一個主要區別在于:與傳統基于事務的數據倉庫系統相比較,其能在BI的基礎上進行更大容量數據和非結構化數據處理,大數據分析不僅關注結構化的歷史數據,它們更傾向于去對Web、社交網絡、RFID傳感器等非結構化海量數據進行更好地分析。整體相比BI而言,大數據更寬泛。
以EMC公司的 Greenplum核心產品線為例,它分為Greenplum Database(數據倉庫)、Greenplum HD(Hadoop分析)和Greenplum DCA(數據計算設備),后者還是基于高性價比的工業標準x86服務器的MPP(大規模并行處理)分布式可擴展架構。這三個產品歸于一個產品線也可以看出傳統BI和大數據之間的內在聯系。
誠然,海量增長的非結構化、半結構化數據中確實有值得深入挖掘的價值,但這并不等于人們就要采用全新的方法、工具來處理它們。正如需求是漸進式的增長一樣,業務的變革也要以漸進式為主。
筆者認為,大數據的創新性、先進性與前瞻性,不容否定,值得肯定,但當有人提出“大數據當立,BI當下”之論,就顯得過分武斷。在如今細分制勝的時代,功能并不是越多越好,功能過多反而顯得累贅,增加無謂費用。Gartner研究公司BI分析師RitaSallam曾表示,“大數據讓BI更有價值和更有利于業務發展。我們總是會需要看看過去的數據,當你擁有大數據時,你更應該這樣做。BI并不會被大數據取代消失,它的作用通過大數據被放大了。至少在相當長的時期內,大數據還難于取代傳統BI。”
時至今日,各種關于大數據與BI軟件誰優誰劣的交鋒仍不斷泛起,對用戶而言,必須認真權衡,到底利用大數據后能給企業帶來了多少額外的價值?這種增加的價值是否能讓企業的投入值得?而且更為重要的一點是,是否只要使用大數據就一定能夠給企業帶來以前不可能實現的價值?這些是當下用戶們最需要重點考慮的。(作者系廈門智者恒通IT管理顧問機構總監)