大衛·芬雷布(David Feinleib)是硅谷重要的風險投資人,他的《大數據云圖》除了一般的價值外,對透視大數據有特別的價值,這種價值突出體現在芬雷布的這張聞名硅谷的“大數據云圖”上。“大數據云圖”,把整個大數據產業,按內在脈絡組成一整張網。商業人士可以把它當作“秘籍”,從中看出有價值的投資礦脈,看熱鬧的人也可以找到快速成為內行的導游圖。
與許多空泛的書不同,《大數據云圖》作者的眼光很“獨”,是那種賭石人的眼光,這跟作者在行內的“現役”身份有關。這本書談了大數據的方方面面,并非在所有方面都權威,它在硅谷真正權威的地方就是這張“大數據云圖”。所以我們就從這張圖講起。
看過《智取威虎山》的人,都聽說過“聯絡圖”。“聯絡圖”把控制一個地區所需要的關鍵資源、關鍵人交代得清清楚楚,搞定了它,才能搞定各個山頭,坐擁一方天下。“大數據云圖”就好比這張“聯絡圖”,當然不是要讓你去當土匪,而是讓你具備像投資人那樣的火眼金睛,從“有錢沒錢”這個專業角度,一眼看出大數據這條山脈里,哪里有礦,價值幾何,該去搞定什么。
芬雷布來北京的時候,我還沒有太理解他的思路。后來我為了搞清楚這張“聯絡圖”的門道,專門跑了趟美國硅谷,與芬雷布當面交流。現在根據他給我的解答,我來談談對這張神秘的“聯絡圖”的理解。大數據云圖在網上是隨時更新的,我們下面的介紹以2013年4月的版本為準。
從“大數據云圖”這個視角看大數據,首先對大數據背景的看法就有自己鮮明的特色,從院士、學者或實驗室角度看,Hadoop算什么東西?它不過是走向靈圖解的一個過客。但這種看法需要至少15年以上的視野。而作為投資人,芬雷布堅持把Hadoop當作主脈這樣一種簡明的觀點。因為正如當年溫世仁跟李嵐清說的,對商人來說,要改變世界,十年足夠了。十年還不能改變世界的東西,商人根本不會理會。人工智能也許要搞一千年以上,但VC必須得把握十年以內改變世界的東西,Hadoop足夠了。為此,芬雷布把投資目光主要聚焦在為開源技術提供商業支持的公司(如Cloudera、DataStax、LucidWork之類)身上。以改變世界的尺度來認識世界,這是實干家與理論家的不同。
其次,芬雷布建立了一個他稱之為“基礎設施”的基本板塊,來把握大數據產業的“資產”層面的諸要素,包括四個展開環節——數據分析(Cloudera、EMC等)、數據操作(couchbase、10gen等)、數據服務(亞馬遜、谷歌等)、結構化數據庫(Oracle、IBM的DB2、SYBASE等)。在我看來,這是指為整個大數據產業分享固定成本的承重部分。
在這一部分,芬雷布的眼光非常“毒”,他與實驗室看法不同,非常早看出服務潮流的轉變,體現在對亞馬遜將坐大的預見上。事實證明了他的預見。據Synergy報告顯示,2013年第三季度,亞馬遜獲取了美國云計算市場總收入25億中的多數份額,本身收入提升55%。Synergy估計,亞馬遜第四季度云計算收入將達7億美元,比微軟、IBM、谷歌、Salesforce.com的總和還高出15%。芬雷布在幾年前就預見到,亞馬遜將主要贏在用WEB服務卡位(AWS)上,這與云的方向是一致的。中國搞大數據,許多還是IP時代的眼光,而非WEB時代的眼光,這點需要注意。阿里在往安卓的結構里面嵌入WEB框架,對谷歌搞“修正主義”,說明也看到了同樣方向的問題。
芬雷布第二個跟實驗室眼光不同的地方,表現在對商業的理解上。他很好解釋了Cloudera將走強的原因。在芬雷布看來,Cloudera只集中解決了一個問題,就是實時問題。對科學家來說,大數據用多長時間出分析結果,不是主要問題,但對客戶來說就不同,Cloudera Impala幫助其他公司運行Hadoop,關鍵是把靈敏作為一種結果,提交給客戶。以Cloudera現在的規模,隨便一個中國上市公司都可以收購它,但有沒有這眼光是另一回事。
第三,“大數據云圖”最出彩的部分是基礎設施之上的“應用程序”板塊。事實上,VC對基礎設施部分,只投了很少的錢(5億美元),而把重心全押在了應用上。這與中國大數據的做法形成鮮明對照。如果拿芬雷布的“聯絡圖”對照中國,中國的大數據許多都在“不務正業”,將來可能騙到國家的錢、圈到國家的地,但長出什么來,不好說。讓我們來看看真搞市場經濟,讓大數據落地,應該怎么搞。
芬雷布稱之為“應用程序”的板塊是指“人類和計算機系統通過使用這些程序,從數據中獲知關鍵信息”。但實際上,它對應的是整個大數據產業的相當于邊際成本的部分,在云計算背景下,它是指面向云端輕資產運作的部分,即按“使用”(“按需”是另一角度的說法)收費的部分。
“應用程序”板塊的框架結構,由六部分組成,分別是垂直業務(BloomReach等),運營智能(New Relic、Splunk等),廣告/媒體(Collective、DataXu、Metamarkets等),數據即服務,商業智能,數據分析和可視化。
讓我們來看,是一些什么樣的公司活躍在這些應用領域。
在垂直業務應用領域,像BloomReach這樣的公司,幫助電子商務企業優化網站,進行大數據營銷服務,以提高轉化率。
在運營智能應用領域,New Relic將營銷自動化,幫助商家分析哪些客戶最有價值,特別是什么活動最有可能扭轉不利局面,Splunk公司幫助IT工程師分析設備生成的日志數據。
在廣告應用領域,應用服務企業幫助商家算出哪種廣告最適合顧客,產生特定的廣告印象需要花多少錢,近來為移動廣告進行分析的公司,如Flurry,最具增長潛力。
在數據即服務應用領域,鄧白氏公司在為各種數據提供網絡編程接口,值得注意的是,與原有做法(例如阿里的某些作法)不同,這樣的數據源允許他人在其基礎上建立APP程序。
在商業智能應用領域,IBM的Watson是開拓和領導者(我們以前介紹過),MicroStregy和Domo的特點在把智能應用引向新的領域,前者是在移動產品上,后者是在云計算上。需要注意的是,與傳統集中于企業首腦部門的BI不同,大數據的BI最終將武裝到企業的神經末梢,特別是直接接觸客戶的部門。
在數據分析和可視化應用領域,Tableau Software提供了互動性強且易于使用的大數據可視化軟件服務,QlikTech推出了用26000家企業使用的QlikView可視化產品。這一領域目前非常活躍,社交協作功能加入數據分析和可視化服務看來是一種趨勢。
總的來說,芬雷布對大數據產業前景的展望,特別強調應用,“期待更多的大數據應用程序涌現,讓消費者和企業將數據應用到工作當中”。而在基礎設施方面,則會籠罩在亞馬遜的陰影里,新手只能從不受它影響的領域中冒出。
與美國的情況相比,我認為中國發展大數據產業,有幾個問題需要從芬雷布的判斷中得到重要啟示:第一,要深入認識大數據產業分工的規律。大數據的產業框架與云計算有內在聯系,不能離開云計算發展大數據。中國當前大數據發展遇到落地難,這是表象,深層問題是沒有理解基礎設施與應用之間,是一種基于云計算的固定投入與邊際投入大分工的關系。第二,在基礎設施方面,中國一些主要企業數據不開放的做法,放在全球看,正在過時。之所以不開放,根子還在對第一個問題的理解上。適應云計算的做法,要求大數據基礎設施的建設思路盡早從IP思路,轉向WEB思路。WEB只能是開放的。亞馬遜雖然強,但在移動大數據方向上,中國有充分的創新空間。第三,在應用服務方面,要特別向美國企業學習。適應云計算的做法,是使大數據應用面向輕資產服務。現在國內大數據應用有一個不好的苗頭,就是企業做著做著,變成傳統BI的大數據,進而走向封閉、集中,這沒有把大數據應用的真正優勢發揮出來。大數據應用一定要實現面向最終需求的全員智能,做不到都是假的。