
大數據很熱,基于數據挖掘的業務方興未艾,但中國目前處于粗放經營階段,大量數據尚處于灰色地帶。從“海量數據”到“可用數據”,如何才能真正釋放大數據的價值? 凱文·凱利來了。
這位被人們親昵地稱為“KK”的互聯網思想者,前不久飛抵北京進行學術交流。有意思的是,KK隨身攜帶一個小型傳感器,據說能隨時隨地搜集信息,包括他的地理位置、體溫、心跳、血壓等,然后傳到他的筆記本上,再由筆記本傳到云上。
在這個信息爆炸的大數據時代,一個人的所有行為和軌跡都能被跟蹤、記錄、存儲、分析,在西方世界,它有一個非常成熟的名字,翻譯成中文是“量化你自己”。
當然,這是非常高級的數據研究和應用。“除了上帝,都必須用數據來說話”。剛剛出版面世的《大數據》作者徐子沛旅美多年,也是信息學方面的專家。
在龐大和復雜的數據運轉中,幾乎所有的行業都與數據沾上了關系,互聯網亦如此。據悉,一分鐘內,Twitter上新發的數據量超過10萬,Facebook上的瀏覽量超過600萬……
目前在中國,大數據很熱,就像夏天徘徊在35度左右的高溫。不可否認,大數據的爆發正在改變企業的傳統商業模式。尤其在互聯網領域,基于數據挖掘的業務方興未艾,第三方數據開發的基礎建設平臺異軍突起,也吸引了不少資金競相獵食此類公司。
凱鵬華盈創投基金(KPCB)主管合伙人周煒一直在尋找創新型的互聯網廣告公司,在“鐘情”秒針之前,周煒尋覓了兩個月。“秒針做得比較純粹,有獨到之處。絕大多數互聯網廣告公司其實沒有太多技術含量,雖然大家都在做精準的數據挖掘,但是沒有太多實際的東西。”技術出身的周煒說。
而IDG資本也早已布局。去年夏天,IDG資本和名力中國成長基金高調投資百分點科技720萬美元。“互聯網信息爆炸會帶來有關數據處理、數據分析挖掘等領域新的發展機會,同時,也看好電子商務延伸產業鏈條、移動互聯網以及如八百客公司那樣面向中小企業提供在線軟件和信息服務的模式。”IDG資本合伙人、副總裁李豐認為。
數據挖掘公司真的是投資人眼中的富礦?“大數據”似乎看上去很美,但在從“海量數據”到“可用數據”的嬗變中,還需解決怎樣的難題沖突?關鍵是,處于粗放經營的中國企業,如何真正釋放數據價值,如何真正由數據轉化為效能?
“大數據”偽命題?
數據不準確、取數難、維護難
大數據(Big Data),已經是炙手可熱的流行語。
世界經濟論壇去年發布報告,認定社交大數據為新財富,價值堪比石油。
以下是一則典型的在大數據“富礦”中掘金的財富故事:華爾街“德溫特資本市場”公司CEO霍廷利用電腦程序分析全球3.4億微博賬戶留言,進而判斷民眾情緒,并依據分析結果決定如何處理手中數以百萬美元計的股票,原則很簡單:如果所有人似乎都高興,買入;如果大家的焦慮情緒上升,拋售。這招收效顯著,霍廷的公司今年第一季度獲得7%的收益率。
在美國,一些社交網站產生的數據不僅為金融機構作出決策提供線索,同時也為總統競選團隊了解選民和衛生機構分析疾病傳播狀況提供支持。谷歌公司與美國疾病控制和預防中心等機構合作,依據網民搜索內容分析全球范圍內流感等病疫傳播情況。
似乎,“大數據”時代已經到來。
根據市場研究機構IDC的研究結果顯示,2011年創造的信息數量達到1800EB,并且還在以每年60%的速度高速增長,到2020年,全球每年產生的數字信息將達到35ZB。而其中更多的數據增長來自非結構化數據(每個ZB=1024EB=10萬億GB)。
超大量的數據,到底多大才算大呢?徐子沛對此有個形象的比喻:我們一般認為按π為單位的數據就是大數據,π下面的單位是GB,一部電影大約一個GB,一π就等于1024個GB,也就是說,一千多部電影那就算大數據了。再比如,美國國會圖書館是比較大的圖書館,它所有的印刷品如果都輸入電腦的話,也才是幾十個π。
但并非大數據就有價值。“在地球任意地方撿起一塊石頭,都可以驗出鐵元素。但是,說世界遍地都是鐵礦一定是胡扯。只有石頭中鐵含量超過一定比例,而石頭數量又達到相當規模,這堆石頭才能稱為鐵礦,人們才會對它產生投資開采的興趣。” 知名IT評論人,曾任雅虎中國總經理的謝文如此點評“數據大”與“大數據”的區別和價值。
中國的大數據領域到底有多少活躍跡象?
在謝文看來,當下該領域的商業前景有被過分夸大的嫌疑。
“目前盡管一些公司里有些專家在做數據整合與分析,也有一些專門從事數據發掘的公司、工具和專業服務,但總的看起來,數據收集、整理、挖掘所需的成本與產生的效益相比,性價比不高,吸引力不大。”他認為,現在國內數據挖掘行業的尷尬在于,“就像前面說到的貧鐵礦一樣,含金量不高的數據無論規模多大,挖掘多深,也是形同雞肋,食之無味,棄之可惜”。
一方面是熱鬧的有關大數據價值的研討會一場接一場,各類公司對外宣布進軍大數據領域的決心,這里也是投資人最活躍的領域,是技術和服務供應商最熱心的話題。
另一方面置身其中的業者很苦惱,為什么大數據只打雷不下雨?“不是沒有業務需求,而是需求還是不可實現的!”支付寶首席商業智能官車品覺認為,搞數據的人最苦惱的是數據不準確、取數難、維護難。
在他看來,BI(Business Intelligence,商業智能BI)的首要任務是用好數據科學決策。商業智能通常被理解為將企業中現有的數據轉化為知識,幫助企業做出明智的業務經營決策的工具,包括搭建數據倉庫、數據分析、數據挖掘等。“小公司、小團隊還好;規模大了,數據倉庫治理是個大難題。”他認為,現在的BI離業務遠了點,若是能和產品經理結合到一起就更為強大,但苦惱的是,“現在一般產品經理的數據分析做得太差,往往是拍腦袋做決策”。
徐子沛對此也頗有感觸。國內已有各種數據庫的基礎比較薄弱,由于數據作假、數據泡沫等現象,很多數據的真實性、有效性有待考驗。
事實上,大數據在中國遠沒有落地,目前很多問題還沒有解決。
在謝文看來,即便是谷歌,直到Google+誕生前,也不能聲稱自己是個大數據公司。
急功近利
掘金“大數據”的絆腳石
好萊塢電影《點球成金》(Moneyball),在美國掀起了一陣數據挖掘熱,就連默默無名的數據分析師的工作也成為了影迷們好奇的焦點。
比利·比恩(Billy Beane)是美國奧克蘭運動家棒球隊的總經理,這支棒球隊在競爭激烈的美國職業棒球聯盟里只是“下三流”的,然而,在耶魯大學數據分析高材生胖子彼得的幫助下,比恩經過分析數據和晦澀難解的棒球統計學,找到了一批在棒球運動某方面具備超強能力、但卻被價值低估的棒球手,最終以突破傳統的數據經營模式,取得驕人的比賽成績,甚至達到了比肩實力雄厚的紐約揚基隊的程度。
美國麻省理工學院斯隆管理學院經濟學教授埃里克·布呂諾爾夫松曾把“大數據”的潛在影響力比喻成“顯微鏡式的一場數據測量革命”。
不過,大數據到底能給企業帶來什么價值呢?本質上說,大數據本身沒有太多價值,基于大數據的處理和分析才能為企業帶來巨大的增量價值。
海比科技公司總經理、中國軟件網總編輯曹開彬認為,大數據里面包含企業運營的各種信息,如果能對它們進行及時有效充分地整理和分析,才可以很好地、迅速地幫助企業進行業務決策,響應客戶需求,提升競爭力。
Teradata天睿公司大中華區首席執行官辛兒倫認為,隨著大數據時代的到來,企業應該在內部培養三種能力:第一,整合企業數據的能力;第二,探索數據背后價值和制定精確行動綱領的能力;第三,進行精確快速實時行動的能力。Teradata天睿公司是一家智能分析解決方案廠商,主要為企業和政府機構做數據整合、分析,探索、挖掘數據背后的價值,從而提高客戶生產的競爭力。
數據分析和挖掘的前提,長時間的用戶積累,收集、維護數據,聚沙成塔、集腋成裘。國內較早從事數據挖掘的國雙科技副總裁續揚認為,在這個過程中,長期記錄用戶的社會屬性、行為規律和互動特征等要素,在此基礎上,進而深入分析并探索有效的廣告傳播渠道和模式。
在謝文看來,即便是谷歌,直到Google+誕生前,它也不能聲稱自己是個大數據公司。
“它的海量搜索數據雖然規模龐大,但結構簡單。盡管聽說它的搜索算法已經囊括了六萬多個變量,成千上萬的數學和統計學模型,上千的博士和工程師參與分析,但在數據挖掘深度、搜索結果個人化、搜索結果與廣告之間的相關度上進展有限,只有改良,沒有突破。更嚴重的是,谷歌數百個產品和服務之間相互關聯度極低,各干各的,無數數據庫互不相干。各個部門之間以鄰為壑,互不配合,更不整合。”謝文認為,大數據與否取決于數據規模,結構復雜性和關聯性,換句話說某個公司的數據量大并不等于說這個公司具備擁有和利用大數據的前景。
比如眼下熱門的微博數據挖掘,事實上還處在相當早期的投入階段。
國內目前最大的微博平臺新浪微博,正試圖將微博平臺做更多的商業化嘗試:積極通過社交興趣圖譜將品牌內容推薦給可能感興趣的用戶,利用廣告對應的應用頁面吸引粉絲互動,激勵用戶分享創造口碑效應;建立和完善微博的基礎設施,如微博信用系統、微博支付系統、微博數據挖掘系統,推進商業化進程;推出商業開放平臺,在技術和接口層面為開發者提供支持,共同打造服務企業的App Store(應用商店),創建利益分享機制。
但是,也有分析認為,即便坐擁大量數據信息,但新浪微博現在要產生商業價值,還為時尚早,所面臨的問題比如:新浪的后臺技術能力相對偏弱,微博客戶的復雜性和數據分析差異化需要新浪花更多時間、精力去進行摸索。同時,由于社會化媒體廣告是相對較新的領域,國內專業人才相對匱乏。
在徐子沛看來,可能阻礙國內數據分析、挖掘領域健康發展的,是當下急功近利的心態:客戶急于通過數據挖掘對銷售產生立竿見影的拉動效果;數據挖掘公司耐不住寂寞做一些比如建模等基礎性的工作,難得靜下心來在數據挖掘工具上開發、創新;投資機構希望在3~5年內見到投資成效等等。
已經做了三年時間數據挖掘的締元信公司,其CEO秦雯曾表示,作為一個數據公司,從哪個角度,用什么方法挖掘大數據的價值,體現行業應用價值,他們一直還在摸索中。
近期,阿里巴巴頻頻表態啟動大數據布局,并將其提升至戰略高度。
大家伙出沒
大數據是大公司的壟斷?
微軟最近的一次小動作,引起了輿論的關注。它在最新IE10瀏覽器中,默認開啟“禁止追蹤”功能。
“禁止追蹤”(簡稱DNT)能夠防止第三方網站跟蹤用戶活動。接受“禁止追蹤”協議的網站不可以追蹤用戶活動,就像電話推銷員不可以向登記過“禁止推銷”的人推銷一樣。能夠了解到用戶的去處和行為令很多用戶和隱私保護倡導者擔憂,但廣告商卻可以利用這些信息決定以什么樣的方式在哪里定點展示其廣告。
微軟這個簡單而且看似微不足道的修改,被認為“表面上是有利于用戶隱私保護,實際上是壟斷用戶數據”,甚至認為“可能會對最基本的網絡商業環境造成非常大的影響甚至是滅頂之災”。
一個很自然的問題是,擁有大數據的公司會不會形成壟斷?擠壓其他中小企業的生存面包?
在《大數據》一書中,徐子沛列舉過不少案例,在他看來,大企業的數據壟斷不符合數據開放潮流,因為數據只有開放使用,才可以有更大的效率。大數據其實是鼓勵數據開放,競爭也是數據開放下的競爭。數據開放就會自然而然地衍生多樣性。
秒針創始人兼CTO吳明輝將互聯網上的數據分為兩種:第一種是可以公開獲取的數據。例如新聞、微博、博客上的每一篇文章,京東和當當上的商品信息,這些數據不會被壟斷,因為這些數據必須對普通消費者開放,即使大公司因為某些原因禁止蜘蛛的抓取,本質上也無法禁止每一個消費者獲取這些數據,這些數據抓取公司可以通過在上百萬個普通消費者的電腦上安裝爬蟲,分散抓取的方式來獲得這些數據。第二種是用戶行為數據。例如哪一個用戶訪問過哪個內容,這種數據并不是對外公開的,也無從抓取,這些數據只能被大的平臺性公司所壟斷。
“但所有數據的利用都是需要符合商業利益本身的,如果一個小公司能夠充分利用大公司私有數據,為大公司服務,那么大公司也會愿意共享一些數據出來。”80后的吳明輝志向遠大。
百分點創始人蘇萌同樣認為,真正構成壁壘的并非大數據本身,而是大數據價值挖掘的技術能力和大數據應用的商業能力。“未來大數據的方向會在整合結構化與非結構化的數據、標準化與非標準化的數據、單渠道與跨渠道的數據三個方面。”
謝文從另一個視角對記者分析,“在現有情況下,誰有可能擁有比較多的數據,能夠產生一些大數據時代初級的應用、發展和機會?顯然大公司有優勢。但真正的挑戰不在于數據多少,而在于你是用什么嶄新的方法、思路、工具去分析數據。比如Facebook出現的時候還沒有用戶,而那時雅虎卻有幾十億用戶了,Facebook為什么取而代之?因為它用了一個新的思路,更符合現在的發展潮流。”
對于已經坐擁海量用戶、用戶數據的互聯網大公司,自然不愿錯失“大數據”時代的機會。近期,騰訊、阿里巴巴等互聯網公司頻頻表態啟動大數據布局,并將其提升至戰略高度。
阿里集團剛剛設立首席數據官崗位(CDO),負責推進“數據分享平臺”戰略。同時,阿里還發布“聚石塔”平臺,為天貓、淘寶平臺上的電商及電商服務商等提供數據云服務。
此前,騰訊也發布了面向營銷的大數據戰略,稱將調動騰訊7億活躍賬戶數據去服務門戶,來打造基于用戶社交關系鏈的“下一代騰訊網”。
天貓總裁逍遙子表示,聚石塔的推出,通過開放的電商云工作平臺將整合電商生態系統的全鏈路數據,幫助商家提高運營管理效率、降低成本,從“繁”電商轉變為“易”電商,以更輕盈的姿態最終為消費者提供更確定性的服務。
“這是一個連續的過程,突變還沒有發生。”謝文告訴記者,“現在大家還是用歷史上積累的數據、方法、工具,實際上中國互聯網公司對數據是不會投資,也不會用的。在互聯網領域,應該說搜索是最依賴數據的,其次是電子商務,至于做新聞或做垂直服務的,基本上不太在乎。”
其實縱觀全球互聯網領域,包括歐美的數據挖掘工作也并沒有完全發展起來。美國著名社交游戲公司Zynga在一次采訪中說,他們的游戲用戶數據還沒有很好地利用起來,這些數據如果充分利用起來,未來可以獲得更多的數據。
吳明輝認為,Big Data未來是一定可以幫助企業拉動銷售的,在Big Data到Useful Data的演進過程中首先需要解決的是Visible Data,也就是可視化呈現的Data,需要通過一些分析系統和報表系統幫助企業在Big Data中發現問題,然后才是解決。可能有時候發現了問題不能簡單通過Data去解決,而是需要通過改變整個運營系統才能把銷售或運營效率提高起來,發現問題是第一步,但解決問題更難。
在數據分析里有個詞叫“數據清晰”,意思是有很多數據是過時的,沒有及時更新的,不但沒有價值,反而會破壞數據的精細度。看來,Big Data 到Useful Data,還有很長的路要走。