劉敏行
“大數據技術與應用的產生發展,表明信息技術革命進入了一個新的轉折點,數據資源真正與能源、材料等量齊觀,共同推動人類社會的進步。更加廣泛深入的大數據應用將出人意料的改變傳統產業[1]。”由此可以看出業界共識:大數據的技術與應用方興未艾,發展迅速。
雖然大數據在國內還處于初級階段,但是商業價值已經凸顯出來。手中握有數據的公司站在金礦上,基于數據交易即可產生很好的效益;同時,基于數據挖掘會有很多商業模式誕生,引發眾多新的業態產生。
然而,我們知道,大數據的基本概念是通過快速獲取、處理、分析以從中提取具有價值的海量、多樣化的數據,正如《大數據時代》一書中提到的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)[2]。從大數據產業的角度看,其產業鏈應該包括大數據的采集與挖掘、組織與管理、分析與發現、應用與服務等環節。因此無論是從大數據的概念還是從產業鏈的角度,我們都可以發現,大數據的關鍵環節是巨量數據的采集與挖掘。數據采集與數據挖掘涉及眾多技術與方法,通過觀察與分析騰訊微信平臺功能的擴展,發現平臺化應該是數據采集與挖掘的關鍵。
騰訊最近更新了微信5.2版本,打開新版微信,歡迎界面回顧了微信3周年的發展歷程,里面記錄了微信功能擴展的一個個里程碑——“語音聊天”、“搖一搖”、“朋友圈”、“飛機大戰”、“微信支付”等。從這些所謂里程碑的應用擴展,可以管窺騰訊的大數據策略。很多人原以為微信只不過是加入語音的QQ,到后來發現微信迅速涉足了游戲、在線支付,以及依托春節推出“理財通”這個與淘寶的“支付寶”相抗衡的金融工具,人們才真正發現,微信根本不是什么QQ的親兄弟,而是騰訊在不知不覺中構建的一個大型社交生態平臺,這個平臺就是大數據平臺,依托這一平臺,騰訊才真正采集和挖掘了近5億用戶的相關數據。
眾所周知,平臺化的應用對于數據收集十分方便。由于同處一個平臺上,各個分支模塊的數據一般會存在一臺相同的機器上,互相提取數據顯然比獨立時要方便許多,還能節省很多信息成本。比如,微信在沒有整合入游戲功能之前,騰訊要收集有關游戲方面的數據,就不得不去尋求一些游戲應用開發公司的支持。這一過程,公司不僅需要支付昂貴費用,而且所獲數據不一定準確和適用。仍拿微信和游戲公司比較,游戲公司的主攻方向是怎么把游戲情節設計得更加吸引人,畫面做的更加炫酷、質量更好,故很多數據都集中在有關游戲設計本身的各個參數上。但作為一個社交平臺的微信顯然更關心的是人們喜歡玩哪些類型的游戲、人們什么時候會玩游戲、人們一般花多少時間玩游戲等等這些偏用戶信息類的數據,需求和取舍不同,有關數據的標準也不同;而如果將游戲應用整合到一個平臺上來,那平臺管理團隊就可以更具針對性的采集數據了,數據的可信度也就有了保證。
同時,平臺化有利于數據采集的標準化、規格化。因為來源于同一個平臺的數據,存儲起來就可以是標準和規格的數據。這既方便數據的提取、檢索,更為重要的是,標準化、規格化的存儲格式給今后的數據挖掘效率帶來了保證。作者曾經動手編寫過一項有關數據挖掘的程序,先編寫數據挖掘算法程序,然后讀入幾組“大數據”進行正確性和效率的驗證。結果在算法設計及優化上花的時間不多,倒是花在處理數據輸入上費了一番功夫,原因就是給的測試數據格式不確定——數據數值之間的空格數不定,有的數據每一行是以windows標準的’ ’結尾,有的卻以linux標準的’ ’結尾;驗證起來難度很大。有時候,可能程序運行的數據不是原始數據,一開始就錯了,最終程序走不通。因此,如果數據本身是以一種比較標準的格式存儲的,甚至是用更高效率的數據結構存儲的,這對于數據的挖掘應用,就會更加高效和正確。
當然,平臺化也給數據挖掘提供了新思路、新價值。[3]“大數據的核心是挖掘出龐大的數據庫中獨有的價值 ”,重點是要挖掘不同類數據之間潛在的聯系,即“交叉數據”的價值。微信平臺上有“滴滴打車”應用,還有微信支付支持的電子商城和電影票購買業務。“滴滴打車”應用可以獲取兩大關鍵數據,即地點和時間。地點即使用打車應用之前要告知的目的地,時間則是根據路況信息推算出乘客在出租車上大概花費的時間。有了地點,服務器可以馬上從平臺上搜尋與目的地距離較近的商城或電影院,然后根據乘客的乘車時間推送一定長度的優惠促銷信息吸引用戶消費。這里,“滴滴打車”的數據分析結果對于商城銷售商品發揮了重要作用。另外,像微信這種社交平臺,對于游戲設置本身信息的關注可能不多,更關心的是反映用戶使用習慣的數據,比如用戶每天在什么時候打開游戲,一般愿意花多長時間在游戲上。諸如這樣的數據,表面上看反映的是用戶玩游戲的習慣,但思路再放開一點,游戲其實是一種放松娛樂的方式。加之,微信平臺設置的網游不像大型網游,只是一些小游戲,往往是人們無聊的時候隨手玩一兩局,玩游戲的時間反映了一個人感到無聊的時間。然而,人們無聊不一定只能玩游戲啊,可能也會愿意看一兩篇小文章、小短片來消遣。于是,騰訊大數據平臺可以借此在用戶無聊的時間里,推送一些小容量小的文章、圖片、視頻,甚至是小廣告,這樣游戲應用的數據又產生了難以估量的商業價值。
當然,騰訊具體如何挖掘數據,作者沒有深入調查,但從微信平臺采集的數據,騰訊完全可以做點大文章。馮小剛拍攝的《私人定制》上映后,結果“私人定制”很快成為一種很火的銷售方式,因為針對每個人特定條件、需求的精準營銷,專為“私人定制”的商品和服務受到越來越多人的青睞。要想真正做得精準,更加“私人”化,關鍵在于私人數據的充分挖掘。而平臺化的應用,有利于公司整合相關數據,進行更加深入、系統的挖掘與分析,從而使“私人定制”成為可能。作者猜想,騰訊未來一定會借助平臺化這一“大數據”挖掘利器,將更多、更廣的應用整合到微信平臺上,比如說被常用來作為收集、分析數據的搜索和地圖工具,也許不久的將來,就會出現在手機的微信應用里。
上述分析,足以說明,騰訊的微信平臺是其大數據戰略的重要支點。憑借這一支點,騰訊在大數據應用方面必將走在國內眾多機構與企業的前頭。
其實,采用平臺化策略,推動大數據產業的不僅僅是騰訊;國外的facebook、twitter,以及我們熟悉的Google,實際上都是先構建了一個大數據采集平臺,然后對海量數據進行深入挖掘分析,最終形成大數據應用的。
平臺化戰略就是數據整合以及標準和規范的戰略。大數據的前提是如何更好地整合巨量數據,沒有巨量的數據資源,難以構建大數據應用,更難以形成大數據產業鏈。采集到了巨量數據,如果沒有數據的標準化、規范化,如果不能將非結構化數據轉變成結構化數據,如果不能方便快捷地挖掘出不同數據之間的關聯性,也難以實現真正的大數據應用[4]。
由此,作者認為,平臺化是大數據戰略實施的關鍵,有一個良好的數據整合平臺,才能真正構建良好的大數據應用。無疑,拓展大數據應用,發展大數據產業,首先要考慮的是構建一個能夠實現數據采集與挖掘的大數據平臺。
[1]《中國信息化》雜志2014年第1期第5頁
[2]麥肯錫研究報告:《大數據:下一個創新、競爭和生產率的前沿》,2011年5月發布。
[3]維克托.邁爾-舍恩伯格與肯尼恩.庫克耶,《大數據時代》,浙江人民出版社出版。
[4] 謝超,《大數據下的數據分析平臺架構》,《程序員》雜志2011年第8期。