大數(shù)據(jù)應用時有三個基本的維度,第一數(shù)據(jù)的采集與存儲,第二數(shù)據(jù)的組織與管理,第三數(shù)據(jù)的分析與呈現(xiàn)。
從搜索引擎、社交網絡到智能移動,全球互聯(lián)網上的信息總量正以每年30%-50%的增速不斷爆漲,每天淘寶上數(shù)十億條店鋪、商品瀏覽紀錄及上億的成交、收藏紀錄及3000多萬條傳感器咨詢等等。市場研究機構IDC的研究結果顯示,2011年全球所產生的數(shù)據(jù)總量就已達1.8ZB,如果把這些數(shù)據(jù)刻錄到CD碟片中,這些碟片可環(huán)繞地球30圈。 預計到2020年,這一數(shù)字將會呈現(xiàn)13倍的增長。
但光擁有數(shù)據(jù)是什么問題都解決不了的,必須要有一種對數(shù)據(jù)應用的視角才能創(chuàng)造出對數(shù)據(jù)的使用。對于一些數(shù)據(jù)挖掘的新手來說,拿到數(shù)據(jù)越多,他就死得越慘。因為他沒有在行業(yè)里待過幾年,不知道該從什么角度去挖掘。
在傳統(tǒng)零售業(yè)有一個著名的例子,超市可以根據(jù)消費者的消費習慣分析出一個結論,啤酒應該和尿布擺在一起。沒有進行正確的歸類,看到的數(shù)據(jù)將涉及到啤酒和尿布的各種品牌。問題隨之而來,是就啤酒和尿布這兩個品類進行分析,還是根據(jù)百威和幫寶適抑或是其他品牌進行分析呢?沒有經驗的分析師恐怕就要暈頭轉向了。
做大數(shù)據(jù)需要擁有良好視角,第一件事就是建立你的切片維度,如:瀏覽行為、交易行為、支付行為、溝通行為、社交行為、反饋行為以及必要的各類技術指標,一個應用系統(tǒng)往往可能在多個尺度同時反應數(shù)據(jù)。
我們在做大數(shù)據(jù)應用時有三個基本的維度,第一數(shù)據(jù)的采集與存儲,第二數(shù)據(jù)的組織與管理,第三數(shù)據(jù)的分析與呈現(xiàn)。
值得注意的是,數(shù)據(jù)的供應方和使用方關注的焦點往往不一致,企業(yè)會表現(xiàn)出不同的數(shù)據(jù)需求,比如為了提高硬件使用率,需要分析日志數(shù)據(jù);為了提高人員系統(tǒng)效率,需要分析工作流數(shù)據(jù);為了提升客戶滿意度,需要cDR數(shù)據(jù);為了讓產品達到更好的市場表現(xiàn),需要消費者數(shù)據(jù)……
例如:在電子商務行業(yè)中,有一項很不起眼,但是業(yè)內人士非常關注的數(shù)據(jù),就是配送地址。物流系統(tǒng)需要識別一項因素:包裹的配送地址到哪一個配送站是最近的。原先,這個地址恰好是在一個合適的配送站A覆蓋范圍之內,但城市道路交通的一些變化,實際從送貨的效率來講,反而是B配送站更方便到達。當系統(tǒng)能夠把包裹地址跟配送站運轉之間進行匹配時,數(shù)據(jù)挖掘的價值是巨大的。
業(yè)內普遍認為,如果可以實現(xiàn),整個物流體系的效率是現(xiàn)在的4倍。
也就是說物流配送本來能更便宜,單個運輸車多走了10分鐘可能沒什么,但是如果有5%的車都多走了10分鐘,經濟消耗就是巨大的。這就需要非常龐大的數(shù)據(jù)庫,能夠把包裹目標地很好地網絡化。
現(xiàn)在眾多電子商務平臺、點評網站及社交網絡等消費者集中地,紛紛開放數(shù)據(jù)接口,全網數(shù)據(jù)分析及應用也成為可能。目前,電子商務企業(yè)客戶已越來越傾向于精細化運營,通過數(shù)據(jù)指導行動。
前段時間,我們去安徽蕪湖做“和電商導師一起午餐”,“三只松鼠”章燎原分析電商成功之道時提到了數(shù)據(jù)分析的重要性。如果是“三只松鼠”老客戶,發(fā)貨時就可以不用一種“封袋夾”,因為,客戶那邊已經積累了太多封袋夾了,改送其他的禮品,這樣顧客每次購買“三只松鼠”產品所收到的包裹都會不一樣。
“三只松鼠”采用了精細化的數(shù)據(jù)分析,把握客戶心理,僅用半年時間,就讓自己的單月業(yè)績從0到2000萬元,在2012年天貓“雙十一”單日便完成了800萬元的銷售業(yè)績,成為天貓堅果類目第一。數(shù)據(jù)的應用給企業(yè)帶來的好處顯而易見,如果是在一個可視化的數(shù)字環(huán)境中做出決策和判斷呢?正確的概率應該會提升很多。