今天的大數據就是明天的小數據,這個是做大數據的人都知道的,其實我們現在處于在數據里跑馬圈地的時代。當你以為數據是很大的時候,其實只不過是冰山一角而已,在未來更多數據會出現,當數據多到覆蓋整個樣本空間的時候才是大數據。
今天我們所講的大數據,從科學的角度來看,更多用的是樣本空間的觀點。過去我們從新樣本中找到特征,實驗了之后得到結果,但是在大數據時代,因為有海量數據樣本,所以我們用簡單模型取代復雜模型去解釋數據。
現實中,企業其實很少用大數據。企業一般會用大數據先找到方向,之后用傳統的方法來提煉自己的數據。有人問我怎么開始用起數據?企業得忘掉大數據,理解業務的場景,然后回答是否能解決問題,以及日后怎樣改進。企業最困難的是用數據的文化,以及用數據的管理。我們倡導“數據的生態圈”的概念:用數據幫企業做判斷,解決問題,這個叫“數據歡迎你”;反過來,我們又從無限數據中尋找數據,獲取運營數據。實際上,這個生態圈轉起來是很困難的。我一般都說這個圈越小越好,不要搞得很大。
阿里用了很多時間去健全大數據工具。例如,我們已經開始建立數據地圖,用大數據的原數據告訴我們這個地圖是從哪里來的。過去我們只是用數據,但是今天我們要知道數據是從哪里來的。過去我們是有問題找數據,今天我們用數據找問題。因為大數據,阿里的決策支持部開始變化了,未來我們要每個業務部門都有做數據分析的能力,而不是讓數據技術部門幫助業務部門。這是因為當我們做分析的時候,只要業務部門的人稍做改動,底層數據就全變了,數據分析要重新來過,這對我們來說工作量太大了。所以我們要做更多的工具,讓更多的人很容易的找到他所要的數據。
大數據里還有非常多的問題需要解決。例如,沒有人知道拿著手機上網的一個人和用電腦上網的是不是同一個人。再比如,在大數據中,我們有多少數據就收集多少數據,因為這個數據可能未來會有用,但當數據大到一定程度的時候,我們不可能無極限收集下去,需要放棄一些數據。這也是我最近在思考的事情之一,數據存還是不存?數據現在有用,未來是否有用?我思考的另外一個問題是數據開放不開放?數據的安全很重要,選擇數據開放是否會侵犯別人的隱私?此外,大數據是否安全?在控制安全時,兩個數據加起來可能是非常不安全的,這種情況下,你不會知道這個數據是安全還是不安全,此時監管是失效的。
最后我說一句,讓人做人擅長做事,機器做機器擅長的事。其實數據都是實效的,對企業來講,并沒有什么大數據的神話。