

題目中的這個問題,我理解是個本質。在數據時代,數據不管從哪里獲取、用什么工具獲取,也不管數據規模是否夠得上是“大數據”,也不管你用來分析和利用這些數據的是BI軟件(商業智能軟件)還是數字化營銷軟件如AOS系統(注:美國安客誠公司推出的“受眾運營系統”),你總得回答一個關鍵問題:面對一堆數據,你能去做什么,而且這個“做什么”是能有效變成真金白銀的收益的。
所以,當我看到Mike Rozlog最新于2014/2/3發布的一篇文章中用到這個標題時,引起了我的興趣。把文中一些主要觀點編譯概述如下,供朋友們參考,其中也穿插了我的一些理解、注解、舉例。
作者首先指出:“數據”在空前增長,人們在提供著信息,情愿地或無心地,通過社交媒體或者其他終端。作者描述了自己在FACEBOOK的情況,他居然不知不覺地、日積月累地在FACEBOOK那里列舉出了他自己喜歡的160張音樂專輯,這就是“無心”中在提供數據,不想不知道,一想自己也嚇一跳。
其實中國國內的朋友應該也有這個體會,當你在淘寶天貓購物時,有沒有注意到在購物車結算價格時,有一個“是否匿名購買”的選項,很多人沒有費力去勾選一下,那么也就是愿意實名購買了,那么你便“無心”也是“情愿”地提供了一條關于“何時、您、多少價格、網購了什么物品、怎么支付的、選擇的哪種物流方式、聯系電話和物流地址”的非常詳細的信息。淘寶和天貓這個小細節在于把什么作為“缺省項”,如果把“是否實名購買”作為一個勾選項,把“匿名購買”作為缺省選擇,估計也是大多數人“不作為”、不會去勾選,而這種“匿名購買”對淘寶的大數據戰略無益,因此,對“是否匿名購買”的勾選項的“不作為”,就日積月累地“作為”了很多事情了。
但這只是日益增長的“數據”。作者認為,“數據”和“信息”是不同的,不同的關鍵在于“數據之間的連接(links)”。(注:我們這里不翻譯為“鏈接”,以避免讀者一下子就想到是網絡閱讀時去點一下鏈接的那個“超文本鏈接”)。這個“連接”強調的是數據之間的“關系”。數據本身是一堆原材料,類似數字、單詞、計數、字串、圖片、視頻、音樂,哪怕他們被存儲在“關系數據庫”中,他們也天然地彼此之間沒有關系,除非人去賦予他們關系。
而這種人為去賦予數據之間的“關系”,就是在建立數據之間的“連接”。如果一組或一連串的“連接”是正確的,那么數據就生成了“信息”,那么就可以基于“信息”做出一些假設/判斷,從而去開展行動。如果“連接”錯了呢,那么就可能相應地引發錯誤的行動。
比如下面這個例子,關于美國上個世紀40年代早期對脊髓灰質炎(我們俗稱的“小兒麻痹癥”)的病因的研究。“原始數據”顯示是入夏日天氣漸暖時,病例增加。戲謔的是,“原始數據”還顯示,當脊髓灰質炎的病例增加時,冰激凌銷量也以同比例在增長。1952年美國有將近58000人(很多是孩子)被診斷得上了脊髓灰質炎,一場全國性的大流行病。公共衛生部門的專家于是建議要避免食用冰激凌、糖水和其他高塘食物。今天回頭看歷史,認為冰激凌是病因的想法當然很可笑,但那時候的確是“病急亂投醫”了。
結合我們今天的情況來看,我們怎么把海量的信息轉變成能帶來行動的有用的信息、做出更好的決策而不是上例呢?我們已經有了一些數據采集的技術,也有了指數級增長的比以前多得多的數據,但我們還是沒有生成好信息的那個神秘醬料。例如,當你看到以下常見的兩列數據,見圖1:
讀到本文的朋友對上面的數據列都是非常熟悉的,也許還有更多列更豐富的信息。而關鍵的問題是,你面對這些數據列,你能問出什么問題呢?肯定讀者們能列舉出一串經典的問題,但很有可能,漏掉了問那個有關鍵意義的一個問題。
Mike Rozlog指出說,實際上,應該再問一個“目前的數據尚不能支持的問題”,即“為了回答我真正關心的問題,我還缺哪些數據呢”?這就是“數據增補”的概念(Data Augmentation)。想一想,你可能關心的問題是“什么樣的人是我生意的典型客戶?”“我的下一個店鋪應該選址在哪里?”“應該增加一種新產品系列的銷售嗎?”我們發現,目前的“客戶數據”和“銷售數據”無法回答這些,只有當增補了“MAP GIS”(地圖地理信息系統)和“Census Data”(人口統計數據)”之后,才能做的更好,見圖2。前者包括位置地點、路線、實際位移折線圖等,或者包括郵編、平均收入、孩子的個數、種群種族等信息。這時,當你再問“什么樣的人是我生意的典型客戶?”這個問題時,客戶數據、銷售數據和人口統計數據建立連接,才能產生有效的“信息”作為答案。當你再問“我的下一個店鋪應該選址在哪里?”,客戶數據、銷售數據和GIS數據建立連接,才能產生有效的“信息”作為答案。當你再問“應該增加一種新產品系列的銷售嗎?”,目前的數據可能又不夠了,但是通過“數據增補”,現在我們找到了一個回答問題的辦法,即找到“回答這個問題還需要去連接什么數據”,這又與生意主對“典型客戶”的認知有關,你作為生意主,你有關于你“典型客戶”的數據嗎,如果是,那么就可以把新產品的試銷量與典型客戶相關數據進行匹配,看是否該新產品會進入典型客戶的購物籃子。而在過去,對“什么樣的人是我生意的典型客戶?”“我的下一個店鋪應該選址在哪里?”“應該增加一種新產品系列的銷售嗎?”所有這些問題的回答,往往靠直覺的猜想。
客戶數據
數據就在那兒,正在被采集、正在被分析、正在被匯總。但是,在數據被真正應用之前,最關鍵的一個事情,是問出你的現有數據無法回答的問題,即“缺失哪些數據”以及“缺失哪些數據之間的有效連接”。這里無法依靠魔法棒或者一個標準的問題列表,每一組數據當它被采集和呈現時,也就有了他特有的局限,即“還缺少什么”那個需要探索的世界。
回到作者篇頭曾列舉的問題,他的FACEBOOK上已經有了大量數據,關于他聽什么音樂、他去什么音樂會,連他支付的平均票價都可以知道。但他是否會在音樂會上再開銷一筆錢買相應音樂主題的T恤衫和帽子呢?不知道,GOOGLE也許知道,這時就需要增補來自GOOGLE的信息,一個人大量無心的在GOOGLE上的關鍵詞檢索,已經讓GOOGLE可能比這個人自己還了解他自己。GOOGLE的前CEO, Eric Schmidt說,“我們知道你在哪里,我們知道你曾去過哪里,我們多多少少知道你在想什么”。
作者最后拋出幾個問題,很耐人思考。如果某個信息來源有著關于你自己的而你自己還不洞察的信息,你會愿意付費嗎?這些由數據而生成的信息會產生生意上的產出嗎,還是這些信息會導致那個經典的小兒麻痹癥案例中“相關關系”與“因果關系”的錯判?這些都是我們從“數據”到“信息”到“行動”路上要探索的問題。
我自己編譯并穿插注解舉例到了這里,也更理解了AMT的伙伴美國安客誠公司AOS系統的關鍵,不僅僅在于數據本身,而是數據與數據之間的“連接”,以及他們長時間服務于各行業做精準營銷的洞察與經驗。這些經驗沉淀為一個個模型,比如“誰是我的典型客戶”,還可以轉變為一個個專門的營銷行動(campaign),比如“如何打通線上數據庫和線下數據庫的整合,找到我的高潛力客戶(look-like)并有效促使他們下單”,還可以轉變為一個個長期例行的職能工作(operation),比如“對于已經成為會員的客戶,我們本年度應該如何開展會員營銷和個性化服務”,最后,到一個個量化的績效,“我對這批會員樣本開展的營銷活動,是否取得了和對比組相比,超出5-8倍的效果(客單價、人均收入、人均帶來利潤等)”
“數據”、“信息”、“行動”、“效果”,然后再反饋,這樣一個動態的過程,看來對于中國企業的大數據管理、營銷精準化,正有很多的事情可以去做。