陳永東
2014年春運期間,百度公司推出了“百度遷徙”項目,其全稱是“百度地圖春運人口遷徙大數據”。這一大數據可視化項目可以提供人口遷徙、實時航班、機場熱度及車站熱度等四大板塊。通過百度遷徙動態圖,我們能直觀地了解遷入人口的來源和遷出人口的去向。

這個功能利用的是百度地圖的LBS(基于位置的服務)大數據技術,并采用動態可視化呈現方式。它不僅可以為政府部門科學決策提供新的觀察視角和方法工具,同時還可以為公眾提供近距離接觸大數據的機會。
無獨有偶。2014年歲末,360瀏覽器也利用大數據平臺推出了“中國人還鄉地圖”。2015年春節期間,360安全中心還利用大數據推出了“中國網絡騙子地圖”,人們可據此查看全國各地的惡意網站攔截次數及騷擾電話排行榜。
還有更神奇的故事。一次,美國明尼蘇達州一家名為塔吉特的大賣場被一位中年男子投訴,他指控塔吉特亂彈琴,居然將嬰兒產品優惠券寄給他還是高中生的女兒。但沒多久,該男子卻主動致電道歉,因為經他逼問,女兒承認自己確實懷孕了。其實,塔吉特百貨之所以能夠如此精準地選定這名高中生投送特需商品廣告,靠的就是大數據分析。塔吉特的數據分析團隊在查看準媽媽們的消費記錄之后,找出了20多種關聯物,通過這些關聯物對顧客進行“懷孕趨勢”預測,并寄送相應的優惠券,為消費推波助瀾。
實際上,看似神秘的大數據,可能你平時就曾遇到過,只不過你可能不知道那就是大數據的應用。例如,你可能剛在某個購物網站查找或購買了某件商品,然后訪問另一個網頁時,就有相關的商品廣告推送給你。這被稱為RTB(Real Time Bidding,實時競標)廣告,其背后就是由大數據支撐的。
大數據的定義與特點
有人問:究竟什么是大數據?美國咨詢界的翹楚麥肯錫咨詢公司對大數據的定義是:“大數據”(Big Data)是指其大小超出了典型數據庫軟件的采集、存儲、管理和分析等能力的數據集合。高德納咨詢公司對大數據的定義是:需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
“信息資產”的提法,將大數據提升到一個高度,也意味著大數據是一座“寶藏”。鑒于大數據應用的巨大潛力,目前已經出現了“數據科學”(Data Science)這一研究分支。甚至,阿里巴巴等公司提出要由IT轉向DT(Data Technology)。
其實,多數人對于大數據4V特點中的“Value”,是有理解偏差的。Value指的不是大數據價值高,而是大數據中有價值的信息比例(即密度)并不高。想要搜尋有效信息猶如大海撈針,沙里淘金。
此外,大數據顛覆了傳統的統計工作。過去統計中常用抽樣調查法,而大數據則天生就是全樣數據分析。
大數據的魅力何在
為何全世界都這么關注大數據?它主要的魅力源于其廣泛的用途與巨大的價值,既有商業用途,又有城市服務價值,甚至可以預防自然災害及犯罪行為。
2015年央視“3·15晚會”上曾經曝光不少汽車4S店“小病大修”。其實,如果充分利用大數據,加上提高服務意識,這一問題就可能比較好地解決,甚至大數據還可以救我們一命。方法是在你的汽車各主要部件上安裝相應的芯片或傳感器,通過這些遍布全車的傳感器就可以收集車輛運行信息并形成基于大數據的預測性分析系統。這樣,在你的汽車關鍵部件發生問題之前,它們就會提前向你或4S店或汽車制造商報警。此舉不僅可以避免店大欺客,而且還對保護駕乘者的生命安全大有裨益。

事實上,美國的UPS快遞公司早在2000年就利用這種預測性分析系統來檢測其遍布全美的6萬多輛車的實時車況,以便及時進行防御性修理,此舉大大降低了維修成本。
更有趣的是,大數據還曾預測過美國總統大選結果,以及奧斯卡各個獎項的歸屬。在2012年美國總統選舉中,微軟研究院的David Rothschild就曾使用大數據模型,準確預測了美國51個選區中50個地區的投票結果,準確率高達98%。之后,他又通過大數據分析,對第85屆奧斯卡各獎項的歸屬進行了預測,除誤報最佳導演得主外,其他獎項全部命中。
大數據的商業用途
大數據的商業用途廣泛,因為它可以幫助商家更好地了解用戶的興趣與消費習慣,從而達到投其所好或有效改善服務的目的。
文中之前提到的RTB廣告,就是建立在利用大數據了解用戶購買需求前提下的一種精準信息推送。為了達到這種精準,通常需要至少三方平臺角色:一是SSP(Supply Side Platform,服務方平臺,指可提供RTB廣告放置位置的網站);二是DSP(Demand Side Platform,需求方平臺,指接洽RTB廣告投放商的機構);三是AD Exchange(廣告交換中心)。
當用戶登錄SSP一類的網站時,DSP及AD Exchange立刻就知道誰登錄了,然后DSP就開始從AD Exchange那里提取用戶的基本信息及動態購買習慣。如果你喜歡購買體育用品,那么就讓若干個體育用品廣告投放商進行實時自動競標,誰出的廣告費用多,誰的廣告就會出現在你登錄的網站上。這一切只發生在100~200毫秒的時間里,所以你根本感覺不出來幕后這一套復雜的運行過程。不同的人登錄同一個網站,看到的可能是不同的廣告,因為他們的興趣與購買習慣可能大不同。
如果能在產品生產之前就了解潛在用戶的主要特征,以及他們對產品的期待,那么商家就可以投其所好。例如,Netflix在投拍《紙牌屋》之前,即通過大數據分析掌握了潛在觀眾最喜歡的導演與演員,結果果然捕獲了觀眾的心。
當然,也有人擔心商家、廣告商及RTB廣告的各方會不會侵犯用戶的隱私。的確,這是一個問題,目前已經引起各方的重視,相關的規范正在行業內部制定與實施中。
大數據已經在許多行業中大行其道,也有更多的行業意識到大數據的巨大潛力。許多過去沒想到或無法得到的指標或規律,都可能會在大數據的支撐下被發現。大數據大有可為!