陳禹安
心理管理學家,杭州出版集團副總經理,微信公眾號:wanjusiwei
互聯網技術與大數據應用無疑是大勢所趨,但高樓萬丈平地起,如果從一開始就無法提供高純凈度的數據基礎,任何美好設想都將是無本之木、無源之水。
自“大數據”成為熱詞以來,幾乎一夜之間,很多公司就開始標榜自己“具備強大的數據挖掘能力”。但實際上,大數據時代剛剛萌芽,所謂的大數據應用遠遠沒有達到“神乎其神”的程度。
2016年4月21日,亞馬遜中國聯合新華網開展了“2016全民閱讀調查”,通過覆蓋全國500多個城市、11800多位受訪用戶的數據調查,并結合多年來對中國市場的深入研究以及讀者在線消費行為的分析,發布了一份調查報告。
這份報告的一些結論頗令人奇怪。比如,“70后”愛讀生活和少兒類圖書,“80后”對經管以及孕產育兒類書籍情有獨鐘。不同年齡段的讀者在題材選擇上確實會有所不同,但“70后”中年紀最大的已經46歲,最小的也已37歲,這一頭一尾的差別顯然不能用“愛讀生活和少兒類圖書”來統一,而且“70后”確實可能買少兒類圖書,但未必就是“愛讀”。
亞馬遜對于數據的解讀實在是太過粗疏了,而且也經不起推敲。導致這一結果的原因可能是調查樣本偏差,也可能是數據在采集時就已經被污染。前者是調查方式的問題,如是后者,則與“數據身份歸屬”密切相關,因為無論是通過亞馬遜網站還是Kindle采集的信息,都可能無法精準認證。
在當下的互聯網技術支撐下,數據采集已經不是什么難題,但針對任何數據的分析、評估、研判乃至具體的應用,首先就要明確數據的身份歸屬。也就是說,某一組數據到底是由哪一個具體的鮮活個體產生的。如果數據不是由某個確定的單一個體產生的,顯然就無法依據這種被污染了的數據來做出正確的分析和合理的判斷。
這個問題看似簡單,但在現實場景中卻存在著至少兩類數據身份歸屬不明的情形。
第一類是數據身份錯位。
基于互聯網技術的商業應用,往往需要用戶在使用之前進行注冊。比如,使用Uber、滴滴打車這樣的APP,用戶必須將自己的一些身份信息填寫上傳,才能正常使用。而Uber、滴滴的后臺則根據這些身份信息,來做對應身份的數據分析與挖掘。但是因為互聯網新技術存在著學習門檻,并不是所有有意成為用戶的人都能輕松克服學習阻抗的,只能請求他人幫助或代勞。
有一次,我打Uber的時候,從手機端看到的信息是一位年輕的女司機,但隨后的電話溝通卻表明是一位年長的男性。等上了車做了一些了解后,才知道這是女兒為了讓退休在家的父親有事可做而注冊了Uber司機賬號,但她是用自己的身份而不是父親的身份注冊的。這就造成了數據身份錯位。如果Uber以此賬號來認證這一數據身份的行為,就可能出現偏差。舉一個極端的例子,當這位女士作為乘客享用Uber服務的同時,她(實際上是她的父親,但后臺系統卻無法自動識別)又作為司機在為別的乘客提供Uber服務。這雖然只是我的個人經歷,但類似的情形卻絕非罕見。據報道,北京的一個司機,從網上搜索出一輛他人的白色別克車信息,利用這輛車的相關信息和自己本人的駕駛證信息及手機號,注冊成為一名滴滴專車司機,并開始接單。這個司機后來因為強奸女乘客而被判刑。這是車輛信息失真導致數據污染的情形。還有廣東番禺的一個司機,也是利用岳父的身份信息注冊的滴滴司機賬號。這個司機也因為強奸女乘客而被判刑。舉這幾個例子,不是要強化數據污染、信息失真的用戶與犯罪之間的必然聯系,但是從心理學的角度來看,信息失真帶來的某種程度的“匿名效應”確實使得相關人員更有可能抱有僥幸心理而逾越道德或法律的約束。
此外,還有一種是“合理幫助”導致的數據污染。施以援手者盡管也是以被幫助者本人的身份信息注冊的,但還是有可能夾雜部分自己的信息。比如,2015年“雙12”時,支付寶為了增加用戶,與線下3萬家超市便利店合作,凡使用支付寶支付的,全線五折,50元封頂。這一優惠力度對那些高度價格敏感者(大伯大媽們)的誘惑力不言而喻,但他們大多從來沒有使用過支付寶。于是,在活動現場,就出現了超市或便利店的收銀員幫助他們下載、安裝、注冊支付寶APP而排長隊的場景。為了盡快完成,收銀員們并不會完全按照大伯大媽的真實身份信息注冊,而是潦草完成,能略則略,或是直接將某個默認的選擇用之于所有人。這樣的數據身份顯然是有瑕疵的。
第二類是數據身份共享。
浙江義烏一位經商的趙先生,為了方便女兒玩手機,把12歲女兒樂樂的指紋也加入了手機開鎖密碼。不料,樂樂在父親手機里的一款社交K歌APP上聽歌時,竟然在3天內打賞出去16萬元。對于這款APP來說,如果開展后臺數據統計分析,一定會將打賞行為視為趙先生本人所為,卻不知道這是她年幼的女兒共享了趙先生的數據身份所致。
再以我自己的經歷為例。我的孩子有段時間在一個培訓機構補課,中午需要自行解決午餐。于是,用我的身份信息資料以及信用卡注冊的支付寶就成了孩子的支付工具。孩子除了支付中午的外賣之外,也會用支付寶在淘寶上購買一些她所喜歡的小東西。如果將一個小女孩的購物行為歸結到一個大男人的身上,豈不是張冠李戴?
中國人的個人邊界意識較之于西方人是十分淡漠的。在各種親密關系中,這類數據身份共享是一種常態。諸如丈夫請妻子用自己的淘寶賬號購物,員工用自己的私人賬號為公家采購都是符合中國國情的。但數據身份的共享卻為后續的大數據處理帶來了極大的麻煩。這是另一類型的大數據污染。
大數據的應用顯然是向著精準預測的方向演進的。
據說電商巨頭亞馬遜已經申請了預測式發貨的新專利。亞馬遜會根據某個用戶之前的訂單、商品搜索記錄、愿望清單、購物車,甚至包括用戶的鼠標在某件商品上懸停的時間等數據,預測用戶的購物習慣,從而在他實際下單前便將包裹發出。
顯然,亞馬遜的這一大數據應用是建立在歷史數據的高純凈度的前提之下的,基于這些高純凈度數據來給用戶畫像。如果因為數據身份錯位或共享而導致大數據污染,所謂的用戶畫像就是失真的,也就不可能成為數據分析與預測決策的依據。
一句俗話能夠特別形象地表明大數據污染與大數據應用之間的關系,這就是“一顆老鼠屎,壞了一鍋粥”。在當下互聯網創業大干快上的大環境下,創業公司為了盡快地跑馬圈地搶地盤,往往是蘿卜快了不洗泥,很少有意識或有精力來顧及數據純凈度的問題。甚至有些創業公司為了拿出過得去的數據,主動造假。但這樣做,勢必會為未來埋下重大隱患,所積存的歷史數據很有可能因為污染嚴重而失去基本效用。
互聯網技術與大數據應用無疑是大勢所趨,未來的商業必然是向著極度精準化的方向演進的。但高樓萬丈平地起,如果從一開始就無法提供高純凈度的數據基礎,任何美好設想都將是無本之木,無源之水。
所以,我們必須重視杜絕大數據污染以及用戶畫像的真實度,這就要求我們必須把好“數據身份認證關”,這才是大數據應用之基。做不好這項基礎工作的互聯網公司,就不要急著奢談“強大的數據挖掘能力”了,而消費者們也要保持足夠的清醒,不要盲目相信那些神乎其神的“大數據奇跡”。