freelee

約莫一兩個世紀前,數據相當于弄虛作假的代名詞。當時西方流行一句諺語:“謊言有三種:謊言、該死的謊言,以及數據。”
過去人們不信任數據,一方面是不信任數據源—數據收集者未必能足夠可靠地收集到充足數據;另一方面是不信任數據處理—數據分析者未必能毫無瑕疵地秉公處理數據。數學家嘗試解決這個問題,他們提出樣本量、標準差、置信空間等一系列概念,指出怎樣的數據值得借鑒、怎樣的數據純屬胡扯。
如今到了“大數據”時代,數據不但洗脫污名,甚至被追捧為一種洞察真相的方式。消費者用各樣生成數據的數碼產品記錄自己的生活,自認為更好地掌握了自己的狀態。企業則每時每刻都在儲存業務數據,并通過數據分析尋找更有利于經營的方案。
久而久之,越來越多的人步入“量化人生”:他們定期獲取數碼產品推送的數據匯總結果,并為下一階段的數據表現設立目標,從而提升生活質量。而數碼產品開發者利用從數據中獲取的信息,將他們塑造成“更理想”的用戶。
這種被量化的人生,真的讓大家都過得更好了嗎?
“大數據”之所以可靠,要基于兩種假設。第一,有程序、攝像頭、監視器等“不帶感情”的工具收集原始數據,避免原始數據被數據收集者的主觀操作污染。這解決了“不信任數據源”的問題。第二,數據量越大,越能反映出真實的趨勢,這解決了小量樣本準確還原事實的概率偏低的問題。
可是,各類數據研究機構都會開宗明義:大數據的數據源,天然存在失真可能。
即使收集數據的工具沒有缺陷,依然有各種各樣的麻煩影響數據源的準確度。比較典型的問題是“數據同步”。工具收集到數據后,還需要將數據傳送到一個特定的空間匯總,將其整合成原始的大數據源。然而受網絡質量等因素影響,數據往往未必能第一時間傳送到匯總空間,甚至不能全部傳送到匯總空間。
對于個人用戶來說,這種問題比較常見。例如喜歡跑步的人使用跑步軟件,記錄個人的跑步時間、距離、速度。這類軟件往往依賴GPS持續準確定位,來完整記錄跑者的運動過程。假如這期間出現網絡問題,跑者可能會發現自己只跑了10公里,軟件卻提示跑了15公里。然后軟件計算出來的跑者配速自然也是錯誤的,速度比平日快了一半。
“自動化”恰恰是數據處理行業希望解決數據源不可靠問題的主要思路。

車況監控軟件記錄行車數據
又如,一位車主喜歡通過車況監控軟件定時查閱自己的駕駛油耗。而一旦出現數據同步滯后,車主可能會發現自己周一駕駛的里程被算到周二。這樣無論周一周二的油耗結果都不準確。
大數據的支持者會指出,只要數據記錄的次數足夠多,偶爾幾次的數據源失真并不會影響數據分析結果的可靠性。譬如,對于發現油耗記錄故障的車主來說,盡管周一周二的單日油耗錯了,但是他整周的平均油耗仍然可能是正確的。
而一個與企業相關的例子說明,數據源失真未必只是“偶然”情況。
2021年10月,游戲公司藝電體育公布旗下足球游戲《FIFA 22》的玩家大數據,指出游戲上架的22天內玩家總共踢了21億場、46萬億分鐘比賽。然而幾天后,藝電體育將數據修改為11億場、123億分鐘比賽。前后兩組數據的比賽場數相差接近一倍,顯然說明藝電體育最早使用的數據極不可靠。

數據源不準確,數據分析的準確度也無從談起。這對于量化人生的追逐者來說,是個大問題。
每逢年底,國內消費者都會用支付軟件來查查自己的年度賬單。當消費者感嘆“我怎么一年花了那么多錢”時,他們未必是在反思自己的消費習慣,而是真的疑惑究竟自己為什么有能力花這么多錢。
比較典型的場景是,某消費者經常需要用自己的賬戶幫公司墊支。這位消費者的年度賬單,實際上就不是個人賬單,而是包括公家支出。在公家支出的干擾下,消費者并不能通過年度賬單準確地了解自己的消費習慣,甚至可能因為年收入不夠覆蓋年度賬單所顯示的支出數字,而懷疑年度賬單的準確度。
假如這位消費者日常使用多款支付軟件,其個人的完整消費匯總就更難成型。微信支付的數據不能合并到支付寶的數據,各大銀行的APP數據也不互通。唯一讓其掌握真實的理財情況的手段,是使用專門的記賬軟件,但這意味著消費者要自己執行一系列繁瑣的數據錄入。
上述問題說到底還是數據源問題。用數據管理來研究自己的消費習慣,需要完整的消費記錄數據。然而這些數據分散在各類軟件中,有時消費者采用現金支付,更連數據記錄都沒有。消費者需要一個能匯總各類支付手段的工具,組建起可靠的原始數據庫,再進行有意義的數據分析。
消費者使用記賬軟件記錄每一筆收入和支出,在數據處理領域,這就是一個人工確保數據源可靠性的過程。而假如有一款記賬軟件能讀取其他支付軟件的數據,消費者就能省下不少工夫,這在數據處理領域屬于“自動化執行數據準備”。
沉迷機制令用戶要么變成“數據的奴隸”,要么被困于數據制造的局限空間。
“自動化”恰恰是數據處理行業希望解決數據源不可靠問題的主要思路。在大數據環境下,手動檢視原始數據的問題屬于“不可能任務”,因為數據量太過龐大。即使100萬條數據中無效率是5%,也要處理多達5萬條數據,如果靠人手操作需時幾十小時起。
幾乎所有的數據處理公司都主張,用自動化工具解放人力。一家叫作“數據梯子”(Data Ladder)的公司這樣建議客戶,不要讓你的數據專家親自清洗數據,而要讓他們使用正確的工具和方法幫你完成數據準備。這些“正確的工具”,主要指數據清洗軟件。數據清洗軟件通過編程、算法乃至人工智能等方法,對無效數據可能呈現的形式有一定理解,從而能更快地將具有無效特征的數據抓取出來,乃至自動處理。
數據處理公司煞費苦心地研究自動化數據準備的方案,歸根結底還是相信大數據的洞察意義。可是過度洞察的問題,令量化人生還存在倫理道德風險。
終端用戶常常在日常使用的軟件中,看到“你的運動量比上個月增加了200%”“你的消費金額排名全國的前1%”之類的評價。這些評價是軟件“沉迷機制”的一部分:通過為用戶提供橫向或縱向比較排名,吸引用戶花更多時間爭取更好成績、更高排名,從而增加軟件使用時間。極端的用戶會跌入過度運動、過度消費等陷阱,真正變成“為數據而生存”的人。

另一種軟件沉迷機制,影響的不僅僅是極端用戶,而是大部分用戶—算法推薦。各種社交網絡、娛樂應用,將這種機制玩得出神入化。一旦算法認為用戶對某主題“感興趣”,就不斷推薦相關主題的內容。最終用戶看到的都是類似主題的內容,而失去接觸其他類型內容的渠道,最終被封鎖在所謂的“信息繭房”中。
信息繭房造成信息交流不暢,其危害輕則導致不同繭房的群體互相無謂爭執,重則成為謠言傳播的溫床。令人無奈的是,信息繭房極難打破。甚至有像優兔(YouTube)那樣比較極端的機制:假如用戶是從推薦頁面、推薦欄點進一個新視頻,平臺會積極推薦相關主題的視頻;但假如用戶從搜索結果點進新視頻,平臺推送相關主題的視頻的概率低很多。這意味著用戶連通過搜索來無意中打破信息繭房的機會,都被剝奪。
沉迷機制令用戶要么變成“數據的奴隸”,要么被困于數據制造的局限空間。用數據制造虛假的、片面的信息來控制用戶,已非聳人聽聞。
早前國內有關外賣平臺算法機制的爭議,將量化人生的潛在風險表達得更加清晰:企業貌似通過數據洞察了減少送外賣時間的機遇,但實際上外賣員正為此付出健康乃至生命代價,而消費者被提高的期待卻沒有得到滿足,企業也最終陷入風口浪尖。
一個多世紀前,一個叫泰勒的美國人發明了“科學管理”。他大概可以被視為最早的量化人生實踐者,通過記錄每個工作的步驟及所需時間,設計出盡量提高效率的標準化流程。這本質上還是一個抓取數據源再分析數據的過程。如今“科學管理”被稱為“機械管理”,成為“非人性化”的代名詞,已被現代管理學拋棄。
大數據設計的量化人生,也會被視為反人性、也會最終被拋棄嗎?