趙利利
論大數據迷思的建構
趙利利
大數據話語體系的建構正在超越技術和數據本身的社會功能形成迷思。理性看待迷思有助于我們合理選擇路徑,避免社會資源的浪費。本文從“全體數據”的崇拜與懷疑、“混雜性”便利與非結構化數據難題、“相關關系”的因果基礎抽離、“預測”與算法模型背后的權力實在四個方面對“大數據”迷思進行剖析,以期在“大數據迷思”強勢滲透的現實語境下提供一種批判性的思考維度。
大數據;迷思;數據驅動
[作者]趙利利,中國傳媒大學。
“迷思”一詞起源于希臘語單詞μ θ ο(mythos),是指“一種純粹虛構性的敘事,通常涉及超自然的人物、行動或事件,體現了一些與自然或歷史現象有關的流行觀念”。①《牛津英語詞典》,牛津大學出版社,1989年。迷思包含著承諾,這種承諾在未來解決了現在的困境,是對未來或想象圖景的美好建構。迷思一旦出現,其本身就成為現實的組成部分,它將消耗人力、物力、財力或者其他資源維持自身的物質實在性。
大數據話語體系的建構正在超越技術和數據本身的社會功能形成自身的話語場。“人類行為93%是可以預測的”,“我們到底有多好預測?我們終于能夠為這個一直困擾我們的問題給出一個定量的答案了”。②艾伯特-拉斯洛·巴拉巴西著,馬慧譯:《爆發——大數據時代預見未來的新思維》,中國人民大學出版社,2012年,第217頁。“當世界開始邁向大數據時代時,社會也將經歷類似的地殼運動”,“大數據早已在推動人類信息管理準則的重新定位”。③維克托·邁爾-舍恩伯格肯尼斯·庫克耶著,盛楊燕、周濤譯:《大數據時代——生活、工作與思維的大變革》,浙江人民出版社,2013年,第V頁。這套話語的強勢正愈來愈顯著地滲透包括計算機、商業、傳媒甚至政治、經濟等多個領域,形成一種即將發生廣泛的本源性顛覆的假象。這種話語的建構已然形成迷思。理性看待迷思,厘清“大數據”迷思建構背后的主導要素,有助于我們合理選擇路徑,避免社會資源的浪費。
在有關大數據特性的描述中,全數據模式是大數據話語體系中最具誘惑力的內容之一。全部數據意味著樣本等于總體,從某種意義上說,全數據模式終結了隨機抽樣。公眾對于大數據的狂熱追捧正是因為這種顛覆性的解放。但是,從哲學的角度來說,自從愛因斯坦的相對論打破西方絕對主義科學觀之后,要求某一理論、研究成果或者技術達到全部數據的采集本身就是一件有悖自然規律的事情。除非所討論的范疇是形而上的,要不然以全體數據作為邏輯或者現實起點的探討本身就是詭辯術。“大數據”迷思的建構者們一方面自豪地標榜大數據應用的實操性,另一方面又為它的絕對性正名,這本身就是悖論。就目前和可預見的未來來看,“大數據”全數據模式的迷思意味顯而易見。且不說信息基礎設施在世界范圍內的普及存在嚴重的不平衡性,即便未來實現了信息基礎設施的全部平等準入,不同種族之間的文化沖突、商業力量對技術的利用和政治權力對技術化現實的規制都對數據資源的分配帶來了強烈的不可預知性,全數據模式帶有明顯的理想主義色彩。
目前,全體數據采集在現實中遇到的最大阻礙是個人信息泄露引發的侵權問題和冗余數據的低價值附加問題。私密信息的獲取難度降低了全數據采集的可行性,而大部分數據的低可利用性實際上拉低了整體數據的質量,即使所謂的全體數據(實質上是可得到的巨大數據,做不到全數據獲取)能夠作為分析對象,但大部分數據不具有代表性會導致分析結果嚴重偏頗,其價值甚至比不上隨機抽樣獲得的結論價值。
大數據另外一個突出的特點是:不追求精確性,擁抱混雜性。從表面上看,如果相關分析技術能夠保證所有格式的數據均能被統一體系的分析標準所提取并剝離出有效信息進行分析的話,那么,對數據混雜性的寬容的確能夠節省大量的人力物力,提高效率。但是,現實并非如此簡單。有業界人士撰文指出:數據和信息正呈現出爆炸性的增長,巨大的數據量已經從TB級躍升至PB級,數據結構也更加復雜,大部分數據信息都屬于非結構化數據,各種數據格式之間互不兼容,而且人們對數據的訪問和使用更具隨機性,這些特點給數據的提取、存儲、管理和應用帶來了很大困難。①王琛:《大數據時代如何應對非結構化信息狂潮》,泡泡網,www.pcpop.com,2014年8月7日。此外,隨著傳統產業網絡化程度的提高,互聯網企業之間的競爭日趨激烈,企業的版權意識也不斷強化。互聯網不再是知識免費共享的烏托邦,越來越多的企業為了保護知識產權紛紛通過使用不同的程序語言、加密技術或者權限設置等措施加強對自身產品的保護,這讓數據的采集和挖掘變的愈發困難。
大數據第三個為人熟知的特性是:不再是因果關系而是相關關系。相關關系是一種相對低級的關系分析。因為擁有龐大的數據基礎,相關關系在商業領域上發揮著“小數據時代”意想不到的作用,商家可以在不關心為什么啤酒和紙尿布的銷售情況呈正相關只需把這兩件商品擺在相近位置的情況下就贏得高額利潤,但是,這種以經濟目標為準則的短期利益對于推進人類對客觀世界的認識和人類知識體系的深化來說并沒有直接意義上的好處,頂多是提供了新的研究線索。大數據追捧的“相關關系”跟所有其他通過數學模型或量化研究得出來的相關關系一樣體現出解決問題時的相對性和局限性,并不具有顛覆意義。大數據的思維和技術方法更像是一種助推科學研究多面向發展的手段,它的工具性價值大于它的世界觀價值。
如果從邏輯推理的角度關照,大數據所謂的相關關系根本上還是一個個具體的碎片化的因果關系復雜綜合后的結果。把相關關系從因果關系中抽離出來禁不起推敲理論的推敲,在現實關系的重構上表現出脆弱性。
預測是被大數據建構者們公認的核心功能。“大數據的核心就是預測。大數據不是要像機器人一樣思考。它是把數據算法運用到海量的數據上來預測事情發生的可能性。”②維克托·邁爾-舍恩伯格肯尼斯·庫克耶著,盛楊燕、周濤譯:《大數據時代——生活、工作與思維的大變革》,浙江人民出版社,2013年,第16頁。維克托對大數據預測功能的闡述明確區分了大數據預測和人工智能學習之間的不同,與人工智能主要依托于神經網絡等新科學技術不同,大數據預測的主要工具是算法模型。
算法模型不是與生俱來的,它建立在總結歸納經驗的基礎之上。算法所遵循的仍然是建立在因果思維和因果鏈條上的經驗模式。因此,以它為模型演繹所得的結論很難脫離因果邏輯的窠臼。從符號學的角度來講,算法本身是一套具有一定規則的符號體系。算法模型是多元的,它隨著變量和參數的改變具有一定的彈性和可調試性,因此,不同的算法有時候會得出不同的結果,而算法的可靠性則需要通過實踐的檢驗來不斷修正。算法模型的多元性決定了出于預測目的的大數據分析必然面對模型的選擇。什么樣的算法模型應該被用于預測什么樣的事件趨勢掌握在大數據分析師的手中,關乎資源配置的權力,而有權力的地方則往往埋藏著政治經濟關系的伏筆。
互聯網為迷思的建構提供了便攜的物質基礎,從作為互聯網基礎語言的程序語言到作為互聯網內容支撐的線下現實文化遷移后的文本呈現,再到作為人的延伸的多媒體網絡生態元素,互聯網無時無處不體現為符合系統的綜合。大數據作為具有創造力的技術實在參與現實建構以及作為現實建構話語維度的話語實踐本身具有積極意義,“大數據”話語體系的秩序性建構也理應得到現實語境的擁護,畢竟海量數據廢氣占用大量存儲資源限制并不是數據經濟的最優選擇,事實上,泛濫的數據垃圾已經成為擺在數據生產者和消費者面前的巨大難題。只是,網絡社會與現實社會的選擇性互動使得這一困境在公眾頭腦中形成弱勢存在,當技術的可供性有可能解決這一現實困境時,迷思的建立便擁有了龐大的群眾基礎。網絡社會與現實社會的同根性(決定了公眾頭腦中網絡拯救的可能性)和異質性(決定了拯救失敗的可原諒性)共同促成了公眾對于互聯網技術癲狂般的迷思性崇拜。正如文森特·莫斯可所說,網絡空間不僅是迷思上演的地方,它同時也促進了今天的迷思性思維方式,因為它體現了一種模糊意識。迷思依賴于這樣一種意識:我們正在遠離一個時代——工業時代,并正在進入一個新的時代——擁有許多與電腦相關的名字的時代,例如“信息時代”“數字時代”③文森特·莫斯可著,黃典林譯:《數字化崇拜——迷思、權力與賽博空間》,北京大學出版社,2010年,第29頁。,當然,也包括所謂的“大數據時代”。