呂乃基
(東南大學 科技與社會研究中心,江蘇 南京 210096)
“大數據”與“認識論”,前者在眼下炙手可熱,后者則是古老的研究領域。將二者聯系起來,前者因深入到認識論而不只是流于口頭和報端的“浮云”,也不僅是“云”;后者因接觸到前者而煥發了新的生命。以下試圖以傳統的認識論來梳理目前關于大數據的種種論述,以及由此反過來擴展傳統的認識論。
文中的論述過程往往把大數據與認識論二者合到一起,既因為大數據認識論實際上正在隱然成形,也因為行文的方便而省略了“與”。因而,文中在述及“大數據認識論”時,并非意味二者完全融合。讀者可以由前后文判斷此處說的是“大數據認識論”,還是大數據“與”認識論。
一般認為,大數據來自自然界,來自生命,以及來自人類社會。前兩項涉及自然科學,涉及后者的學科或學科群已經在2009年被稱為“計算社會科學”①。本文沒有涉及大數據認識論在自然科學中的作用,集中討論人類社會中的大數據與認識論的關系。*2009年2月,美國哈伯大學的戴維·萊茲(David Laze)等15位學者在《科學》上聯合發表題為《計算社會科學》的論文,宣告了計算社會科學的誕生。
認識論的核心之一是主體與對象的關系,這里的主體泛指人類。進入20世紀后,對認識主體的理解有所擴展,把儀器也作為某種“主體”或主體感官的延伸,電腦則是大腦的延伸。在大數據認識論中,自身與體外的主體進一步分化。人自身,即使加上個人電腦也沒有能力認識大數據,要應用獨立于個人的計算機、網絡、云,互聯網大腦[1]在大數據認識論中擔負重任。人類把復雜的認識過程“全部打包”給電腦[2],互聯網大腦則需要有專門的維護和操作運行人員。
20世紀以來,認識主體隨著從小科學到大科學還有一項分化,那就是由人“類”分化到具有相同或相似“范式”的“共同體”。近年來,越來越多的情況是,一方以種種方式委托另一方來認識某個對象,如咨詢、課題,以及知識流程外包等,認識的意向方與實施方分離,分為甲方和乙方。委托方可以有各個領域的科學家,更會有大量來自政府、企業界和社會的甲方。相對而言,乙方和應用互聯網大腦的人員具備較為高深的科學知識,需要相當熟悉甲方的需求才有可能完成后者外包的事項,需編寫特殊的程序和軟件,以及向甲方提供可視化的分析,因而主體在分化的同時緊密相關。
隨著認識主體的分化,認識的動機目的也發生相應的變化。在近代的“小科學”時代,認識就是為了求真;“大科學”時代,認識的動機承擔越來越多來自社會的需求,較之以往更有可能發生知識的“社會建構”。大數據時代,“面對海量信息,任何人都只需要對自己有益和有用的信息”[3]。在大數據認識論中,就目前現狀來說,雖然甲方的意圖帶有明顯目的性,有趣的是,乙方因與甲方分離而較少利益相關,有可能相對客觀冷靜地從事求真的研究。然而也會發生新的問題:乙方如何判斷甲方所委托事項的合理性,是否符合倫理規范。只管求真的乙方是否可以因認識主體的分離而免責,可以不顧其中的倫理道德,有求必應。無論是知識流程外包,還是在大數據認識論中,在這些高度分化的認識主體之間還需要有關系到責權利等事項細致妥貼的制度安排。簡言之,在大數據認識論中,認識主體高度分化并社會化。從這次馬航失聯飛機的搜尋過程中,可以看到海事衛星組織和英國海難調查處等獨立于馬來西亞等當事國的機構的重大作用。
從另一個角度看,大數據認識論的認識主體可以清晰地分為兩個方面或層次:政府、公司,以及個人,分別對應于國家、市場和社會。政府由大數據把握全局;公司由大數據了解政府與個人的需求,理解相關政策,洞悉競爭對手,以及掌控資源。一個健全的社會擁有與政府和公司處于均衡狀態的個人。目前還看不到個人在大數據認識論中作為主體的地位和作用。可以確定的是,即使個人作為大數據認識論的主體,其影響也與政府和公司不可同日而語。
相對于認識主體的變化,在大數據認識論中,認識對象的變化更具有根本性。傳統的認識論所涉及的認識對象是客觀存在*形形色色的后現代思潮對此有種種詰難,本文不涉及這一點。,而大數據認識論中的認識對象就是所謂“大數據”。這么看似乎是同義反復,如果站在波普爾“三個世界”的角度來理解,兩種認識論在認識對象上的區別馬上就彰顯出來。傳統認識論的認識對象是“世界1”(包括被看作世界1的生物學意義上的人類),大數據認識論的認識對象雖然并不等同于波普爾的“客觀知識”,但大數據畢竟既非世界1,亦非世界2,應該屬于“世界3”。反過來說,世界3有必要從客觀知識擴展到大數據。波普爾在上世紀60年代提出“世界3”的理論,近半個世紀以來,這一理論因各種原因而沒有得到應有的重視[4]。現在看來,其實數據還不夠多,不夠“大”,因而世界3本身尚未成形也是原因之一。這一點非常重要,數據只有充分“大”才可能有“大數據認識論”。再者,當時也缺乏研究世界3的手段工具和方法。過去更多的是處理分散而又各自具有結構的數據,而現在和未來需要處理的是大量處于混沌狀態的非結構數據[5]。傳統的研究方法對于后者難以奏效。現在對象已經擺在前面,適宜的工具也已經在手,時機已經成熟。
另一方面,在麥肯錫和舍恩伯格的眼中看到的只是數據,即使是“大數據”,而“世界3”則上升到哲學層面,大數據具有與世界1和世界2平起平坐的地位,在這樣的視野下,大數據和大數據認識論具有無限的研究空間和發展前景,不僅為相關產業功利目的的研究提供廣泛領地,而且為純粹求真的研究打開新的無窮的數據“宇宙”。大數據只是世界3中的一部分,而且只是表層的部分。例如,既然提出“大數據”,那就必然有“小數據”,于是可以提出這樣的問題:大數據與小數據是什么關系?大數據真的可以只求知其然,一步到位,到此為止?在大數據的背后還有什么?由此必然涉及到與世界1和世界2同樣廣闊無限,而又迥然不同的世界3,由此可以進一步提出“世界3認識論”。大數據認識論有其特殊性,同時又是世界3認識論的一部分。以世界3為研究對象,這是大數據認識論中的關鍵之點。世人在驚艷麥肯錫和舍恩伯格的洞見之時,不要忘記波普爾在半個世紀前提出的“世界3”。
必須指出,大數據之所以得以成為研究對象,更重要的在于提供大數據的人和人際關系。近代以來,人是機器、單子,社會是由零件組裝而成可拆卸的機器。隨后,人是化工廠、細胞的王國,乃至人是社會動物,著眼點基本上都是單獨的個人。個體行為與社會活動規律如此復雜,很難運用嚴謹的科學進行邏輯推理或進行精確的定量計算,直到互聯網時代和功能各異的社交網站出現。社會軟件建立了一種新型的遠程社會關系,從面對面地交往到數字操縱的交往,深刻地修改了已有的社會模式[6]。“人類行為較之于相對獨立的個體決策行為發生了顯著變化,”[7]構建了某種“心有靈犀一點通”而又變動不居的人際間的相關性,使得數據不再雜亂無章,而是成為有規可循的大數據,成為有價值的研究對象。“由于能夠測得更準、計算得更加精確,社會科學也正在脫下‘準科學’的外衣,在21世紀全面邁進科學的殿堂”[8]。
具體而言,作為對象的大數據有以下特征:首先是所謂“4V”,即數據量大(Volume),類型繁多(Variety),價值密度低(Value),以及速度快時效高(Velocity)。這樣的提煉固然有其意義,但畢竟處于表層。在大數據背后深層的是人類作為整體的時空尺度,在個體不可比擬的量級所顯示出的前所未見的屬性。也就是“揭示冗余度支持的有統計意義的情報及其關聯,從大眾層面而不是個體層面來理解人類行為”[9]。
正因為此,所以作為世界3的大數據具有與世界1同樣的特征:客觀性。“傳統民調需要設計問卷,可能有意無意引入主觀因素,不能完全排除模糊歧義乃至誤導。大數據是自底而上的自動數據分析,用歸納整合的方法,因此更加具有客觀性。為了達成調查,調查者有時不得不施行物質刺激,這也產生了部分客戶純粹為了獎勵而應付調查、返回低質問卷的弊端。自動民調的對象是民意的自然流露(水軍和惡意操縱另論),基數大,也有利于降噪,這就保障了情報的客觀性[10]。”客觀性的關鍵在于,其一,數據之大,充分抵消了少數個體的特殊性,類似于在眾多裁判中去掉最高分和最低分。顯然,裁判越多,打分的結果就越接近運動員的真實水平。這一點也類似于所謂“主體間性”。顯然,兩三個人之間的主體間性與數以萬計個體的主體間性不可同日而語。這就再次表明波普爾的世界3理論多年來得不到重視的一個原因:數據不夠大,因而難以進行客觀的研究。其二,數據之全,不僅是“二八定律”中的“二”,而且是“八”,是“長尾”,這就極大提升了普羅大眾在社會生活中的權重。不過,隨著“少數服從多數”成為現實,如何避免多數人的“暴政”,成為大數據時代有待解決的問題之一。其三,所謂“自然流露”,也就是無意識。一方面,這種自然流露就是個體的主觀意識,另一方面,個體并不知曉其作為大數據認識論的認識對象。大數據的客觀,所需要的正是這樣的“主觀”。千萬個這樣相對純粹的主觀最終匯成客觀。
作為認識對象的大數據之所以呈現出整體上的特定關系,與數據背后的人有關,筆者曾試圖以“漩渦與人性”的隱喻(后現代的認識途徑)來說明這一點。在池里洗碗、洗臉、洗澡……,如果水較多,把塞子一拔,水就形成漩渦,以最快的速度迅即從出口流走。然而人呢?平時大概還可以有條不紊,循序而出;要是遇到地震火災之類緊急事項,那就一涌而出,其結果或者造成踩踏事件,或者誰都出不去,至少大大減緩出去的速度。每個人的爭先恐后,造成了整體的擁堵。這種情況在日常的交通中也是屢見不鮮。為什么人不能如漩渦那樣,在塞子拔出的瞬間即形成特定的關系和次序;反過來說,為什么那些無生命的水分子似乎知道爭先恐后無濟于事。網友的評論說,如果把水分子用納米碳管來輸運,一樣會出現“整體的擁堵”;反之,如果出口足夠大,人類也不會出現擁堵。宏觀流體定律在建立時基于連續介質,即最小顆粒尺度與所考慮的尺度相比是可以忽略的,但在人作為個體的大規模運動中,流體定理就發生了破缺。在大數據里,個人就相當于旋渦中的水分子,其“毛糙”的邊緣和瞬間的變化可以忽略不計。由此再次可見,數據之“大”的關鍵地位。由此不禁想起布朗運動,自然科學早就在統計力學等學科中關注自然界中的大數據。人類社會的大數據是否相當于布朗運動,個人只不過是其中一個不起眼的粒子而已。
大數據不僅具有“4V”的特征,而且處于不斷增長之中。人類存在一天,大數據就與日俱增,永不枯竭。人們對于“物質無限豐富”尚有爭論,至少還需要做一番解釋,對于大數據,似乎甫一問世,即已是無限,乃至需要培育“刪除”和“忘卻”的“美德”。無限的大數據或將有助于解決眼下有限的物質匱乏。雖然其中的絕大部分是垃圾,數據“垃圾”,是否也是“放錯地方的資源”?
主體與對象的特殊關系也是大數據認識論與傳統認識論的一個值得注意的不同點。
其一,由于在大數據的背后是在不同層次作為整體的人,或者是眾多社會關系的“總和”,在大數據認識論中成為認識對象而又毫不知情的人,于是認識主體政府和公司便有接近上帝俯視蕓蕓眾生之感,認識主體與對象之間成為牧羊人與羊的關系。此外,相應于認識主體的三個層次,自然也就有作為對象的不同數據。無疑,政府所面對的數據最“大”,公司次之。不過,跨國公司認識對象之大完全可能超過不少國家。個人所能夠認識的數據在大小、內容和性質上均不可與政府與公司手上的數據同相提并論。數量巨大的個人及彼此間無意識的主體間性,是否可能平衡政府和公司?
其二,上帝會滿足于“俯視”,有人則把對數據的占有和控制看作是在陸權、海權、空權之外的另一種國家核心資產。這一點在斯諾登所曝光的“棱鏡”中得到充分顯示。IBM執行總裁羅睿蘭則認為,“數據將成為一切行業當中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。”(百度百科)這就提醒我們,大數據,進而世界3既可能“成為人類至關重要的自然資源”,也可能成為“另一種國家核心資產”。誰對大數據和世界3擁有產權,甚至主權?傳統認識論以世界1為對象,世界1對任何人一視同仁,因而在認識論上并沒有所有權之爭,所有權主要是在實踐層面,在應用領域。在大數據認識論中,所有權進入到認識層面。個人、公司、國家可以獨自開發、獨占其中的一部分。大數據不僅具有認識價值,而且擁有因人而異的使用價值。有人認為[11],計算社會科學可能會變成私人公司和政府機構的專屬領域。或許會出現占有私有數據的特權學術研究群體,無助于公眾利益。在物理學和生物學里的調查目標,例如夸克和細胞既不會介意我們發現它們的秘密,也不會對于我們在研究過程中改變它們的環境發出抗議。美國倫理審查委員會委員(U.S.Institutional Review Boards)必須增強他們的技術知識來了解產生侵權和個人傷害的可能性,因為新的危害的產生條件會不同于現存的模式。有人把對大數據的占有與否,聯系到資本在資本主義剛誕生時的原始情況[12]。于是,當下就預示某個新時代的開始。
其三,由此可以還引出一點,那就是技術手段在大數據認識論中的極端重要性。棱鏡表明,技術手段可以用于發現、開發大數據,挖掘大數據中的金礦,以及在于控制和支配。由此可見,在大數據認識論中,技術比以往任何時候發揮更大的作用。對此有必要引起高度重視。“大數據時代,技術的有效性要比科學的完整性更重要!”[13]
大數據,進而世界3,受到技術手段和權力的制約和影響。技術關系到作為對象的大數據之大、之深,以及之利;權力在于控制與支配,控制大數據的透明和共享的程度,并由此支配放牧的羊。雖然主體與對象在一定程度上可以互易,此時此地的主體在另一個場合可能就成為他人的對象,不過,擁有更先進技術手段和更大權力者無疑更會是政府和公司,他們更像是牧羊人而不是羊。
傳統認識論的認識過程涉及各種思維方式,如邏輯思維、形象思維和直覺思維,以及多種方法,如分析、綜合、歸納、演繹、比較、分類、類比、假說、模型,還有現在的復雜性科學方法等等,不一而足。在科研中純熟應用這些方法并非易事,其要義是,先對現象也就是知其然進行抽象和分析,把復雜的對象和過程分解為要素、部分和片段,再加以比較、分類和歸納,找出共同點,經由假說揭示知其所以然,然后再回過頭來解釋原有和更多的現象,進而提出預言。
上述認識過程可以歸結為馬克思所論述的“兩條道路”[14]。“在第一條道路上,完整的表象蒸發為抽象的規定;在第二條道路上,抽象的規定在思維行程中導致具體的再現”。
相對而言,大數據認識論的認識過程在于把非結構化的大數據(復雜世界的存在方式,就是非結構化中包含著結構化,混沌中包含著有序),按不同主體的不同目的轉變為特定的結構化數據,使之對于特定的認識主體顯得簡約有序。例如,空間科學的研究方法,逐漸從傳統研究方式轉變為數據驅動的“觀測、計算、挖掘、分析、驗證”的研究方式[15]。簡言之,就是在大數據中提取出波普爾的“客觀知識”。李德毅院士認為,就是由傳統的認知科學到認知計算。在傳統認識論的各種方法中,似乎唯有比較方法在大數據認識論中繼續賦予重任。李維認為,在對大數據的認識過程中“需要競爭對手或行業的背景。多話題的調查和對比是這類產品設計的題中應有之義。世界3對所有搜索的話題一視同仁,獨立于話題。數據及其挖掘的不完善(查準率和查全率)放在比較的框架中就不是嚴重問題。”區別在于,傳統認識論中的比較方法旨在使資料有序和做出發現,大數據認識論中的比較旨在使結論客觀和突顯。
正是這種由大數據直接獲得的“簡約有序”或“特定的結構化數據”,提供了人類群體在宏觀上的某種行為,政府和公司的領導據此輕松和直截了當做出更為有效的決策。“‘大數據’可能是許多行為科學理論,乃至于是科學理論的終結者。”[5]《連線》雜志的前主編克里斯·安德森在2008年說:“數量龐大的數據會使人們不再需要理論,甚至不再需要科學的方法。”“大數據”用事實向人類宣告:“知其然不知其所以然”,既是電腦望塵人腦的劣勢,也是電腦超越人腦的優勢[2]!然而,也正是這一點引發了諸多爭議。
支持者以卡爾·波普爾推崇的科學研究方法*此處不討論對波普爾科學方法的理解。力挺舍恩伯格:大膽預測,不斷犯錯,不斷嘗試。在大數據認識論中,就是“統計+分類-推理分析=決策”,認為這是一種更加進取的思維方式,進而是一種嶄新的生活理念。需要預測貝葉斯定理中所說的先驗概率,鑒于新證據的不斷涌現更新先驗概率進而預測結果。一旦獲得新信息,再更新預測[16]。關鍵在于,知其然,不必知其所以然,知道該怎么做就行;“不再強調意義的真實來源,而是強調意義如何被生產”[17]。“真正‘懂得’大數據的公司,比如谷歌,并沒有將大量時間花在構建模型上。”《信號與噪音》作者希爾寫道。“這些公司每年從事數十萬次實驗,在真實的顧客身上測試自己的想法。”[18]
反對者認為,舍恩伯格放棄因果關系而只考察相關性的思路,與其說是一種進步,不如說是一種思維紊亂,不利于下一步預測,也無法采取行動[15]。李維明確指出,大數據不提供問題的答案,特別是科學問題,答案在專家或上帝手中,不在網民的口水。真的可以止于“知其然”,而不求“知其所以然”嗎?認知計算是否可以取代認知科學?人類的祖先經過長期觀察發現蛙鳴與下雨往往同時發生。這樣的長期觀察大概也稱得上是“大數據”。于是試圖通過學蛙鳴來求雨。在多次失靈之后走向巫術、獻祭和宗教。走向錯誤道路的根本原因就在于“知其然不知其所以然”。
當然,“真正‘懂得’大數據的公司”與先民不可同日而語,在“真實顧客身上的數十萬次實驗”也迥異于巫術。回想上世紀中葉,鮑林等人面對復雜的DNA結構由傳統的先分析后綜合的方法一籌莫展時,富蘭克林由x-衍射,不經傳統道路而直接獲得DNA整體的照片,華生與克里克由此破譯了DNA的雙螺旋結構。大數據與此有異曲同工之妙,開辟了人文社會科學領域居高臨下在整體上把握對象的認識道路,為看待人類和社會提供了一種全新的方法,“可以跳過個體認識直接到共性認識階段[3]”。決策行為將日益基于數據分析做出,而不是像過去更多憑借經驗和直覺做出(百度百科)。它最大的價值是給我們一個“高處視角(Top sight),允許我們以前所未有的豐富細節與深度,觀察和跟蹤真實世界”[19]。然而,依然可以追問的是,雙螺旋結構最終得到科學解釋,大數據認識論是否也需要在知其然之后再走一步?“放棄對因果性的追求,就是放棄了人類凌駕于計算機之上的智力優勢,是人類自身的放縱和墮落。如果未來某一天機器和計算完全接管了這個世界,那么這種放棄就是末日之始”[20]。
此外,在大數據如火如荼之時,小數據依然有其價值,譬如解決前述多數人暴政;況且還存在“大數據浮夸(Big Data Hubris)和算法”的缺陷,因而應該將大數據與小數據(即傳統的控制數據集)結合起來,創建對人類行為更深入、更準確的表達。以“全數據革命”(all data revolution)和用全新的技術和方法對各種問題進行更多更好的分析。
然而爭論的根源并不止于此,問題還在于大數據認識過程本身的特殊性:從作為認識對象的大數據只要跨出一步,就不僅是認識,而且是實踐,乃至產業鏈。上述爭論混淆了認識與產業,以及認識與實踐。舍恩貝格及其支持者把大數據認識論中的產業特征和實踐特征等同于傳統的認識過程,這就“遮蔽”了——用海德格爾的專用詞匯——由“知其然”通往“知其所以然”的道路;反對者則以傳統認識論否定大數據認識論中為傳統認識論所不具備的新的實踐特征,這就堵住了傳統認識論拓展前行的道路[21]。
大數據認識論使用計算機乃至互聯網大腦等現代技術手段,簡化了馬克思兩條道路中的第一條道路,越過對整體的分析和對個體的歸納,一步到達所謂“共性認識”,但在本質上依然是歸納,而歸納總是不完全的,尤其是沒有給出所以然。有必要揭示處于語境中的人群之所以具有這樣或那樣行為的依據。認知科學不僅研究腦的“自然屬性”,而且要研究人類認知的特殊性,也就是文字、文明和傳承,研究人類認知的社會屬性[12](包括用戶搜索、用戶關系挖掘、話題發現、情感分析等)。大數據為人文社會科學提供了前所未知的“知其然”,開辟了通往人的心靈深處之途,僅僅是人工智能進入人類生活的一個序幕,馬克思的“第二條道路”剛剛開啟。大數據認識論不能止步于此,更不能半途而廢,社會學、心理學、傳播學等學科對此賦予重任。在由知其然到知其所以然的道路上,大數據認識論與傳統認識論一脈相承。
大數據認識論更是對傳統認識論的超越,其一是知行合一。長期以來,知行分離,知行之爭不斷。在大數據認識論中,知與行開始結合起來。其二是求真求效。傳統認識論的核心在于求真,在20世紀的“大科學”中,為科學而科學的求真,在相當程度上被納入特定社會的動機之下。在大數據認識論中,功利目標進一步彰顯,并且貫穿于認識(行動)的各個環節。大數據認識論的實踐特征在下文關于社會的知識建構的內容中將得到進一步說明。其三,大數據認識論不止是認識,而且是產業和實踐。專家認為,眼下需要切實解決網絡化數據社會與現實社會缺乏有機融合、互動以及協調機制的難題,形成大數據感知、管理、分析與應用服務的新一代信息技術架構和良性增益的閉環生態系統,達到大幅度提高數據消費指數、數據安全指數,降低數據能耗指數等目標[21]。
上述分析自然引向大數據認識論的認識結果。
在認識的結果上,傳統認識論所關注的是,知識是否以及在多大程度上與對象相一致,是否以及在多大程度上獨立于認識主體,簡單說,就是認識結果的客觀性,例如歐幾里得幾何、牛頓定律,以及愛因斯坦的相對論等。由知識的客觀性可以推知知識的公有性,這是默頓“公有性”規范的依據。認識結果所得到的是屬于全人類的“非嵌入”的編碼知識[22]。發現者并不對他的發現擁有產權,其權益僅在于冠名。
大數據認識論同樣強調結果的客觀性,否則對主體毫無價值,甚至把主體導向歧途。與傳統認識論所不同的是,所得到的結果歸特定的主體所有所用,主體可以選擇公開,也可以保密,也可以束之高閣*譬如買了某項專利不用,以維持壟斷。。其他的主體或者得不到這樣的結果,或者得到了也毫無用處。因而,大數據認識論的認識結果具有某種主體相關性,認識結果以特殊的方式嵌入于主體之中,知識的公有性被知識的私有稀釋,乃至取代。此外,計算社會科學使用私有數據發表的論文無法被批駁和復現,不符合科學的“證偽”和可重復要求[11]。
如果把類型繁多(Variety)集中到單一的個體,就有可能前所未有地從各個角度全方位透析一個特定的個體。可以從橫向的,如生活習慣、醫院治療、藥物使用等,以及縱向的跟蹤等數據,聚焦到一個個體(不止是個人),得到更直接、有效的結論。這樣的維度可能是無限的。雖然每個維度因其單項而顯得模糊,然而由“無限的模糊”所帶來的聚焦成像會比“有限的精確”更準確[5]。“人是社會關系的總和”(馬克思)。大數據比以往任何時候都趨于揭示這樣的“總和”。于是,大數據不僅概觀人世間的“布朗運動”,而且知曉其中個體的所作所為,從整體(群體)和個體兩個層面前所未有地接近人性,這就是經由世界3研究世界2。阿里巴巴做小微企業信貸,不見面,只看數據,只看信用。用互聯網和大數據推動整個征信體系的完善,不良率非常低[23]。亞馬遜對交易數據的掌握能力和處理的深度,不僅充分掌握上游供應鏈的信用違約概率,甚至非常接近給其核心消費者建立動態CDS(信用違約掉期)的程度。這意味著亞馬遜可以有效率地放大消費者的消費能力,對商品和商品組合實施真正意義上的個性化定價,以及大幅提高信貸的配對能力[24],這也是大幅降低互聯網金融準備金的理由。美國東北大學教授艾伯特·巴拉巴西認為,如果你知道一個人過去的所有社會數據,預測其未來行為的準確性將達到93%[25]。這不禁讓人們想起拉普拉斯。“計算”,真的只給人的自由意志留下7%的空間?
由此可以發現大數據認識結果的另一個特征:關系到特定對象的隱私。個體對于自己的言行,在社會上的一舉一動是否擁有產權,如同舞臺上的演員擁有對于自己演出的產權,他人沒有買票即無權觀看,即使買了票也無權錄像,等等。而今,在大數據認識論中,牧羊人可以放牧一群羊,也可以特別的關注其中的一只羊[26],“羊”的隱私在“牧羊人”那里透明。只要他有意,并不顧及這只或那只羊是否在意。或許,身為大數據時代的羊,就要習慣自身的透明。大數據認識論認識結果的對象相關性有必要受到關注。
雖然當政府和公司這樣的牧羊人用顯微鏡觀察某一只羊時,這只羊或許也正在經由大數據審視周圍的一切。個人能否,以及在什么意義上與政府和公司均衡?在聚光燈下剖析一個個體,畢竟不同于個體泛泛掃視周圍的世界。
在走向后現代的認識論看來,知識的客觀性受到來自世界2的牽連,這就是知識的社會建構。同樣,也可以在大數據認識論中提出這一質疑。在前述分化及社會化的認識主體中,是哪一位或哪一部分認識主體,因何目的而提出什么樣的需求,外包給什么主體,彼此間具有什么樣的社會關系等等;再加上大數據認識論主體與對象的互易與疊加,這些特殊的“主體間性”必然會對大數據認識論所獲得結果的客觀性產生影響,從而形成新的“主體間性”。 從根本上說,主體間性的不斷重構就是社會的運行,就是社會本身。知識的社會建構,反過來說就是社會的知識建構。
由此就涉及到為大數據認識論所特有的現象:認識結果對認識對象的反作用,這種反作用主要表現為源于從眾心理的正反饋。雖然也可能會有逆反心理,但因其處于少數且方向不一,所以在實際上會以很大乃至極大的概率淹沒于大數據的正反饋之中。如果確是如此,這就給出了大數據時代社會的知識建構的某種方向,不僅路徑鎖定,而且沿著前述“多數人”的方向自我強化。大數據時代是否具有相應的糾錯或均衡的機制?
在大數據認識論中,對結果的評價也是重要的組成部分。傳統認識論所關注的主要是“真”,而在大數據認識論中,甲方所關注的不僅是“真”,而且是“善”,當然也可能是“惡”,不僅是客觀,而且要有用,也就是所謂求真求效[3]。“求效”,對誰有效?何謂“有效”?特別的愛給特別的你。與此同時,由于大數據認識主體的分化和多樣化,認識動機各異和變遷,“唯一真理”于是被多項選擇所替代[2]。大數據的價值主要在于其中所蘊含的“關系”。所謂“多項選擇”,不僅是對于同一組關系可能有多種認識,而且是“關系”本身的多樣性,隨著視角的不同可以揭示出幾乎無限多的關系。再加上每一種數據來源都有一定的局限性和片面性,事物的本質和規律隱藏在各種原始數據幾近無限的相互關聯之中。只有融合、集成各方面的原始數據,才能反映事物的全貌[22]。
自然界本身無所謂善惡之分,無論是弱肉強食,還是寄生共榮。與世界1一樣,大數據本身亦然。不過隨著認識的開始,也就出現了傳統認識論與大數據認識論的分野。前者主要關注求真,后者還要“求效”。“求效”,就會關系到“雙刃劍”。傳統認識論涉及的主要是科學,相對而言科學本身不是雙刃劍[27],大數據認識論從一開始就沾染了濃厚的功利色彩,有了善惡之分,因而其本身就是雙刃劍。這一點還可以從產業鏈的角度來理解。如同人類面對世界1有上中下游的產業鏈,面對屬于世界3的大數據同樣有類似的“上中下游”。上游旨在數據挖掘,在這一環節,知識在很大程度上公有。隨著產業鏈向終端用戶移動,知識產權的分量越來越重,最終“嵌入于”政府部門和公司。在技術領域熟知的一句話是,能做的是否要做,所指的是在實踐領域;在大數據認識論中,問題已經轉化為“能夠認識的是否都要去認識?”
本文旨在討論大數據認識論,在探討過程中必然涉及大數據產業,以及大數據實踐論。
在大數據認識論中,大數據是認識對象,認識過程在“腦”(互聯網大腦、電腦和大腦)中進行,最終知其所以然的認識結果,也就是關于人類的行為方式及其根源的知識屬全人類所有。事實上大數據認識論依然難以“認識”意會知識。正是在意會知識中隱匿了人性的冰山水面下的部分。在大數據產業中,大數據是作為原料的生產力要素,產業鏈的各環節對原料進行挖掘、提煉、加工(知其然),以供特定用戶消費,從而在整體上提升原有產業。與一般意義上的產業具有明確目標有所不同的是,大數據產業在一開始并不知道會“挖掘”出什么,更不知道會有什么用,這一點又與傳統認識論有相似之處。在大數據實踐論中,大數據不僅是“數據”,而且是知識社會的基礎部分。大數據實踐論的重要功能是彌補認識的不足,在實踐中領悟體察意會知識,進而由此探索人性。更重要的是,對大數據的認識過程和加工過程就是社會本身的運行和變化,知識的社會建構,就是社會的知識建構。云和互聯網把世界2投射到世界3,在未來的社會中,每一個人自降生之時,還會有一個與之一一對應的“數字”映像,分別存在于現實社會和“虛擬”社會之中,相互動態對應[6]。大數據認識論由世界3認識世界2,大數據產業和實踐論籍此作用于世界2。世界2在與世界3的博弈和互動中前行。再進一步看,大數據產業應該屬于大數據實踐論,只是前者的主體是公司,在謀利的同時參與了實踐;大數據實踐論的主體不僅是公司,而且是政府和非營利機構,在實踐的同時創造了社會效益和經濟效益。計算社會科學在對所涉及的復雜問題進行建模時,不再完全以逼近某一實際復雜系統的程度(也就是認識論之“求真”——引者)為唯一的標準,而是把模型也認為是一種“現實”,是實際復雜系統的一種可能的代替形式和另一種可能的實現方式,而實際系統也只是可能出現的現實中的一種,其行為與模型的行為“不同”但卻“等價”,這是利用人工系統研究社會計算問題的思想基礎。通過對二者之間的行為的對比和分析,“借鑒”和“預估”各自未來的狀況,相應調節各自的管理與控制方式,落實復雜社會問題有效解決方案或者學習和培訓目標的實施問題等[6]。
大數據認識論和大數據實踐論(含大數據產業),二者合一,而又各有側重。大數據認識論旨在求真,是大數據實踐論的基礎;大數據實踐論旨在求效和應用,并以其實踐活動為大數據認識論提供素材,以其對生產力和經濟基礎的促進和對人的觀念的影響推動社會發展,更以其價值觀引導大數據認識論,以其實踐過程推動大數據認識論。大數據時代的本質可用現代管理科學奠基人德魯克的名言概括,即“預測未來最好的方法,就是去創造未來”[26]。的確,德魯克的這一名言用到此處,清楚不過地表明了大數據時代的實踐本質。
大數據,無論是認識論,還是實踐論,都存在自身固有的局限。大數據,只是世界1和世界2的“鏡像”。其一,不可能把世界1和世界2的全部“鏡像化”,總有遺漏或不可能鏡像化的部分,正如不可能把意會知識徹底編碼一樣。其二,一旦成為鏡像,“就像一個小鎮倒映在平靜的湖面上,”雖然“對不同的觀者,它夾雜了每個人不同的生命體驗,倒影中包含了你在真實生活中的社會、機構和家庭結構”(戴維·杰勒恩特),但對于政府、公司、牧羊人來說,所見所聞只不過是平面的鏡像而已*在劉慈欣的《三體》中有對二維、三維和四維的精彩描述。,活生生的小鎮與平靜的湖面不可相提并論,這一點類似于柏拉圖的“洞穴”。作為產業,必須與傳統的產業相結合,服務于傳統產業。作為實踐論,其一必須堅持以人為本的價值觀引導,不要讓大數據壓倒真實的世界;其二,意識到大數據所涉及到的實踐只是人類眾多實踐活動之一。
大數據認識論對傳統認識論的超越具有深刻的認識論和知識論依據,前者在于認識史,后者是知識階梯。
自從笛卡爾開啟哲學的“認識論轉向”之后,人類的認識史在整體上就是沿著馬克思的“兩條道路”推進。近代科學沿現象層面逐一深入,最終,萬物皆機械。經濟學歸結到“經紀人假設”,管理學以泰羅制為本,如此等等。總體而言,直至19世紀末20世紀初,認識過程沿“兩條道路”的“第一條道路”一路向前,由整體到部分,過程到環節,系統到要素,旨在揭示現象背后的基礎或本質。
20世紀物理學革命啟動了“第二條道路”。認識“回過頭來”,隨之出現了一系列“否定性”的概念,不確定、電子云、非對稱、模糊、突變、非有序、非線性……。上世紀中葉興起的復雜性科學關注的是關系和涌現。林林總總的后現代思潮從不同方面批判、圍剿近現代的認識過程和所得到的結論。現實世界不存在質點,不存在純粹的“經濟人”,存在的是形形色色的個體,這些各具特色的個體又處于瞬息萬變的“此情此景”之中,牽一發動全身,以及與同樣處于此情此景下的認識主體有著千絲萬縷的聯系,在認識過程中必然相互影響。這就否定了基礎主義和本質主義。如此復雜的對象,難以如近現代那樣去理性認識,更遑論背后的原因;只能在實踐過程中以全身心去體認,由隱喻去感受,重要的是定性、直覺和悟性。“learning by doing”,這就是所謂后現代認識論的實踐論轉向,不是不要認識,而是走向知行合一。顯然,21世紀出現的大數據認識論與后現代認識論的特征具有某種一致性。
在知識階梯[28]上,位于低層的知識具有較為清晰的邊界,包括與其他知識的邊界,知與行的邊界,以及求真與功利的邊界。例如,經典物理學具有嚴格的概念體系,生命科學就較為模糊,生態學尤甚,不僅與數理化天地生全都有牽連,而且涉及人文社會科學。物理學的實驗主要在于認識和發現未知,而不是某個在先的目標,醫學既是科學也是技術,不僅認識人體和疾病,更是治病救人。在大數據的背后是人的心理和社會,在知識階梯上位于高層,自然邊界模糊,以及具有更多實踐特征。正因為此,大數據認識論顯示出與傳統認識論眾多不同之處。李德毅院士認為,在這一領域,技術將成為科學的先導。
由此可見,人們對于大數據的理解和應用同時具有認識和實踐的意義,相當于一枚硬幣的兩面。大數據認識論,從時代特征及其目前顯現出來的主要內涵,也就是人的心理和社會來看,應該稱為大數據實踐論,而從整個歷史和大數據所包含的“自然、生命和社交”而言,“大數據認識—實踐論”或許更為恰當。
旨在認識世界1的傳統認識論在各國各民族尚有差異,以隸屬世界3的大數據為對象的大數據認識論在各國各民族之間的差異就更大了。大數據的利用機會和進程因國家和社會形態而異。
在當前及今后的一段時期,只要中國社會依然處于快速的轉型之中,只要政府依然在經濟社會發展處于主導地位,政府就是主要的認識主體,公司作為認識主體的地位正在上升。目前的情況是,政府主要把對大數據的認識解讀委托給政府內部的統計和信息中心等部門,大公司也有自己的信息CIO,這無疑是必要的;不過,由于甲乙方沒有分化,基本上是某種“合伙人”,利益捆綁在一起,難以獨立運行,認識過程受到干擾,認識結果的客觀性難以得到保證。民間和國外的一些機構和媒體之所以質疑所公布數據的真實性,這也是原因之一。一些互聯網公司也與政府有著千絲萬縷的聯系。中國的“乙方”有待獨立和成長壯大,走市場化的道路,更重要的是甲乙方之間完善的契約和制度安排。
就對象而言,中國擁有最大的“大數據”。世界第一的人口,每天都在產生大量信息(包括垃圾之類),再加上國情差異之大,與時俱進變化之快,所有這些不對稱都是信息的來源。遺憾的是,中國在這一領域技術手段相對落后。
作為認識對象的大數據,“大”的含義還在于空間上的完整和時間上的連續,而非零碎的片段,以及可以隨時跟蹤和共享,主體由此方可得到關于對象真實與完整的認識。
“美國政府提出大數據計劃的根源,在于有十幾年以上數據公開的基礎。”北京理工大學教授丁剛毅說,“里面很多敏感數據,就是敢公布,認為只有公布這樣的數據,才能有更好的國際合作去應對危機。歐盟、英國,包括巴西這樣的發展中國家,都已經加入了DATA.GOV”。丁剛毅曾跟國內一些著名的互聯網公司接觸過,申請共享其數據,公司表示“給你一段可以,幾百個TB也好,幾個PB也可以,但連續的數據絕對不可以”。他認為,對于研究者,長期不斷、隨時隨地都可以接觸的數據,才是大數據。“政府和行業共享數據應該是大數據的基礎,離開共享政策,根本就沒有大數據”[29]。關鍵是“數據共享”和“全球數據的流動性”。現在的情況是不公開,不透明,部門分割,把自己分管的數據當成屬于自己的“資源”,“數據共享”還沒有提到議程上,并且在一定程度上抑制數據的流動性,由此可能引發國內和國際的沖突。任何阻止、遲滯、干擾大數據到來的社會組織都會面臨粉碎式的改變。唯有改變社會,搭上大數據的高鐵,否則就可能淪為大數據時代的殖民地[30]。
數據,自然良莠不齊,世界各國,概莫能外。不過,中國的水軍、惡意操縱、假冒偽劣,以及形形色色的山寨之類,特別是近年來每況愈下的全社會誠信缺失,可能會對大數據的真實性及基于大數據的認識、產業和實踐產生負面甚至災難性影響。一個沒有信用的社會不可能應用信息技術所帶來的所有便利,反之,信息技術將放大社會弊病。大數據,無論是認識論、產業,還是實踐論,都呼喚一個誠信的社會。
對大數據的認識過程也有中國特色。有人提出,面對復雜的中國問題,是應該強調規范與價值解決優先呢,還是可以將它們化解為科學方法問題,并依賴于越來越技術化的分析方法?是在“知其然”之后就采取直截了當的行動以化解問題,還是求“知其所以然”,也就是解決問題的根源?在實際上,社會上所發生的大部分問題都可以在“知其然”的基礎上予以化解,只有少數帶有根本性的問題需要追根溯源。有必要指出,所謂“規范與價值解決”,實際上與中國傳統文化的實用主義一脈相承。在中國傳統文化看來,重要的是最終解決問題,至于背后是否有理論依據及其正確與否則處于次要地位。再者,中國東西部和城鄉差距巨大,白領、藍領和農民工的消費習慣迥異,還有不小的貧富差距;再加上改革深入,70、80、90后紛紛登臺亮相,各領風騷,還有老齡化,不同的群體,各自嵌入于特定的語境,難覓一致的理論和規律;凡此種種表明,面對當代中國的現實,無論是對政府還是公司來說,大數據認識論主要在于知其然,在于實用。
中國社會的這種“碎片”和“流變”賦予大數據認識論或實踐論,尤其是其中的比較方法以格外重要的意義。在社會發展較為均衡的發達國家,大數據的比較需要深入到人性中更為細小的習性和喜怒哀樂,而在中國,各種群體之間存在著甚至相當巨大的差別,不僅是消費水平和習慣,而且涉及到幾乎對所有事項的看法和應對方式。這些顯見的差別為在大數據認識—實踐論中比較方法的應用提供了廣泛的用武之地,由此得到的結論會成為決策的基礎。而社會的迅速轉型導致的“流變”,則要求不僅做“同時”的比較,而且進行“歷時”的比較。所有這些比較都需要考慮到個性和語境,考慮到初始條件和邊界條件。鑒于當代中國所面臨問題的艱巨性、復雜性和緊迫性,大數據實踐論會占據主導地位。
參考文獻:
[1]劉峰.互聯網進化論,[M].清華大學出版社,2012.9.
[2]《大數據時代》:記錄一切數據 等待有趣的事發生[OL].金融界http://book.jrj.com.cn/2013/09/13074715834692.shtml.
[3]吳基傳.大數據與認識論隨筆[OL].中國信息產業網http://www.cnii.com.cn/wlkb/rmydb/content/2013-12/02/content_1263979.htm.
[4]呂乃基.走進世界3[J].東北大學學報,2007(6).
[5]王和.大數據時代將在本質上挑戰保險行業[OL].和訊網 http://insurance.hexun.com/2013-02-01/150863309.html.
[6]王飛躍.社會計算——科學、技術與人文的數字化動態交融[OL].中國基礎科學·科學前沿http://wenku.baidu.com/link?url=2x8MjQd_SdVSequ-WAVJXHnxYZkaABV0xryJUG7AEeSJGejjoOLKcZLm06 ZboUmN5Ku1fQWN4-vqMh1kFBM1VcI-jsymxlyNZoZNG
Pcw0CG 2005(5)5-12.
[7]王國成[C].// “計算社會科學:計算思維與人文靈魂相融合”[OL].經緯網 http://www.jingwei.com/feed/news/-4405165377780491313/11861053.html 2014-04-16.
[8]科學出版社.大數據改變世界[OL].http://blog.sciencenet.cn/blog-528739-802727.html2014-6-12.
[9][經濟學人] 信息管理專題 | 數據,到處都是數據[OL].譯言網 http://article.yeeyan.org/view/ilovericsson/92509?from=rss_related 2010-03-03.
[10]李維.“大數據與認識論”研討會的書面發言[OL].科學網http://blog.sciencenet.cn/blog-362400-766229.html?2014-2-10.
[11]計算社會科學[OL].豆瓣網 http://www.douban.com/group/topic/31562256/ 2012-07-31.
[12]安替.政治如果不適應大數據 會有民族和階級斗爭[OL].騰訊文化http://cul.qq.com/a/20140815/050352.htm.
[13]中國工程院院士李德毅:大數據時代的認知計算[OL].C資訊網http://www.csdn.net/article/2013-11-13/2817475-MDCC-Big-Data-Cognitive-Computing.
[14]政治經濟學批判.《馬克思恩格斯選集》第2卷[M].北京:人民出版社,1995.
[15]科學出版社,大數據改變世界[OL].科學網http://blog.sciencenet.cn/blog-528739-802727.html 2014-6-12.
[16]大數據:迷思與解毒[OL].搜狐http://business.sohu.com/20131128/n390955671.shtml.
[17]卞友江.“大數據”概念考辯[J].新聞研究導刊,2013,5,pp27-30 [C].//轉引自李金輝,大數據和鏡像化生存:對大數據時代的哲學反思,《中國自然辯證法研究會2014年會論文集》235.
[18]大數據的局限性:算法不能完全代替人的判斷[OL].和訊網http://book.hexun.com/2012-11-06/147648361.html.
[19]互聯網的終極形態是“鏡像世界”[OL].百度貼吧http://tieba.baidu.com/p/1070185004 2011-5-5.
[20]《大數據時代》譯者序[C].//引自李金輝,大數據和鏡像化生存:對大數據時代的哲學反思《中國自然辯證法研究會2014年會論文集》235.
[21]趙斌.從谷歌流感趨勢(GFT)出錯看大數據發展之路[OL].科學網http://blog.sciencenet.cn/blog-502444-776900.html 2014-3-17.
[22]程學旗.追本溯源 解析“大數據生態環境”發展現狀[OL].C資訊網http://www.csdn.net/article/2014-02-13/2818402-bigdata-hadoop.
[23]呂乃基.論非嵌入編碼知識,自然辯證法研究[J].
2006(1):104-107.
[24]“我們不會在家里裝五道門”,訪支付寶首席風險官[OL].http://www.infzm.com/content/98692 2014-03-07.
[25]高利民.如果谷歌變成金融企業……[N].南方周末,2014-04-10.
[26]謝方.大數據時代催生計算社會科學[N].《中國社會科學報》第358期2012-09-19.http://www.csstoday.net/Item/23729.aspx.
[27]呂乃基.科學技術之“雙刃劍”辨析[J].哲學研究,2011(7):103-108.
[28]呂乃基.三個世界的關系——從本體論的視角看[J].哲學研究,2008(5):107-114.
[29]大數據:熱潮中切忌一哄而上[OL].中國科技網http://wenku.baidu.com/link?url=64R1jdaSOvfo75qtR8a
JeUqsdQIiVEUYqw3nW7WoFS78jnok_rwpIjhdYRku2tMnnp
U66wC3v0b4BQ86s1IOieUqv45f4u 9UonNQUWXPOEi 2013-11-27.
[30]謝文:中國有可能淪為大數據時代的殖民地[OL].中國社會科學網http://www.cssn.cn/jjx/jjx_gd/201408/t20140815_1293660.shtml.