彭理強
(湖南師范大學公共管理學院,湖南 長沙 410081)
2015年,齊磊磊博士在《哲學動態》雜志發表了題為《大數據經驗主義——如何看待理論、因果與規律》的文章[1],她在文中給出了“大數據經驗主義”的定義,認為“大數據經驗主義”是隨著大數據方法的應用而興起的一種“新”經驗主義,其觀點可概括為三點:1.大數據時代“理論終結了”;2.大數據時代因果性不存在了,由相關性來代替;3.世界的本質是混亂的,但又是數據的。建立“大數據經驗主義”概念之后,齊磊磊從這三個維度論證了該觀點與南茜·卡特萊特為代表的新經驗主義者的觀點的相似性。緊接著2016年,國內學者黃欣榮教授發表題為《大數據如何看待理論、因果與規律——與齊磊磊博士商榷》[2]文章,回應齊磊磊對大數據主義的概括過于以偏概全,并論證了大數據主義對理論的作用、因果性的存在和世界的規律性并不持否定態度,只是強調數據及其相關性在科學發現中的重要地位。2018年齊磊磊博士發表題為《大數據主義與大數據經驗主義——兼答黃欣榮教授》文章[3]予以回應:反對黃欣榮教授將“大數據經驗主義”簡稱大數據主義,“大數據經驗主義”與大數據主義“和而不同”。齊磊磊博士堅持自己的“大數據經驗主義”觀點,其“提出‘大數據經驗主義’概念是對時代特征進行哲學反思的產物”[3],至于大數據主義的觀點“與黃欣榮教授商榷文章的立場也是保持一致的”[3]。既然齊磊磊博士認為其建立的“大數據經驗主義”概念與大數據主義“和而不同”,那本文試圖首先梳理大數據主義和經驗主義的概念,然后從學術和社會應用上兩個方面來討論齊磊磊博士的“大數據經驗主義”概念是否與大數據主義“和而不同”。
要闡明大數據主義概念由來及其觀點,需要探究大數據研究中有影響力的代表性人物思想。大數據前期的代表人物是美國《連線》雜志的主編和主要撰稿人安德森,指出小數據時代的“假設—模型—檢驗的科學方法變得過時了……大量的可用數據,以及處理這些數據的統計工具,提供了一個全新的方式認識世界。通過相關關系而不是因果關系,即使沒有清晰的模型、統一的理論,甚至沒有任何機理解釋,科學依然能夠取得進步。”[4]最早洞見大數據時代發展趨勢的數據科學家舍恩伯格提出,“所有的普遍規則都不重要了……重要的是數據分析,它可以揭示一切問題”[5],但同時并不否定理論在大數據中的重要性,他強調“大數據時代不是理論消亡的時代,相反地,理論貫穿于大數據分析的方方面面。”[5]暢銷書《大數據主義》的作者史蒂夫·洛爾最早提出“大數據主義”概念,他認為雖然數據具有不可思議的威力,“但是,方法論中仍然包括模型,這是毫無疑問的。理論沒有終結,而是正在發展,并擁有各種新的外在形式。”[6]在推動數據庫技術發展方面做出突出貢獻的美國計算機專家、圖靈獎獲得者吉姆·格雷(Jim Gray)認為大數據成為一種新的科學發現范式,該范式與經驗范式、理論范式和計算范式并列存在,相互補充,共同構成了科學研究的范式體系。我國學者黃欣榮教授認為“大數據主義者強調數據及其相關性在科學發現中的重要地位,但并不否認理論的作用,也不否認因果性的存在,更不否認世界的規律性。”[2]安德森、舍恩伯格、格雷和黃欣榮等都是大數據主義的代表人物,他們都強調在海量數據面前,科學規律的發現不一定必須從理論模型的假設出發,也可以直接從數據的相關性分析出發,讓數據說話,大數據成了科學發現的新模式。“大數據的核心在于預測”[5],“全球數據圈將從2018年的33ZB增至2025 年的175ZB……2025 年,每個互聯人員將至少每18秒進行一次數據交互。”[7]數據量如此巨大、人與數據交互如此頻繁,以致從實用主義角度考慮,尋找數據間的相關性比因果性更重要。
因此大數據主義者的觀點可以概況為:在海量數據面前,通過相關性就可以直接得到我們想要的結果,尋找數據間的相關性比因果性更重要,大數據在決策思維、商業模型、社會治理、科學發現等幾乎所有領域發生變革。
經驗主義是一種認識論學說,認為感性經驗是知識的唯一來源,知識通過經驗獲得并在經驗中得到驗證。休謨(David Hume)是經驗論哲學傳統中最偉大的人物之一,對經驗主義的建立貢獻很大,盡管很多經驗主義的具體思想并非完全起源于休謨,但休漠已經對經驗問題給出了“最清晰、最一致和最無折衷的說明”[8]。休謨將經驗視為所有意義和知識的唯一源泉,我們所有的觀念都源于印象(impressions),印象就是經驗。休謨經驗主義導出了一個標準、一種證實、一對矛盾:任何非經驗的都是無意義的,超經驗的都是形而上學的;因果陳述的認識內容是對觀察陳述的認識內容的簡單概括;理性是不能超越經驗的,經驗是有限的和具體的,因此,理性思維的方式是不能理性地證實的,而經驗的具體性和有限性也不能證實理性思維的結果(真理)的普遍性和無限性。休謨經驗主義導出的這些問題的不同解決和發展,形成了經驗主義的不同觀點、流派和演變階段[9]。
隨著二十世紀科學革命的興起,特別是數學和物理學的發展,自休謨以來的傳統經驗主義,在對科學理論的解釋方面時常遭遇困難。由維也納學派為代表的哲學家以傳統的經驗論哲學為基礎,融合相對論與量子力學等理論,運用羅素的數理邏輯以及他的關于哲學即語言分析的思想,發展成為邏輯經驗主義運動。我國學者張天驥認為邏輯經驗主義者的注意力集中于科學的邏輯結構上,他們認為一個完整的經驗科學知識論,應該包含檢驗科學假說的最終依據是什么、理論的結構問題、理論的確認程度問題[10]。邏輯經驗主義主張:科學理論的認識來源于觀察和經驗;關于科學的合理性即邏輯性;關于檢驗即理論與檢驗的比較;理論能夠被經驗所“確立”。
從二十世紀五十年代初開始,邏輯經驗主義繼續迎來以漢森(N.R.Hanson)、圖爾敏(S.Toulmin)、法伊爾阿本德(P.Feyerabend) 、波普爾(K.R.Popper)、庫恩(T.Kuhn)等人為代表的科學史和科學哲學家們的批判。比如波普爾批判邏輯經驗主義的歸納法不可靠,這樣邏輯經驗主義的基礎方法論和邏輯主義的“合理性理論”(theory of rationality)也站不住了,因此波普爾提出證偽主義理論,他認為科學理論不能被證實,只可被證偽,并以此作為科學與非科學陳述的劃界標準。波普爾認為科學的增長是通過猜想和反駁發展起來的,為科學知識的增長提出新的解釋思路。為了擺脫波普學派們的詰難,經驗主義者選擇了“歷史”的道路。歷史經驗主義認為知識的積累既不是歸納主義所認為的直線累積的過程,也不是證偽主義所認為的科學理論的替換過程,知識的增長是非累積式的科學革命的過程。歷史主義強調各種選擇理論的(包括概念、邏輯和背景框架上的)不可比性,強調了科學理論縱向發展的不可通約性,否認了科學知識的歷史的累積性,抹殺了科學真理的過程性和發展性,拋棄了科學知識和科學真理的普遍性,從而陷入了不可自拔的相對主義,同時使科學事業變成了無理性的活動[9]。歷史經驗主義者的相對主義觀點認為我們所認為的知識、理論、方法不過是科學家隨意預設的一種功能,因為選擇的任意性所以造成不同理論的不可通約性。相對主義徹底否認了科學理論發展的合理性和進步性。
通過二十世紀五十和六十年代科學史的新發現,科學家在不同的歷史時期和不同的科學部門中運用的方法互不相容,似乎沒有唯一的、永恒的科學方法,夏皮兒的科學觀——科學實在論試圖回答以上問題。“夏皮爾關于科學發展的模型是這樣的:在前科學時期,我們關于這個世界的思想似乎來源于經驗;到了后科學時期,則已有的知識,包括事實的,也包括理論的知識,便是推動科學向前發展的內在原因和理由。”[10]從此關于實在論與反實在論的討論就像鐘擺一樣一直在搖擺不定。因此經驗主義大致經歷了傳統經驗主義、邏輯經驗主義、歷史經驗主義、科學實在論的發展路徑。
齊磊磊博士提出的科學哲學視域下的“大數據經驗主義”新概念是否具有必要性和可行性呢?根據她的解釋,“大數據經驗主義”概念源于一種以南茜·卡特萊特為代表的新經驗主義哲學觀點,該觀點認為物理定理不能應用于現實世界,“自然界中大多數發生的事是碰巧發生的完全不受制于定律”[11]。從經驗主義的歷史考察來看,南茜·卡特萊特為代表的新經驗主義在實在論和反實在論的爭論中完全倒向了一方,即認為理論不能反映客觀實在,僅僅是為了“拯救現象”。因此 “大數據經驗主義”的觀點認為大數據技術的應用使得科學理論的模型已經不需要了,事實果真如此嗎?
對于科學知識的考察和反省是科學哲學研究的中心問題,通過對科學知識的分析來達到認識論的提高是科學哲學研究內容(知識的劃界問題和知識的進步問題)的重要命題。認識論是個體對知識和知識獲得所持有的信念。經驗主義作為一種認識論學說——與“理性主義”相對,首先不斷地與天賦論學說及理性主義發生爭議,并且其自身的發展路徑在不斷地作修正。如本文對經驗主義思潮的由來和歷史演變的梳理顯示:源自休謨問題的西方經驗主義,首先經歷了從具體經驗到抽象分析的邏輯經驗主義,然后轉向從理論陳述到歷史范疇的歷史經驗主義,后來落入實在論的經驗論的發展道路。似乎在科學理論的發現模式上,關于經驗主義對知識建構和知識獲得過程所起的作用還一直都在探討中,沒有定論。“西方科學哲學家試圖理解科學的性質,提出了各種各樣的科學模型,他們之間也產生了無休止的爭論。”[10]因此從科學哲學的角度看,提出一個關于“大數據經驗主義”的認識論的新概念是否能夠完善我們對知識的認識呢?又或者可以幫助我們更好地發現事物運行的規律呢?計算機通過大數據的挖掘分析可以發現事物運行規律的相關性,通過盡可能大而全的數據,使用更加抽象的算法模型不斷提高計算的精度(概率)是可以做到更精準的預測,但即便如此也不代表在大數據時代,算法可以逾越時間的藩籬,挖掘到所有未來的數據,逃避歷史主義的詰難,實現完全歸納法的統計。大數據唯一能夠做到的是提供盡可能全的歷史樣本,而沒法做所有樣本的數據采集,所以大數據技術采用的方法是對大量數據的歸納,具有傳統經驗主義特征;另外一方面,大數據主義觀點已經論證大數據只是提供了一個新的科學理論發現的方法,但是不能取代理論知識的重要性。具體展開來講,大數據技術的應用主要分采集和分析兩個階段,雖然大數據采集階段沒有人類經驗的滲入,而大數據分析的算法模型以及對數據的解釋是需要數理邏輯理論支撐的,滲透著數據挖掘者的意圖,只是當數據量足夠大時,對理論模型的依賴會越來越小,因此大數據技術突出的是傳統經驗主義的特征,強調的是數據對知識獲取的作用,數據即量化的經驗。因此大數據技術是傳統經驗主義的繼承和發展,而非對理論模型的作用的全盤否定。齊磊磊建立在南茜·卡特萊特為代表的新經驗主義之上的“大數據經驗主義”概念是沒有完全概括到大數據技術的“經驗”特征的,所以也是不成立的。
社會應用中有沒有這個概念建立的依據?比如用來描述一種社會現象?大數據對我們生活的影響無處不在,大數據主義概念已經在社會生活中產生,用來表征人類對大數據的總體看法和觀點,并被很多群體認識和接受。比如大數據的代表人物安德森、最先預言大數據發展趨勢的數據科學家舍恩伯格、預見大數據將發展成一個新的科學發現范式的計算機專家吉姆·格雷等都是大數據主義的代表人物,學者史蒂夫·洛爾在他的著作《大數據主義》中深刻揭示了大數據主義的社會現象觀點:即大數據將引發在決策、消費者行為以及幾乎所有領域的顛覆性革命。因此,大數據技術不僅在知識的發現、科學的進步方面成為一種新的范式,在對社會生活的影響、個體的決策方面都蘊含著力量。作為一種人文科技社會現象,大數據主義已經在社會中被普遍使用且達成共識,因此如果用“大數據經驗主義”來表征社會現象的話,確實沒有存在的必要性。
數字設備的大規模應用和大數據的采集使得數據生成和分析的新方法得以利用,從而為新的方式提出和回答問題提供可能。傳統思維中受技術限制,人類只能觀察和收集有限的數據,為了掌握事物發展的一般規律,人類傾向于運用理性思維,并通過長期觀察后建立理論模型,然后用理論模型的演繹來把握和預測規律性,因此理論模型的重要性就擺在了突出位置,這是一種知識驅動的經驗主義。大數據技術從數據集中提取知識突破了地域性、時間性和規模限制的瓶頸,從而使自然科學、社會科學和人文科學認識論的重構成為可能,這種重構已經在各學科中發揮了積極影響。在科學方面,獲取大數據和新的研究實踐已經導致一些學者宣布出現了新的第四范式,這一范式植根于數據密集型探索,挑戰現有的科學演繹方法。目前大數據顯然是一種顛覆性的創新,提出了一種新的科學方法的可能性,利用大數據的相關性分析可以直接預測結果,不需要或者減輕了理論模型的依賴,數據驅動的科學從根本上來說對現有的科學方法進行了改進,將歸納和演繹的各個方面緊密結合。隨著時間的推移,大數據的應用會越來越普遍,新的數據分析也越來越先進,這將對現有的知識驅動的科學方法提出強烈挑戰。伴隨著這種轉變,數據驅動科學的哲學基礎,就其認識論和方法論而言,需要通過研究和批判,為新范式提供一個強有力的理論框架。這是基于本文對大數據主義及經驗主義概念及其發展歷程的梳理,結合大數據時代的特征后論證的大數據主義的精神特質。
很顯然,齊磊磊博士“大數據經驗主義”的概念建立的基石——新經驗主義,夸大了大數據技術的“經驗”特征,因為大數據技術并不認為源于數據的經驗可以取代理論模型成為科學發現的唯一模式。大數據主義是傳統經驗主義的繼承和發揚,是一種數據驅動的經驗主義認識論,并可以用來表征大數據時代一定的社會現象,但是齊磊磊博士不認可自己的“大數據經驗主義”就是大數據時代表征社會現象的大數據主義,而一再強調只是基于科學哲學視域下建立的科學概念,使哲學討論的概念既脫離現實需要,又不具有理論依據,憑空制造了一個不成立的科學概念當靶子來批判,其答復黃欣榮教授的“大數據經驗主義”與大數據主義“和而不同”觀點是值得商榷的。