文/黃欣榮
大數據哲學研究的背景、現狀與路徑
文/黃欣榮
大數據正在掀起一場數據技術的革命,讓我們進入真正的信息時代。它帶來生產、生活、教育、思維方式諸多大變革反思,并標志著人類在尋求量化認識世界的道路上前進了一大步。面對大數據技術革命,作為時代精神精華的哲學及時作出了回應和批判,國內外哲學界已展開了大數據的哲學問題研究, 而大數據哲學體系也正在形成之中。為此,我們有必要對大數據哲學的興起背景、國內外研究現狀以及未來研究的可能路徑作一番回顧、梳理與展望。
在漫長的發展史中,數據世界曾發生三次革命性的變革。第一次是從無數據到有數據;第二次是從生活數據到科學數據;第三次是從科學數據到人文數據,進入“大數據時代”。
在數據發展的歷史長河中,數據似乎并沒有引起哲學家們的多少關注。當然,我們可以找出古希臘數學家、哲學家畢達哥拉斯,他在古希臘早期就破天荒地提出了“數是萬物的始基”的觀點,將數提升到本體論的高度。數和數據雖然具有重大的差別,但尚且可以將畢達哥拉斯看作數據哲學的鼻祖。在之后的兩千多年的漫長歷史中,數據的作用雖然從日常生活變成了科學研究的重要工具,但哲學家們卻幾乎把它遺忘。哲學家們熱烈討論著經驗、觀察、實驗和理論等,唯獨沒有人對其中起著重要作用的數據進行哲學的批判和反思。但是,大數據剛剛興起就引發了哲學界的熱烈響應,數據這個歷史上被冷落的范疇很快進入哲學研究者的視野中,成為哲學特別是科學技術哲學研究的新對象,大數據哲學也成了科技哲學研究的最新分支和研究領域。
所謂大數據,從字面來看,就是規模特別巨大的數據資源,但實際上,大數據不僅僅只是數據規模巨大,更重要的是數據數量的變化引起了質變,數據不僅僅是自然或社會現象的數量表征,而是引發了一系列的本質變化。在小數據時代,數據被哲學家忽視,而在大數據時代,數據迅速成為哲學的新熱點,主要是因為大數據時代的數據與小數據時代的數據有著本質的差別。從采集手段來說,小數據是人工有意測量、采集的數據;而大數據基本上都是智能芯片自動采集或人們無意留下的數據,因為當時沒有什么特別用途而被稱為“數據垃圾”。從存儲介質和方式來說,小數據存儲于紙質或硬盤等當地媒質中,而大數據往往因數量過大而存放于云端中。從處理方式來說,小數據只需要單機就基本可處理,而大數據則往往需要云計算平臺。從數據性質來說,小數據因有意采集而成為主觀數據,而大數據則因沒有事先滲透主觀意圖而具有客觀性,因此屬于客觀數據。小數據只是研究對象局部現象的主觀反映,而大數據則全面、完整、客觀地刻畫了研究對象。傳統科學的研究對象基本上都是簡單、線性、無生命的自然系統,所以小數據基本上能夠刻畫研究對象,而人類及其社會則是具有主體性的非線性復雜生命系統,必須用大數據才能夠完整刻畫研究細節。
隨著大數據技術的興起,大數據哲學研究迅速成為國內外哲學研究的新熱。
(1)大數據時代來臨前信息哲學家們的先行鋪墊
大數據時代來臨之前,信息哲學家曾就信息的本質、信息與認知等問題做過先期的研究,為大數據哲學研究做了一些鋪墊。托夫勒在其《第三次浪潮》中就宣布人類已經進入了信息社會,信息將徹底改變人類的文明軌跡,在政治、經濟、文化、工作、生活、教育等領域全方位地改變我們的社會。后來哲學家們對信息哲學進行了長期的探討,例如國內學者鄔焜、蕭峰、劉剛等作了深入的研究。特別是鄔焜教授,他30年來堅守在信息哲學領域,對信息的本體論、認識論和方法論等做了全方位的研究,取得了豐碩的成果。這些信息哲學研究工作為大數據哲學研究提供了基礎和借鑒。
(2)數據科學的哲學問題成為研究領域
美國學者、圖靈獎獲得者吉姆·格雷認為,在海量數據和網絡無處不在的年代,以數據挖掘為代表的數據科學與技術是科學發現的重要途徑,是繼科學實驗、理論推演和計算機仿真這三種科研范式之后的科學研究第四范式——數據密集型科學發現。第四范式作為知識發現的又一條新通道和新范式,與前三種范式相輔相成,共同構成發現的認知和方法體系。
國內學者劉紅也很早敏銳地注意到了數據在科學研究中的重要性以及數據科學的快速興起。她的博士論文以及在博士論文的基礎上發表的《數據哲學構建的初步探析》、《數據革命:從數到大數據的歷史考察》,都提出了數據哲學研究的初步設想,認為應將數據納入科技哲學研究范疇。
(3)大數據倫理問題引起了學者的高度關注
對大眾來說,大數據帶來的最現實問題是個人隱私的泄漏與保護問題。英國學者帕克(John Parker)曾形象地描述過互聯網帶來的全面監控與隱私困境,而美國學者戴維斯(Kord Davis)和帕特森(Doug Patterson)則在2012年9月就出版了其《大數據倫理學》(Ethics of Big Data),這是國際上第一部有關大數據倫理問題的學術專著。在國內,呂耀懷很早就對信息倫理做過比較全面的研究,而大數據興起之后,邱仁宗立即發表論文《大數據技術的倫理問題》。因為個人或組織害怕自己的隱私信息因大數據被泄露并被他人非法利用,而大數據使用者則害怕不小心涉及個人隱私而纏上官司,因此大數據倫理研究更多地集中在大數據引發的隱私問題的討論。段偉文在其論文《網絡與大數據時代的隱私權》一文中比較集中地探討了大數據將引發哪些個人隱私問題以及西方各國的個人隱私保護措施。
(4)大數據哲學的全方位研究已經初步展開
還在大數據沒有成為熱潮之前,復雜網絡研究者巴拉巴西(A-L.Barabasi)就在其著作《爆發》中提出了利用大數據對人類思想行為進行預測的問題,并認為基于大數據,人類93%的言行都可以被預測,因此他提出了大數據帶來的思維變革問題,并用生動的事例刻畫了大數據的新思維。
大數據興起之后,英國學者弗洛里迪(Luciano Floridi)馬上在其《大數據及其經驗論挑戰》一文中提出了大數據對經驗認識論的挑戰問題,而奧地利學者卡勒鮑特(Werner Callebaut)則在其《科學透視主義:科學哲學對大數據生物學挑戰的回應》中提出了大數據對本體論、認識論與方法論的挑戰問題,并提出以科學透視主義作為大數據哲學挑戰的回應。
國外對大數據進行全面哲學反思的要數英國學者、“大數據時代的預言家”維克托·邁耶-舍恩伯格。他在其暢銷書《大數據時代》一書中以通俗易懂的非哲學語言提出了大數據的哲學意義,并將大數據與當年的望遠鏡、顯微鏡相提并論。
在國內,李德偉在大數據概念剛剛提出的2012年底就發表了《大數據的數理哲學原理》和《科技大數據,哲學新思維》等論文,并于2013年初出版了《大數據改變世界》一書,提出了大數據的哲學基礎和認識論問題。黃欣榮從2014年初開始發表一系列論文,就大數據技術與復雜性科學的關系、大數據思維與大數據方法論、大數據對科學認識論的發展等問題進行了相關的哲學研究,并從本體論、認識論、方法論、價值論和倫理學五個維度對大數據引發的哲學變革展開了全方位的探討。苗東升在論文《從科學轉型演化看大數據》中,從科學轉型的視角論述了大數據的革命性意義,并認為大數據的興起將在哲學上引發本體論、認識論、方法論和價值論的改變。苗東升與黃欣榮都從復雜性哲學轉入大數據哲學研究,觀點上也具有異曲同工之處。在大數據方法論方面,張曉強、楊君游與曾國屏進行了比較系統的探討。
正在興起的這場轟轟烈烈的大數據技術革命即將引發一場徹底的哲學革命,必將帶來世界觀、認識論、方法論、價值觀和倫理觀諸多方面的深刻變革,因此正在興起的大數據哲學必須從這五個維度或者說五條路徑進行全方位的哲學研究。
(1)本體論路徑,主要探討數據的本質以及大數據引發的世界觀革命
隨著大數據的興起,數據被賦予世界本體的意義。大數據認為,世界的一切關系皆可用數據表征,一切活動都會留下數據足跡,萬物皆由比特構成,因此皆可被數據化,世界就是一個數據化的世界,世界的本質就是數據,數據世界已經構成了一個獨立的客觀世界。因此,哲學史上的物質、意識的關系,變成了物質、意識和數據的關系;大數據的興起改變了人類認知和理解世界的方式,帶來了全新的大數據世界觀。大數據本體論的論題主要有:哲學史上的數據觀;物質、意識與數據;數據的本質與數據本體論;世界的數據化與大數據世界觀等。主要有如下問題需要我們從本體論加以回答:數據究竟是什么?數據的本質是什么?數據與物質、精神之間是什么關系?數據世界究竟是客觀的還是主觀的?世界能否被徹底數據化?量化一切的大數據目標能否實現?大數據怎么看世界?大數據世界觀與傳統世界觀有什么本質區別?等等。
(2)認識論路徑,主要探討基于數據挖掘的知識發現及其對傳統認識論的挑戰
大數據通過“讓數據發聲”,提出“科學始于數據”,數據成為科學認識的基礎,而云計算等數據挖掘手段將傳統的經驗歸納法發展為“大數據歸納法”,為科學發現提供了認知新途徑。大數據通過理論和經驗的數據化,實現了唯理論和經驗論的數據化統一,并可能成為科學劃界的新標準。大數據的相關性、模糊性和整體性解釋將成為科學解釋的新方向。因此,大數據認識論有主要論題:相關性對因果性的挑戰;數據挖掘與科學發現的邏輯;數據規律與知識的真理性;大數據與科學劃界,大數據與科學解釋;傳統認識論危機與大數據認識論。主要的認識論問題有:數據與經驗的關系是什么?傳統經驗論是否將走向大數據經驗論?大數據是否將成為科學研究的新對象?數據化能否作為科學劃界的新標準?科學究竟始于經驗、問題還是數據?數據挖掘能否成為科學發現的新模式?相關性與因果性是什么關系?相關性能否超越因果性?大數據解釋能否成為科學解釋新方式?數據挖掘本質上是否仍屬于歸納法?大數據對傳統歸納法有哪些超越?通過數據挖掘而來的數據規律是否具有真理性?如此等等。
(3)方法論路徑,主要探討大數據思維及其對科學方法論的變革
大數據技術革命首先表現為思維方式的革命,大數據對傳統的機械還原論進行了深入批判,提出了整體、多樣、關聯、動態、開放、平等的大數據思維,這些新思維具有復雜性思維特征,并得到了技術實現。大數據提出了數據化的整體論,實現了還原論與整體論的融貫;承認復雜的多樣性,突出了科學知識的語境性和地方性;強調事物的關聯性,認為事實的存在比因果關系更重要;通過事物的數據化,實現了定性定量的綜合集成。因此,數據挖掘成了新時代的科學新工具,大數據技術帶來了大數據思維與大數據方法論。
該路徑的主要論題有:大數據時代的思維變革;大數據思維的復雜性特征;數據挖掘的科學方法意蘊;大數據對科學方法論的革命。大數據方法論的主要問題有:大數據思維是一種怎樣的思維新方式?大數據思維的特征是什么?大數據方法的本質是什么?大數據方法是繼演繹法、歸納法之后的科學新工具嗎?大數據方法與整體論方法、還原論方法是什么關系?大數據方法與復雜性方法是什么關系?大數據方法與定性、定量研究方法有什么樣的區別與聯系?傳統的數據化與大數據的數據化有什么區別?怎么利用大數據方法進行自然科學、社會科學與人文學科的數據化與數據挖掘?大數據的基本方法、基本原則、基本步驟是什么?等等。
(4)價值論路徑,主要討論數據的財富價值及其對傳統價值觀的轉變
大數據時代的來臨讓數據從記錄符號變成了有價的資源,數據從符號價值逐漸延伸到具有認知、經濟、政治等諸多價值的財富。挖掘海量數據可以發現規律、預測未來,數據成為科學研究的重要來源。此外,大數據技術能夠從文檔、圖片、音頻、視頻等非結構化數據中挖掘重要數據,大數據成為人文社會科學研究重要工具,更成為政府、企業等管理者不可或缺的管理手段。因此,大數據時代讓數據從原來只是事物關系的表征符號變成了具有重要價值的數據財富,從而帶來了傳統價值觀的變革,并形成了新的大數據價值觀。
該路徑的主要議題有: 從數據符號到數據財富;數據財富與傳統財富的比較;數據財富的本質;大數據時代的價值觀變革。大數據價值論的主要問題有:數據的價值為什么到大數據時代才凸顯出來?大數據時代的數據有哪些價值?數據財富的本質是什么?數據財富與傳統的財富有什么本質差別?如何挖掘數據財富?數據產業會給傳統產業帶來哪些變革?數據產業與傳統產業有什么本質差別?數據產業鏈有哪些基本構成? 數據財富與傳統財富怎樣保持平衡?什么是大數據財富觀?數據財富觀會給傳統價值觀帶來哪些沖擊和變革?如此等等。
(5)倫理學路徑,主要討論由于數據濫用所引發的傳統倫理觀的危機
大數據技術要求實現數據的自由、開放和共享,我們由此進入了數據共享的時代。但由此我們也時刻被暴露在“第三只眼”的監視之下,因此大數據技術帶來了個人隱私保護的隱憂,也帶來了個別組織的數據濫用或壟斷的擔心,甚至可能侵犯人類神圣的自由意志,由此產生了大數據時代人類的自由與責任問題并對傳統倫理觀帶來了新挑戰。
該路徑的主要論題有:大數據時代與信息共享;“第三只眼”與隱私保護;數據預測與個人意志;大數據時代人類的自由與責任。大數據倫理的基本問題有:大數據的共享精神有什么利弊?大數據將帶來哪些倫理問題?數據權的本質是什么?大數據時代的個人隱私將可能出現哪些問題?大數據時代如何保護隱私?在數據開放與隱私保護之間如何保持張力?怎樣防止數據濫用?大數據倫理問題是否可以通過立法來規制?怎樣用倫理道德規范來治理大數據倫理危機?大數據時代如何保護人的自由?大數據時代的政府、企業和個人有哪些法律責任和倫理責任?大數據時代如何平衡人的自由與責任?我們要做哪些倫理觀改變來適應這個大數據時代?大數據倫理有哪些基本內容?大數據會給傳統倫理學帶來哪些機遇與挑戰?等等。
(作者系江西財經大學管理哲學研究中心教授;摘自《哲學動態》2015年第7期)