摘要:進(jìn)入21世紀(jì),數(shù)據(jù)的收集、存儲(chǔ)、處理技術(shù)的發(fā)展給大數(shù)據(jù)時(shí)代的到來(lái)提供了可能。大數(shù)據(jù)時(shí)代我們能夠接觸海量數(shù)據(jù),對(duì)事物的分析可以采取全樣本數(shù)據(jù)模式。事實(shí)證明,海量數(shù)據(jù)的分析方法帶來(lái)更高的精確性,而這種全樣本數(shù)據(jù)模式也給數(shù)據(jù)收集帶來(lái)了混亂,我們?cè)试S這種收集過(guò)程中的不精確性。海量數(shù)據(jù)+混亂=思維的變革,研究的目的從因果性轉(zhuǎn)向相關(guān)性,這是大數(shù)據(jù)時(shí)代的思維核心。思維的轉(zhuǎn)向不代表對(duì)因果性的完全否定,甚至相關(guān)性的分析可以為因果性的探尋做鋪墊。大數(shù)據(jù)的興起也引起了科學(xué)發(fā)現(xiàn)模式的改變,第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)必然會(huì)對(duì)科學(xué)哲學(xué)的相關(guān)論題提出挑戰(zhàn),這是需要用科學(xué)哲學(xué)來(lái)回應(yīng)的。
關(guān)鍵詞:大數(shù)據(jù) 相關(guān)性 第四范式
中圖分類號(hào):TP311? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1009-5349(2020)13-0244-02
就像望遠(yuǎn)鏡能夠讓我們感受宇宙,顯微鏡能夠讓我們觀測(cè)微生物,這種能夠收集和分析海量數(shù)據(jù)的新技術(shù)將幫助我們更好地理解世界——這種理解世界的新方法我們現(xiàn)在才意識(shí)到[1]。數(shù)據(jù)更容易采集、存儲(chǔ)、處理才使得大數(shù)據(jù)開(kāi)啟了一次重大的時(shí)代轉(zhuǎn)型,這將引起思維、商業(yè)、管理的大變革。我們可以稱其為大數(shù)據(jù)革命,但革命的意義不在于分析數(shù)據(jù)的機(jī)器,而是如何運(yùn)用數(shù)據(jù)本身。
一、思維的變革:從因果性到相關(guān)性
大數(shù)據(jù)的名稱來(lái)自未來(lái)學(xué)家托夫勒所著的《第三次浪潮》。2008年9月,美國(guó)《自然》雜志,正式提出大數(shù)據(jù)概念;2011年2月1日,美國(guó)《科學(xué)》雜志通過(guò)社會(huì)調(diào)查的方式,第一次分析了大數(shù)據(jù)對(duì)人們生活的影響;而最早應(yīng)用大數(shù)據(jù)的是麥肯錫公司。大數(shù)據(jù)的創(chuàng)新在于分析信息時(shí)的重要轉(zhuǎn)變,一是在大數(shù)據(jù)時(shí)代我們可以分析更多的數(shù)據(jù),甚至可以獲得某個(gè)事件的所有數(shù)據(jù)。二是由于我們能夠獲得更多的數(shù)據(jù),我們不再追求精確性。大數(shù)據(jù)時(shí)代的到來(lái)給人們的思維帶來(lái)了全新的變革,我們可以采用全數(shù)據(jù)模式,樣本即為總體。谷歌流感趨勢(shì)預(yù)測(cè)不是依賴隨機(jī)樣本,而是從數(shù)據(jù)總體出發(fā)分析了美國(guó)幾十億條網(wǎng)絡(luò)搜索記錄。分析總體能夠提高預(yù)測(cè)的準(zhǔn)確性,甚至能夠推測(cè)出某個(gè)具體城市的流感狀況;Farecast的初始系統(tǒng)有12000個(gè)數(shù)據(jù),可以對(duì)機(jī)票價(jià)格做出比較完美的預(yù)測(cè)。隨著研發(fā)者加入更多信息數(shù)據(jù)時(shí),它的預(yù)測(cè)結(jié)果會(huì)更加精確。同樣我們對(duì)于數(shù)據(jù)的追求不是執(zhí)迷于精確性,而是允許混亂。2006年谷歌開(kāi)始設(shè)計(jì)翻譯系統(tǒng)。谷歌利用的是一個(gè)更大更繁雜的數(shù)據(jù)庫(kù),也就是全球互聯(lián)網(wǎng),而不是收集兩種語(yǔ)言簡(jiǎn)單的文本翻譯。谷歌在設(shè)計(jì)翻譯系統(tǒng)時(shí)不會(huì)將自己限制在一個(gè)小圈子里,它參照各個(gè)公司的對(duì)譯文檔、官方的公告文件等。盡管輸入源頭很廣泛,輸入內(nèi)容也很繁雜,但谷歌翻譯系統(tǒng)的翻譯質(zhì)量卻是最好的。
海量數(shù)據(jù)采集、存儲(chǔ)、處理等技術(shù)的實(shí)現(xiàn)為全樣本采集帶來(lái)了可能,大數(shù)據(jù)與隨機(jī)樣本對(duì)比,人們自然傾向于前者。而海量數(shù)據(jù)必然會(huì)帶來(lái)數(shù)據(jù)混亂這種不精確性,這是一種必然性。但實(shí)踐證明我們可以接受這種混亂,允許不精確性。這兩種轉(zhuǎn)變互相聯(lián)系、影響,最終促進(jìn)了思維的轉(zhuǎn)變:從因果性到相關(guān)性。在大數(shù)據(jù)時(shí)代,海量數(shù)據(jù)加上混亂的不精確性,我們知道是什么就可以了,無(wú)須關(guān)注為什么。這不是對(duì)科學(xué)因果性的完全否定,探尋事實(shí)背后的原因仍然具有意義,只是在某些特殊背景下,我們不必知道原因,原因的追尋不是迫在眉睫的事情,甚至是可以不存在的。格雷格林登在攻讀博士期間在網(wǎng)上賣(mài)書(shū),他喜歡讀書(shū)也喜歡賣(mài)書(shū),但他更喜歡幫助人們找到感興趣的點(diǎn),這或許是亞馬遜個(gè)性推薦最初的靈感。亞馬遜剛開(kāi)始的推薦系統(tǒng)采用人工推薦的形式,書(shū)評(píng)人寫(xiě)評(píng)語(yǔ)并將它們放在網(wǎng)頁(yè)上,這成了亞馬遜的金字招牌。嘗到甜頭的亞馬遜打算創(chuàng)新,根據(jù)用戶以往的購(gòu)物喜好為其推薦書(shū)籍。他們收集了用戶買(mǎi)了什么書(shū),一起買(mǎi)的書(shū)中有什么相關(guān)性,什么書(shū)是只瀏覽卻沒(méi)有購(gòu)買(mǎi)的購(gòu)物信息。通過(guò)這些數(shù)據(jù)亞馬遜找到了客戶之間的相似性,并且為他們推薦非常原始的信息。例如你買(mǎi)了一本有關(guān)量子力學(xué)的書(shū)籍,系統(tǒng)就會(huì)給你推薦大量有關(guān)物理學(xué)書(shū)籍,而事實(shí)上你只是一個(gè)科學(xué)史的興趣愛(ài)好者,對(duì)于物理基本一竅不通。這給用戶帶來(lái)的體驗(yàn)并不是完美的,林登很快找到解決方案,推薦系統(tǒng)沒(méi)必要對(duì)不同用戶進(jìn)行對(duì)比分析,它需要做的是找到產(chǎn)品之間的關(guān)聯(lián)性。亞馬遜立即申請(qǐng)了協(xié)同過(guò)濾技術(shù)的專利,系統(tǒng)對(duì)于用戶的需求提前分析,用戶登錄網(wǎng)站就會(huì)很容易得到自己想要的信息。林登回憶道:“如果系統(tǒng)運(yùn)行良好,亞馬遜應(yīng)該只推薦你一本書(shū),而這本書(shū)就是你將要買(mǎi)下的那本”。
二、第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)
美國(guó)計(jì)算機(jī)專家、圖靈獎(jiǎng)得主吉姆·格雷(JimGray)在2007年1月11日的一次學(xué)術(shù)會(huì)議上發(fā)表了題為“e-Science:科學(xué)方法的一次革命”的學(xué)術(shù)演講,明確提出了科學(xué)分期和分類的新方法[2]。他按照時(shí)間和研究工具兩個(gè)維度將歷史上的科學(xué)劃分為經(jīng)驗(yàn)科學(xué)、理論科學(xué)、計(jì)算科學(xué)和數(shù)據(jù)密集型科學(xué)四大類型。這四種不同類型的科學(xué)對(duì)應(yīng)著四種不同的科學(xué)發(fā)現(xiàn)模式。第一種科學(xué)發(fā)現(xiàn)模式是經(jīng)驗(yàn)范式,從時(shí)間角度來(lái)看是人類早期對(duì)于不能合理解釋、相對(duì)復(fù)雜的自然現(xiàn)象的觀察,從工具維度來(lái)說(shuō)采用的是肉眼和常用的一些生活工具,此時(shí)科學(xué)還沒(méi)有職業(yè)化,只是作為一種業(yè)余興趣愛(ài)好。近代西方哲學(xué)有明顯的認(rèn)識(shí)論轉(zhuǎn)向,從傳統(tǒng)希臘重視本體論的探討到向認(rèn)識(shí)論方向傾斜,形成了兩種認(rèn)識(shí)理論,一是經(jīng)驗(yàn)論即上述的第一范式的科學(xué)發(fā)現(xiàn)模式;二是唯理論,即第二種范式的科學(xué)發(fā)現(xiàn)模式——理論范式。對(duì)于理論范式的介紹從理論主義代表人物中就可以清晰了解,柏拉圖認(rèn)為人可以通過(guò)理念構(gòu)建世界和觸及真知,笛卡爾通過(guò)我思來(lái)推理我在這個(gè)命題,大數(shù)學(xué)家萊布尼茲試圖運(yùn)用0和1構(gòu)建整個(gè)世界。經(jīng)驗(yàn)論認(rèn)為科學(xué)發(fā)現(xiàn)的重點(diǎn)應(yīng)該落實(shí)到經(jīng)驗(yàn)基礎(chǔ)上,無(wú)論是普通肉眼觀察還是精密的實(shí)驗(yàn)檢驗(yàn)。而唯理論在于理性的分析概括和邏輯的推導(dǎo)。經(jīng)驗(yàn)論善于從有限事例中歸納出一般原理,而唯理論更愿意從原理出發(fā)推導(dǎo)演繹出結(jié)論。隨著科學(xué)的發(fā)展,兩種觀點(diǎn)在一定程度上出現(xiàn)了辯證的統(tǒng)一,但由于經(jīng)驗(yàn)事實(shí)獲取和邏輯推導(dǎo)的局限性,這兩種范式只適合解決一些簡(jiǎn)單科學(xué)。面對(duì)一些復(fù)雜現(xiàn)象形成的復(fù)雜性科學(xué),第三范式借著計(jì)算機(jī)發(fā)展的東風(fēng)開(kāi)始通過(guò)模擬來(lái)進(jìn)行科學(xué)發(fā)現(xiàn)。這種范式離我們并不遙遠(yuǎn)并且正在作用于我們的生活。
第四范式:數(shù)據(jù)密集科學(xué)發(fā)現(xiàn)模式的出現(xiàn),對(duì)科學(xué)發(fā)現(xiàn)的問(wèn)題提出了新的挑戰(zhàn),可以說(shuō),小數(shù)據(jù)時(shí)代科學(xué)研究離不開(kāi)數(shù)據(jù)的參與,而大數(shù)據(jù)時(shí)代科學(xué)始于數(shù)據(jù)。科學(xué)始于數(shù)據(jù)是一種全新的科學(xué)發(fā)現(xiàn)邏輯模式,這是時(shí)代進(jìn)步和工具提升帶來(lái)的全新變革,這將改變科學(xué)發(fā)現(xiàn)過(guò)程中的各個(gè)方面,但并不意味著其他科學(xué)發(fā)現(xiàn)邏輯起點(diǎn)失效,各種邏輯途徑的科學(xué)發(fā)現(xiàn)還是可以共生共存、辯證統(tǒng)一的。科學(xué)分界的目標(biāo)就是將真正的科學(xué)與非科學(xué)、偽科學(xué)、形而上學(xué)區(qū)分開(kāi)來(lái),看似很簡(jiǎn)單的問(wèn)題卻成了科學(xué)發(fā)展過(guò)程中的關(guān)鍵。科學(xué)來(lái)自自然哲學(xué),而自然哲學(xué)最早又與宗教有著千絲萬(wàn)縷的關(guān)系。自從文藝復(fù)興起,科學(xué)開(kāi)始與哲學(xué)分離,為了擺脫宗教的束縛而獨(dú)立。科學(xué)以反對(duì)形而上學(xué)的名義與哲學(xué)做區(qū)分,同樣以提倡實(shí)驗(yàn)、理性獨(dú)立于宗教。隨著科學(xué)的快速發(fā)展,科學(xué)的權(quán)威性越來(lái)越強(qiáng),似乎科學(xué)就是真理。哲學(xué)變得沒(méi)落,為了吸引眼球,哲學(xué)家推崇科學(xué)的哲學(xué),而宗教也變得科學(xué)起來(lái)。這使科學(xué)獨(dú)立問(wèn)題變得十分模糊,那么分界問(wèn)題也就被提上日程。相對(duì)論和量子力學(xué)理論提出后科學(xué)發(fā)展似乎到達(dá)了極限,很長(zhǎng)時(shí)間內(nèi)沒(méi)有突破性科學(xué)發(fā)現(xiàn)。東方道家和佛學(xué)的復(fù)歸例如氣功、中醫(yī)等,為了特殊利益而宣傳的邪教等偽科學(xué),這些都給科學(xué)分界問(wèn)題帶來(lái)了復(fù)雜性。
從弗朗西斯培根到康德,從第一代實(shí)證主義到第三代實(shí)證主義,這些哲學(xué)家都論及分界問(wèn)題,但是他們都不能明確提出這個(gè)問(wèn)題,而是正面論證他們自己預(yù)設(shè)的所謂科學(xué)本質(zhì)問(wèn)題,亦即科學(xué)究竟是什么的問(wèn)題。他們至多在論證這個(gè)本質(zhì)問(wèn)題時(shí)順便涉及分界問(wèn)題。哲學(xué)家更愿意用經(jīng)驗(yàn)去證實(shí)什么是科學(xué),波普爾把分界問(wèn)題稱作康德問(wèn)題,他認(rèn)為康德對(duì)數(shù)學(xué)物理與形而上學(xué)的做出的區(qū)分就是一種分界問(wèn)題,并且率先明確提出了分界問(wèn)題[3]。波普爾認(rèn)為愛(ài)因斯坦的相對(duì)論打破了經(jīng)典牛頓力學(xué)永為真理的神話,科學(xué)是一種猜想、假說(shuō),并不是真理,科學(xué)也是可以出錯(cuò)的,因此說(shuō)科學(xué)是可證偽的。無(wú)論一個(gè)理論被多少經(jīng)驗(yàn)證實(shí)最終都有可能被推翻,事實(shí)上它們就相對(duì)成熟的科學(xué)假說(shuō),牛頓理論在那個(gè)年代被人們看作真理,但目前來(lái)看科學(xué)似乎是介于真理和謬誤之間。就像波普爾自己說(shuō)的:“二百多年來(lái),牛頓理論第一次變得成問(wèn)題了”。在波普爾之前大部分人愿意用證實(shí)的方法無(wú)意識(shí)地解決科學(xué)分界問(wèn)題,他們只證實(shí)了什么是科學(xué)的。而波普爾提倡用證偽的方法對(duì)科學(xué)分界,也有像費(fèi)耶阿本德這種反科學(xué)主義、無(wú)政府主義,他反對(duì)方法,提倡取消對(duì)科學(xué)分界問(wèn)題的討論。科學(xué)哲學(xué)家先后用證實(shí)、證偽,以及庫(kù)恩范式理論和拉卡托斯科學(xué)研究綱領(lǐng)來(lái)給科學(xué)分界問(wèn)題制定標(biāo)準(zhǔn),但并沒(méi)有一個(gè)完美的統(tǒng)一。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)的地位越來(lái)越高,我們是不是可以嘗試用數(shù)據(jù)來(lái)量化科學(xué)呢?自然界的各種物理量由于可以被量化,自然科學(xué)各學(xué)科率先進(jìn)入科學(xué)共同體中。但是,人文學(xué)科卻由于缺乏量化指標(biāo)而一直被科學(xué)共同體拒之門(mén)外。社會(huì)科學(xué)由于借用自然科學(xué)的研究方法而得到了部分指標(biāo)的量化并初步跨進(jìn)科學(xué)的門(mén)檻,但因沒(méi)有被全面數(shù)據(jù)化而沒(méi)有被科學(xué)共同體全面接納[4]。可以看出數(shù)據(jù)量化的重要意義,萬(wàn)事萬(wàn)物都可以通過(guò)量化、數(shù)字化被感知,那么海量數(shù)據(jù)可以嘗試作為科學(xué)分界標(biāo)準(zhǔn)的一個(gè)新指標(biāo)。這是在當(dāng)下大數(shù)據(jù)時(shí)代我們能夠預(yù)測(cè)到的不遠(yuǎn)的事實(shí),隨著大數(shù)據(jù)的發(fā)展和數(shù)據(jù)的全面化,大數(shù)據(jù)會(huì)給科學(xué)分界標(biāo)準(zhǔn)帶來(lái)更多的可能性,這是值得期待的。
三、結(jié)語(yǔ)
大數(shù)據(jù)的廣泛應(yīng)用,使得我們生活的方方面面都得到了改變,這種改變是中性的,我們?cè)谙硎艽髷?shù)據(jù)帶來(lái)的準(zhǔn)確預(yù)測(cè)中,也應(yīng)該注意到技術(shù)異化、隱私等方面的問(wèn)題,這些是大數(shù)據(jù)發(fā)展必須面對(duì)的問(wèn)題。只有妥善處理,才能真正迎接美好的大數(shù)據(jù)時(shí)代。
參考文獻(xiàn):
[1]維克托·舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[2]吉姆·格雷.吉姆·格雷論e-Science:科學(xué)方法的一次革命[C]//TonyHey.第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn).潘教峰,譯.北京:科學(xué)出版社,2012:9-24.
[3]周林東.科學(xué)哲學(xué)[M].上海:復(fù)旦大學(xué)出版社,2005:106.
[4]黃欣榮.數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)及其哲學(xué)問(wèn)題[J].自然辯證法研究,2015,31(11).
責(zé)任編輯:趙慧敏
[作者簡(jiǎn)介]盧雨生,黑龍江大學(xué)在讀碩士研究生,研究方向:科學(xué)技術(shù)哲學(xué)。