劉偉榕 王秋君
[摘 要]科學界正在從數據缺乏時代過渡到數據泛濫時代,大數據處理系統有望成為新一代的科研基礎設施。在新的技術環境下,數據成了科研最主要的對象,統計算法成了最有力的科研工具,科研思路也將從假說驅動轉向數據探索。為了分享知識生產日益依賴的技術與設備,科學家將結成聯盟進行工程化協作,科學進步中的共享化與全球化也將更為顯著。有樂觀的學者認為大數據有望成為科學研究的“第四范式”,不過也可能伴隨著科研路徑依賴、資源壟斷、成果糾紛等負面影響。
[關鍵詞]大數據;科學發現;知識生產;第四范式
[中圖分類號]G311 [文獻標識碼] A [文章編號] 1009 — 2234(2014)05 — 0042 — 02
大數據通常用來指無法在可容忍的時間內用傳統IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合,具有容量大、產生速度快、類型繁多、信息價值大與冗余信息多等四個特征。〔1〕人類正在進入大數據時代,推動這個時代到來的科學研究活動將不可避免地受到大數據的反作用。本文綜合最新的大數據研究、前沿的科研案例及科學哲學理論,嘗試對科學活動正在發生與將要發生的變化進行探討。
一、科學研究工具、方法、對象的變革
一是大數據處理系統將成科研基礎設施。在科研信息化的推動下,人類對自然和社會的觀察、感知、計算、仿真、模擬、傳播等活動產生出大量科學數據。如何存儲海量的科學數據成為科學家遇到的首要困難,例如歐洲粒子中心的大型強子對撞機每天都產生好幾個千萬億字節(PB),但現在卻只能按照可管理的能力限制其數據速率。〔2〕科學家難以密切關注到任何一項單獨的數據,而需要機器進行輔助篩選。跨學科研究的興起更是加大了數據的規模和復雜性,包含采集、管理與分析工具的大數據處理系統對環境應用科學、海洋科學、生態科學、物理學、天文學、生物學等領域來說已經成為一種基本的科研設施。在大數據科研設施布局方面,美國已經走在世界前列。例如能源部(DOE)將斥資2500萬美元建立可擴展數據管理與可視化研究所,幫助科學家對數據進行有效管理,促進其生物和環境研究計劃、美國核數據計劃等的研究成果。〔3〕
二是科研方法從假說驅動轉向數據探索。正如第谷的助手開普勒從第谷對天體運動的系統觀察記錄中發現了行星運動定律那樣,在對所采集并仔細保存的實驗數據進行挖掘和分析的基礎上建立起新的理論,正是大數據時代科學活動的一個重要特征。大數據技術的巨大魅力在于通過統計算法揭示事物之間的相關性。美國 Wired 雜志主編 Chris Anderson就認為“理論已終結”、“數據洪流使傳統科學方法變得過時”。 〔4〕他相信只要將有相互關系的PB級數據丟進巨大的計算機機群中,統計分析算法可以發現過去的科學方法發現不了的新規律、新知識。基于這樣的技術,人們有理由相信,未來的科研方法將從傳統的假說驅動型轉向數據探索型。科學家們不必關心通過什么實驗來驗證假說,而是追求從現有數據中發現研究對象之間的關聯,把多個學科和領域的數據進行融合,或許就能有新的發現。
三是科研對象的雙重虛擬與觀察滲透。與大數據科研方法相對應,科學研究的對象被以數據的形式二重虛擬化。“海量數據的出現催生了一種新的科研模式,科研人員只需從數據中直接查找或挖掘所需要的信息、知識和智慧,甚至無需直接接觸所研究的對象。”〔5〕美國的海洋觀測站計劃(OOI)旨在幫助科學家們通過高清影像設備、傳感器控制、遙控潛水器等與海洋實現互動。但要實現該計劃,還需要計算機科學家與海洋學家合作,共同提供采用連續數據的模型、自動化的數據質量控制和校準、支持數據分析和可視化方面的新方法。〔2〕(P32-35)這預示著在大數據時代,科學的觀察滲透進一步加強:獲取數據的方法與設備、處理龐大數據的能力決定科學家能研究什么以及得到怎樣的研究結果;滲透到觀察結果中的不僅有本領域的科學理論,還有來自數據處理領域的理論與算法。
二、知識生產方式和科學進步模式的變化
首先,知識生產對技術與資本的依賴性增強。大數據時代,科學研究與信息技術手段之間的聯系越來越緊密。以大數據技術進行的研究需要極多的資源,收集、儲存、保留、管理、分析和共享海量數據各個環節都需要設備、技術與人才,獲得相當的科研資金才可能進行。先進的數據處理技術既對科學研究提供了有力和有效的手段,又造成了科研路徑上的依賴甚至是障礙。研究者若沒有相應的技術與設備,就無法獲得足夠的數據和深入的分析處理。因此,資源以及獲取資源的能力決定著科學家事業的前途,資本對知識生產的控制力將得到空前的強化。例如美國和加拿大海洋氣象臺的海王星項目撥出大約30%的預算用于信息化基礎設施(將近1億美元),而小實驗室的科學家只能用免費的EXCEL來處理數據。
其次,知識生產更傾向于工程化協作。由于使用大數據系統需要昂貴的技術成本,這使得科學家之間形成合作聯盟,共享儀器設備與技術服務。如LHC每年將產生50-100PB的數據,其中大約20PB數據通過國家級網格的全球聯盟進行存儲和加工,這一聯盟連接了100萬臺CPU。〔6〕 除了節約成本的考慮外,產生大數據的項目大多本身就是一個大科學工程,需要科研人員進行跨越多個領域的協同工作、各個領域的專家共同解決一些復雜問題。例如海洋觀測站計劃(OOI)的電纜部件研究由華盛頓大學負責,維多利亞大學領導了在加拿大的工作,美國海洋規劃協會管理和整合整個OOI系統,伍茲霍爾海洋研究所和加利福尼亞大學圣地亞哥分校分別負責管理項目的沿海-全球部分和網絡基礎設施部分。〔2〕(P32)
再者,科學進步日益共享化與全球化。在工程化協作中所實現的科學進步,實質上也是一種共享式進步。得益于大規模計算能力、存儲能力和科學儀器的共享支持,科學家們能夠方便地獲得和使用大量的來自其他科研團隊的科學數據。例如,2009年丹麥第一例H1N1感染者得到確認的幾天之后,H1N1病毒中的H1亞單位序列的全部1699個堿基就被提交到了EMBL-Bank(歐洲分子生物學實驗室核酸序列數據庫),此后美國、意大利、墨西哥、加拿大、以色列等多個國家都提交了更多的病毒亞單位序列數據。〔2〕(P120)在這樣的共享中,研究周期和研究費用將大幅度縮減,從而提高了科學進步的速度與質量。大數據還使得科學進步日益呈現出全球化的效應。例如微軟全球望遠鏡(WWT)作為國際“虛擬天文臺”的一部分,現在可以無縫鏈接到天文學家們已經習慣的定量研究工具上。〔2〕(P41)在這樣的研究模式中,科學家足不出戶就能獲得其他國家的技術設備與科研成果,來自全球的數據和信息能夠被用來為某一研究課題服務,得出的成果原則上是一種全球性的成果。
三、反思:大數據的利與弊
從積極的一面來看,大數據或將開創科學研究的“第四范式”。大數據相關的科研方法將在越來越多的領域中發揮重大的甚至是決定性的作用。有了數據處理系統的輔助,科學家可以把精力集中在創造性的勞動上,大數據不會自動產生科學知識,但至少增加了科學家做出科學發現的時間和可能。一批樂觀的科學家更是看到了大數據對科學的變革力量。2007年,已故圖靈獎得主吉姆·格雷(Jim Gray)把數據密集型科學從計算科學中區分出來,提出了數據密集型科學研究的“第四范式”。科學研究最早的兩種范式是實驗型科研與理論型科研,第三種范式即計算型科研通過利用計算能力發揮理論的作用,第四種范式則是在未知規律的情況下,運用計算能力從大數據中發現規律。
依賴大數據也可能帶來眾多負面影響。一是科研資源壟斷可能加劇。科學家能否進入大數據的研究平臺,受制于海量的科研數據是否開放,也取決于是否有相應的設備來獲取和處理這些數據。大數據與資本緊密結合的特性強化了科研資源掌握者對科研的走向與產出的控制。二是科學家可能形成技術路徑依賴。數據技術只能對豐富而且復雜的真實世界提供相對簡略的描述。更進一步而言,尋找不同尋常和意料之外的東西需要創造性和洞察力。計算機和數據庫不可能自動導致創造性的科學發現,科學家如果過分依賴數據資源和搜索工具,就會造成親身實踐獲取“第一手”資料的能力退化。三是科學合作的成果歸屬易引起紛爭。首先,對于數據提供方能否算作合作者并給予一定的署名權存在爭議;其次,對于工程化和全球化協作產生的成果是屬于集體智慧的,對于成果的所有權該如何分配?2013年的諾貝爾物理學獎僅頒給兩位理論創始人弗朗索瓦·恩格勒特和彼得·希格斯,而發現希格斯玻色子的幾千名粒子物理學家卻無緣此榮譽,這引起了包括諾獎評委安德斯?巴拉尼在內的抗議。最令人擔心的是,隨著科學和技術和商業性的開發越來越聯系緊密,一些具有商業價值的科學信息和數據為擁有者所不愿意公開,甚至通過申請專利來實施保護,這將帶來更大范圍的不公平與糾紛。
大數據是對人類信息處理能力的挑戰,對科學家們來說則是面臨著科研數據爆炸式增長的威脅,如果沒有應對好,科學可能就無從進步。科學家們面對數據的泛濫,還應該從根源上去反思,比如實驗思路是否出了問題。同時,大數據是應對數據挑戰而提出的技術系統,這也使得科學研究與技術手段之間的界限越來越模糊,科學能力甚至在某種意義上轉化為了技術能力,這對科學與技術之間的關系提出了新的問題,值得學者們深入研究。
〔參 考 文 獻〕
〔1〕Manyika,J,Chui M,Brown J,et al. Big Data: The Next Frontier for Innovation, Competition and Productivity〔R〕.McKinsey Global Institute,2011:1.
〔2〕Tony Hey,等.第四范式:數據密集型科學發現〔M〕.潘教峰,等,譯.北京:科學出版社,2012.
〔3〕馮海超.透視美國大數據爆發全景〔J〕.互聯網周刊,2013,(01):39.
〔4〕Chris Anderson. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete〔J〕. Wired, 2008,(07):16.
〔5〕牛祿青.構建大數據產業環境——專訪中國工程院院士、中科院計算所首席科學家李國杰〔J〕.新經濟導刊,2012,(12):39.
〔6〕A.M.Parker.Towards 2020 Science〔M〕.MicrosoftCorporation,2006.
〔責任編輯:陳玉榮〕