左建安 陳 雅
大數據時代的科學數據共享模式研究*
左建安 陳 雅
科學數據是科學研究的重要成果,也是科技發展的必然成果。論文指出大數據時代科學數據共享的四種模式:國家政策驅動、部門之間交換、企業發展帶動以及國際組織參與。此外,對我國科學數據共享提出了相應的建議。
大數據科學數據共享模式公眾需求數據開放
1.1 大數據時代的信息特征分析
隨著社交網絡、電子商務以及移動通信的發展,一個大規模生產、分享和應用數據的時代正在開啟。以“PB”(1024TB)為單位的大數據時代已經來臨。“大數據”一詞由英文“Big Data”翻譯過來。麥肯錫全球研究所報告《大數據:創新、競爭和生產力的下一個前沿》對“大數據”的定義為:大數據指的是大小超出常規的數據庫工具獲取、存儲、管理和分析能力的數據集。
大數據走近人們視野不久,但業界公認的大數據有四個“V”字開頭的特征:Volume(容量),Variety(種類),Velocity(速度)和最重要的Value(價值)。Volume是指大數據巨大的數據量與數據完整性,數據量級已從TB發展至PB乃至ZB,可稱海量、巨量乃至超量。Variety則意味著數據類型繁多,越來越多地表現為網頁、圖片、視頻、圖像等半結構化和非結構化數據信息。Velocity是指數據傳遞速度快時效高,更快地滿足實時性需求。Value則是大數據的終極意義——滿足人類的需求,在盡可能短的時間內發掘其價值[1]。
1.2 科學數據的概念分析
科學數據是人類社會從事科技活動所產生的原始觀測數據、探測數據、試驗數據、實驗數據、調查數據、考察數據、遙感數據、統計數據、研究數據以及相關的元數據和按照某種需求系統加工的數據,具有科學價值和使用價值[2]。科學數據是信息時代一種特殊的社會資源,具有明顯的潛在價值和可開發價值,并在應用過程中得以增值。很顯然,大數據這一寬泛的概念包括科學數據,科學數據也是大數據的內容之一。
2.1 國家戰略需求
大數據時代的到來使得數據成為一種資產,正成為與物質資產和人力資本相提并論的重要生產要素。科學數據這一具有戰略意義的資源,更是成為社會的重要資產。一個國家和企業的發展在很大程度上取決于其科技創新水平,而對科學數據進行系統的綜合分析是實現科技進步與創新的重要方式。無論是資源、能源的開發,還是高新技術產業化,無不是在科學數據的積累與支持下,實現理論與技術創新的結果。特別是在以知識為基礎的經濟中,越來越多的以知識、信息和數據應用為主要目的信息管理、加工與發布的產業,在現代信息技術引領下正在拉動“數字經濟”[3],也就是現在正在發生的“大數據經濟”。長期以來,我國已經積累了較為豐富的科學數據資源,但大多數仍存在于資料堆或檔案柜中,沒有經過有效的整理和建庫,數字化程度較低,很多數據庫往往局限于本部門、本單位使用,甚至個人使用,造成了科技資源的巨大浪費。所以打破科學數據壁壘,實施科學數據共享,是國家發展戰略的必然要求。
2.2 科學研究的要求
當前的科學是多學科交叉的科學,是圍繞數據展開的全球研究,并將越來越依賴于數據。科學研究就是科學數據的生產過程,一些科學數據本身就是其重要的研究成果。科學數據資源既是研究的成果與積累,又是支持更為復雜的創新研究所不可替代的資源存量。尤其在大數據時代,科學數據量激增,科學研究越來越依賴于系統的、高可信度的基礎科學數據分析。21世紀以來全球科技活動不斷增強,一系列重大科學工程的興起、復雜科學問題研究的提出、大型科學研究計劃的產生,導致前所未有的國際合作局面的形成,也導致了全球范圍內對科技信息資源交流、互通的客觀需求。因此,實現科學數據的共享,科學家就可以不再受限于數據的來源、格式以及國界,也不必質疑科學技術對于數據處理與存儲的能力,可以在全球海量的科學數據中發掘創新的潛力。
2.3 科學數據的公眾化需求
大數據的時代,科學數據的需求不僅僅局限于政府、科研單位以及企業,社會公眾也越來越需要科學數據。科學數據對于社會公眾,不僅僅是提高自身的知識水平和科學素養的源泉,也是日常生活中不可或缺的重要信息資源。如今個人電腦、智能手機及其掌上智能設備的普及,互聯網的應用和發展,使得公眾對這些基本科學數據獲取的需求更為強烈。例如人們出行需要全球定位系統的信息,關注個人健康需要醫學信息。以前人們出行導航只是了解路線,而現在可以用交通大數據采集到的信息來預測未來城市幾點到幾點的整個通行情況,給出行者提供一個非常好的決策幫助。同樣,在醫療健康領域,大規模復雜數據已經變得很普遍,通過對大量病人的各類數據進行挖掘分析,可以更有效地找出疾病成因,進而提供針對性的預防、診斷和治療措施。盡管社會公眾大多數是非專業人士,但可見在大數據時代,公眾對科學數據的質量要求是越來越高,對科學數據的發布渠道、發布頻率、表現形式等要求也會越來越高。
科學數據按基本社會屬性分類,可分為戰略性科學數據、公益性科學數據以及商業性科學數據[4]。目前科學數據共享模式主要表現為國家制約的公益性無償共享模式和市場制約的產業化運行模式。前者強調數據的公開和公益性共享,后者強調保護數據產權和商品性質。具體來講,有以下四種模式。
3.1 國家政策驅動模式
借鑒國際科學數據共享經驗,美國是典型的國家政策驅動模式。早在1991年6月美國總統事務辦公廳就發布了“全球變化研究數據管理政策”,該政策的核心就是實行“完全與開放”的科學數據共享。美國政府在科學數據共享方面根據投資來源的不同,嚴格區分兩種不同的數據共享機制。政府擁有、生產和政府資助生產的數據納人到“完全與開放”的共享機制中,即除涉及危害國家安全、影響政府政務和公務員個人隱私的數據外,其他都必須公開。私營公司投資生產的數據納入到“平等競爭”市場化共享機制中。在這兩種不同共享機制中,美國聯邦政府均起到主導作用,所不同的是采取的方式和管理的環節不同。兩種機制互相補充,促進全社會對科學數據的獲取、共享和廣泛應用。對于國有科學數據,由國家統籌規劃數據共享機制與體系,提供數據共享工作預算和保障,以及相關政策法規的制定、完善和監察。“完全與開放”的科學數據共享政策,使得一度曾各自為政,混亂的數據管理走向有序運作的軌道,科學家從得不到數據的抱怨走向數據共享,科學數據的開發水平和開發能力逐步提高,惠及了地球科學、生命科學、材料科學等各個領域,也極大地刺激了美國經濟的發展。人類社會在大數據背景下,數據開放已成為潮流。2009年,Data.gov網絡平臺在美國正式上線,按原始、地理數據和數據工具三個門類開放數據,截至2012年11月,Data.gov共開放388 529項原始數據和地理數據,匯集了1 264個應用程序和軟件工具、103個手機應用插件。歐盟開放數據戰略(Open Data Strategy)于2010年11月由歐盟委員會首次提出,并于2011年11月底被歐盟數字議程采納,基本概念是公共經費支持的信息應該得到最廣泛的使用,其中科學數據的開放是其全面開放數據政策的重要組成部分[5]。
3.2 部門之間交換模式
科學數據的共享首先應該從生產科學數據的部門共享開始。為避免重復生產,科研單位內部之間以及各科研單位之間的科學數據,在不侵犯知識產權的情況下,第一步要努力做到共享。以數據和信息為基礎的經濟、社會和科學發展中,一般情況下沒有哪一個部門能夠總是擁有某項科研活動需要的所有數據產品,尤其對于廣大的科學社區,其研究內容廣泛,對開放共享有著強烈的需求,研究過程中往往需要來自多個數據生產部門的不同區域、不同時期、不同尺度、不同學科的數據資源[6],因此部門之間的數據交換顯得急需和迫切。例如,地震工作部門各單位收集并存檔的各種地震科學數據,其他部門或單位為保障重大工程的建設安全而專門建立和管理的專用地震監測臺網和強震動監測設施所收集并存檔的地震科學數據,均屬于共享范圍[7]。浙江省地理空間數據交換平臺項目目前是全國首家省級地理空間數據交換平臺,由浙江省政府和國家測繪地理信息局合作共建、省測繪與地理信息局承建。該平臺實現了浙江全省地理空間信息資源在各部門的交換與共享,已為近30家省級部門、市縣用戶和企事業單位提供相關地理信息服務,支持了40個業務應用系統[8]。
3.3 企業發展帶動模式
現代企業的發展離不開信息和數據的支持,而企業的發展也能促進信息和數據的傳播與分享。一個企業的發展需要科學的方案,也需要科學數據來進行產品的進一步研發以及科技成果的轉化。數據積累量、數據分析能力、數據驅動業務而非流程驅動業務的能力將是決定企業生死存亡的關鍵。數據的重要性使得企業必將收集和分析海量的各類型數據,并快速獲取影響未來的信息。在這一過程中,企業就會做出有益于科學數據共享的決策與措施,例如由企業出資的科學合作項目的開發,有企業參與的科學資源共享平臺的構建,以及企業自建商業性的科學數據庫。只有學術和產業價值融合,才能真正發揮科學數據的應用價值。雖然學術界和產業界關注的價值點并不完全一致,但仍存在一些共性,發現和利用其中的共性,對解決科學數據共享中出現的問題很重要。跨界合作是積極且有意義的嘗試,學術界可以致力于基礎技術的研究,盈利模式的分析則由企業去完成。同時,學術界和產業界在某些交叉領域形成競爭也是一種良性的模式。一些大企業會對前沿技術和數據積累追蹤最新的學術成果,甚至自己做學術研究,學術界也在積極推進產業化思考。
3.4 國際組織參與模式
隨著人們對科學數據共享意識的提高,越來越多的國際組織參與進來,進行國際間的交流與合作,滿足國際社會對科學數據共享的需求。在國際科學聯合會(ICSU)的組織下,1957年成立了世界數據中心(World Data Center),開展地球科學、空間科學和環境科學領域數據的收集、整理、系統化、標準化及交流服務等活動。世界數據中心不僅在地球科學、空間科學和環境科學領域積極推進了數據管理和共享,還積極參與許多重大的國際科學計劃,為人類科學事業的發展作出了貢獻。國際科技數據委員會(Committee on Data for Science and Technology)成立于1966年,其宗旨是提高科學數據的質量,推動對科學數據的收集、交換、服務和共享。CODATA致力于提高對整個科技領域有重要變化的數據的質量、可靠性、管理與可訪問性,向科學家和工程師提供對國際數據活動的訪問,促進直接合作,并利用互聯網初步構建了全球范圍內的科學數據交換體系。CODATA通過建立標準格式促進數據交換、共享,并協調各國數據項目,定期召開國際數據學術會議,提高國際對科學數據共享的認識和深入探討數據共享等學科方面的問題。
以上這四種科學數據共享模式相互交叉和滲透,在大數據時代繼續存在并向深遠發展。應該說我國的科學數據資源十分豐富,近年來國家各有關部門相繼成立了專門的信息中心,如國家基礎地理信息中心、國家海洋信息中心、國土資源部信息中心、國家氣象信息中心等等,這些信息中心成為政府部門向社會提供公益性、基礎性服務的重要窗口。我國目前需要從政策法規、技術規范、組織管理各個層面保證科學數據共享工作的順利進展。
首先,相較于歐美發達國家,我國政府對有關法規政策的發布還遠遠不夠,應對大數據的挑戰,政府必須出臺更多關于科學數據共享和數據開放方面的法規政策。
其次,加大數據開放平臺的建設。大數據時代開啟“智慧城市”的建設,“智慧城市”是在城市化與信息化融合等背景下,綜合利用物聯網、云計算等信息技術手段,結合城市現有信息化基礎,融合先進的城市運營服務理念,建立廣泛覆蓋和深度互聯的城市信息網絡,對城市的資源、環境、基礎設施、產業等多方面要素進行全面感知,并整合構建協同共享的城市信息平臺。“智慧城市”建設內容繁多,在數據開放平臺的構建中離不開科學數據的支撐,也從中促進科學數據的共享。
最后,在國際科學數據共享的大環境中,積極參與國際合作與交流,借鑒國際上先進的共享模式與經驗,只有這樣才能提高我國科學數據共享水平,讓科學數據真正走出封閉的實驗室,走向社會,走向世界。
參考文獻:
[1]趙國棟.大數據的定義和特征[EB/OL].[2013-10-11]. http://blog.sina.com.cn/s/blog_537e497a01019pi3.html.
[2]江洪,鐘永恒.國際科學數據共享研究[J].現代情報,2008(11):56-58.
[3]黃鼎城,郭增艷.科學數據共享管理研究[M]北京:中國科學技術出版社,2002:36.
[4]黃鼎城,郭增艷.科學數據共享管理研究[M]北京:中國科學技術出版社,2002:130-140.
[5]歐盟委員會副主席Neelie Kroes:希望每個歐洲人都參與數字化[EB/OL].[2013-10-11].http://www.openaccess.net.cn/5f00653e83b753d652a86001/20125e74/ 46708/6b2776df59d454584f1a526f4e3b5e2dneelie-kr oes-5e0c671b6bcf4e2a6b276d324eba90fd53c24e0e-65705b575316.
[6]劉潤達,趙輝,李大玲.科學數據共享平臺之數據聯盟模式初探[J].中國基礎科學,2010(6):27-32.
[7]地震科學數據共享管理辦法[EB/OL].[2013-10-11]. http://data.earthquake.cn/policy/gxbf.htm.
[8]浙江建成全國首家省級地理空間數據平臺[EB/OL]. [2013-10-11].http://kjsb.zjol.com.cn/html/2013-02/22/ content_21927.htm.
左建安南京大學信息管理系2011級碩士研究生。江蘇南京,210093。
陳雅南京大學信息管理系教授。江蘇南京,210093。
The Analysis on the Sharing Mode of Scientific Data in the Era of Big Data
Zuo Jian'an,Chen Ya
Scientific data are the important achievements of scientific research and the inevitable results of the development of science and technology.Four sharing modes of scientific data in the era of Big Data are introduced by this paper,that is the national policy-driven,the exchange between sectors,the enterprise development and the participation of international organizations.Finally,some suggestions are given for the development of sharing scientific data in China.
Big Data.Scientific Data.Sharing mode.Public demand.Open data.
G250.73
2014-02-08編校:劉明)
*本文系2011年江蘇高校哲學社會科學研究重點項目“江蘇省‘十二五’時期數字文化產業之數字內容服務模式研究”(項目編號: 2011ZDIXM011)系列成果之一。