左建安 陳雅
摘 要 科學數據是科學研究的重要成果,也是科技發展的必然成果。論文指出大數據時代科學數據共享的四種模式:國家政策驅動、部門之間交換、企業發展帶動以及國際組織參與。此外,對我國科學數據共享提出了相應的建議。
關鍵詞 大數據 科學數據 共享模式 公眾需求 數據開放
分類號 G250.73
Abstract Scientific data are the important achievements of scientific research and the inevitable results of the development of science and technology. Four sharing modes of scientific data in the era of Big Data are introduced by this paper, that is the national policy-driven, the exchange between sectors, the enterprise development and the participation of international organizations. Finally, some suggestions are given for the development of sharing scientific data in China.
Keywords Big Data. Scientific Data. Sharing mode. Public demand. Open data.
1 概述
1.1 大數據時代的信息特征分析
隨著社交網絡、電子商務以及移動通信的發展,一個大規模生產、分享和應用數據的時代正在開啟。以“PB”(1024TB)為單位的大數據時代已經來臨。“大數據”一詞由英文“Big Data”翻譯過來。麥肯錫全球研究所報告《大數據:創新、競爭和生產力的下一個前沿》對“大數據”的定義為:大數據指的是大小超出常規的數據庫工具獲取、存儲、管理和分析能力的數據集。
大數據走近人們視野不久,但業界公認的大數據有四個“V”字開頭的特征:Volume(容量),Variety(種類),Velocity(速度)和最重要的Value(價值)。Volume是指大數據巨大的數據量與數據完整性,數據量級已從TB發展至PB乃至ZB,可稱海量、巨量乃至超量。Variety則意味著數據類型繁多,越來越多地表現為網頁、圖片、視頻、圖像等半結構化和非結構化數據信息。Velocity是指數據傳遞速度快時效高,更快地滿足實時性需求。Value則是大數據的終極意義——滿足人類的需求,在盡可能短的時間內發掘其價值[1]。
1.2 科學數據的概念分析
科學數據是人類社會從事科技活動所產生的原始觀測數據、探測數據、試驗數據、實驗數據、調查數據、考察數據、遙感數據、統計數據、研究數據以及相關的元數據和按照某種需求系統加工的數據,具有科學價值和使用價值[2]?!?br>