諸云強,朱琦,馮卓,曾劍峰,郭春霞,傅為華,李威蓉
(1. 中國科學院地理科學與資源研究所資源與環境信息系統國家重點實驗室,北京 100101;2. 江蘇省地理信息資源開發與利用協同創新中心,南京 210023;3. 環境保護部信息中心,北京 100029;4.義烏工商學院,義烏 322000;5.山東理工大學,淄博 255000)
科學大數據開放共享機制研究及其對環境信息共享的啟示
諸云強1,2*,朱琦3,馮卓1,曾劍峰3,郭春霞3,傅為華4,李威蓉5
(1. 中國科學院地理科學與資源研究所資源與環境信息系統國家重點實驗室,北京 100101;2. 江蘇省地理信息資源開發與利用協同創新中心,南京 210023;3. 環境保護部信息中心,北京 100029;4.義烏工商學院,義烏 322000;5.山東理工大學,淄博 255000)
摘 要科學大數據得以充分利用和增值的前提是開放共享,而影響數據開放共享的關鍵問題是共享機制。本文首先分析了科學大數據的產生方式、數據類型、投資方式、管理主體和服務定位及其與共享程度的關系。進一步在分析國內外自上而下和自下而上科學數據共享通用機制與原則的基礎上,結合國家地球系統科學數據共享平臺、全球變化科學數據出版等實踐,提出了數據匯交、數據出版、數據聯盟和服務激勵四種數據共享機制,并分析了每種機制中的關鍵問題及具體做法。最后,結合云計算、“互聯網+”等新一代信息技術和思維,對環境保護大數據共享機制提出四點建議,即:國家統一投資建設的環境保護核心業務數據強制匯交機制,其他部委、機構環境保護相關數據聯盟交換機制,企業、科學家個人數據出版等激勵機制,以及社會公眾數據的“眾創機制”。
關鍵詞科學大數據;環境保護;共享機制;數據匯交;數據出版;眾創
科學數據是指人類社會科技活動所產生的基本科學技術數據、資料以及按照不同需求而加工的數據產品和相關信息[1]。科學數據是國家寶貴財富和戰略資源,不僅關系到國家的科技進步與創新能力,而且也是社會經濟發展決策的基礎。科學數據通常分為兩大類型,一類是行業部門按照統一的規范標準長期采集和管理的科學數據;另一類是國家各類科技計劃項目在研究過程和結果中產生的,以及為支持科學研究而通過觀測、監測、試驗等站點采集的科學數據[2]。
自20世紀70年代起,科學數據共享已經受到廣泛的關注,一系列國際數據組織/計劃、國家數據中心和共享動議先后成立和啟動[3]。如,國際科聯(ICSU)的國際科學技術數據委員會(Committee on Data for Science and Technology, CODATA)、世界數據中心(系統)(World Data Center or System, WDC or WDS)[4]、地球觀測組織(Group on Earth Observations, GEO)、研究數據聯盟(Research Data Alliance, RDA)和全球生物多樣性信息機構(Global Biodiversity Information Facility, GBIF)等,美國建立的分布式最活躍數據檔案中心群(Distributed Active Archive Centers, DAACs)、全球變化主目錄(Global Change Master Directory, GCMD)、國立衛生研究院數據共享庫(NIH Data Sharing Repositories)、地球觀測數據網Data Observation Network for Earth, DataOne), 歐洲空間信息基礎設施(INSPIRE)、加拿大的地球觀測數據網(The Canadian Earth Observation Network, GeoNET),中國啟動的科學數據共享工程、國家科技基礎條件平臺(National Science and Technology Infrastructure, NSTI)等。
從國際上看,科學數據共享已經成為一種普遍性行為,但發展極不均衡[5]。各國科學數據共享發展不均衡的根本原因在于背后政策和共享機制的不同。盡管我國已經出臺了一系列數據共享相關的政策和條例,然而這些政策和條例都有這樣或那樣的限制,極大影響了科學數據的共享,國家層面完善的數據共享機制,特別是針對不同類型和來源的科學數據共享機制并未形成[6,7]。因此,研究分析不同模式的共享機制,對于推進科學數據共享具有重要的意義。特別是科學大數據的到來,一方面人們越來越意識到數據的價值,更加注重數據產權的保護;另一方面大數據產生方式和利用模式的轉變,都要求我們重新審視和積極探索新的數據共享機制。本文首先分析科學大數據及其來源特征;然后結合國家地球系統科學數據共享平臺和全球變化科學數據出版等實踐,研究分析不同來源的科學大數據共享機制及其關鍵問題;最后,給出環境保護數據開放共享機制的建議。
大數據是指無法在可容忍的時間內用傳統IT 技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合[8]。與科學相關,反映和表征著復雜的自然和社會科學現象與關系的大數據稱之為科學大數據。除具有一般科學數據的特征(客觀性、分離性、長效性、不對稱性、非排他性、可傳遞性、增值性)[9]和大數據的特征(4V:Volume—體量浩大、Variety—模態繁多、Velocity—生成快速和Value—價值巨大但密度很低)外,科學大數據還具有高維(具有多重數據屬性)、高度計算復雜性(大多為非線性復雜系統)和高度不確定性(具有一定的誤差和不完備性)等特征[10]。
從產生方式來看,科學大數據主要來源于地面觀測(監測)、遙感遙測,考察調查、統計分析,實驗測試,加工處理、計算模擬,互聯網挖掘等手段;從數據類型來看,科學大數據包括空間數據(矢量、柵格等)、非空間數據(數據庫表、數值文本、統計圖等)、多媒體數據(文檔、圖片、音頻、視頻等);從投資方式來看,科學大數據主要由國家和地方財政、單位自主經費和個人經費等投資產生;從管理主體來看,科學大數據主要由專業機構(數據中心)、科研團隊和科學家個人等管理;從服務定位來看,科學大數據主要包括研究型(研究項目產生的數據)、資源型(特定領域公共的數據庫)和參考型數據(長期積累的基礎性數據)[11]。不同產生方式、數據類型,投資方式、管理機構、服務定位的科學數據,其開放共享的程度也不同(圖1)。

圖1 科學數據共享程度線性模型示意
圖1顯示,科學數據獲取方式越容易,意味著獲取成本越低,其共享也會越容易;科學數據類型越與地理空間位置無關,保密程度就會越低,而開放共享限制也會越低;科學數據管理主體從個人、到團隊再到專業機構(如數據中心),管理的專業程度和穩定性就會越來越高,因此,就會越容易共享;科學數據共享的法理基礎是納稅人,稅收是政府財政的主要來源,國家投資產生的科學數據應當向納稅人實行共享[12]。根據這一原則,國家財政經費投資產生的科學數據理應向全社會開放共享。因此,國家財政經費資助產生的科學數據共享程度要遠遠高于企業和個人自有經費投資的科學數據。研究型數據庫是指某一個或者若干個固定的研究項目產生的數據集,這些數據獲得的資金資助較少,資助周期也較短,數據可能沒有嚴格遵循相關的標準,數據的規模和覆蓋范圍有限,因此只能為特定的研究群體服務[13]。資源型數據庫經費直接來源于領域部門或相關的機構,通常遵循一定的數據規范進行長期的建設,可以服務于某一領域或學科的組織和機構。參考型數據庫是由國家投資的基礎性數據資源,如基礎地理、水文地質、氣象數據等。該類數據庫遵循嚴格的標準規范,通過普查、周期性更新或定期監測等方式進行長期的積累,數據規模大,可以作為其他科學數據的參考依據與基礎。因此,參考型數據用戶群體大、應用影響面廣,開放共享要求也較資源型和研究型數據高。
2.1 科學數據共享通用機制與原則
科學數據共享政策和機制一般有兩種制定方式①Uhlir P.F. Development of Open Data and Data Sharing Principles by International Scientifi c Communities.International Workshop on Open Data in Developing Countries.Nairobi, Kenya. 6 August 2014.:
一是自上而下,由政府和跨政府組織、研究經費資助機構制定。如:美國根據“保障投資者獲得利益”這一數據共享基本原則,采用保密性管理、完全開放和市場運行三種不同的科學數據共享機制[14]:①對于有可能危及國家安全、有可能影響政府政務、有可能涉及個人隱私的數據和信息均納入保密性管理,并對這些內容給以十分嚴格和明確的規定;②對國家所有和國家投資產生的、不會危及國家安全、影響政府政務,不會涉及個人隱私的全部數據和信息都納入“完全與開放”的范疇;③對私營企業投資產生的科學數據,則納入到市場運行的管理體系。2004年經濟合作與發展組織發布了《公共研究數據訪問國際原則與指南聲明》,認為公共研究數據訪問應遵循如下原則:開放、靈活、透明、遵守法律、知識產權保護、正式的責任、專業化、互操作性、質量、安全、效率、評估、可持續性[15]。2013年,加拿大、法國、德國、意大利、日本、俄羅斯、英國、美國等8個國家在G8峰會上簽署了《開放數據憲章》,規定了政府開放數據的五大原則和十四個重點開放領域[16]。五大原則:一是使開放數據成為規則,二是注重數據質量和數量,三是讓所有人都可以使用,四是為了改善治理發布數據,五是為激勵創新發布數據。其中最重要的思想就是“開放為默認,不開放為特例”。十四個重點開放領域,包括能源與環境、地理空間、全球發展、科學研究和統計等。
二是由下而上,由數據資源管理和擁有單位、非政府組織等制定。ICSU CODATA在2000年發布了“數據庫訪問:網絡時代下科學的一系列原則”,認為,科學是一項重要的公共投資,將會對人類和經濟社會的發展產生深遠的影響;科學進步依賴于完全和開放的數據;市場模式的數據訪問政策是不適合于研究和教育領域的;對于科學研究和知識分發來說,數據出版是非常必要的;數據庫擁有者的利益必須與社會對數據開放共享的要求有一個很好的平衡;立法者必須考慮知識產權保護法律對于研究和教育領域的影響[17]。Uhlir等[18]認為,對于公共財政資助的數據資源應采用“完全開放和共享”的政策;對于公共和私有混合的數據應采用面向非盈利研究、教育或發展中國家用戶開放,面向商業使用限制或簽訂協議的政策;對有私有數據應采用在保障數據擁有者利益前提下鼓勵數據共享的政策。建議GEO應采用強制(成員國或組織必須按照統一的協議共享地球觀測及相關的數據)和鼓勵(鼓勵按照國際慣例和指南的最少要求,共享相關的數據集)兩種相結合的政策。
2.2 科學數據共享機制若干模式與關鍵問題
根據前面的分析,結合國家地球系統科學數據共享平臺、973計劃資源環境領域、科技基礎性工作專項項目數據匯交、全球變化科學數據出版和地學科研信息化環境的實踐,提出以下四種科學數據共享機制,并剖析每種數據共享機制的關鍵問題。
2.2.1 數據匯交機制
科學數據匯交屬于自上而下的強制性共享機制,主要的實施對象是國家財政經費支持的行業部門和科研項目以及數據中心產生和管理的數據資源。
行業部門大多通過部發文的形式,規定部門科學數據自下而上的匯交或交換,如國土資源部的《國土資源數據管理暫行辦法》、中國氣象局的《氣象資料共享管理辦法》等。
相比于行業部門的數據匯交,由于缺乏行政手段的約束,科研項目數據的匯交在我國發展相對緩慢。盡管在一些科技計劃管理條法中規定了“科研項目數據”必須匯交的要求,但由于缺乏配套的管理辦法及操作規程,“交到哪”、“交什么”、“怎么交”等核心問題沒有解決,使得這些要求往往流于形式,并沒有真正實施起來。2007年、2013年科技部先后啟動了“973計劃資源環境領域”、“科技基礎性工作專項”項目數據匯交工作。為了促使項目數據匯交的順利推進,首先制定和頒發了《數據匯交管理辦法》,《辦法》規定:①項目數據匯交到科技部指定的數據管理中心。數據管理中心負責項目科學數據匯交標準規范制定、技術培訓,以及匯交數據的接收、保存、管理、共享與服務;②匯交的內容主要是項目研究產生的數據資料,以及輔助的科學數據(元數據、數據文檔)和工具軟件;③數據匯交具體分為數據計劃制定、匯交準備、數據實體匯交和數據管理與共享服務四個階段。同時,制定了“數據計劃參考格式”、“數據匯交方案參考格式”、“科技項目數據匯交元數據標準”、“數據文檔編寫規范”、“數據匯交文件整理規范”、“數據審查規范”等配套的技術標準。具體實施時,按照分類型、分階段(新啟動、中期進展、已結題)的策略進行實施,即:新啟動項目要求編制數據計劃,依據數據計劃匯交科學數據;中期進展(在研)項目直接編制匯交方案,依據匯交方案開展數據的匯交;已結題項目補充數據匯交方案,依據匯交方案,由數據管理中心協助其進行數據的匯交。通過上述模式,切實解決了科研項目數據匯交“交到哪”、“交什么”、“怎么交”等核心問題,有效推進了重大科技項目數據匯交的問題[19]。
對于國家財政經費支持的數據中心,必須按照“國家科技計劃及專項資金后補助管理規定”,對其進行共享服務績效考核,并依據績效考核結果給予相應的經費補助。例如,中國科學地理科學與資源研究所承擔的國家科技基礎條件平臺—地球系統科學數據共享平臺①國家地球系統科學數據共享平臺:http://www.geodata.cn按照學科和區域并重的原則在全國設置了14個分中心和2個數據資源點。所有分中心和數據資源點按照統一的績效考核評價體系,每年進行績效評估,依據評估結果進行經費的分配和動態的調整。在具體實施過程中,通過嚴格的“平臺管理辦法”及配套的技術規程,對其上網服務的數據質量、服務流程和時效等進行統一的規定,要求所有上網服務的數據必須是“元數據”、“數據服務”、“數據文檔”三位一體,通過“元數據”保證用戶能夠快速查找到數據,通過“數據服務”能讓用戶快捷地訪問到數據,通過“數據文檔”能夠正確指導用戶使用數據,從而有效提高數據共享服務的質量[20,21]。
2.2.2 數據出版機制
除了國家自上而下的數據共享政策外,在大數據時代,調動科研人員主動共享數據積極性的重要機制就是自下而上的科學數據出版[22,23]。數據出版是指在互聯網上公開數據,并且支持除數據提供者之外的研究人員或者組織機構下載、分析、再利用以及引用數據[24]。數據出版的關鍵是讓數據也像科技論文一樣公開出版(網絡出版或紙質出版),讓科學數據也能夠被引用和追溯,并最終納入科研考核體系中,從而有效保障共享數據的科研人員的根本利益,促進科研人員共享數據的積極性。
當前,Nature等國際著名期刊已經開始要求作者投稿時必須向期刊提供與論文相關的科學數據,這些科學數據必須存儲到可公開訪問的相關數據庫中;一些學科出現了專門的數據期刊,如ESSD(Earth System Science Data)等;一些數據中心/機構也倡導基于同行評審的數據論文發表,如GBIF(Global Biodiversity Information Facility)、DRYAD(Dryad Digital Repository)等。湯森路透公司也推出了數據引文索引(Data Citation Index,DCI),旨在推動科學數據的開放共享與引用,提高數據作者的知名度[25]。
2013年,中國科學院地理科學與資源研究所啟動了“全球變化科學數據出版”[22],利用數字對象唯一標識(Digital Object Identifi er, DOI)對科學數據進行全球唯一標注,將電子版的數據集和數據論文在網上關聯發布①全球變化科學數據出版:http://www.geodoi.ac.cn,同時數據論文以紙質版的形式在《地理學報(增刊)》上發表。全球變化科學數據出版流程包括數據投稿、同行評議、注冊發布、數據出版、數據引用、成果評價等環節,如圖2所示。
數據投稿需要作者承諾[22]:①確認數據集具有自主知識產權,同意將數據按照承諾的公開范圍進行共享,同意數據散發權、網絡傳播權等產權的轉讓權與數據出版者共同具有。該數據集(庫)出版權由數據出版者單獨所有;②符合國家安全、個人隱私和相關科學研究項目政策規定;③保證科學數據集(庫)的真實性,即沒有任何作假數據;④沒有一稿多投(一個數據庫僅能出版一次,更新數據庫以不同版本)。數據投稿需要準備:數據集(庫)的元數據、數據論文和實體數據,三者缺一不可。元數據、數據論文和實體數據集(庫)均需要同行專家評議。通過同行評議的科學數據,由數據注冊與出版技術系統分配DOI號后,向全球發布共享。

圖2 科學數據出版流程
不到兩年的時間內,全球變化科學數據出版已經吸引了來自4個國家的174位作者投稿,公開出版了58個數據集,引起了國內外數據界的廣泛關注。
2.2.3 數據聯盟機制
數據聯盟機制是國際數據共享常用的機制,數據(平臺)中心之間通常遵循共同協商的原則或聲明,利用統一的標準或接口(軟件系統),進行元數據或數據的互操作。例如,WDC系統內部許多數據中心之間開展了數據鏡像,其中WDC日地物理數據中心已經在中國、俄羅斯、澳大利亞、日本和印度等國家建立鏡像,WDC古氣候數據中心已經在中國、印度、阿根廷、南非和肯尼亞建立數據鏡像系統,并通過OAI-PMH(Open Archives Initiative-Protocol for Metadata Harvesting)元數據收割服務協議實現整個WDC 系統的一站式數據搜索和共享服務[19];全球衛星觀測委員會(CEOS)通過統一的目錄標準(CWIC)將其成員機構(NOAA、NASA、USGS、INPE、GMU等)的數據目錄整合在一起提供有效的數據發現[26,27];全球變化主目錄(GCMD)通過統一的DIF(Directory Interchange Format)元數據標準,各成員節點交換和共享元數據;興都庫什—喜馬拉雅地區山地空間信息共享系統,每成員國(中國、印度、尼泊爾、孟加拉、巴基斯坦等)之間通過采用統一的GeoNetwork共享軟件,實現元數據的實時交換與統一搜索[28,29]等。
2.2.4 服務激勵機制
對于個人數據,可以采用積分和在線計算服務等形式,激勵和吸引科學家個人提供和交換科學數據。
(1)積分機制。科學家發布個人數據時可以設置一定的使用積分,當其他用戶共享該數據時,需要支付相應的積分給數據發布者。積分越多,可以共享的數據就越多。當前,采用積分激勵機制的成功案例,如百度文度①百度文度:http://wenku.baidu.com、數據堂②數據堂:http://www.datatang.com等等。為了鼓勵科學家個人發布、使用數據,參與并推進數據共享,在筆者團隊研發的地學科研信息化環境③地學科研信息化環境:http://wenku.baidu.com中也采用數據積分的形式[30,31]:當數據擁有者發布數據時可以標注使用積分,積分范圍為1~10分。發布數據的用戶系統自動給該用戶加2個積分。當該數據審核未通過時扣2個積分,管理員認為好的數據可以獎勵積分,具體積分數由管理員定(不超過10分)。標注積分的數據被使用后,標注的積分從數據使用者中扣除,加到數據發布者頭上。使用免費數據的用戶不加分也不扣分。用戶對數據進行評論時,系統自動給用戶加1個積分,用戶在評價數據的同時還反饋了數據使用的成果時加2個積分。管理員可對用戶評論進行審核,視評論質量進行評論積分獎勵或扣減。
(2)在線計算服務機制。復雜環境保護數據處理和模擬分析往往需要在高性能計算環境下,通過專用的處理工具和模擬模型來實現。對于個人用戶而言,通常缺乏高性能計算能力,有時也很難獲取到專用的處理工具和模擬模型。在地學科研信息化環境中,我們利用分布式計算技術,構建了具有高性能計算能力的在線模型共享系統,為用戶提供在線的地理空間數據處理、遙感反演計算和陸面過程模擬等。利用在線模型共享系統進行在線計算時,用戶需要上傳模型輸入數據,并指定是否保存計算過程數據和結果數據。用戶可以決定是否將上傳的輸入數據、計算過程數據和結果數據公開。如果選擇公開數據,地學科研信息化環境就能夠不斷沉淀和積累模型用戶數據,進而實現動態的模型數據共享[30,31]。
3.1 環境保護大數據分析
環境保護數據是工業、農業生產和民眾生活等實施主體開發利用和保護環境客體(大氣、水、土壤、生態等)過程中產生的各類數據資源(圖3),其核心就是反映環境保護對象的空間分布、質量狀況和變化趨勢,以此來認識環境的演變規律,控制潛在環境風險。

圖3 環境保護數據產生概念模型
面向全球氣候變化的挑戰,環境保護的內涵不斷擴大和豐富,參與的主體也越來越多。國家生態文明指出要進一步加大自然生態系統和環境保護力度,正確處理經濟發展與環境保護關系;未來地球計劃(Future Earth)(2014—2023)提出要圍繞動態星球(地球環境—社會系統,即人地關系發展趨勢、驅動因素和過程及他們的相互作用)、全球發展(食物、水、生物多樣性、能源、材料)、可持續轉變(探索科技—社會—經濟發展的可持續道路)三大主題展開研究,強調自然、社會科學家、政府決策者、企業的共同參與。
因此,環境保護數據正從傳統水、氣、聲、生態、土壤等核心要素的監測數據向自然生態系統、人文社會系統數據的拓展,形成了跨部門、多來源、多類型的大數據特征(圖4)。

圖4 環境保護大數據范圍
3.2 環境保護大數據共享機制建議
環境保護大數據利用的基礎和前提仍然是數據的共享。當前,由于缺乏部門之間的共享機制,環境信息共享難度大,信息資源開發利用難度更大,嚴重影響了環境信息化整體效益的發揮,制約了環境信息化的進一步發展[32]。排污許可一證管理、環境責任終身追究[33]、公眾積極參與和志愿監督等制度的建立都離不開環境信息的共享與公開。基于前述科學大數據共享機制的分析,為了推進環境保護大數據的集成共享與利用,我們建議:
(1)面向國家統一投資建設的環境調查、監測數據以及環境保護領域重大科技專項產生的數據,包括污染源普查、污染物排放,大氣、水、聲、生態、土壤等監測數據,水專項、環保公益項目數據等,建議采取強制性數據匯交制度。
制定并頒發“環境保護數據匯交管理制度”和配套的技術標準,將國家財政經費投資產生的環境保護數據匯交作為一項基本制度,明確數據匯交的獎懲措施。規定環境保護數據匯交各參與主體的權、責、利。按照數據類型,建立環境保護數據匯交管理中心,明確各類數據資源匯交范圍與內容、具體流程與技術要求、管理與開放共享原則,切實推進環境保護核實業務和重大科研項目數據的匯交與開放共享。
(2)面向其他部委、機構與環境保護管理、研究相關的基礎測繪、地質、氣象、水文、生態與生物多樣性等科學數據,建議采用聯盟交換的機制,促進跨部門的信息交換與共享。
成立部際環境保護數據共享聯盟,明確聯盟成員的責任與義務,規定核心交換數據集以及日常、應急兩種情況的數據交換規則,制定數據安全使用管理辦法。梳理聯盟成員環境保護相關數據需求目錄和被需求目錄,定期溝通核實需求目錄和被需求目錄實施情況。按照統一的標準接口,建立網上在線數據交換平臺,實現聯盟成員核心數據的實時交換與“一站式”訪問,切實滿足生態環境治理現代化對科學數據的需求。
(3)面向企業、科學家個人的科學數據,建議采用數據出版、積分、在線計算服務等激勵機制,吸引企業和科學家志愿共享數據。
聯合環境保護領域期刊和數據中心,發揮前者在論文審稿、出版的經驗和后者在數據管理、開放共享的優勢,開展環境保護數據出版。通過網絡和期刊兩種方式,將科學家個人的數據以數據論文的形式公開發表和出版,實現數據和論文的關聯共享。以積分的形式,鼓勵企業與企業、企業與政府、企業與科學家、科學家與政府、科學家與科學家之間數據的交換,形成“人人都是數據的使用者、又是貢獻者”的共享氛圍。同時,利用云計算技術,構建具有強大計算能力支撐的在線環境模擬分析平臺,面向缺乏高性能計算能力和專業模型的企業或科學家個人提供免費的在線計算分析服務。通過在線環境模擬分析平臺,不斷沉淀和開放計算用戶的原始輸入數據、過程計算和結果數據。
(4)利用“互聯網+”思維,開放政府環境保護數據,研發有利于社會公眾參與環境保護的APP應用和社交平臺,充分發揮社會公眾的積極性,不斷收集和共享社會公眾產生的環境保護大數據,形成社會公眾數據的“眾創機制”。
按照“開放為默認,不開放為特例”的原則,制定環境保護信息公開條例,實現政府環境保護數據最大程度的開放,滿足社會公眾對環境保護信息的需求,并進一步吸引社會公眾參與環境保護工作。研發有利于社會公眾在線辦事、信息查詢、交互參與的移動APP應用,實現“隨手拍、隨手記、隨手傳”的社會公眾環境保護監督和參與的氛圍,形成環境保護大數據社會公眾“眾創機制”。同時,通過開放政府環境保護數據,支撐社會公眾自發開展環境數據分析與創新應用,促進環境保護領域的“萬眾創新”。
參考文獻
[1] 黃鼎成, 郭增艷. 科學數據共享管理研究[M]. 北京: 中國科學技術出版社, 2002.
[2] 孫九林, 王卷樂. 探索分散科學數據資源共享之路——記“地球系統科學數據共享網”[M]//國家科技基礎條件平臺. 國家科技基礎條件平臺回顧與展望. 北京: 中國科學技術出版社, 2008.
[3] 諸云強, 孫九林, 廖順寶, 等. 地球系統科學數據共享研究與實踐[J]. 地球信息科學學報, 2010, 12(1): 1-8.
[4] 王卷樂, 孫九林. 世界數據中心(WDC)回顧、變革與展望[J]. 地球科學進展, 2009, 24(6): 612-620.
[5] 李娟, 劉德洪, 江洪. 國際科學數據共享現狀研究[J]. 圖書館建設, 2009, (2): 19-21, 25-25.
[6] 劉潤達, 褚文博, 諸云強. 國家科技基礎條件平臺運行服務階段關鍵問題探析[J]. 現代情報, 2012, 32(11): 51-57.
[7] Wan Z. China’s scientific progress hinges on access to data[J]. Nature, 2015, 520(7549): 587-587.
[8] 李國杰, 程學旗. 大數據研究: 未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊, 2012, 27(6): 647-657.
[9] 孫九林, 施慧中. 中國地球系統科學數據共享服務網的構建[J]. 中國基礎科學, 2003, (1): 76-81.
[10] 郭華東, 王力哲, 陳方, 等. 科學大數據與數字地球[J].科學通報, 2014, 59(12): 1047-1054.
[11] National Science Foundation. Long-lived Digital Data CollectionsEnabling Research and Education in the 21st Century[EB/OL]. (2005-9) [2015-10-26]. http: //www.nsf. gov/pubs/2005/nsb0540/nsb0540.pdf.
[12] 黃鼎成. 科學數據共享的理論基礎與共享機制[J]. 中國基礎科學, 2003, (2): 22-27.
[13] 孫九林, 林海. 地球系統研究與科學數據[M]. 北京: 科學出版社, 2009.
[14] 劉闖. 美國國有科學數據共享管理機制及對我國的啟示[J]. 中國基礎科學, 2003, (1): 34-39.
[15] OECD (Organisation for Economic Co-Operationand Development). OECD Principles and Guidelines for Access to Research Data from Public Funding[EB/OL]. (2007-4) [2015-10-26]. http://www.oecd.org/sti/sci-tech/38500813. pdf.
[16] Castro D,Korte T. Open Data in the G8: A Review of Progress on the G8 Open Data Charter[EB/OL]. (2015-3)[2015-10-26]. http://www2.datainnovation.org/2015-open-data-g8.pdf.
[17] ICSU CODATA Ad Hoc Group on Data and Information. ACCESS TO DATABASES: A Set of Principles for Science in the Internet Era[EB/OL]. (2000-6)[2015-10-25], http:// www.icsu.org/publications/icsu-position-statements/accessto-databases/389_DD_FILE_ACCESS_TO_DATABASES_ Jun_00_.pdf.
[18] Uhlir P F, Chen R S, Gabrynowicz J I,et al. Toward implementation of the global earth observation system of systems data sharing principles[J]. Data Science Journal, 2009, 8, doi:10.2481/dsj.35JSL201.
[19] 王卷樂, 楊雅萍, 諸云強, 等. “973”計劃資源環境領域數據匯交進展與數據分析[J]. 地球科學進展, 2009, 24(8): 947-953.
[20] 諸云強, 宋佳, 潘鵬, 等. 地學數據共享發展現狀、問題與對策研究[J]. 中國科技資源導刊, 2014, 46(4): 55-63.
[21] Wang J L, Sun J L, Zhu Y Q,et al. A study on the organizational architecture and standard system of the data sharing network of earth system science in China[J]. Data Science Journal,2013, (12), doi: 10.2481/dsj.13-031.
[22] 劉闖. 論全球變化科學研究數據出版[J]. 地理學報, 2014, 69(8): 3-11.
[23] 吳立宗, 王亮緒, 南卓銅, 等. 科學數據出版現狀及其體系框架[J]. 遙感技術與應用, 2013, 28(3): 383-390.
[24] 何琳, 常穎聰. 國內外科學數據出版研究進展[J]. 圖書情報工作, 2014, 58(5): 104-110.
[25] Force M M,Robinson N J. Encouraging data citation and discovery with the data citation index[J].Journal of Computer-Aided Molecular Design, 2014, 28(10): 1043-1048, doi: 10.1007/s10822-014-9768-5.
[26] Bai Y Q, Di L P. Review of geospatial data systems’ support of global change studies[J]. British Journal of Environment and Climate Change, 2012, 2(4): 421-436.
[27] Shao Y Z, Di L P, Bai Y Q, et al. Federated catalogue for discovering earth observation datakonzeptfüreinenzent ralkatalogfürfernerkundungsdaten[J]. Photogrammetrie-Fernerkundung-Geoinformation, 2013, 2013(1): 43-52, doi: 10.1127/1432-8364/2013/0157.
[28] 劉潤達, 諸云強. 開源地理信息共享平臺GeoNetwork及其定制應用實踐[J]. 地理信息世界, 2010, 8(6): 38-44.
[29] Zhu Y Q, Bajracharya R. Towards a regional geographic data-sharing network in the Himalayas[J]. Sustainable Mountain Development, 2011, 60: 38-39.
[30] 諸云強, 孫九林, 馮敏, 等. 論地學科研信息化環境[J].中國科學院院刊, 2013, 28(4): 501-510.
[31] 苗茹, 諸云強, 宋佳, 等. 基于云計算的地球系統科學數據共享研究與實踐[J]. 地球信息科學學報, 2014, 16(2): 264-272.
[32] 魏斌, 黃明祥. 新形勢下環境信息化發展展望[J]. 中國環境管理, 2015, 7(1): 14-17.
[33] 周宏春. 新形勢下我國環境管理與改革取向[J]. 中國環境管理, 2015, 7(1): 8-13.
致謝:感謝孫九林院士、劉闖研究員的指導,特別感謝本文用以分析研究的國家地球系統科學數據共享平臺、973計劃資源環境領域項目數據匯交管理中心、全球變化科學數據出版系統等。本論文得到國家留學基金資助。
Scientifi c Big Data Sharing Mechanisms Research and Suggestions for
Environmental Information Sharing
Zhu Yunqiang1,2*, Zhu Qi3, Feng Zhuo1, Zeng Jianfeng3, Guo Chunxia3, Fu Weihua4, Li Weirong5
(1. State Key Lab of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101; 2. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023; 3. Information Center,Ministry of Environmental Protection, Beijing 100029; 4. Yiwu Industrial & Commercial College,Yiwu 322000; 5. Shandong University of Technology, Zibo 255000)
Abstract:The foundation and precondition of full using scientifi c big data and excavating their values is to open and share these data. Among impact factors of data sharing, the sharing mechanism is the most important. In this paper, fi rstly scientifi c big data characteristics were analyzed. Several factors of scientifi c big data including data’s generation mode, type, way of investment, governor and functional orientation will profoundly infl uence their open and sharing. Generally, scientifi c data sharing mechanisms are made by top-down or bottom-up approaches. The basic ideal of data sharing mechanism is to open and share data at maximum extentand meanwhile to protect reasonably interests of data contributors. After that based on the experiences of National Data Sharing Infrastructure for Earth System Science and Global Change Research Data Publication etc., authors put forward four data sharing mechanisms, i.e. data submission, data publication, data alliance, and service excitation, for respectively public and private data. Finally, considering thelatest IT and their ideas, like Could Computing and Internet plus, some sharing mechanism suggestions were proposed for environmental protection (EP) big data that are mandatory submission mechanism for EP core data funded by public fi nance, federal exchange mechanism for trans-ministries’EP related data, and incentive mechanism, like data publication, for enterprise and scientist individual data as well as crowd innovation mechanism for the public data.
Keywords:scientifi c big data;environmental protection; sharing mechanism; data submission; data publication; crowd innovation
中圖分類號:X321;G203
文獻標識碼:A
文章編號:1674-6252(2015)06-0038-08
基金項目:科技基礎性工作專項重點項目(2013FY110900),國家科技基礎條件平臺(2005DKA32300),國家自然科學基金項目(41371381),國家重大科學儀器設備開發專項(2012YQ06002704),貴州省公益性基礎性地質工作項目:貴州省巖溶地下水系統功能可持續利用性研究。
*責任作者: 諸云強(1977—),男,博士,中國科學院地理科學與資源研究所研究員,研究方向為地學數據共享關鍵技術、資源環境信息系統。