文/劉榮 張娜
共享 體現科學數據價值
——訪中國工程院院士孫九林
文/劉榮 張娜
科學數據是科學研究的生命,任何科學研究都離不開科學數據的支撐。隨著我國科技研究的日益繁榮,各界對科學數據的需求也隨之越來越迫切,科學數據共享已成為時代發展的必然選擇。與此同時,“科學數據共享工程”的有效推進,開啟了我國科學數據的共享新篇章,而這些成績的取得離不開科學界眾多有識之士多年來的呼吁和不斷努力,中國工程院院士、中國科學院地理科學與資源研究所研究員孫九林便是其中一員。
孫九林是我國農業與資源環境信息工程學術帶頭人之一,一直十分重視地學領域科學數據的開發和共享,長期從事信息科學與國土資源以及農業交叉領域的研究,開拓了“國土資源及農業”信息科學管理應用新領域,主持完成多項國家級重大項目并解決一系列關鍵技術,為信息科學在資源環境中的應用作出了開拓性貢獻,是國家級有突出貢獻專家。
自21世紀以來,信息本身也被當作一種資源,甚至是一種比物質資源和能量資源更為重要的戰略資源,而數據就是信息的基礎。2002年底,在孫九林的倡導和親自主持下,我國正式啟動了“地球系統科學數據共享服務網”的建設。2004年,該網作為國家“科學數據共享工程”首批 9個試點之一被納入國家科技基礎條件平臺,屬于科學數據共享工程規劃中的“基礎科學與前沿研究”領域,主要是為地球系統科學的基礎研究和學科前沿創新提供科學數據支撐和數據服務,同時也是目前科學數據共享工程中唯一以整合、集成科研院所、高等院校和科學家個人,通過科研活動所產生的分散科學數據和科研項目產生的數據為重點的建設項目。
據了解,國家投資產生的科學數據主要包括兩種類型,一是行業部門長期采集和管理的科學數據;二是各類科技計劃項目產生的研究型數據。從事科學研究是數據密集型的活動,離不開這些科學數據的支持,它對海量的、多樣化的觀測、探測、調查和試驗數據具有很強的依賴性,對相關領域科學數據的共享有著強烈的需求。
但孫九林介紹,許多非常規的監測、觀測數據,特別是研究過程中產生的數據,以及地球系統科學研究所需要的專業數據產品,是不能全部從專業部門獲得的,它們還分布在從事地球學科研究的機構和組織、高校、科研院所以及科學家手中。長期以來,獲取科研數據難一直是科技工作者反應比較集中的問題之一,很多科學家一直呼吁由國家財政支持的科研項目產生的數據能夠實現共享。
“科學數據既是項目研究成果的組成部分,又是科技創新的重要基礎,如果不把它們交匯、管理起來,不僅不能充分在共享和流通中發揮其使用價值,也會使一些研究結果無法進行追溯檢查和驗證,從而削弱國家對科技投入的效益。”孫九林表示。為此,2002年我國實施了“科學數據共享工程”,其目的就在于將這些觀測、監測、探測、試驗、實驗等獲得的數據、研究項目的過程與成果數據,以及在這些數據的基礎上加工融合產生的多學科、系列化的數據產品進行整合、集成和分享,從而發揮它們的最大價值和效能。
孫九林介紹,發達國家很早就開始注重數據的開放和流動,甚至斥巨資建立許多部門和行業數據中心,為社會公眾提供數據共享服務,而且為了滿足科學技術發展和國家經濟建設的需要,國家不斷增加投入獲取更多新的數據資源擴大共享活動,促進科技創新和增強國力,而美國就是最好的代表之一。美國政府建設的國家級科學數據中心群和國家級數據信息共享服務網,不但實現了公益性科學數據資源的長期積累,也實現了數據的高效管理與廣泛應用。
近年來,倡導數據共享的國際組織也越來越為活躍。例如,國際科學聯合會(ICSU)在一系列全球性研究計劃的推動下,將原來專門設立的“世界數據中心”(World Data Center,WDC),改名為“世界數據系統”(World Data System,WDS)和“國際科技數據委員會”(Committee on DATA for Science and Technology,CODATA)兩大數據組織,主要負責開展科學數據的收集、交換和服務等活動。
國內近幾年也加大了數據共享的力度,越來越多的學科和單位都開始注重和開展數據交換及共享的相關工作。更為重要的是,由于我國數據共享工程的建設,給大量依托于行業部門的地學數據的流通和共享提出了“為科學研究服務”的數據產品要求和發展規劃。在此背景下,孫九林等科研人員開展了“地球系統科學數據共享網”的研究,“我們希望通過這項研究不僅能夠充分利用和分享國內的資源,還能通過鏡像、交換、導航等多種手段將國外資源充分利用起來。”孫九林說,通過“地球系統科學數據共享網”的研究,目前我國已同“世界數據系統”(WDS)建立了數據交換和鏡像合作。
此外,2002年,我國實施了“科學數據共享工程”,氣象、地震、農業、林業、醫藥衛生等領域的數據已經實現了共享。另外,根據《科學數據共享工程發展規劃》,到2020年,科學數據共享工程將實現80%以上公益性、基礎性數據資源面向全社會共享,使科學數據資源的積累與共享達到基本滿足科技創新和國家發展的需求,提高國家創新能力和競爭力,最大限度地滿足國家對科技投入的效益。
孫九林說:“數據共享工程是國家科技基礎條件平臺建設的主要內容之一,在財政部和科技部的領導和支持下,我國數據共享的狀況已經得到了很大改善,同時也得到了社會各界的認可。該工程在討論立項的最初就得到了眾多知名專家的好評和贊同,并一致認為這是一件有百利而無一害的事情。”盡管最初數據共享的理念并不能被大多數人接受,但是經過這幾年的發展,現在理解和支持數據共享工程工作的人越來越多。未來雖然還有很長的路要走,但數據共享工程的明天是光明的。

孫九林院士(右)2009年12月到香港中文大學太空與地球信息科學研究所訪問交流

孫九林院士(右)2009年12月在香港中文大學建筑學院參觀交流
國家各類科技計劃項目每年都會產生大量的研究型科學數據,這些數據既是項目研究成果的組成部分,也是科技創新的重要基礎。長期以來,我國科學家在科研中大量依賴國外科學數據,而國內各類科研活動中產生的大量科學數據,由于缺乏數據共享的機制,無法發揮其應有的作用,數據的潛力得不到充分挖掘和利用。孫九林說:“科學數據不僅有科研價值,還有社會價值和經濟價值,只有在共享平臺上實現數據的共享和流動,數據才能不斷升值。”
從2007年開始,科技部在推動氣象、地震、醫學與健康等行業科研數據共享的同時,開始嘗試對科研項目產生的數據進行匯交管理共享的工作,根據“地球系統科學數據共享網”建設的經驗,選擇973計劃資源環境領域項目產生的科學數據進行匯交和共享試點工作,試圖把分散在科研人員手中的基礎研究項目數據集中起來,通過長期積累建立數據共享中心,目的是讓更多的科研人員能夠發掘和利用這些科學數據的價值,從而促進我國科學研究水平的提高,使得科研活動的價值得到進一步提升。
孫九林認為:“數據匯交是手段而不是目的,在匯交相關數據的基礎上,推動科技創新,提高綜合研究的能力才是數據匯交的真正目標。”高質量的數據是保障高質量共享服務的基礎,數據匯交中心通過對元數據、數據說明文檔和數據實體的審查來保障數據的可靠性;還通過同行專家對項目組預先制定的數據匯交計劃進行審核,以此來保障數據的準確性、系統性和科學性。孫九林說:“這是為了提高數據質量而不得以采取的約束性制度。”
據悉,經過一年的調查研究,科技部形成了《國家重點基礎研究發展計劃(973)資源環境領域項目數據匯交暫行辦法》,2008年科技部正式啟動了“973計劃資源環境領域項目數據交匯工作”,下發了《關于開展國家重點基礎研究發展計劃資源環境領域項目數據匯交工作的通知》,頒布了形成的“匯交暫行辦法”,并在資源環境信息系統國家重點實驗室成立“973計劃資源環境領域項目數據匯交管理中心”,由孫九林院士擔任中心主任。2009年10月,科技部又規定2009年(含)以后參加驗收的項目必須先完成數據匯交工作,才能進行項目驗收。973計劃資源環境領域項目從1998年開始啟動,2010年以前結題的29個項目均已完成數據匯交,絕大部分數據提供完全開放共享;2010年以前啟動但尚未結題的32個項目均已完成了數據匯交計劃的編制。希望在不久的將來,科學家能夠把數據匯交與共享視為一種自覺行為,這樣才能更好地挖掘科學數據的價值。

孫九林院士2011年5月考察秦嶺山區登上太白峰

孫九林院士2011年5月在秦嶺北坡考察
數據一匯交便涉及到科學家的知識產權保護問題,這是數據共享工程中非常重要的一個問題,那么怎樣才能既實現科學數據的共享,又能保護科學家的知識產權呢?談及工作多年對此最深的體會,孫九林表示:“其實科學數據的匯交工作并沒有想象中的難以實現,最早我們很擔心科學家們不配合工作,但是經過幾年的發展,很大一部分科學家都明確支持數據匯交,也愿意將自己的研究數據上交到數據管理中心。”
據了解,科學家們的擔心主要有兩個方面:首先,文章沒發表前,關鍵數據如何保密?其次,如何保證引用者在引用時都會注明出處?孫九林介紹,他們剖析了NIH數據共享政策和共享規范,同時深入研究了“世界數據系統”的科研項目數據管理,科技部基礎司在此基礎上結合我國項目數據交匯的現實狀況,制定了非常詳盡的細則即上述的“匯交暫行辦法”,以確保科學家的知識產權得到保護。比如,他們規定數據匯交管理中心工作人員不得從事所負責領域的科學研究。
此外,數據還可以設置保護期,保護期內的項目數據僅供項目和課題承擔單位及其授權范圍內的用戶訪問和使用。過保護期后,數據匯交中心以在線、離線等方式分期、分批向全社會提供數據共享服務,用戶利用匯交數據所產生的成果需要注明數據來源。另外,有的科學家也提出,最初產生數據的科學家利用這些數據發表了很多文章,之后再利用這些數據的科研人員,不僅要標明數據來源,也要標注已經利用這些數據發表的文章。“標示清楚了就解除了后顧之憂,而標注的形式也都是科學家自己提出的方式。”孫九林說。
記者了解到,雖然數據是免費提供的,但并不是任何人隨時隨地都可以獲得數據。首先使用者要向管理部門提出申請,其次必須寫明從事研究的領域和課題,需要的數據類型等,經過審核才能提供相關數據。孫九林坦言:“經過幾年的實踐,我們已經具備了較完整的技術平臺開發和建設能力,而且,我們開發的所有平臺軟件和工具都具備可移植性和擴展性,在功能體系上,能夠滿足項目數據匯交用戶、數據使用者、數據匯交管理機構三方的要求,在其他領域應用也很方便,”
科學數據共享通過前期的試點,后期在科技部條件平臺項目中建設,目前共享的科學數據資源基本涵蓋了我國三分之一左右的公益性、基礎性科學數據類型,內容涉及自然科學、社會科學與人文科學等學科,它們都是行業部門及科研領域通過巨資投入而產生的。據不完全統計,科學數據共享工程的實施,已經整合盤活共享了超過250億元的國家投入產生的科學數據資源,并建立了若干數據庫,積極開展數據共享服務,為科學研究、政府決策提供了堅實的支撐,效果顯著。科學數據共享工程先后為若干 “973”項目、“863”項目、科技支撐項目,以及自然科學基金等重大項目和工程提供基礎數據支撐,有力地促進了我國科技創新和社會發展。
自第一個試點——氣象科學數據共享工程試點以來,在資源環境、農業、人口與健康、基礎與前沿等領域共24個部門開展了科學數據共享工作,迄今為止已初具規模。如今,科學數據共享的概念已經在科技界得到廣泛認可,形成了良好的共享氛圍和服務意識。我國科學數據封閉獨享的局面也得到了有效改善,該工程不僅帶動了跨行業數據交換工作的發展,也在科技界乃至全國產生了深遠的影響。
談到未來的發展和目標,孫九林表示:“希望能夠將科學數據共享工程所形成的管理辦法、標準規范、技術平臺,包括一些經驗和體會,更好地推廣到更廣泛的領域中去。這也是我們研究這項事業的初衷。”交通部門、人口與健康等領域都想開展科研項目產生的數據匯交管理工作,就目前的形勢看,數據共享工程很有發展前景。我們也希望科研項目數據的匯交工作不僅局限于資源環境領域的項目,至少能夠逐步使國家財政支持的科學研究項目,都能采取數據匯交的管理辦法,使國家投資所產生的數據,能對我國的科學創新作出更多貢獻。

孫九林院士2009年12月在香港中文大學接受黃乃正副校長(右)贈送的紀念品
孫九林,中科院地理科學與資源研究所研究員,博士生導師,資源學家,農業與資源環境信息工程學科帶頭人之一。在其取得的15項重大成果中,11項獲省部級以上18種獎勵;出版專著十余部、發表論文100余篇。20世紀80年代首次提出我國資源信息管理體系結構、資源信息分類編碼、區域開發模型體系、統計型空間信息系統模式等,為信息科學在資源環境中的應用做出了開拓性貢獻。“十五”期間主持國家科技基礎性工作重大項目“中國地球科學數據中心完善與服務”、中國科學院知識創新前沿方向性項目“中國自然資源數據庫及信息系統”、國際合作項目“全球氣候變暖影響模型研究”及“亞太環境創新戰略研究”等。2001年當選為中國工程院院士,2003年起開始主持國家科學數據共享工程試點項目“中國地球系統科學數據共享網建設”等。他所領導的“地球系統科學數據共享網”團隊獲得“十一五”國家科技計劃執行優秀團隊獎。