司 莉 封 潔(.武漢大學信息資源研究中心 湖北武漢 43007;.武漢大學信息管理學院 湖北武漢 43007)
科學數據的保存與維護∶國際組織的動向
司莉1封潔2
(1.武漢大學信息資源研究中心湖北武漢430072;2.武漢大學信息管理學院湖北武漢430072)
〔摘要〕為全面了解國際組織近年來關于科學數據保存與維護工作的進展,文章對有關科學數據保存與維護的國際組織進行了介紹,并調查總結了2010年以來相關國際組織關于科學數據保存維護工作的會議動態(tài)、政策聲明及服務項目,以期為我國的科學數據保存維護工作提供參考,推動我國科學數據事業(yè)的發(fā)展。
〔關鍵詞〕科學數據保存科學數據維護國際組織
當前,隨著人們對科學數據價值認識的不斷加深,科學數據的管理與共享已引起人們的廣泛關注。科學數據的保存與維護是科學數據共享的前提。目前關于科學數據的保存與維護的研究相對較少,其研究及實踐活動大多集中在各國各自發(fā)展的階段,各種層次的科學數據保存與維護缺少全球化的統一原則與標準,這給更大范圍內的科學數據保存與維護帶來了困難與阻礙。[1]
為全面了解國際組織關于科學數據保存與共享的相關實踐與政策,筆者調查研究了相關國際組織自2010年以來的動向,從政策聲明、服務項目、會議動態(tài)三個方面進行總結分析,以期為科學數據進一步研究提供參考,進而推進我國的科學數據保存與共享工作。
隨著世界各國對科學數據價值認識的不斷深入,與科學數據相關的國際組織紛紛成立,共同致力于科學數據的保存維護與共享利用。筆者將與科學數據相關的國際組織大致分為三類,即與科學數據直接相關的核心機構、具體學科領域的國際組織以及其他相關國際組織。
1.1與科學數據直接相關的核心機構
1.1.1國際科學理事會
國際科學理事會(International Council of Scientific Unions,簡稱ICSU),于1931年在布魯塞爾成立,現法定處所和秘書處設在法國巴黎。國際科學理事會是國際間的非政府組織,也是世界上最大的國際學術組織之一,在國際科學活動中倡導、制定和實行科學普遍性原則,尊重科學家的權利和責任。以為社會的利益促進世界科學發(fā)展為使命。為實現這一目標,國際科學理事會集合國際科學界的知識與資源,致力于:(1)確認并提出對科學社會至關重要的問題;(2)促進世界各國各學科科學家之間的交流;(3)提升世界所有科學家對國際科學事業(yè)的參與度,不論種族、國際、語言、政治立場及性別;(4)提供獨立權威的建議,以促進科學團體與政府、公民社會、私人部門之間建設性的對話。[2]
1.1.2國際科技數據委員會
國際科技數據委員會(Committee on Data for Science and Technology, CODATA)是國際科學理事會于1966年成立的國際性學術組織,秘書處設在法國巴黎。其宗旨為通過提高對科學及技術數據的管理和利用來促進國際科學的發(fā)展,以造福全社會。致力于提高科技領域重要數據的質量、可靠性、管理與可訪問性,旨在促進科技數據的編輯、評價與傳播,其目標為:(1)提升數據及數據獲取、管理、分析、評估的方法(尤其是發(fā)達國家的數據及方法)的質量及可訪問性;(2)為國際間數據收集、整理及利用的合作提供便利;(3)提高各科學技術組織對科學數據共享利用活動的認識;(4)關注數據存取及知識產權問題。[3]
1.1.3世界數據系統
世界數據系統(World Data System,WDS)是國際科學理事會在2008年29屆莫桑比克馬普托大會上成立的獨立的科學數據組織,前身是世界數據中心,其目標為:(1)促使有質量保證的數據、數據服務、產品和信息的普遍公平獲得;(2)確保長期的數據管理工作;(3)促進遵從公認的數據標準及規(guī)范;(4)提供促進和提升數據及數據產品獲取的機制。截至2014年4月15日,世界數據系統共有82個成員組織,包括54個正式成員(Regular Members),9個網絡成員(Network Members),3個合作成員(Partner Member)和16個聯系成員(Associate Members)。2014年6月18日,世界數據系統制定了2014-2018年的戰(zhàn)略計劃,提出5項主要戰(zhàn)略目標,包括:(1)確保數據服務成為國際科學合作研究不可分割的一部分;(2)培養(yǎng)學科和多學科的科學數據服務團體;(3)改善數據服務的資助環(huán)境;(4)提升科學數據服務的可信度、質量及開放性;(5)將ICSU-WDS定位為全球多學科網絡的高質量數據的保障。[4]
1.1.4社會科學數據保存聯盟
社會科學數據保存聯盟(Data Preservation Alliance for the Social Sciences, Data-PASS)成立于2004年,是一個自發(fā)性的合作組織,旨在存儲、編目、保存用于社會科學研究的數據,包括調查問卷、投票記錄、家庭成長收入調查、社會網絡數據、政府統計數據以及衡量人類活動的地理數據,成員包括哈佛大學的社會科學定量研究所等5所大學的研究所以及美國國家檔案館的電子與特殊媒體記錄服務機構,其目標為:(1)保存有丟失風險的社會科學數據;(2)對數據進行編目并提升保存在數據聯盟中數據的可獲取性;(3)復制保存已存儲收集的數據;(4)倡導數字保存的最佳實踐方法。[5]1.1.5數據引用組織
數據引用組織(DataCite)于2009年12月1日成立于倫敦,是一個非盈利性的國際組織。其宗旨為:(1)建立科學數據最便利的獲取方式;(2)增強科學數據作為學術記錄的可接受性;(3)為未來學術的再利用而支持數據存儲歸檔。數據引用組織通過每6個月召開一次的冬季會議與夏季會議來建立工作組之間的聯系,加強各成員之間的合作。[6]
1.2具體學科領域的國際組織
具體學科領域的國際組織專注于某一科學領域,致力于該領域的科學研究數據保存、維護與共享,他們不僅是科學數據的組織維護者,也是科學數據的直接創(chuàng)造者,因而對科學數據的相關工作起著至關重要的作用。例如,歐洲生物信息學研究所(European Bioinformatics Institute,簡稱EMBL-EBI)成立于1994年,是一個非營利性的學術機構,其主要任務是為科學界提供免費生物信息資源、促進基礎研究、提供培訓和傳播行業(yè)尖端技術,管理和維護多個大型生物信息公告數據庫。[7]
1.3其他相關國際組織
除與科學數據相關的核心機構和具體學科領域的國際組織之外,還有一些國際組織與科學數據相關。這些國際組織雖不是直接以致力于科學數據保存維護工作為宗旨,但也直接或間接的制訂了若干促進科學數據保存維護工作的政策,對科學數據保存維護工作的發(fā)展起到了重要作用。這些相關國際組織包括:聯合國教科文組織(UNESCO)、經濟合作與發(fā)展組織(OECD)、國際圖書館協會聯合會(IIFLA)、歐洲科學技術研究協會(EASST)等。
2.1社會科學數據保存聯盟原則
社會科學數據保存聯盟(Data-PASS)針對不同機構關于科學數據保存與維護的信息請求作出了一系列回應,為不同機構制定了相關的政策聲明。其中,2013年6月,Data-PASS在對美國國家衛(wèi)生研究所(NIF)關于中心數據目錄(Central Data Catalog)的信息請求作出的回應中,為其制定了如下原則:(1)由NIH資助出版的文章要符合出版標準,在進行數據引用時,至少要包含持久性標示符、題名、作者及日期;(2)由NIH資助的數據及引用數據的元數據需要在開放獲取許可下通過公開應用程序界面實現可獲取,并且其標識符需要與可索引的交叉學科目錄兼容;(3)建議NIH資助的研究提供該研究機構的相關數據清單,并且該數據清單應遵從NIH的數據引用及獲取政策;(4)研究機構應該提供數據引用及長期訪問的渠道。
2013年5月,Data-PASS針對美國科學研究委員會關于聯邦資助的研發(fā)數據的公共獲取發(fā)布了相關聲明,聲明中提到標準和指導大綱有利于公眾對科學數據的獲取,具體來說,對聯邦機構發(fā)展公共獲取計劃的科學數據提出以下要求:(1)可發(fā)現(Discoverable);(2)有意義且有用的(Meaningful & Usable);(3)長久保存(Persistent);(4)可信賴的(Trustworthy);(5)機密的(Confidential);(6)可引用的(Citable)。[8]
2.2相關組織對OSTP科研數據保存政策的建議
美國白宮科技政策辦公室(OSTP)針對聯邦資助的科研數據的長期保存和擴大公共獲取問題向社會團體及個人廣泛征求建議,對此,社會科學數據保存聯盟(Data-PASS)、校際社會科學數據聯盟(ICPSR)、美國國家數字管理聯盟(NDSA)等機構紛紛作出回應。其中,ICPSR針對聯邦資助的科研數據長期保存及公共獲取問題制訂了如下政策建議[9]:(1)將所有聯邦資助的科學研究所產生的科學數據存放在一個合適的知識庫中;(2)長期資助某一項具體領域的知識庫以確保數據的保存與傳播;(3)在科學出版發(fā)布中遵循一致的引用格式;(4)鼓勵數據及元數據標準的制定;(5)將數據再利用作為評價研究設計的一項考量標準。
2.3歐洲聯盟GRDI2020建議
2011年1月,歐盟第七框架計劃資助的GRDI2020項目(GRDI2020-Towards a 10-Year Vision for Global ResearchData Infrastructures)發(fā)布了《全球科學數據基礎設施:重大數據挑戰(zhàn)》報告[10]。該報告提出了構建全球科學數據基礎設施所面臨的主要挑戰(zhàn)和必須解決的問題,并提出了10 項建議以幫助實現GRDI2020 有關全球科學數據基礎設施的愿景,包括:(1)全球科學數據基礎設施必須基于堅實的科學基礎;(2)必須開發(fā)和實施與數據、元數據、不確定性和質量相關的正式模型及查詢語言;(3)必須開發(fā)先進的新型數據工具;(4)科學數據基礎設施必須支持開放鏈接的數據空間;(5)科學數據基礎設施必須支持科學數據與文獻間的互操作;(6)科學數據基礎設施必須支持數據密集型研究;(7)科學數據基礎設施必須支持多學科和跨學科的研究;(8)科學數據基礎設施必須支持科學生態(tài)系統;(9)應創(chuàng)建一個新的國際研究團體;(10)必須培養(yǎng)新的專業(yè)人士。
該報告還提出支持以下功能的服務和工具,以使涉及數據密集型跨學科活動的研究人員從中受益,包括:(1)支持科學數據整個生命周期(采集、維護、分析、可視化、存儲和發(fā)布)的研究開發(fā);(2)支持數據的跨學科共享;(3)通過連接不同學科的數據集,支持創(chuàng)建開放鏈接的數據空間;(4)支持科學數據與文獻的互操作。
3.1國際科技數據委員會
國際科技數據委員會通過設立不同的任務組(Task Groups)及工作組(Working Groups)來開展學術活動,這些任務組和工作組是在兩年召開一次的CODATA全體大會上確立的。目前執(zhí)行的任務組及工作組是由2012年在臺北召開的大會所提出或者更新的,共有12項任務組以及1項工作組,其中,有多項任務組工作涉及科學數據的保存與維護問題,包括“數據風險”(Data at Risk)、“數據引用標準及實踐”(Data Citation Standards and Practices)、“發(fā)展中國家的科技數據保存與獲取”(Preservation of and Access to Scientific and Technical Data in/for/with Developing Countries, PASTD)[11]。如CODATA與中國科學院(CAS)在2012年舉辦了“發(fā)展中國家的數據管理與可持續(xù)發(fā)展研討班”,主要關注科學數據的生命周期管理、可持續(xù)發(fā)展和再利用問題,發(fā)展中國家廣泛參與,包括越南、印度、阿富汗、泰國、蒙古等,為發(fā)展中國家數據保存和管理事業(yè)做出了積極貢獻。
3.2世界數據系統
世界數據系統在全球共有54個數據中心,每個數據中心承擔了匯集不同領域的科學數據并向科技界開放和提供服務的任務,還設有一個可以檢索到中心成員所有數據的數據庫(Databib),該檢索系統基于各成員的元數據記錄而建立,包括了生物學、化學、計算機科學、地球科學、地理學、生命科學、海洋科學、數學、物理、空間科學、統計學、地震學、土地利用科學。用戶可以通過數據描述來檢索,也可以通過數據的其他屬性、地理坐標以及數據創(chuàng)建和提交的時間來檢索,并支持分學科檢索服務。
除此之外,世界數據系統還建立了數據門戶服務(Data Portal),該項目開始于2007年,之后為收集更多的世界數據系統的數據而處于更新中,將于2014年重新開放使用。數據門戶的使用者需要遵循在空間數據基礎設施(Spatial Data Infrastructures, SDI)領域的原則標準。[12]
3.3社會科學數據保存聯盟
社會科學數據保存聯盟為保存與共享社會科學數據提供了兩項重要服務,共享目錄(Shared Catalog)及安全存檔(SafeArchive)。Data-PASS共享目錄可供任何人檢索或者瀏覽由大多數Data-PASS成員所提供的數據,并可以根據研究的需要下載并分析公開的研究項目。[13]而SafeArchive是由Data-PASS成員建立的一個政策驅動的數字資源復制存儲平臺,為希望復制其數據以實現共享合作的圖書館、博物館、檔案館提供了一個開放的資源工具。機構成員可自主使用,而不需要專業(yè)技術人員的幫助。SafeArchive為數據檔案的存儲與復制管理提供了一個良好解決辦法,大大推動了科學數據的保存復制工作。[14]
3.4數據引用組織
數據引用組織(DataCite)為幫助用戶發(fā)現、獲取再利用數據,提供了一系列服務項目,包括元數據存儲服務(DataCite Metadata Store)、元數據檢索服務(DataCite Metadata Search)、開放檔案提供服務(DataCite OAI Provider)、統計數據服務(DataCite Statistics)、引用格式服務(Citation Formatter)等。其中,元數據檢索服務使用戶可以方便檢索到DataCite數據集中的元數據,引用格式服務支持45種不同的語言,為用戶提供不同的引用格式及可檢索的數據標示符,用戶可以在超過500個數據引用格式中選擇自己所需的格式類型。
4.1國際科學技術委員會
國際科學技術委員會自1968年起,每兩年舉辦一次國際學術會議,邀請世界各領域的科學家共同討論科學數據領域面臨的問題與挑戰(zhàn),并評審任務組的各項工作。其中,第23屆CODATA國際學術會議于2012年10月28-31日在臺北召開[15],主題為“開放數據與信息:變化中的地球”(Open Data and Informationfor a Changing Planet),會議深入探討了數據對未來地球的重要性、數據出版及知識管理的數據引用標準、原始數據基于再分析以促進新科學產生等重要議題。會議還對協同知識管理主題進行了探討,為協同環(huán)境下的知識管理帶來了新的發(fā)展方向。
此外,2014年11月2-5日將在印度新德里召開國際科學數據大會[16]。會議由印度國家科學院承辦,是CODATA與WDS首次聯合舉辦的大型國際科學會議,其主題為“全球可持續(xù)發(fā)展的數據整合與共享”(Data Sharing and Integration for Global Sustainability),旨在為數據領域的專家學者及決策者提供一個國際平臺,發(fā)掘數據服務對于全球可持續(xù)發(fā)展的潛能,探討全球數據挑戰(zhàn)以及開放數據、共享信息和數據整合與集成對科學、社會、經濟和政策的重要作用。
4.2世界數據系統
世界數據系統每年舉辦兩次世界數據系統科學委員會大會(WDS Scientific Committee Meeting,以下簡稱WDS-SC會議),討論世界數據系統的運轉方式,制定新的發(fā)展戰(zhàn)略,規(guī)劃各成員的組織活動。從2009年起,WDS-SC會議已成功舉辦了10屆,如表1所示[17]。

表1 世界數據系統科學委員會大會
除此之外,世界數據系統還組織召開國際科學理事會數據系統大會(以下簡稱ICSU-WDC大會)。2011 年9月,第一屆ICSU-WDC大會在日本京都的京都大學召開[18],有來自22個國家的155個參與者參加,會議主題為“為全球科學發(fā)展的全球數據”(Global Data for Global Science)。在此次會議上達成了以下共識,ICSU-WDC將堅持科學普遍性原則,致力于保障高質量的數據獲取、數據服務長期事業(yè),以整合跨學科的科學數據及信息為目標。
4.3國際數據管理會議
國際數據管理會議(International Digital Curation Conference, 以下簡稱IDCC)是由數據管理中心(Digital Curation Centre,DCC)召開的國際會議,每年舉辦一次,自2005至今,國際數據管理會議已經成功舉辦了9屆(見表2)[19]。會議將致力于將數據管理的不同學科領域的個人、團體及機構組織者召集起來,共同探討數據管理的政策及實踐問題,以推動國際數據管理事業(yè)。

表2 國際數據管理會議
4.4科技數據長期保存與增值會議
科技數據長期保存與增值會議(Ensuring Long-Term Preservation and Adding Value to Scientific and Technical Data)致力于確保科學技術數據的長期保存與增值服務。自2002年起,該會議已分別在法國、意大利、英國、德國、西班牙成功舉辦了5屆會議。2011年的科技數據長期保存與增值會議在法國圖盧茲舉辦[20],由法國國家太空研究中心主辦。此次會議的主題為“探討增值服務的存儲及互操作標準”,該會議認為在開放變化的軟件結構環(huán)境下,探討存儲及互操作標準對于提高存儲檔案間的互操作性、實現數據增值服務、確保最終用戶的數據利用十分必要。
當前,科學數據對于科學事業(yè)及全球發(fā)展的重要性已經引起了世界范圍內的廣泛關注,不少關于科學數據的國際組織紛紛成立。同時,科學數據的保存與維護是實現科學數據共享利用、發(fā)揮其最大價值的重要基礎。國際組織作為國際性的團體或機構,積極召集各國有關科學數據的團體組織,共同商討科學數據保存與維護問題,制定全球化的統一原則與標準,同時提供國際層面的領導與實踐,為國際數據保存與維護事業(yè)做出了巨大貢獻。及時了解科學數據保存與維護相關國際組織的動向,將有利于我國充分利用國際科學數據保存與維護的資源,借鑒國際組織有關的指南與聲明,完善我國科學數據保存與維護政策,從而推動我國科學數據保存與維護事業(yè)的發(fā)展。
(來稿時間:2014年10月)
參考文獻:
1.邢文明. 國際組織關于科學數據的實踐、會議與政策及對我國的啟示. 國家圖書館學刊,2013(2):78-84
2.ICSU. About ICSU. [2014-03-10]. http://www.icsu.org/ about-icsu/about-us
3.CODATA. Data Science Journal. [2014-03-10]. http://www. codata.org/dsj/index.html
4.WDC. Home-World Data System. [2014-07-01].http:// www.icsu-wds.org/organization/intro-to-wds
5.Data-PASS. Overview of the Project. [2014-03-10].http:// www.data-pass.org/about.jsp
6.DataCite. Helping you to find, access, and reuse data. [2014-03-10].http://www.datacite.org/
7.EMBL-EBI. Welcome to EMBL-EBI. [2014-03-10]. http:// www.ebi.ac.uk/about
8.Data-PASS. Best Practices. [2014-03-14]. http://www. data-pass.org/best-practices.jsp
9.ICPSR. ICPSR Response. [2014-03-14]. http://www.datapass.org/node/95
10.姜禾. 歐盟GRDI2020發(fā)布《全球科學數據基礎設施:重大數據挑戰(zhàn)》報告. [2014-03-14]. http://www.gisti-thinkbank. ac.cn/admin/upload/20111101-20110311.pdf
11. CODATA. CODATA Task Groups 2012-2014. [2014-03-14]. http://www.codata.org/taskgroups/index.html
12. WDS. Data and Service. [2014-03-14]. http://www.icsuwds.org/services
13. Data-PASS. Shared Catalog. [2014-03-14]. http://www. data-pass.org/call.jsp
14. Data-PASS. SafeArchive. [2014-03-14].http://www.datapass.org/syndicated-storage.jsp
15. CODATA. Open Data and Information for a Changing Planet. [2014-03-15].http://codata2012.tw/
16. ICSU. SciDataCon 2014. [2014-03-15]. http://www. scidatacon2014.org/
17. WDS. News Archive. [2014-05-09]. http://www.icsu-wds. org/news/news-archive
18. WDS. Summary and Shared Understandings. [2014-03-15]. http://www.icsu-wds.org/files/wds-conference-preliminaryreport.pdf
19. DCC. International Digital Curation Conference. [2014-03-15].http://www.dcc.ac.uk/events/international-digital-curationconference-idcc
20. CNES. PV2011 Conference. [2014-03-15]. http://www. pv2011.com/
〔分類號〕G25
〔作者簡介〕司莉,女,武漢大學信息資源研究中心教授,圖書館學系主任,博士生導師,發(fā)表論文100余篇;封潔,女,武漢大學信息管理學院碩士研究生。
Data: The Progress of International Organizations
Si Li1Feng Jie2
( 1.Center for the Studies of Information Resources of Wuhan University; 2.School of Information Management of Wuhan University )
〔Abstract〕In order to learn about the progress of international organizations on scientific data preservation and maintenance, the article introduces the international organizations related with preservation and maintenance of scientific data as well as investigates and summarizes their conferences, policies and services from 2010. The article expects to provide reference for the undertakings about scientific data preservation and maintenance in China, thereby promoting development of scientific data career in our country.
〔Key words〕Scientific data preservationScientific data maintenanceInternational organization