謝艷秋 錢鵬
國外科學數據共享政策的發展研究*
謝艷秋 錢鵬
真正實現科學數據的共享服務,必須制定一系列的共享政策法規,充分發揮政策法規在調整科學數據共享領域中相關利益人(包括數據的提供方、數據的保管方、數據的使用方等)的重要作用。論文通過網站訪問和文獻研究對美國、英國、新西蘭、澳大利亞等國外科學數據庫的數據共享政策建設情況,進行了調查分析,并試圖從科學數據相關利益人與數據共享領域兩個角度出發,了解其發展現狀與態勢。
科學數據數據共享共享政策
長期以來,在科研人員群體中,科學數據共享已經成為科研活動過程中不可或缺的組成部分。筆者通過網站訪問和文獻研究對國外科學數據庫的數據共享政策建設情況,進行調查分析,并試圖從科學數據相關利益人與數據共享領域兩個角度出發,了解其發展現狀與態勢。
國際科學數據共建共享始于1957年,在國際科學聯合會組織領導下,先后成立了WDC(World Data center,世界數據中心)和CODATA(Committee on Data for Science and Technology,國際科技數據委員會)[1]。此后,為促進科學數據更好地共享和交換,國際組織、各國政府、眾多科研資助機構等都廣泛展開科學數據的共享服務與實踐。如,BBSRC[2](Biotechnology and Biological Sciences Research Council,英國生物技術與生物科學研究理事會)、IMOS[3](Integrated Marine Observing System,澳大利亞綜合海洋觀測系統)以及NASA[4](National Aeronautics and Space Administration,美國國家航空航天局)分別于于2010年6月、2011年6月、2012年3月制定發布了一整套數據共享政策。
根據實踐經驗,科學數據共享活動中有數據產生與匯交、數據保管與使用、數據共享評估與監督、數據共享保障四個領域[5],相應地,需要針對這四個領域出臺不同的政策規范,規范科學數據共享領域的社會關系。
1.1 數據產生與匯交
數據產生與匯交是數據共享的第一步,將多源、多項目的科學數據集成于一體,形成研究型科學數據庫群,便于進行科學數據的綜合管理(包括重組、融合和增值加工)和共享使用,提高科技創新的支撐能力。數據匯交制度典型的有NIH(National Institutes of Health,美國國立衛生研究院)、NSF(National Science Foundation,美國自然科學基金會)、OpenTopography以及政府數據網站等制定的相關政策。
NIH于2003年3月公布了《NIH數據共享政策和執行規范》,規定了項目數據匯交的范圍和執行細則。NIH規定,除了關系到國家安全等領域的數據,都必須進行匯交,對全社會共享。這其中就出現過利用某些研究型數據成功開發出新產品的例子[6]。NSF(National Science Foundation,美國國家科學基金會)則于2010年1月發布的項目管理指南(NSF Award and Administration G uide,January2010,V I.D.4)[7]中明確提出了研究成果共享傳播的要求。另外,NIH要求在2003年10月1日以后,申請經費每年超過50萬美元的項目,必須提供數據共享計劃。NSF也規定,從2011年1月18日開始,所有提交到NSF的項目申請書必須包含一份不超過兩頁的“數據管理計劃”的補充文檔,這個補充文檔的提議應該符合NSF研究成果共享傳播政策。另外,BBSRC等英國的眾多機構也宣布將數據管理和共享計劃作為項目申請的一部分。
OpenTopography[8]規定了數據匯交的最低要求,數據的優先級是由OpenTopography用戶群體的反饋和咨詢委員會共同決定的。2012年1月,由研究人員和出版商組成的“BioSharing行動計劃”啟動了“調查-研究-分析共享空間”(Investigation-Study-Assay Commons,ISA共享空間),有望優化不同數據庫之間的數據共享。為了更好地促進政府信息公開,美國、英國以及澳大利亞等政府先后發布政府數據網站,為公眾查找、獲取和再利用各級政府數據集提供一站式便捷服務,同時讓各部分的信息能通過網絡鏈接整合起來,充分挖掘信息的價值[9]。
數據匯交時要遵守標準化政策,分為指導標準、通用標準、專用標準。如生物學各領域科學數據管理、整合及共享的標準——ISA Commons[10]。另外,數據匯交時要按照數據分類體系對數據進行歸類,不同的機構有不同的數據分類體系,至今尚未統一。如SES(Social&Economic Sciences)的數據大類分類準則[11],政府數據網站根據主題機構進行的數據分類體系:英國data.gov.uk按照發布機構,分成23大類,780個小類;美國data.gov的兩級類目體系,即一級分類(原始數據地理數據和網絡應用服務)和二級分類(以所屬領域,分成農業、教育等45類;以機構,分為財政部、國防部、白宮等170多個小類),從宏觀和微觀兩個層面對數據資源進行了分類[12]。數據分類體系不僅使數據的呈現方式更加清晰,而且為數據發現和利用提供了便利支持,從而提高了門戶數據管理的質量,促進了數據的高效利用。
大數據時代越來越注重高質量的數據匯交,從各研究機構紛紛制定的數據質量框架中凸顯了數據質量的重要性。一直以來,數據質量框架是粗粒度研究數據質量問題和解決方案的重要內容和方向,如國際貨幣基金組織的數據質量評估框架DQAF(Data Quality Assessment Framework),OECD(Organization for Economic Co-operation and Development,經濟合作與發展組織)的數據質量框架體系[13]等。
1.2 數據保管與使用
數據保管與使用涉及到科學數據共享的主要環節和主要內容,是對具體數據對象進行持續維護,以確保其在硬件技術變革后仍能被讀取和理解的活動,它從技術層面確保數據的可持續性。其主要內容包括價格政策、保密政策、國際交流與合作政策、發布制度、保管制度、共享服務及科學數據中心工作制度等方面[5]。
在數據發布方面,越來越多的基金機構要求其資助的研究項目發布研究數據。如,NIH從2003年起要求年度預算達到50萬美元的項目在申請時必須制定數據共享方案。AADC規定,除非特殊情況,數據提交到AADC后通常在一個適當的禁錮期將被公之于眾。特殊情況下,為防止數據的及時發布,應提交給AADC管理人員[14]。
在價格方面,大多數研究機構的大多數數據是免費提供的,但并不是所有的數據都可以被無限制免費使用,各研究機構遵循自身的原則要求發布共享數據。如歐洲國家主要采取成本回收模式;DANS遵循“盡可能地開放,必要的保護”原則[15];OECD遵循以最具成本效益的原則,最大限度地利用在線網絡發布統計數據。另外,還有一些研究機構對不同的數據使用方實施不同的價格政策,如ICPSR(Inter-university Consortium for Political and Social Research校際政治及社會研究聯盟)的大部分的數據設有一定的訪問限制,只有交納了年費的機構會員的用戶才能免費獲取數據;非機構會員的用戶則需交納一定的費用獲取數據[16]。
在保密政策方面,幾乎所有的科學數據庫都要求數據提供方以及使用方簽訂隱私保護協議。如NSF規定涉密信息的共享應注意對其所關聯的個體和主題進行隱私保護;NIH對于那些敏感數據可以通過Data Enclave實現共享,Data Enclave是一個受控的安全環境,在那里資深研究者可以利用和分析那些受限數據資源[6];ENA(European Nucleotide Archive,歐洲核苷酸檔案館)的部分應數據提供者要求,在數據公開發表在出版物上之前保密的數據將不提前在平臺上發布[17]。
在國際交流與合作方面,絕大多數科學數據庫都積極展開國際交流與合作,很多項目都是各國各機構組織合作完成。OECD主張最大限度地與其他國家和國際組織的數據提供者進行合作,特別是要考慮所有國家政府(包括統計局)和有互惠協議的國際組織免費提供所有統計產品[18]。
在數據保管與使用方面,OpenTopography鼓勵將數據注冊在社區貢獻數據目錄中以供用戶查找[8];DANS數據提供者需要簽署數據合同,數據合同的目的在于保證數據的可獲取以及進一步研究的數字化持久性[15]。
1.3 數據共享評估與監督
數據共享評估與監督包括數據質量控制、共享評價與監督。高質量的數據是保障高質量共享服務的基礎,共享數據的評價與監督是保障共享數據的準確性、真實性與完整性,促進共享服務的可持續發展。
在數據質量控制方面,質量良好的共享數據可以使用戶更方便、準確地獲取與使用共享數據服務。BBSRC[2]意識到數據質量的重要性,認為數據應當附加相應的背景信息或元數據記錄,使數據使用方能夠了解數據來源或處理過程中的細節,防止數據的誤用、誤解或混淆。為了保證數據的時效性價值,NIH要求盡快公開和共享數據,至少不晚于基于最終數據集的主要研究成果被出版物錄用的時間。具體時間段還要受數據收集特征的影響,小研究項目的數據可以更快地分析并提交出版;如果數據是有關大型流行病或追蹤性研究,通過幾個離散的時間段搜集而來,數據的公開和共享可以推遲,以保證數據的可靠性和準確性[6]。
在數據共享評價與監督方面,數據評價是為確保數據的準確性與真實性的有效辦法,而數據監督是為了確保數據當前使用目的,并能用于未來再發現及再利用,從數據產生伊始即對其進行管理和完善的活動[19],而不是單純對這些數據進行存儲,有利于確保數據的完整性。對于動態數據集而言,數據監督意味著需進行持續性補充和更新,使數據集更加完整以滿足用戶需求。數據評價與監督對更好地發揮科學數據的作用,推動科學研究具有重要意義。
對此,美國的伊利諾伊大學在2006年開始數據監督教育計劃,培養數據監督人員[20]。政府數據網站的交流機制充分發揮了數據共享評價與監督作用,如澳大利亞政府數據網站通過提供評分模塊,對數據質量格式和有用性進行打分;同時提供用戶評論接口,供用戶在線提交評論。BBSRC堅持通過最終報告的評估過程,確定受資助的研究項目是否遵守了其提出的數據管理和共享政策,并將此評估結果作為將來項目申請建議的申請追蹤記錄[2]。NSF項目管理過程中將在適當的時機,通過同行評審、批準建議等項目管理環節,同時,規定數據提供者必須在出版物、網絡以及新聞媒體采訪時承認NSF給予的物資資助行為[7]。OpenTopography社區成員或其他數據提供者必須明確說明其資助或資金來源,要求強制執行免責聲明等以避免不必要的法律糾紛[9]。
1.4 數據共享保障
不管是科學數據的產生、匯交與管理,還是數據的共享服務,都需要有穩定的數據共享保障政策和措施來支撐。數據共享保障主要包括濃厚的科學數據共享氛圍、充足的設備資金支持、數據共享組織機構的成立、各種獎項的設置、人員的培訓教育等諸多方面。
在科學數據共享氛圍方面,通過共享數據的分級分類管理,搭建合適的共享平臺,建立合理的數據交匯、數據管理、數據共享體系,營造良好的共享氛圍,推進全球科技創新。AADC正努力創建一個不斷完善基礎科學數字化數據庫和數據產品的良好環境,支持AAp(Australian Antarctic Program,澳大利亞南極計劃)研究人員的工作[14]。
在設備資金的支持方面,長期忽視小型科學的數據是非常不合理的,對此BBSRC發布的數據政策中包括提供資金支持(制定數據共享的標準和開發數據共享的軟件工具;專業機構庫和設施建設;數據共享活動是項目成本的一部分)[2]。2012年美國宣布的“大數據的研究和發展計劃”提供2億美元的投資,提高從大量數字數據中訪問、組織、收集發現信息的工具和技術水平[21]。NSF為“DataNet聯合委員會”提供五年近800萬美金資助,以研制并部署一套國家級數據管理基礎實施原型[22]。
在數據共享組織機構的成立方面,2012年11月8日NSF宣布資助倫斯勒理工學院250萬美元,以支持其創建和參與一個旨在促進全球科學家研究數據共享的國際組織——研究數據聯盟。目前,已有120多個來自美國和世界其它國家的參與者致力于倡導“研究數據聯盟”的概念,并推廣其最初的行動。研究數據聯盟符合全世界對數據共享的需求,有利于加速基于數據的創新[23]。
在各種獎項的設置方面,主要包括CODATA設置的CODATA獎,新西蘭3TU.Datacentrum和DANS聯合倡導設立的荷蘭數據獎等。CODATA獎是國際科學數據領域的最高獎項;荷蘭數據獎是獎勵致力于采集和詳細記錄科學數據以使其可公開獲取的研究人員的一個獎項[24]。各種獎項的設置是對致力于促進科學數據共享的人員的一種肯定方式,也促使擔當“數據館員”身份的研究人員更好地采集數據、管理與共享數據。
在人員的培訓教育方面,作為基礎性、公益性、長期性的科學數據共享工作,應當建設一支穩定的人才隊伍。ICPSR為了方便數據的傳播、分析和利用,提供關于數據集特征、分析技術和方法方面的咨詢和培訓,來促進用戶對其數據資源的有效利用[16]。BBSRC[3]和OpenTopography[8]發布的數據政策中也包括提供相關的培訓活動。歐盟科學數據領域高級別專家組報告建議成員締約國在他們的中等學校教育中增加數據管理相關課程,培養新一代數據科學家,擴展公眾的認知理解力[25];伊利諾伊大學實施的數據監督教育計劃等。
結合各組織機構在不同數據共享領域實行的政策措施,可以得知科學數據相關利益人與數據共享領域的聯系,具體見表1。

表1 科學數據相關利益人與數據共享領域的聯系
從表1可見,在科學數據共享的不同領域,賦予了科學數據相關利益人不同的職能和權利,每一個環節都是相互銜接、密不可分的。科學數據相關利益人在各司其職的同時,要求通力合作,共同促進科學數據的共享。
科學數據共享是一個復雜的系統工程,科學數據共享政策的建立與實施亦任重而道遠,需要利益各方的配合與支持。多年來隨著科學數據共享活動的開展與實踐,在國際范圍內,實施科學數據共享的局面已經形成。美國、歐盟(包括英國、法國、德國、新西蘭等)、加拿大、澳大利亞、日本等眾多國家政府或研究資助機構已經初步建立了自己的科學數據共享政策體系,在數據共享方面取得了很大的突破。但是,因經濟發展水平和科學技術等因素的制約,很多國家和地區在數據共享方面進展緩慢,因此,科學數據共享的地域化差異明顯,總體水平不高。在目前數據推動的大科學時代,不斷增加的數據共享是科學進步的核心,并吸引著來自各方的關注。而且,科學數據共享領域也出現一些新的態勢。
一是科學數據共享的氛圍更加濃厚。全球范圍內越來越多的國家開始關注科學數據共享,轉變數據資源自有自用、共享不利的觀念,營造全球數據共享的氛圍,并制定相關政策措施,努力促進科學數據的共享與利用。
二是科學數據共享政策日臻完善。隨著數據共享實踐的不斷發展,越來越多的科研資助機構開始制定適合自己的科學數據共享政策。BBSRC、MIOS、NASA、AODN等分別制定并發布了一整套數據共享政策,并在實施政策的過程中不斷修訂,使政策體系更加完善、更有利于數據的共享服務。
三是更加注重高質量的數據匯交。數據資源是提供數據共享服務的基礎,沒有大規模的完整的數據資源,數據共享服務就是“無米之炊”,而高質量的數據是保障高質量共享服務的基礎和關鍵。大數據時代越來越注重高質量的數據匯交,對數據質量進行把關,從各研究機構紛紛制定的數據質量框架中凸顯了數據質量的重要性。
四是數據共享人才隊伍更加強大。人才隊伍中需要領域專家界定保證數據資源質量,容納管理人才統籌管理數據資源,配備網絡技術人才保障數據平臺正常運作,法律人才提供法律政策援助等。在大數據、大科學時代,數據科學已經成為一門獨立的學科,數據科學家的不斷出現為科學數據共享服務提供了智力支持。國外對新一代數據科學家,包括數據監督人員的培養,已經在高校中得以實施。
國際組織、各國政府、眾多科研資助機構等圍繞科學數據的共享展開的各項服務與實踐,都為我們提供了有益的共享經驗和教訓,值得我們學習和借鑒。總結國外的數據共享建設經驗和教訓,結合我國實際情況,在滿足國家戰略需求和世界科技發展前沿的高度上,因地制宜地構建科學數據共享法規政策體系,構建科學數據共享服務體系,并有原則、有步驟、有重點地實施,促進科學數據資源的共享利用。另外,科學數據的共享與利用還與一個國家或地區的組織機構、文化機制和行為模式等因素密切相關,研究人員對研究成果的開放意識、接受程度等因素在推動科學數據共享過程中起關鍵作用。沒有共享意識,再完備的硬件設施、再先進的技術條件都形同虛設。因此,要深刻認識到科學數據共享與利用對國家科技進步和技術創新的重要戰略意義,注重提高研究人員的共享意識,打破“數據壁壘”,通過制定實施相關的支持政策與法規,建立利益相關者協調機制,加強合作,共同面對并解決共享過程中遇到的困難和挑戰,推進科學數據共享戰略進程。
[1]曾小紅,王強,方佳.科學數據共建共享模式探討[J].安徽農業科學,2009(29):14496~14498,14501.
[2]Data sharing policy[EB/OL].[2013-06-01].http://www. bbsrc.ac.uk/organisation/policies/position/policy/datasharing-policy.aspx.
[3]IMOS Policy Framework[EB/OL].[2013-06-01].http:// imos.org.au/imospolicy.html.
[4]NASA Data Sharing Policy Overview[EB/OL].[2013-06-01].http://www.nasa.gov/centers/johnson/slsd/innovation/connect.html.
[5]路鵬,苗良田,莫紀宏,等.科學數據共享領域的政策規范和法律規范[J].國際地震動態,2008(4):35-42.
[6]NIH Data Sharing Policy and Implementation Gui dance[EB/OL].[2013-06-01].http://grants1.nih.gov/ grants/policy/data_sharing/data_sharing_guidance.htm #ex.com.
[7]Award and Administration Guide[EB/OL].[2013-06-01].http://www.nsf.gov/pubs/policydocs/pappguide/nsf 13001/aag_6.jsp#VID4.
[8]OpenTopography Data Hosting Policy[EB/OL].[2013-06-01].http://www.opentopography.org/index.php/about/ data_hosting.
[9]司莉,邢文明.國外科學數據管理與共享政策調查及對我國的啟示[J].情報資料工作,2013(1):61-66.
[10]生物科學數據的公開與共享成為發展新趨勢,眾科學家共建數據標準[EB/OL].[2013-06-01].http://www. ebiotrade.com/newsf/2012-2/201227173602757.htm.
[11]Data Archiving Policy[EB/OL].[2013-06-01].http://www. nsf.gov/sbe/ses/common/archive.jsp.
[12]周志峰,黃如花.國外政府開放數據門戶服務功能探析[J].情報雜志,2013(3):144-147,165.
[13]國際組織和外國機構的數據質量保證框架[EB/OL]. [2013-06-01].http://www.stats.gov.cn/tjshujia/dysj/t20 120907_402834337.htm.
[14]The Australian Antarctic program data policy[EB/ OL].[2013-06-01].https://data.aad.gov.au/aadc/about/ data_policy.cfm#Policy.
[15]Data Archiving Policy[EB/OL].[2013-06-01].http:// www.dans.knaw.nl/en/content/data-archiv.
[16]ICPSR Access Policy Framework[EB/OL].[2013-06-01].http://www.icpsr.umich.edu/icpsrweb/content/dataman agement/preservation/policies/accesspolicy-fram ework.html.
[17]Data availability policy[EB/OL].[2013-06-01].http:// www.ebi.ac.uk/ena/about/data_availability_policy.
[18]OECD統計發展戰略[EB/OL]].[2013-06-01].http:// wenku.bai-du.com/view/851695fb910ef12d2af9e79f. html.
[19]楊鶴林.數據監護:美國高校圖書館的新探索[J].大學圖書館學報,2011(2):18-21,41.
[20]張秋彥.高??茖W數據監護研究[J].情報科學,2013(5):42-45.
[21]美國政府大數據計劃[EB/OL].[2013-06-01].http:// wenku.baidu.com/view/83344048852458fb770b56e2. html.
[22]NSF提供800萬美元資助國家數據管理基礎設施研究[EB/OL].[2013-06-01].http://www.ecas.cn/xxkw/ kbcd/201115_83725/ml/xxhjsyjcss/201111/t20111117 _3397828.html.
[23]美國國家科學基金會支持研究數據共享[EB/OL]. [2013-06-01].http://www.most.gov.cn/gnwkjdt/201212/ t20121213_98503.htm.
[24]Dutch Data Prize 2012[EB/OL].[2013-06-01].http:// datacentrum.3tu.nl/en/about-3tudatacentrum/data-award/.
[25]弄潮:歐洲如何從日益興起的科學數據浪潮中獲益:歐盟科學數據領域高級別專家組報告,2010,12[EB/OL]. [2013-06-01].http://www.codata.cn/.
謝艷秋東南大學2012級碩士研究生。江蘇南京,211189。
錢鵬東南大學圖書館研究館員。江蘇南京,211189。
Research on the Development of the Sharing Policy of the Scientific Data Abroad
Xie Yanqiu,Qian Peng
To really share the scientific data,we must establish a series of the sharing policy and regulations,which can play an important role in the stakeholders of the sharing of scientific data(consist of data providers,safekeeping and users party)in this area.This paper investigates the constructed situation of scientific data sharing policy making in foreign countries,such as the United States,the European Union,the United Kingdom,New Zealand,and Australia via accessing their websites and literature review.It puts an emphasis on the analysis of the current situation and tendency from two angles of the stakeholders and the scientific data sharing area perspective.
Scientific data.Data sharing.Sharing policy.
G253
2013-08-06編校:劉勇定)
*本文系2010年教育部人文社科基金項目“高校科學數據的組織與服務研究”(項目編號:10YJC870029)的研究成果。