周雷



摘 要 數(shù)據(jù)管理計劃是科研數(shù)據(jù)管理服務(wù)的第一步和基礎(chǔ),對良好的數(shù)據(jù)管理具有重要指導(dǎo)作用。文章以數(shù)據(jù)管理計劃工具RDMO為研究對象,從開發(fā)目標(biāo)、服務(wù)模式到設(shè)計方案進(jìn)行分析,發(fā)現(xiàn)該工具以訪談形式為輸入,屬性為核心元素構(gòu)建信息組織關(guān)系,在應(yīng)用上采用機構(gòu)分散部署的方式,涵蓋整個數(shù)據(jù)生命周期,對于圖書館/信息機構(gòu)開發(fā)相關(guān)工具具有較高的參考價值。
關(guān)鍵詞 科研數(shù)據(jù) 數(shù)據(jù)管理計劃 RDMO
分類號 G250.7
DOI 10.16810/j.cnki.1672-514X.2021.09.008
Abstract The data management plan is the first step and foundation of scientific research data management services, and it has an important guiding role for good data management. The article takes the data management planning tool RDMO as the research object, and analyzes from the development goal, service mode to the design plan. It is found that the tool takes the form of interviews as input and attributes as the core elements to build information organization relationships, adopts a decentralized deployment of organizations in applications, and covers the entire data life cycle. It has a high reference value for the development of related tools for libraries / information institutions.
Keywords Research data. Data management plan. RDMO.
0 引言
數(shù)據(jù)管理計劃(Data Management Plan,簡稱DMP)作為科研數(shù)據(jù)管理的第一步,是由科研人員撰寫,描述科研項目中如何管理、描述、分析和存儲可能獲取或生成的數(shù)據(jù),以及項目結(jié)束后如何共享和保存這些數(shù)據(jù)的正式文檔[1-2]。由于科研數(shù)據(jù)管理的后續(xù)步驟都包含在數(shù)據(jù)管理計劃之中,且數(shù)字管理計劃是科研數(shù)據(jù)生命周期全流程管理的出發(fā)點,所以良好的數(shù)據(jù)管理計劃是增強數(shù)據(jù)質(zhì)量、提升數(shù)據(jù)共享水平的基礎(chǔ)保障,也是后續(xù)數(shù)據(jù)存儲、組織等工作的落腳點和指南[3]。現(xiàn)階段,作為參與數(shù)據(jù)管理的重要工具,幾乎所有開展科研數(shù)據(jù)管理服務(wù)的圖書館都提供該服務(wù)[4]。數(shù)據(jù)管理計劃工具就是在此背景下,提供完善的數(shù)據(jù)管理計劃參考信息,并指導(dǎo)科研人員創(chuàng)建符合資助單位或是開放科學(xué)要求的工具。因此,設(shè)計、開發(fā)數(shù)據(jù)管理計劃工具是圖書館提升科研數(shù)據(jù)管理服務(wù)水平的重要任務(wù),對于數(shù)據(jù)管理工作具有重要的指導(dǎo)意義。
目前,數(shù)據(jù)管理計劃工具主要包括:由Digital Curation Center(DCC)開發(fā)運行的DMPOnline[5]、加利福尼亞大學(xué)數(shù)字圖書館監(jiān)管中心(CDL)的DMP Tool[6]、德國比勒菲爾德大學(xué)數(shù)據(jù)管理計劃工具Online Tool[7]、柏林工業(yè)大學(xué)(TU Berlin)TUP-DMP[8]和德國生物數(shù)據(jù)學(xué)會GFBio開發(fā)的GFBio DMP Tool[9]。其中最為常用的為DMPOnline和DMPTool。DMPTool的設(shè)計開發(fā)工作始于2011年,由5家美國高校圖書館、2家科學(xué)數(shù)據(jù)組織和1家博物館共同研制,目前共有268家機構(gòu),46 911個用戶。DMPOnline最初由格拉斯哥大學(xué)的人文技術(shù)信息研究所按照DCC模型開發(fā),目前有203家機構(gòu),近18 000個用戶。目前,DCC和CDL聯(lián)合開發(fā)版本DMPRoadmap也已經(jīng)上線。由于使用相對廣泛,所以針對數(shù)據(jù)管理計劃工具的研究普遍也以這兩種工具為主。
1 文獻(xiàn)綜述
對于數(shù)據(jù)管理工具的相關(guān)研究成果方面,馬建玲等注意到國外圖書館在科研數(shù)據(jù)管理工具開發(fā)方面的工作,并介紹了數(shù)據(jù)管理計劃創(chuàng)建工具DMPTool[10];王凱等從開發(fā)路線、服務(wù)方式與需求建議的角度比較了DMPTool與DMP Online二者的區(qū)別[11];王璞則分別介紹了DMP Online和DMPTool的發(fā)展和目標(biāo),并指出盡管兩個工具有所差異,但都以集成式的DMP撰寫工具來促進(jìn)數(shù)據(jù)管理的最佳實踐,已發(fā)展成為國際普及的數(shù)據(jù)管理計劃工具[12];吳海茹認(rèn)為DMPTool可以加速科研人員創(chuàng)建數(shù)據(jù)管理計劃,更加熟悉科研資助單位的數(shù)據(jù)要求[13]。
目前,針對現(xiàn)有科研數(shù)據(jù)管理計劃工具的研究還較少,主要集中在應(yīng)用方式方法層面,對于開發(fā)的依據(jù)、設(shè)計理念的研究還有所欠缺。在實際使用層面,DMPTool與DMP Online主要針對英美兩國科研環(huán)境,所關(guān)聯(lián)的機構(gòu)數(shù)據(jù)要求也以本國為主。雖然機構(gòu)在使用上述工具時可以進(jìn)行個性化配置,但對于我國這樣的科研大國,開發(fā)自己的工具尤為重要。而RDMO工具開發(fā)時參考了相關(guān)工具的不足,并進(jìn)行了德國科研的個性化開發(fā),所以研究該工具,對于我國開展相關(guān)軟件工具的開發(fā)具有重要參考價值。
2 RDMO工具概述
隨著開放科學(xué)的普及,科研數(shù)據(jù)已經(jīng)成為重要戰(zhàn)略資源,作為科研工作的基本保障,良好的數(shù)據(jù)管理計劃已經(jīng)成為大部分資助機構(gòu)的要求,無論科研人員本身還是所在機構(gòu)都需要利用有效工具進(jìn)行科研數(shù)據(jù)管理。在此背景下,RDMO(Research Data Management Organiser科研數(shù)據(jù)管理組織工具)的開發(fā),由德意志研究聯(lián)合會(DFG)資助,波茨坦萊布尼茨天文物理研究所、波茨坦應(yīng)用技術(shù)大學(xué)和卡爾斯魯厄大學(xué)圖書館共同完成,第一階段從2015至2017年,第二階段從2017至2020年。
如同DMPOnline和DMPTool,RDMO也是一款基于網(wǎng)頁的數(shù)據(jù)管理計劃軟件。RDMO的開發(fā)基于科研數(shù)據(jù)的全生命周期,所以適用于科研數(shù)據(jù)管理中涉及的所有參與者。同時,由于框架采用Python-Django和AngularJS,代碼開源(GitHub)[14],因此,RDMO可由科研機構(gòu)或大學(xué)獨立安裝,并且易于補充特定學(xué)科或機構(gòu)個性化的內(nèi)容。RDMO的安裝主要分為三部分,即rdmo-app、rdmo軟件包和數(shù)據(jù)庫。其中rdmo-app主要存儲本機構(gòu)的所有設(shè)置、自定義選項;rdmo軟件包則是由RDMO項目團(tuán)隊集中維護(hù)的程序包;數(shù)據(jù)庫主要用于存儲用戶的科研數(shù)據(jù)管理計劃等機構(gòu)實際使用信息,數(shù)據(jù)庫管理系統(tǒng)可支持sqlite3、MySQL或PostgreSQL[15]。從使用形式上看與DMPOnline和DMPTool也較為類似,如面向科研人員,通過結(jié)構(gòu)化問題進(jìn)行數(shù)據(jù)管理計劃的填寫,并可以選擇使用機構(gòu)模板;而對于機構(gòu)工作人員,也可以進(jìn)行相關(guān)內(nèi)容審查、模板編輯功能。
數(shù)據(jù)管理計劃主要是滿足科研項目申請階段的要求,一般在項目執(zhí)行階段前完成。所以,針對數(shù)據(jù)管理計劃的工具主要基于管理機構(gòu)、資助方模板建立一份科研數(shù)據(jù)使用的備忘錄,并沒有發(fā)揮數(shù)據(jù)管理計劃在科研數(shù)據(jù)全生命周期中的功能。而且在實際使用中,無論DMPOnline還是DMPTool,其主要圍繞各自國家資助機構(gòu)相關(guān)數(shù)據(jù)政策,并且采用集中管理模式,存在科研方向、研究內(nèi)容等敏感信息的泄露風(fēng)險。因此,開發(fā)本國數(shù)據(jù)管理計劃工具具有重要現(xiàn)實意義。
目前,RDMO已經(jīng)在德國科研機構(gòu)廣泛使用或試用。從機構(gòu)類別上看,主要包括三類:大型科研項目,如德國聯(lián)邦食品及農(nóng)業(yè)部畜牧業(yè)減排項目、德國聯(lián)邦教研部區(qū)域高校聯(lián)盟科研數(shù)據(jù)項目、德意志研究聯(lián)合會(DFG)研究數(shù)據(jù)生命周期中的分子數(shù)據(jù)管理項目等;科研機構(gòu)/高校圖書館/計算中心日常數(shù)據(jù)管理計劃服務(wù),共26家,包括尤里希研究中心、馬克斯普朗克數(shù)字圖書館、亥姆霍次材料能源中心等7家國家科研院所和17所高校;聯(lián)邦州科研數(shù)據(jù)基礎(chǔ)設(shè)施,如黑森州研究數(shù)據(jù)基礎(chǔ)設(shè)施聯(lián)盟、北威州數(shù)字高校研究數(shù)據(jù)基礎(chǔ)設(shè)施先導(dǎo)行動等。由于結(jié)構(gòu)化問題源自需求,又是良好實踐經(jīng)驗的總結(jié),因此,依托這些科研機構(gòu),RDMO可以提升學(xué)科適應(yīng)性,豐富結(jié)構(gòu)化問題。以德國的畜牧業(yè)減排項目(EmiMin)為例,服務(wù)團(tuán)隊按照項目要求,設(shè)計工作流程,并根據(jù)各方的任務(wù)角色,建立與農(nóng)業(yè)技術(shù)相適應(yīng)的問題模板,開發(fā)出項目用數(shù)據(jù)管理計劃工具定制版RDMO4Life。下一步RDMO團(tuán)隊將基于此,擴(kuò)展相關(guān)問題,建立起適合農(nóng)業(yè)科學(xué)的RDMO。目前,RDMO在其GitHub平臺上共享了8份結(jié)構(gòu)化問題模板,包括DFG項目模板、經(jīng)濟(jì)學(xué)項目模板、教育科學(xué)模板、社會學(xué)模板、機械工程模板等。
3 RDMO工具服務(wù)模式
RDMO主要面向數(shù)據(jù)管理計劃使用者,包括創(chuàng)建者即科研人員,以及數(shù)據(jù)管理計劃服務(wù)的管理者,即一般組織機構(gòu)的圖書館。相應(yīng)地,所使用的服務(wù)方式也有所區(qū)別。
3.1 面向科研人員服務(wù)模式
科研人員服務(wù)模式如圖1所示。與DMPOnline和DMPTool最大的不同是,RDMO首先通過結(jié)構(gòu)化問題模板的方式引導(dǎo)科研人員完成科研數(shù)據(jù)在項目全周期各環(huán)節(jié)處理辦法的填寫,而非直接利用資助者或者相關(guān)機構(gòu)的數(shù)據(jù)管理計劃模板進(jìn)行。這樣的好處在于,數(shù)據(jù)管理計劃不拘泥于某個具體模板,而是切實在科研過程中管理數(shù)據(jù)的內(nèi)容。問題模板選擇之后,科研人員按照問題進(jìn)行相關(guān)內(nèi)容的填寫,過程中既可以按順序填寫各部分內(nèi)容,也可以跳過部分內(nèi)容或自由跳轉(zhuǎn),或以個人喜好的順序填寫各部分內(nèi)容。
RDMO的另一個特點是在預(yù)覽階段,已填寫的內(nèi)容信息可以自動映射到具體資助機構(gòu)的數(shù)據(jù)管理計劃模板,減少了科研人員的重復(fù)勞動。此外,科研人員還可以在線存儲數(shù)據(jù)管理計劃,填寫完成后導(dǎo)出數(shù)據(jù)管理計劃或提交至所在組織機構(gòu)以待審查。
服務(wù)的最后一步是用戶信息的添加和編輯,一個項目可能涉及多種用戶身份,RDMO設(shè)立4種身份供選擇,分別是項目負(fù)責(zé)人、項目經(jīng)理、組員和訪客。從訪問權(quán)限上看,項目負(fù)責(zé)人和項目經(jīng)理具有幾乎相同的編寫加工權(quán)限,區(qū)別只在于項目負(fù)責(zé)人可以添加/刪除項目,而組員具有讀和寫權(quán)限,訪客只有讀的權(quán)限。
3.2 面向組織機構(gòu)的服務(wù)模式
對于組織機構(gòu),RDMO最重要的服務(wù)是問題模板的編輯以及計劃模板的添加。機構(gòu)管理員可以以現(xiàn)有問題模板為參考,增加/刪減機構(gòu)層面特有/無關(guān)的問題,而在數(shù)據(jù)管理計劃預(yù)覽階段,也可以添加本機構(gòu)或特定資助機構(gòu)的數(shù)據(jù)管理計劃模板,具備了較強的擴(kuò)展特性。此外,RDMO對于機構(gòu)的服務(wù)還有面向軟件平臺的權(quán)限更改和配置,如用戶權(quán)限、賬戶信息等常規(guī)管理員功能。
4 RDMO工具數(shù)據(jù)模型及要點
RDMO的數(shù)據(jù)模型如圖2所示。對于用戶而言,結(jié)構(gòu)化問題是RDMO中最明顯的部分。層級從高到低使用目錄、部分、子部分、問題集和問題進(jìn)行配置。單個RDMO可以配置多個目錄,創(chuàng)建新項目時,用戶可以選擇要用于該項目的目錄。目錄包含多個部分和子部分,這些部分本身具有問題集,而具體問題可以直接添加到問題集中。問題為文本格式,顯示給用戶,并輔助一個可選的幫助文本。
“域”模型是數(shù)據(jù)模型的核心部分,其功能是將訪談中的問題與用戶輸入聯(lián)系起來,并按照樹狀結(jié)構(gòu)組織。用戶項目中每條信息都由一個屬性表示,并采用目錄組織的形式,因此,這些屬性可以看作是“域”模型樹上的葉子,組織它們所代表的不同實體之間的聯(lián)系。如項目開始日期為帶有路徑的屬性project/schedule/project_start,該屬性本身鍵值為project_start,并位于屬性schedule中,而schedule本身又位于project中。“條件”與問題集相關(guān)聯(lián),并確定所控制的問題集在當(dāng)前環(huán)境下是否有效。如果問題集無效,則不會顯示給用戶。“視圖”是允許在RDMO中使用的DMP模板,每一個模板都對應(yīng)一個“視圖”,該視圖可以使用基于HTML的Django進(jìn)行編輯。在“視圖”中,管理人員可以人為的添加標(biāo)題和幫助文本,并顯示在項目之中,幫助科研人員回答相關(guān)科研數(shù)據(jù)管理的問題。待結(jié)構(gòu)化問題填寫完成后,RDMO將根據(jù)用戶的回答提供跟進(jìn)“任務(wù)”。“任務(wù)”具有標(biāo)題和文本,通常情況下,“任務(wù)”與“條件”相關(guān)聯(lián),以確定特定項目是否需要。此外,由于“任務(wù)”本身具有“datetime”等時間屬性值,可以使用諸如項目開始或結(jié)束的答案來計算任務(wù)的時間范圍,因此便于進(jìn)行時序管理。
4.1 RDMO屬性結(jié)構(gòu)
從上節(jié)可以看出,每個問題所對應(yīng)的屬性是RDMO希望提取的核心元素,是整個數(shù)據(jù)組織的骨架。同時,屬性又是RDMO的信息基礎(chǔ),是數(shù)據(jù)管理計劃中信息顆粒度的重要指標(biāo)。因此分析RDMO的屬性設(shè)計是理清工具功能的基礎(chǔ)。RDMO的屬性無外乎就是如何組織串聯(lián)每個任務(wù)和所包含的具體信息,所以,首先要明確科研數(shù)據(jù)管理的任務(wù)劃分和流程。科研數(shù)據(jù)管理主要由6個科研數(shù)據(jù)生命周期的獨立任務(wù),包括:計劃/創(chuàng)建、選擇/評估、獲取/接收、存儲/IT、保存手段以及訪問/使用,以及5個貫穿于全周期且交叉的管理任務(wù)組成,分別為:管理/政策、法律/道德、財務(wù)/資助、元數(shù)據(jù)和標(biāo)識[16]。而RDMO的基本屬性結(jié)構(gòu),可以從其GitHub上的文檔得到,如表1所示(由于篇幅的原因,四級鍵值有所歸并和簡略)。
從內(nèi)容上看,RDMO屬性包括funder、costs、legal_aspect、dataset等交叉管理任務(wù),而dataset中又包含creation、data collection等數(shù)據(jù)生命周期獨立任務(wù),涵蓋了所有科研數(shù)據(jù)管理任務(wù)元素,具有較為全面的特點。從結(jié)構(gòu)上看,科研數(shù)據(jù)的基礎(chǔ)單位是項目,因此屬性以project為最高級。在二級中,除research_field、schedule等項目概述值外,主要包括:additional rdm_policy、coordinator、partner、funder、costs、legal_aspect、dataset等,而三級則主要是二級值對應(yīng)的各個方面,四級以此類推。特點主要表現(xiàn)在:首先,以科研數(shù)據(jù)管理模型中具有交叉特點的管理任務(wù)為屬性結(jié)構(gòu)的主線(二級),而數(shù)據(jù)生命周期獨立任務(wù)則主要處于第三級,并融入相應(yīng)的二級指標(biāo)中。這樣的好處在于,數(shù)據(jù)管理計劃的核心是管理,因此以管理實體,如科研人員、組織機構(gòu)、伙伴機構(gòu)劃分,可以明確主要干系人的任務(wù)/信息區(qū)塊,避免了管理實體交叉帶來的任務(wù)不清;其次,增加時間維度指標(biāo),在數(shù)據(jù)生命周期中任務(wù)步驟,如data collection、data cleaning、data analysis等方面增加了執(zhí)行的起始和結(jié)束時間,明確了數(shù)據(jù)管理計劃的計劃性、動態(tài)性特征;最后,增加了責(zé)任人,如在機構(gòu)合作層面的coordinator和partner中明確了contact_person、name,在數(shù)據(jù)周期任務(wù)中,也出現(xiàn)如creator,owner,responsible或responsible_person等需要確立的相關(guān)責(zé)任人元素。
4.2 互操作性
互操作性是RDMO與其他工具軟件或科研數(shù)據(jù)基礎(chǔ)設(shè)施信息共享的基礎(chǔ)。由于結(jié)構(gòu)化問題是唯一輸入,所以,RDMO互操作性的基礎(chǔ)是上節(jié)所述“域”內(nèi)問題——屬性與目標(biāo)系統(tǒng)之間的有效映射。目前,RDMO互操作性主要針對DataCite的15個強制屬性和5個推薦屬性,具體如表1所示。從表中不難發(fā)現(xiàn),在映射時,RDMO非常注意問題——屬性和DataCite之間語義的對應(yīng)。如在“Publisher -> dataset/preservation/repository”中,DataCite主要使用“Publisher”表明數(shù)據(jù)來源,所以在RDMO結(jié)構(gòu)化問題中,使用“stored or archived after the end of the project”(在項目結(jié)束后存儲或歸檔),既明確了時間為“項目結(jié)束后”,在用詞上使用“stored or archived”,區(qū)別于一般概念上的“Publish”;再如“creatorName -> project/dataset/creator_name”中,“creatorName”在DateCite中指數(shù)據(jù)建立者的姓名,格式為“姓,名”,在RDMO中,首先區(qū)別了creator和creatorName,前者可以為人或機構(gòu),而后者為DataCite所指的主要研究人員,并且在問題中給出了明確的解釋。
4.3 服務(wù)體系
本研究的服務(wù)體系指RDMO軟件的使用者社區(qū)建設(shè)。類似其他需求驅(qū)動型開源軟件,完整的開發(fā)者和使用者的生態(tài)體系建設(shè)是成果的關(guān)鍵。在DMPTool和DMPOnline的開發(fā)設(shè)計時就考慮了這種互動關(guān)系。其主要原因有:(1)技術(shù)因素。單獨的數(shù)據(jù)管理計劃軟件本身是“空”的,結(jié)構(gòu)化問題和域內(nèi)的屬性元素需要不同機構(gòu)在使用過程中才能反復(fù)優(yōu)化,才能提高應(yīng)用性和適用性;(2)組織因素。科研數(shù)據(jù)價值的提升在于大規(guī)模匯集,因此,建立使用者-開發(fā)者社區(qū)建設(shè)是開放科學(xué)下科研數(shù)據(jù)共享的要求。由于RDMO在設(shè)計之初就考慮到了數(shù)據(jù)的隱私性,所以,RDMO社區(qū)建設(shè)的核心方針是,使分布在各地的不同RDMO使用機構(gòu)能夠在技術(shù)上“自給自足”,并以此方式進(jìn)一步發(fā)展RDMO整體社區(qū)。因此,RDMO社區(qū)建設(shè)通過多種渠道開展雙方的交流,而RDMO團(tuán)隊針對這些問題和需求進(jìn)行再優(yōu)化。
RDMO社區(qū)建設(shè)模式主要包括:(1)傳統(tǒng)的宣傳和培訓(xùn)。在RDMO官網(wǎng)上有技術(shù)幫助文件的文本、視頻文件供下載,如快速使用手冊、如何生成、編輯結(jié)構(gòu)化問題等。(2)技術(shù)文檔解決方案。在RDMO網(wǎng)站內(nèi),開發(fā)者公開了技術(shù)文檔手冊包括安裝、部署、配置,在涉及科研數(shù)據(jù)管理的內(nèi)容上,也有相應(yīng)的問題-屬性等核心字段。(3)RDMO在機構(gòu)數(shù)據(jù)基礎(chǔ)設(shè)施的整合服務(wù)。一方面協(xié)助機構(gòu)進(jìn)行RDMO的整合,如RDMO與不同專業(yè)學(xué)科、不同機構(gòu)展開合作,建立適用不同專業(yè)或特定機構(gòu)的的數(shù)據(jù)管理計劃工具版本。另一方面,RDMO還積極融入到現(xiàn)有科研基礎(chǔ)設(shè)施中,特別是一些德國參與建設(shè)的平臺,如re3data(全球科研數(shù)據(jù)知識庫注冊系統(tǒng))、RADAR(通用科研數(shù)據(jù)知識庫)。(4)交流平臺,如GitHub、建立聊天群組、郵件列表等。(5)使用者大會。從2018年開始,每年召開一次使用者大會,在大會上,RDMO服務(wù)團(tuán)隊及用戶就軟件的使用、問題和需求開展一些列講座和研討。
5 RDMO工具特點
5.1 以模板為驅(qū)動轉(zhuǎn)變?yōu)橐越M織為核心
隨著科研數(shù)據(jù)愈發(fā)重要,數(shù)據(jù)管理計劃逐漸成為科研機構(gòu)或是資助者在項目執(zhí)行前所提供的必需材料。從目前主要數(shù)據(jù)管理計劃工具看,資助者模板是計劃的最初驅(qū)動。在完成數(shù)據(jù)管理計劃時,基本與科研機構(gòu)或資助機構(gòu)的數(shù)據(jù)管理要求相關(guān)聯(lián),而對于沒有現(xiàn)成模板的情況,結(jié)構(gòu)化的問題則相對簡單,如DCC基礎(chǔ)模板,對于未來實際科研數(shù)據(jù)管理指導(dǎo)性、操作性不強。而RDMO使用一般化的問題,依管理任務(wù)進(jìn)行切分,內(nèi)容涵蓋整個科研數(shù)據(jù)管理流程,又在相關(guān)步驟中明確責(zé)任人,可以依照不同角色安排任務(wù)。在技術(shù)上,模板中的每個問題與屬性相對應(yīng),便于進(jìn)行信息的提取-交互,也便于融入到其他工具和系統(tǒng)之中,從而形成一份可執(zhí)行、可擴(kuò)展的數(shù)據(jù)管理計劃。
5.2 分布式部署
當(dāng)前的數(shù)據(jù)管理計劃工具多為集中管理方式,這種方式存在數(shù)據(jù)安全和機構(gòu)/國別適應(yīng)性方面的問題。而RDMO允許進(jìn)行機構(gòu)/項目/聯(lián)盟等多種方式的分布式部署,既保證了科研項目/科研數(shù)據(jù),特別是一些敏感信息的安全性,在應(yīng)用層面又便于使用方按照機構(gòu)特點或?qū)W科特征進(jìn)行編輯和優(yōu)化,具備了較強的擴(kuò)展能力。由于RDMO的組成結(jié)構(gòu)較為簡單,主要包含rdmo-app、rdmo package和database3個部分,因此,從安裝到配置都較為簡單,且源代碼在GitHub上公開。對于軟件更新的問題,則主要通過建立技術(shù)社區(qū)、收集問題、工具軟件包更新的方式進(jìn)行。
5.3 互操作的擴(kuò)展特性
目前,如DataCite、re3data等基礎(chǔ)設(shè)施在科研數(shù)據(jù)領(lǐng)域,已經(jīng)成為科研數(shù)據(jù)的必要組成。因此,數(shù)據(jù)管理計劃作為科研數(shù)據(jù)管理的基礎(chǔ)和出發(fā)點,互操作性是與其他軟件/基礎(chǔ)設(shè)施一起工作并共享信息的保證。在RDMO中,所有結(jié)構(gòu)化問題都對應(yīng)了一個屬性,同時一些關(guān)鍵詞匯也來自RDMO內(nèi)部的規(guī)范詞匯表。因此,互操作性既是軟件內(nèi)部問題——模板的自動關(guān)聯(lián),實現(xiàn)自動提取,降低科研人員工作量的重要保障,又是與外部一些科研數(shù)據(jù)常用基礎(chǔ)設(shè)施進(jìn)行信息共享的基礎(chǔ)。如上文所述,RDMO已經(jīng)與DataCite中的20個強制屬性和可選屬性進(jìn)行了映射。目前,RDMO正在通過開發(fā)相應(yīng)模塊和元數(shù)據(jù)模型來實現(xiàn)與其他系統(tǒng)的信息共享,以及與機構(gòu)本身科研管理相關(guān)聯(lián)的功能,如將RDMO鏈接到科研信息系統(tǒng)(FIS),實現(xiàn)元數(shù)據(jù)的接口和標(biāo)識符系統(tǒng),采集科研數(shù)據(jù)成果。
5.4 建立多維度社區(qū)服務(wù)
通過建立社區(qū)實現(xiàn)開發(fā)者與用戶之間的交流是開源工具軟件持續(xù)優(yōu)化的保障。在RDMO中,這種信息交互是多維度的。從內(nèi)容上看,既有傳統(tǒng)媒介的宣傳和培訓(xùn),又有目前開發(fā)人員使用較為廣泛的GitHub、Slack、Twitter等,通過多種渠道建立聯(lián)系,廣泛收集問題和需求,實現(xiàn)反復(fù)優(yōu)化迭代;從組織上看,有學(xué)科、機構(gòu)、聯(lián)盟等不同合作模式,一方面可以推廣工具軟件的使用,另一方面可以擴(kuò)展軟件在學(xué)科和使用環(huán)境的適用特性,為衍生出不同版本的RDMO提供了基礎(chǔ)。
6 對我國科研數(shù)據(jù)管理的啟示
縱觀我國科研數(shù)據(jù)管理研究,主要從服務(wù)的范疇和任務(wù)(如內(nèi)容、參與者)、治理(如機構(gòu)科研數(shù)據(jù)政策)、執(zhí)行(圖書館在科研數(shù)據(jù)管理服務(wù)的作用)和實踐(科研數(shù)據(jù)管理服務(wù)平臺建設(shè))開展,并取得了大量研究成果,但具體工具軟件卻較少。而數(shù)據(jù)管理計劃作為科研數(shù)據(jù)管理的服務(wù)的首要內(nèi)容,其工具軟件的開發(fā)設(shè)計,對于我國圖書館/信息機構(gòu)開展相關(guān)服務(wù)都具有重要參考價值。
6.1 開發(fā)我國自己的數(shù)據(jù)管理計劃工具
數(shù)據(jù)管理計劃工具是規(guī)范科研數(shù)據(jù)管理,增強數(shù)據(jù)質(zhì)量以及提升數(shù)據(jù)共享意愿的重要工具軟件,也是發(fā)揮圖書館/信息機構(gòu)在數(shù)據(jù)治理中作用的重要手段。2018年,我國科研機構(gòu)和高校各類研究與試驗發(fā)展項目接近120萬項[17],僅國家層面的自然科學(xué)和社會科學(xué)基金2019年就達(dá)到50 000余項[18-19],這還不算數(shù)量更為巨大的省市系統(tǒng)基金資助項目。一方面,若使用國外相關(guān)工具,在適用性上無法保證,另一方面,還有泄露重要科研敏感信息的風(fēng)險。德國作為科研大國和強國,從2015年開始開發(fā)自己的數(shù)據(jù)管理計劃工具RDMO,保障自身科研需要。2018年4月國務(wù)院辦公廳印發(fā)《科學(xué)數(shù)據(jù)管理辦法》,旨在進(jìn)一步加強和規(guī)范科學(xué)數(shù)據(jù)管理,保障科學(xué)數(shù)據(jù)安全,提高開放共享水平[20]。因此,開發(fā)我國自己的數(shù)據(jù)管理計劃工具,具有重要現(xiàn)實意義。
6.2 注重可執(zhí)行性
科研數(shù)據(jù)管理計劃并不只是為了滿足資助方的數(shù)據(jù)管理要求,不能局限在一個靜態(tài)的文檔,其目的是增強數(shù)據(jù)在全生命周期的有效管理,保障科研數(shù)據(jù)的質(zhì)量,增強可復(fù)用性。因此,數(shù)據(jù)管理計劃工具在開發(fā)過程中應(yīng)在以下方面注重可執(zhí)行性。可執(zhí)行性的基礎(chǔ)就是參與者可以找到自己所需要的信息。具體來看,應(yīng)注重問題顆粒度設(shè)計和相關(guān)方需求的辨析。首先,數(shù)據(jù)管理計劃的結(jié)構(gòu)化輸入應(yīng)盡量明確,以科研數(shù)據(jù)管理中的必要元素為核心設(shè)計問題模板,引導(dǎo)科研人員做出盡量標(biāo)準(zhǔn)、規(guī)范的回答,收集到所需信息;其次,科研數(shù)據(jù)管理涉及多方共同協(xié)作,包括數(shù)據(jù)生產(chǎn)方(科研人員)、服務(wù)提供方(圖書館/技術(shù)中心)、科研數(shù)據(jù)基礎(chǔ)設(shè)施以及項目資助者,所以,數(shù)據(jù)管理計劃應(yīng)滿足不同角色的使用需要,如對于科研人員,類似項目的DMP案例、元數(shù)據(jù)的使用規(guī)范是其正確填寫的基礎(chǔ),而對于資助方,可能來自科研人員未來數(shù)據(jù)的存儲方式、地點和成本回答是最為重要的信息。
6.3 注重互操作性
互操作性是可執(zhí)行性的重要基礎(chǔ)。互操作性主要分為3個維度:(1)工具軟件內(nèi)的信息可以充分交互。如在RDMO中,結(jié)構(gòu)化的輸入與不同數(shù)據(jù)管理計劃模板相關(guān)聯(lián),便于信息的提取,此外,對于一些具備唯一性的實體也應(yīng)當(dāng)進(jìn)行標(biāo)記,以便不斷完善數(shù)據(jù)管理計劃數(shù)據(jù)庫內(nèi)容,為科研人員撰寫數(shù)據(jù)管理計劃提供良好的幫助和指導(dǎo)。(2)與其他數(shù)據(jù)基礎(chǔ)設(shè)施的互操作。其他數(shù)據(jù)基礎(chǔ)設(shè)施主要指包括如DataCite、re3data等在內(nèi)的數(shù)據(jù)索引、知識庫登記系統(tǒng)。這些系統(tǒng)是科研數(shù)據(jù)發(fā)布、再利用的重要保障。(3)數(shù)據(jù)管理計劃與科研信息系統(tǒng)的互操作。一方面,數(shù)據(jù)管理計劃中諸如項目信息、資助信息來自科研信息系統(tǒng),另一方面,科研信息系統(tǒng)也需要在數(shù)據(jù)管理計劃中提取如大型儀器的使用、成果數(shù)據(jù)進(jìn)行相關(guān)領(lǐng)域的評估。在開發(fā)階段,應(yīng)著重從方案語義和持久標(biāo)識符兩個方面考慮。方案語義是不同信息相互映射的基礎(chǔ)。在數(shù)據(jù)管理計劃工具的數(shù)據(jù)模型設(shè)計中,可按照不同系統(tǒng)方案中的語義,通過注釋信息或向用戶提供標(biāo)準(zhǔn)描述列表來實現(xiàn)和規(guī)范,如RDMO就使用如注釋信息來解釋creatorName,利用問題中store和archive來解釋publish在不同方案的含義。而對于持久標(biāo)識符,應(yīng)從人-機構(gòu)進(jìn)行標(biāo)識,如學(xué)者身份ID、知識庫標(biāo)識、資助者標(biāo)識、項目計劃標(biāo)識。
6.4 注重用戶社區(qū)建設(shè)
建設(shè)完善的用戶社區(qū)是數(shù)據(jù)管理計劃軟件成功的關(guān)鍵。首先,數(shù)據(jù)管理計劃本身由于可能涉及各機構(gòu)的敏感數(shù)據(jù),技術(shù)上一般需采用分布式部署,滿足自有數(shù)據(jù)的獨立性;其次,對于軟件的輸入-結(jié)構(gòu)化問題必須不斷優(yōu)化,因此,又需要為工具軟件不斷進(jìn)行核心功能的迭代和升級。而內(nèi)容上,只有盡可能豐富來源,才能建立起更為貼近實際的問題輸入,以及更為全面的語義方案,從而提升工具軟件的可執(zhí)行性和互操作性。在具體工作中,用戶社區(qū)建設(shè)的關(guān)鍵在于多維度,多維度應(yīng)包括機構(gòu)、學(xué)科、形式三個方面。機構(gòu)上,包括項目執(zhí)行機構(gòu)(如高校、科研機構(gòu))和項目資助機構(gòu),并盡可能廣泛推廣;學(xué)科上,應(yīng)注意學(xué)科領(lǐng)域分類或科研數(shù)據(jù)類型范圍,盡量將研究領(lǐng)域相近、元數(shù)據(jù)類似的學(xué)科整合在一起,構(gòu)建適用于機構(gòu)和學(xué)科領(lǐng)域?qū)用娴臄?shù)據(jù)管理計劃工具;同時,形式上,建立以開源形式的技術(shù)文檔庫為核心,以網(wǎng)絡(luò)社區(qū)、聊天群組為主要交流形式,輔之以定期的培訓(xùn)和用戶大會等多方面、多角度的培訓(xùn)。
參考文獻(xiàn):
Wikipedia. Data Management Plan[EB/OL].[2020-05-07].http://en.wikipedia.org/wiki/Data_management_plan.
王丹丹.科學(xué)數(shù)據(jù)管理計劃評價量表分析[J].圖書情報工作,2017,61(18):35-41.
劉瓊,劉桂鋒.高校圖書館科學(xué)數(shù)據(jù)管理計劃服務(wù)框架構(gòu)建與解析[J].國家圖書館學(xué)刊,2019,28(4):21-31.
王繼娜.國外高校圖書館科學(xué)數(shù)據(jù)管理服務(wù)的調(diào)研與思考[J].情報理論與實踐,2019,42(8):159-167.
DCC. DMPOnline[EB/OL].[2020-05-07]https://dmponline.dcc.ac.uk/.
University of California Curation Center. DMPTool[EB/OL].[2020-05-07]https://dmptool.org/.
University of Bielefied. Data-management-plan[EB/OL].[2020-05-07]https://www.uni-bielefeld.de/ub/forschungsdaten/de/data-management-plan.
KLAR J. DMP für das TU eigene Repository Deposit Once[EB/OL].[2020-05-07]http://oa.helmholtz.de/fileadmin/user_upload/redakteur/Workshops/helmholtz_datenwebinar27_kuberek.pdf.
GFBio Consortium. GFBio Data Management Plan Tool[EB/OL].[2020-05-07]https://www.gfbio.org/plan.
馬建玲,曹月珍.研究數(shù)據(jù)管理工具發(fā)展研究[J].圖書館學(xué)研究,2014(15):40-47.
王凱,彭潔,屈寶強.國外數(shù)據(jù)管理計劃服務(wù)工具的對比研究[J].情報雜志,2014,33(12):203-206,169.
王璞.英美兩國制定數(shù)據(jù)管理計劃的政策、內(nèi)容與工具[J].圖書與情報,2015(3):103-109.
吳海茹.加州數(shù)字圖書館數(shù)據(jù)管理計劃工具研究及思考[J].新世紀(jì)圖書館,2015(5):69-72.
RDMO Team. RDMO[EB/OL].[2020-05-08]https://github.com/rdmorganiser.
RDMO Team.English documentation for RDMO[EB/OL].[2020-05-04]https://github.com/rdmorganiser/rdmo-docs-en.
ENKE H, LUDWIG J. Leitfaden zum Forschungsdaten-management[M].Glückstadt:Verlag Werner Hülsbusch,2013.
國家統(tǒng)計局.國家統(tǒng)計數(shù)據(jù)[EB/OL].[2020-05-08].http://data.stats.gov.cn/easyquery.htm?cn=C01.
全國哲學(xué)社會科學(xué)工作辦公室. 國家社科基金項目數(shù)據(jù)庫[EB/OL].[2020-05-08].http://fz.people.com.cn/skygb/sk/.
郝紅全,鄭知敏,李志蘭,等.2019年度國家自然科學(xué)基金項目申請、評審與資助工作綜述[J].中國科學(xué)基金,2020,34(1):46-49.
國務(wù)院辦公廳. 國務(wù)院辦公廳關(guān)于印發(fā)科學(xué)數(shù)據(jù)管理辦法的通知[EB/OL].[2020-05-07].http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm.
周 雷 北京市科學(xué)技術(shù)情報研究所、北京科技戰(zhàn)略決策咨詢中心助理研究員。 北京,100044。
(收稿日期:2020-07-04 編校:陳安琪,左靜遠(yuǎn))