●孫清玉 梁美宏 張友華
(河海大學(xué) 南京 210098)
科學(xué)數(shù)據(jù)是科研工作開展的重要基礎(chǔ)資源,也是科研人員的重要學(xué)術(shù)產(chǎn)物。有效管理科學(xué)數(shù)據(jù),可以在一定程度上降低科學(xué)研究的重復(fù)性成本,提高科研產(chǎn)出效益,推動(dòng)科學(xué)進(jìn)步,收獲更多生產(chǎn)力。目前,提供科學(xué)數(shù)據(jù)管理已成為高校圖書館的重要發(fā)展方向和服務(wù)趨勢之一。2017年《地平線報(bào)告:圖書館版》指出,隨著開放出版和數(shù)據(jù)收集的增加,圖書館在科學(xué)數(shù)據(jù)管理中的作用進(jìn)一步鞏固[1]。科學(xué)數(shù)據(jù)管理需要以數(shù)據(jù)存儲(chǔ)庫為平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的有效管理、公開共享、規(guī)范引用和出版?zhèn)鞑ァC(jī)構(gòu)知識(shí)庫作為重要的數(shù)據(jù)管理平臺(tái),在數(shù)字資源存儲(chǔ)與管理方面有著重要作用[2]。許多高校、研究機(jī)構(gòu)已經(jīng)建設(shè)機(jī)構(gòu)知識(shí)庫用于本單位研究出版物的存儲(chǔ),因此技術(shù)基礎(chǔ)設(shè)施可以在無須開發(fā)或購買全新軟件平臺(tái)的情況下進(jìn)行功能擴(kuò)展。在國家出臺(tái)一系列有關(guān)數(shù)據(jù)管理、數(shù)據(jù)共享的綱要和辦法的大環(huán)境下[3-4],機(jī)構(gòu)知識(shí)庫除了承擔(dān)成果存儲(chǔ)中心的功能外,也應(yīng)成為科學(xué)數(shù)據(jù)管理中心。
2016年FORCE11 組織(The future of research communication and e-scholarship)正式提出在科學(xué)數(shù)據(jù)管理領(lǐng)域引入FAIR原則。同年,F(xiàn)AIR指導(dǎo)性原則正式稿發(fā)表在《科學(xué)數(shù)據(jù)》第3期上[5],F(xiàn)AIR原則包含可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、可互操作(Interoperable)及可重用(Reusable)四項(xiàng)內(nèi)容,明確了科學(xué)數(shù)據(jù)管理的目標(biāo)。河海大學(xué)圖書館基于機(jī)構(gòu)知識(shí)庫構(gòu)建科學(xué)數(shù)據(jù)管理平臺(tái),在平臺(tái)架構(gòu)設(shè)計(jì)中實(shí)踐FAIR原則,具備采集、標(biāo)引、分類、保存、檢索科學(xué)數(shù)據(jù)的組織功能,具備實(shí)現(xiàn)原始數(shù)據(jù)、中間數(shù)據(jù)、結(jié)果數(shù)據(jù)的利用和數(shù)據(jù)挖掘服務(wù)功能。
科學(xué)數(shù)據(jù)管理的具體內(nèi)容包括數(shù)據(jù)創(chuàng)建、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索、數(shù)據(jù)安全、數(shù)據(jù)保存、數(shù)據(jù)共享和數(shù)據(jù)再利用等方面。
河海大學(xué)機(jī)構(gòu)知識(shí)庫是以本校學(xué)者公開產(chǎn)出的各種文獻(xiàn)數(shù)據(jù)為主構(gòu)建的集元數(shù)據(jù)采集、存儲(chǔ)、清洗、展示和自主維護(hù)于一體的數(shù)據(jù)管理平臺(tái)。目前存儲(chǔ)的資源主要包括已公開發(fā)表或已申請(qǐng)的學(xué)術(shù)論文、圖書著作、學(xué)位論文、會(huì)議文獻(xiàn)、專利等。此外,為突出機(jī)構(gòu)知識(shí)庫科研成果全面、數(shù)據(jù)類型豐富的特色,圖書館在機(jī)構(gòu)知識(shí)庫建設(shè)之初,就為平臺(tái)設(shè)置了廣泛的成果類型,除了上述已有的文獻(xiàn)類型外,還包括報(bào)紙、標(biāo)準(zhǔn)、研究報(bào)告、科學(xué)數(shù)據(jù)集、課件、教學(xué)視頻、系統(tǒng)軟件、演講稿、實(shí)驗(yàn)報(bào)告、設(shè)計(jì)圖紙、工作文稿等,這些都為科學(xué)數(shù)據(jù)管理提供了基礎(chǔ)保障。
基于機(jī)構(gòu)知識(shí)庫構(gòu)建的科學(xué)數(shù)據(jù)管理平臺(tái)的目標(biāo)是實(shí)現(xiàn)科學(xué)數(shù)據(jù)的開放、共享和引用,推動(dòng)科學(xué)數(shù)據(jù)的長期保存與數(shù)據(jù)資產(chǎn)管理[6]。學(xué)者可以隨時(shí)向平臺(tái)添加相關(guān)數(shù)據(jù)及文獻(xiàn),平臺(tái)可以為用戶提供檢索和瀏覽功能,并通過權(quán)限設(shè)置實(shí)現(xiàn)數(shù)據(jù)共享。
基于機(jī)構(gòu)知識(shí)庫構(gòu)建的科學(xué)數(shù)據(jù)管理平臺(tái)從邏輯框架結(jié)構(gòu)角度分為數(shù)據(jù)底層、管理層和服務(wù)層,如圖1所示。其中數(shù)據(jù)底層為科學(xué)數(shù)據(jù)資源池;管理層用于管理各種元數(shù)據(jù)及各級(jí)機(jī)構(gòu)、學(xué)者、科研成果的對(duì)照關(guān)系;服務(wù)層展示各種成果數(shù)據(jù),并提供數(shù)據(jù)分析及共享服務(wù)。

圖1 基于機(jī)構(gòu)知識(shí)庫的科學(xué)數(shù)據(jù)管理平臺(tái)
(1)科學(xué)數(shù)據(jù)提交及存儲(chǔ)模塊。科學(xué)數(shù)據(jù)提交及存儲(chǔ)模塊基于底層數(shù)據(jù)而設(shè)計(jì)。FAIR原則中數(shù)據(jù)可發(fā)現(xiàn)(Findable)子原則意在指出科學(xué)數(shù)據(jù)共享的前提是數(shù)據(jù)能夠被用戶及時(shí)發(fā)現(xiàn),可發(fā)現(xiàn)原則為后續(xù)數(shù)據(jù)訪問、操作和重用提供了條件[7]。可發(fā)現(xiàn)原則要求數(shù)據(jù)擁有一個(gè)唯一并且能永久存在的標(biāo)識(shí)符(DOI),但是科學(xué)數(shù)據(jù)具有類型繁雜、量大且變化快、分布式異構(gòu)多源等特征,較難進(jìn)行準(zhǔn)確描述。元數(shù)據(jù)作為數(shù)據(jù)的數(shù)據(jù),可以有效地解決這一問題,能夠?qū)?shù)據(jù)資源的內(nèi)容、質(zhì)量、條件、特性等相關(guān)描述性信息進(jìn)行充分描述。
科學(xué)數(shù)據(jù)管理平臺(tái)可依據(jù)元數(shù)據(jù)規(guī)則設(shè)置精準(zhǔn)、完整、豐富的描述字段及字段內(nèi)容要求,包括數(shù)據(jù)產(chǎn)生背景、樣本描述、采集流程、質(zhì)量評(píng)估方法、使用規(guī)則等,從而規(guī)范數(shù)據(jù)生產(chǎn)者、發(fā)布者上傳數(shù)據(jù)資源的流程,避免科學(xué)數(shù)據(jù)因來源、格式等不同造成無序管理,無法利用。由于元數(shù)據(jù)的描述完整豐富且具有可擴(kuò)展性,即使數(shù)據(jù)缺少唯一標(biāo)識(shí)符,也可以在平臺(tái)中被著錄或標(biāo)引,用戶可以通過瀏覽、檢索等方式方便地獲得平臺(tái)公開的數(shù)據(jù)資源。底層數(shù)據(jù)可存儲(chǔ)本校科研人員的實(shí)驗(yàn)數(shù)據(jù)、調(diào)查數(shù)據(jù)、分析數(shù)據(jù)、測量數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)等數(shù)據(jù)資源,并可對(duì)科技成果、專利、論文等文獻(xiàn)的科學(xué)數(shù)據(jù)進(jìn)行抽取和存儲(chǔ)。具體提交、存儲(chǔ)的流程為:科研人員通過平臺(tái)設(shè)定的元數(shù)據(jù)要求,建立新的數(shù)據(jù)項(xiàng)目,上傳數(shù)據(jù),或由平臺(tái)對(duì)科學(xué)數(shù)據(jù)進(jìn)行抽取和存儲(chǔ)。數(shù)據(jù)上傳之后進(jìn)入到數(shù)據(jù)池中;相關(guān)管理員訪問數(shù)據(jù)池,對(duì)上傳數(shù)據(jù)進(jìn)行校核與審查。圖書館數(shù)據(jù)館員根據(jù)可讀性、完整性等原則檢查數(shù)據(jù)、元數(shù)據(jù)和文檔,最終實(shí)現(xiàn)科學(xué)數(shù)據(jù)的順利提交與有效存儲(chǔ)。
(2)科學(xué)數(shù)據(jù)訪問及檢索模塊。FAIR原則中數(shù)據(jù)的可訪問(Accessible)原則是指用戶可以通過檢索功能找到科學(xué)數(shù)據(jù)。對(duì)于科學(xué)數(shù)據(jù)管理服務(wù)平臺(tái),數(shù)據(jù)的訪問和使用是最重要的目標(biāo)之一,可確保數(shù)據(jù)無論位于何處,都能被查找和獲取。科學(xué)數(shù)據(jù)訪問及檢索模塊提供簡單檢索、高級(jí)檢索、二次檢索等多種檢索方式,從而實(shí)現(xiàn)科學(xué)數(shù)據(jù)的可訪問(Accessible)。該模塊的檢索界面、結(jié)果展示等設(shè)置均基于文獻(xiàn)檢索系統(tǒng),檢索字段包括題名、作者、機(jī)構(gòu)、來源、出版日期、關(guān)鍵詞、摘要等,檢索結(jié)果以文本、表格、XML等形式展示。
科學(xué)數(shù)據(jù)類型多種多樣,而不同類型數(shù)據(jù)的格式不同,對(duì)應(yīng)的檢索字段也不同。為滿足不同類型數(shù)據(jù)的存儲(chǔ)、檢索、展示與利用,基于機(jī)構(gòu)知識(shí)庫的科學(xué)數(shù)據(jù)管理平臺(tái)將每個(gè)元數(shù)據(jù)項(xiàng)作為獨(dú)立一行,并且不展示空元數(shù)據(jù)項(xiàng)。該方法能夠靈活便捷地展示復(fù)雜多樣的數(shù)據(jù)[8]。
基于機(jī)構(gòu)知識(shí)庫構(gòu)建的高校科學(xué)數(shù)據(jù)管理平臺(tái)制定了訪問數(shù)據(jù)資源的協(xié)議規(guī)則,包括訪問入口、身份驗(yàn)證、訪問權(quán)限等方面。根據(jù)科學(xué)數(shù)據(jù)來源及內(nèi)容,可將訪問級(jí)別分為:管理員級(jí)別,這一級(jí)別的使用者為圖書館數(shù)據(jù)館員,對(duì)發(fā)布的數(shù)據(jù)有認(rèn)領(lǐng)、審核、修訂、編輯等權(quán)限;數(shù)據(jù)擁有者或數(shù)據(jù)發(fā)布者級(jí)別,可以撤回、修訂、編輯數(shù)據(jù),可免費(fèi)下載使用相關(guān)專業(yè)數(shù)據(jù);數(shù)據(jù)使用者級(jí)別,這一級(jí)別的用戶可以檢索、瀏覽數(shù)據(jù),但在下載數(shù)據(jù)時(shí),需向管理員提交下載申請(qǐng),經(jīng)審核通過后,用戶可下載獲得數(shù)據(jù)[9]。
(3)科學(xué)數(shù)據(jù)共享及分析模塊。FAIR原則中數(shù)據(jù)的可互操作(Interoperable)原則的總要求是通過使用標(biāo)準(zhǔn)定義、通用數(shù)據(jù)元素等描述數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)間的互操作。可重用(Reusable)原則指的是數(shù)據(jù)與數(shù)據(jù)集應(yīng)有明確的使用許可,同時(shí)包含準(zhǔn)確的數(shù)據(jù)源信息。科學(xué)數(shù)據(jù)在具備互操作性的基礎(chǔ)上,可以實(shí)現(xiàn)不同類型數(shù)據(jù)的組織加工、分析處理、共享利用等功能。科學(xué)數(shù)據(jù)的開放共享可以實(shí)現(xiàn)研究人員引用或重現(xiàn)實(shí)驗(yàn),有助于避免不必要的重復(fù)實(shí)驗(yàn)操作,縮短研究周期,加快整個(gè)領(lǐng)域的研究進(jìn)程。所以科學(xué)數(shù)據(jù)唯有通過充分而廣泛的共享,才能最大程度地發(fā)揮價(jià)值,實(shí)現(xiàn)整體增值,減少重復(fù)投入。
在科學(xué)數(shù)據(jù)共享管理中,數(shù)據(jù)發(fā)布者或數(shù)據(jù)管理員可以選擇項(xiàng)目組內(nèi)分享、二級(jí)單位內(nèi)分享、二級(jí)單位間分享、校內(nèi)分享及校外分享等,并可對(duì)分享的資源進(jìn)行互操作,例如,評(píng)分、點(diǎn)贊、推薦等,系統(tǒng)可以根據(jù)全部歷史用戶的評(píng)價(jià)結(jié)果,對(duì)共享學(xué)術(shù)資源進(jìn)行質(zhì)量評(píng)定并進(jìn)行排名等操作[10]。
河海大學(xué)圖書館基于機(jī)構(gòu)知識(shí)庫構(gòu)建科學(xué)數(shù)據(jù)管理平臺(tái),通過設(shè)置管理元數(shù)據(jù)、規(guī)范描述數(shù)據(jù)等過程,實(shí)現(xiàn)了科學(xué)數(shù)據(jù)的結(jié)構(gòu)化、流程化、數(shù)字化保存,能夠有效避免數(shù)據(jù)的丟失、無序等問題,確保數(shù)據(jù)準(zhǔn)確、完整、可復(fù)用;基于數(shù)據(jù)的結(jié)構(gòu)化保存,設(shè)置相應(yīng)的檢索字段與檢索瀏覽功能,實(shí)現(xiàn)了科學(xué)數(shù)據(jù)如同圖書、期刊、專利等結(jié)構(gòu)化數(shù)據(jù)一樣被檢索與發(fā)現(xiàn),從而得以有效利用,提高數(shù)據(jù)價(jià)值。同時(shí),基于機(jī)構(gòu)知識(shí)庫的科學(xué)數(shù)據(jù)管理平臺(tái)通過集成DataCite,進(jìn)一步促進(jìn)數(shù)據(jù)被發(fā)現(xiàn)與被引用。
數(shù)據(jù)參考咨詢服務(wù)是針對(duì)用戶在遇到特定的數(shù)據(jù)管理相關(guān)問題時(shí),圖書館所提供的決策支持、定制解決方案等人工服務(wù),其目的是為用戶提供個(gè)性化的數(shù)據(jù)管理服務(wù)。例如,當(dāng)用戶在科學(xué)數(shù)據(jù)管理平臺(tái)中提交上傳數(shù)據(jù)時(shí),相關(guān)數(shù)據(jù)館員會(huì)及時(shí)收到該項(xiàng)操作的提示信息,此時(shí)數(shù)據(jù)館員可直接與用戶聯(lián)系,幫助其解決在上傳、發(fā)布、管理數(shù)據(jù)中遇到的問題,同時(shí)了解用戶及其研究團(tuán)隊(duì)的相關(guān)研究,發(fā)掘與其開展進(jìn)一步合作的機(jī)會(huì),例如,可以合作開展數(shù)據(jù)密集型研究[11]。用戶也可通過平臺(tái)聯(lián)系到相關(guān)館員或?qū)<遥瑓f(xié)助其解決在數(shù)據(jù)管理過程中所遇到的各種問題,還可以根據(jù)自身需求,提出定制化、個(gè)性化的數(shù)據(jù)管理支持服務(wù)。
河海大學(xué)圖書館將基于機(jī)構(gòu)知識(shí)庫構(gòu)建的科學(xué)數(shù)據(jù)管理平臺(tái)納入到參考咨詢服務(wù)框架中。基于該平臺(tái),圖書館可為用戶提供館員咨詢、技術(shù)專家咨詢等多種咨詢渠道,以滿足其不同層面的科學(xué)數(shù)據(jù)需求。其中數(shù)據(jù)館員可以利用自身專業(yè)知識(shí)和業(yè)務(wù)技能幫助用戶有效檢索、發(fā)現(xiàn)、利用科學(xué)數(shù)據(jù)平臺(tái)中已有的數(shù)據(jù)資源及相關(guān)服務(wù);技術(shù)專家可以為用戶提供科學(xué)數(shù)據(jù)平臺(tái)中關(guān)于數(shù)據(jù)訪問、元數(shù)據(jù)創(chuàng)建等方面的技術(shù)知識(shí)和相關(guān)技能。
基于已構(gòu)建的科學(xué)數(shù)據(jù)管理平臺(tái),河海大學(xué)圖書館通過線上、線下的不同方式,為不同層面的對(duì)象定期開展數(shù)據(jù)素養(yǎng)培訓(xùn)服務(wù)。培訓(xùn)服務(wù)的具體課程有數(shù)據(jù)素養(yǎng)課程、數(shù)據(jù)管理課程、實(shí)踐操作課程等。
針對(duì)館員的數(shù)據(jù)素養(yǎng)培訓(xùn)內(nèi)容主要包括以下兩個(gè)方面:一是提高館員的數(shù)據(jù)管理服務(wù)意識(shí)。館員作為科學(xué)數(shù)據(jù)管理平臺(tái)的管理者、服務(wù)者,需注重自身對(duì)于數(shù)據(jù)管理的內(nèi)在意識(shí),積極主動(dòng)了解用戶需求,并提供相關(guān)服務(wù)。二是強(qiáng)化館員的數(shù)據(jù)管理能力。館員應(yīng)結(jié)合本學(xué)科專業(yè)知識(shí),將本學(xué)科相關(guān)科學(xué)數(shù)據(jù)納入館藏、教學(xué)和咨詢工作,了解學(xué)科專業(yè)知識(shí),不斷學(xué)習(xí)開展數(shù)據(jù)管理的先進(jìn)技術(shù)、手段,創(chuàng)新服務(wù)內(nèi)容。
針對(duì)用戶的數(shù)據(jù)素養(yǎng)培訓(xùn)內(nèi)容主要包括以下三個(gè)方面:第一,培養(yǎng)用戶,尤其是科研人員的數(shù)據(jù)管理意識(shí),使其了解國家、相關(guān)機(jī)構(gòu)對(duì)于科學(xué)數(shù)據(jù)管理的政策要求,充分認(rèn)識(shí)到科學(xué)數(shù)據(jù)對(duì)于學(xué)科發(fā)展、科研工作、履行義務(wù)等方面的重要性,同時(shí)提高其對(duì)于數(shù)據(jù)所有權(quán)、隱私權(quán)、知識(shí)產(chǎn)權(quán)的保護(hù)意識(shí),以及數(shù)據(jù)開放獲取的共享意識(shí)。第二,提高用戶數(shù)據(jù)管理操作技能,包括科學(xué)數(shù)據(jù)的元數(shù)據(jù)描述方法、上傳要求、發(fā)現(xiàn)方法、檢索策略等方面的知識(shí)與技能,幫助用戶了解科學(xué)數(shù)據(jù)提交、獲取、使用、評(píng)價(jià)等方面的數(shù)據(jù)素養(yǎng)能力。第三,提高用戶數(shù)據(jù)管理能力,例如,通過一小時(shí)講座的形式開展數(shù)據(jù)分析、數(shù)據(jù)管理、數(shù)據(jù)可視化等各類型數(shù)據(jù)分析軟件的培訓(xùn)課程,面向不同需求和不同層次的用戶開展針對(duì)性、個(gè)性化、持續(xù)性的數(shù)據(jù)素養(yǎng)講座、培訓(xùn),促進(jìn)用戶更好地進(jìn)行科研數(shù)據(jù)管理工作。
FAIR原則對(duì)于數(shù)據(jù)管理平臺(tái)規(guī)范數(shù)據(jù)管理流程具有重要意義。一方面,在圍繞科學(xué)數(shù)據(jù)的產(chǎn)生、管理和發(fā)布的各個(gè)環(huán)節(jié),明確各方的責(zé)任與義務(wù),建立符合FAIR原則的規(guī)范、流程、評(píng)價(jià)標(biāo)準(zhǔn),并不斷建設(shè)支撐這些管理措施實(shí)施的技術(shù)環(huán)境;另一方面,通過FAIR原則的實(shí)施,建設(shè)可重用的科學(xué)數(shù)據(jù),實(shí)現(xiàn)科學(xué)數(shù)據(jù)價(jià)值的最大化。
河海大學(xué)圖書館在FAIR原則指導(dǎo)下,基于機(jī)構(gòu)知識(shí)庫構(gòu)建科學(xué)數(shù)據(jù)管理平臺(tái),基于都柏林元數(shù)據(jù)等標(biāo)準(zhǔn)收集、組織、存儲(chǔ)數(shù)據(jù),并在平臺(tái)中集成ORCID、DataCite 等數(shù)據(jù)共享工具,為河海大學(xué)科研人員提供了一個(gè)開展數(shù)據(jù)管理的專業(yè)平臺(tái),該平臺(tái)不僅滿足用戶對(duì)科學(xué)數(shù)據(jù)的提交、發(fā)布、存儲(chǔ)和檢索等需求,同時(shí)還支持用戶進(jìn)行在線合作研究。在協(xié)助河海大學(xué)科研人員申請(qǐng)項(xiàng)目、協(xié)作科研、開展數(shù)據(jù)管理等方面發(fā)揮了重要作用,并且已在用戶群體中產(chǎn)生了一定影響。
但是,基于機(jī)構(gòu)知識(shí)庫構(gòu)建的科學(xué)數(shù)據(jù)管理平臺(tái)在元數(shù)據(jù)支持、用戶體驗(yàn)等方面尚存在一些問題,有待今后不斷改進(jìn)完善。例如,平臺(tái)現(xiàn)有的元數(shù)據(jù)標(biāo)準(zhǔn)主要采用的是DCMI基礎(chǔ)元數(shù)據(jù),不足以支持影音、地圖等特殊類型的數(shù)據(jù)描述,后續(xù)可結(jié)合本機(jī)構(gòu)科學(xué)數(shù)據(jù)的具體特征、用戶需求等綜合情況進(jìn)一步完善。