曾麗瑩 劉茲恒 (北京大學(xué)信息管理系 北京 100871)
在信息與網(wǎng)絡(luò)技術(shù)迅速發(fā)展的推動下,科學(xué)模式產(chǎn)生了巨大變革,科學(xué)研究逐漸朝數(shù)據(jù)密集驅(qū)動型的方向發(fā)展。科研數(shù)據(jù)不僅是科研機(jī)構(gòu)的學(xué)術(shù)產(chǎn)出,還是科學(xué)研究的重要基礎(chǔ),其價值日益凸顯。為滿足日趨強(qiáng)烈的科研數(shù)據(jù)管理與共享需求,目前已有越來越多的高校通過建立科研數(shù)據(jù)知識庫來存儲、發(fā)布、開放和共享科研數(shù)據(jù)。
數(shù)據(jù)知識庫,又稱數(shù)據(jù)倉儲、數(shù)據(jù)資源庫等,是通過存儲和管理科研數(shù)據(jù)來支持科研活動及知識創(chuàng)造的數(shù)字知識庫[1]。截至2017年3月,全球已有1 831個科研數(shù)據(jù)知識庫在re3data.org上登記注冊,其中有多學(xué)科數(shù)據(jù)知識庫1 571個,機(jī)構(gòu)數(shù)據(jù)知識庫467個[2]。在這些數(shù)據(jù)知識庫中,由高校建設(shè)或參與建設(shè)的有211個。為了解國內(nèi)外高校科研數(shù)據(jù)知識庫建設(shè)現(xiàn)狀,本文以在re3data.org上登記注冊的211個高校科研數(shù)據(jù)知識庫為研究對象,對全球高校科研數(shù)據(jù)知識庫的基本情況、數(shù)據(jù)管理和數(shù)據(jù)利用進(jìn)行調(diào)研和分析,總結(jié)其發(fā)展的特點(diǎn),從而為我國高校科研數(shù)據(jù)管理與共享提供借鑒。
1.1 建成時間分布
由于re3data.org上并未注明各科研數(shù)據(jù)知識庫建成的時間,我們通過對各科研數(shù)據(jù)知識庫網(wǎng)站直接進(jìn)行調(diào)研,最終確定了86個科研數(shù)據(jù)知識庫的建成時間。其中,由博爾德大學(xué)與美國國家冰雪數(shù)據(jù)中心、美國國家宇航局、美國國家科學(xué)基金會等在1982年聯(lián)合建立的美國國家宇航局分布式全國冰雪數(shù)據(jù)中心主動存檔中心(NASA Distributed Active Archive Center at National Snow & Ice Data Center)是最早的科研數(shù)據(jù)知識庫[3]。而從科研數(shù)據(jù)知識庫建成的時間分布來看,只有8%是在2003年之前建立的(見下頁圖1)。2003年之后,科研數(shù)據(jù)知識庫數(shù)量整體呈波動上升的態(tài)勢,這說明高校科研數(shù)據(jù)知識庫自2003年之后逐漸進(jìn)入穩(wěn)步向前發(fā)展的階段。從全球開放存取的發(fā)展視角看,開放存取運(yùn)動起源于20世紀(jì)90年代,2002年布達(dá)佩斯會議召開,2003年《柏林宣言》和《百斯達(dá)開放存取式出版宣言》相繼頒布,開放存取從此也進(jìn)入實(shí)質(zhì)性發(fā)展階段。對比可知,高校科研數(shù)據(jù)知識庫的發(fā)展軌跡與全球開放存取運(yùn)動的發(fā)展態(tài)勢相符,開放存取理念推動了科研數(shù)據(jù)知識庫的發(fā)展。

圖1 高校科研數(shù)據(jù)知識庫建設(shè)時間分布
1.2 地域分布
211個高校科研數(shù)據(jù)知識庫的國家/地區(qū)分布結(jié)果如圖2所示。美國、英國、德國、澳大利亞和加拿大是高校科研數(shù)據(jù)知識庫建設(shè)數(shù)量排名靠前的5個國家,其中美國有90個,占總量的42.7%;英國和德國有64個,占總量的30.3%。中國注冊在案的只有兩個科研數(shù)據(jù)知識庫,分別是北京大學(xué)建立的開放研究數(shù)據(jù)平臺,華中科技大學(xué)和中國科學(xué)技術(shù)大學(xué)與杜鵑工作組(cuckoo workgroup)共同建立的蛋白賴氨酸修飾綱要庫(Compendium of Protein Lysine Modifications)。

圖2 高校科研數(shù)據(jù)知識庫國家/地區(qū)分布情況
由此可見,在全球范圍內(nèi),北美和歐洲發(fā)達(dá)國家高校建設(shè)的科研數(shù)據(jù)知識庫數(shù)量較多,而我國和其他地區(qū)的高校科研數(shù)據(jù)知識庫建設(shè)較為薄弱。我國高校應(yīng)該借鑒歐美國家的建設(shè)實(shí)踐和成功經(jīng)驗(yàn),加快科研數(shù)據(jù)知識庫建設(shè)進(jìn)程。
1.3 類別分布
全球高校科研數(shù)據(jù)知識庫按照建設(shè)目的和存儲內(nèi)容可分為3種類型,一是通用型機(jī)構(gòu)知識庫,主要保存高校科研人員的研究成果并提供開放存取,其內(nèi)容以學(xué)位論文和會議論文等文字型出版物為主,但也包含科研數(shù)據(jù),如劍橋大學(xué)機(jī)構(gòu)知識庫、圣愛德華大學(xué)機(jī)構(gòu)知識庫等。二是專門的科研數(shù)據(jù)知識庫,以高校為主體建立,主要存儲和發(fā)布科研人員的研究數(shù)據(jù),如北京大學(xué)開放研究數(shù)據(jù)平臺、莫納什大學(xué)研究數(shù)據(jù)知識庫等。三是專題型科研數(shù)據(jù)知識庫,由高校研究機(jī)構(gòu)與校外研究中心合作建立,如康奈爾大學(xué)與美國農(nóng)產(chǎn)品銷售局、經(jīng)濟(jì)研究局等建立的美國農(nóng)業(yè)部經(jīng)濟(jì)、統(tǒng)計(jì)和市場信息系統(tǒng),加州大學(xué)勞倫斯伯克利國家實(shí)驗(yàn)室和美國地質(zhì)調(diào)查局等建立的北加利福尼亞地震數(shù)據(jù)中心等。
在這211個高校科研數(shù)據(jù)知識庫中,專門的科研數(shù)據(jù)知識庫占比最大(41%),其次是專題型科研數(shù)據(jù)知識庫,最后是通用型機(jī)構(gòu)知識庫(見圖3)。這說明高校對科研數(shù)據(jù)的重視程度比較高,建立專門的科研數(shù)據(jù)知識庫對科研數(shù)據(jù)進(jìn)行專門的管理是高校較為普遍的做法。部分高校雖然并未建立專門的科研數(shù)據(jù)知識庫,但利用機(jī)構(gòu)知識庫來存儲、管理和共享科研數(shù)據(jù),使機(jī)構(gòu)知識庫成為了高校科研數(shù)據(jù)管理的便捷途徑之一。

圖3 高校科研數(shù)據(jù)知識庫類型分布
1.4 學(xué)科分布
re3data.org將科研數(shù)據(jù)知識庫的學(xué)科分為人文社會科學(xué)、生命科學(xué)、自然科學(xué)和工程科學(xué)4大類。211個高校科研數(shù)據(jù)知識庫的學(xué)科領(lǐng)域分布如表1所示。整體來看,涉及生命科學(xué)、人文社會科學(xué)和自然科學(xué)領(lǐng)域的科研數(shù)據(jù)知識庫數(shù)量較多,分別有136、129和121個,占知識庫總量的64.45%、61.14%和57.35%;涉及工程科學(xué)數(shù)據(jù)的知識庫數(shù)量相對較少,僅有39.81%。在所有科研數(shù)據(jù)知識庫中,只有7%(14個)的知識庫同時含有人文社會科學(xué)、生命科學(xué)、自然科學(xué)和工程科學(xué)4個學(xué)科領(lǐng)域的數(shù)據(jù)。

表1 高校科研數(shù)據(jù)知識庫科研數(shù)據(jù)所屬學(xué)科分布
生命科學(xué)領(lǐng)域科研數(shù)據(jù)由生物體或組織的核酸、基因等通用數(shù)據(jù)和臨床實(shí)驗(yàn)數(shù)據(jù)組成,具有數(shù)量大、數(shù)據(jù)多源異構(gòu)和數(shù)據(jù)整合分析復(fù)雜等特點(diǎn)[4]。自然科學(xué)諸如物理、化學(xué)、地球地質(zhì)等學(xué)科,也擁有大量的實(shí)驗(yàn)、計(jì)算數(shù)據(jù),科研數(shù)據(jù)規(guī)模較大,而人文社會科學(xué)數(shù)據(jù)規(guī)模相對較小。由此可見,高校科研數(shù)據(jù)知識庫中數(shù)據(jù)類型分布與學(xué)科數(shù)據(jù)特點(diǎn)大致相符。但從整體來看,高校科研數(shù)據(jù)知識庫還是有些偏科情況,對人文社會科學(xué)和工程科學(xué)領(lǐng)域的科研數(shù)據(jù)重視、挖掘程度不夠。
1.5 數(shù)據(jù)資源類型
高校科研數(shù)據(jù)知識庫存儲的內(nèi)容類型多樣,包括歸檔數(shù)據(jù)、音像數(shù)據(jù)、配置數(shù)據(jù)、數(shù)據(jù)庫、圖片、網(wǎng)絡(luò)數(shù)據(jù)、純文本、原始數(shù)據(jù)、科學(xué)和統(tǒng)計(jì)數(shù)據(jù)格式、軟件應(yīng)用、源代碼、標(biāo)準(zhǔn)辦公文檔、結(jié)構(gòu)化圖形、結(jié)構(gòu)化文本以及其他共13種數(shù)據(jù)類型,如圖4所示。

圖 4 高校科研數(shù)據(jù)知識庫數(shù)據(jù)類型分布
從數(shù)據(jù)類型數(shù)量上看,高校科研數(shù)據(jù)知識庫存儲量最多的是標(biāo)準(zhǔn)辦公文檔(包括Word、Excel、PPT等)、純文本、圖片和科學(xué)統(tǒng)計(jì)數(shù)據(jù),其次是原始數(shù)據(jù)、結(jié)構(gòu)化文本、音像數(shù)據(jù)、結(jié)構(gòu)化圖形,而存儲配置數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、源代碼和軟件應(yīng)用的科研數(shù)據(jù)知識庫較少。
從數(shù)據(jù)類型劃分來看,高校科研數(shù)據(jù)知識庫存在如下問題:①類別不清晰,如歸檔數(shù)據(jù)和原始數(shù)據(jù)其實(shí)是數(shù)據(jù)泛稱,并非是特定的數(shù)據(jù)格式;②格式不統(tǒng)一,同種數(shù)據(jù)存在多種格式,如純文本和結(jié)構(gòu)化文本;③數(shù)據(jù)加工層次不夠,高校科研數(shù)據(jù)知識庫的數(shù)據(jù)大都以科研人員上傳的原始面貌呈現(xiàn),在數(shù)據(jù)的規(guī)范化處理和加工描述上仍有欠缺。
2.1 數(shù)據(jù)管理政策
數(shù)據(jù)管理政策是高校按照數(shù)據(jù)生命周期管理科研數(shù)據(jù)的規(guī)范和保障[5]。高校在建立科研數(shù)據(jù)知識庫時也會發(fā)布相應(yīng)的數(shù)據(jù)政策。本次調(diào)查發(fā)現(xiàn),在211個高校科研數(shù)據(jù)知識庫中,只有14.7%(31個)的科研數(shù)據(jù)知識庫沒有頒布數(shù)據(jù)政策,而頒布1項(xiàng)數(shù)據(jù)管理政策的科研知識庫數(shù)量最多,占40.3%,之后科研數(shù)據(jù)知識庫數(shù)量與政策數(shù)量成反比,如圖5所示。

圖5 高校科研數(shù)據(jù)知識庫頒布政策數(shù)量及知識庫數(shù)量
發(fā)布數(shù)據(jù)政策數(shù)量最多的是愛丁堡大學(xué)數(shù)據(jù)知識庫(Edinburgh DataShare),政策內(nèi)容包括:使用條款和條件、數(shù)據(jù)知識庫存儲協(xié)議、數(shù)據(jù)和元數(shù)據(jù)政策、保護(hù)政策、提交政策、內(nèi)容政策和服務(wù)政策;其次是卡爾加里大學(xué)機(jī)構(gòu)知識庫、普渡大學(xué)研究知識庫和北卡羅萊納大學(xué)數(shù)據(jù)知識庫。上述4個數(shù)據(jù)知識庫的數(shù)據(jù)政策內(nèi)容如下頁表2所示。
具體來看,各高校科研數(shù)據(jù)知識庫發(fā)布的數(shù)據(jù)政策內(nèi)容可分為5種類型:①專門的數(shù)據(jù)政策;②數(shù)據(jù)管理政策,包括數(shù)據(jù)管理、保存、分享和元數(shù)據(jù)政策;③數(shù)據(jù)使用政策,如使用條款或用戶使用條例;④數(shù)據(jù)獲取政策,如開放存取等;⑤數(shù)據(jù)保護(hù)、隱私和許可政策。發(fā)布各項(xiàng)政策的高校科研數(shù)據(jù)知識庫數(shù)量及其占比如下頁表3所示。由表3可知,頒布數(shù)據(jù)使用政策的高校科研數(shù)據(jù)知識庫數(shù)量最多,占比為22.75%;其次是數(shù)據(jù)管理政策,占比為10.43%;相對而言,發(fā)布數(shù)據(jù)獲取和數(shù)據(jù)保護(hù)、隱私和許可政策的知識庫數(shù)量較少。
整體來看,絕大部分高校科研數(shù)據(jù)知識庫都發(fā)布了數(shù)據(jù)政策,個別科研數(shù)據(jù)知識庫如愛丁堡大學(xué)數(shù)據(jù)知識庫和卡爾加里大學(xué)機(jī)構(gòu)知識庫等的數(shù)據(jù)政策內(nèi)容比較完備,涵蓋數(shù)據(jù)管理、數(shù)據(jù)使用、獲取、保護(hù)、隱私和許可等各方面。除此之外,近一半的科研數(shù)據(jù)知識庫政策內(nèi)容只涉及數(shù)據(jù)使用和獲取,涉及數(shù)據(jù)保護(hù)、隱私、許可和管理的不多,存在政策內(nèi)容類型單一、內(nèi)容層次不夠完善的問題。而這會使研究人員的科研數(shù)據(jù)缺乏政策保障,科研人員會面臨科研成果被侵權(quán)的風(fēng)險,其利用知識庫存儲和共享科研數(shù)據(jù)的積極性也會受到影響。

表2 部分高校科研數(shù)據(jù)知識庫數(shù)據(jù)政策內(nèi)容

表3 高校科研數(shù)據(jù)知識庫數(shù)據(jù)管理政策內(nèi)容及知識庫數(shù)量
2.2 元數(shù)據(jù)標(biāo)準(zhǔn)
高校在利用科研數(shù)據(jù)知識庫管理科研數(shù)據(jù)時,需要采用相應(yīng)的元數(shù)據(jù)標(biāo)準(zhǔn)對科研數(shù)據(jù)進(jìn)行描述,以便用戶對數(shù)據(jù)進(jìn)行存儲、組織和檢索。筆者通過調(diào)研發(fā)現(xiàn),高校科研數(shù)據(jù)知識庫采用的元數(shù)據(jù)標(biāo)準(zhǔn)按照學(xué)科類別可分為一般科研數(shù)據(jù)、生物科學(xué)、地球科學(xué)、社會與人文以及其他5個類別。高校科研數(shù)據(jù)知識庫在一般科研數(shù)據(jù)領(lǐng)域采用的元數(shù)據(jù)標(biāo)準(zhǔn)有都柏林核心(DC)元數(shù)據(jù)和數(shù)據(jù)引用元數(shù)據(jù)框架。生物科學(xué)領(lǐng)域采用的元數(shù)據(jù)標(biāo)準(zhǔn)有達(dá)爾文核心元數(shù)據(jù)(基于都柏林核心元數(shù)據(jù)產(chǎn)生的生物學(xué)領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn),被看作是DC元數(shù)據(jù)的生物學(xué)擴(kuò)展)和ISA-Tab。地球科學(xué)領(lǐng)域采用較多的是地理信息元數(shù)據(jù)和地理空間數(shù)據(jù)元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn)。人文社會科學(xué)領(lǐng)域主要采用的是應(yīng)用于社會和行為科學(xué)數(shù)據(jù)文檔的標(biāo)準(zhǔn)——數(shù)據(jù)存檔計(jì)劃DDI。具體元數(shù)據(jù)標(biāo)準(zhǔn)及其采用的知識庫數(shù)量如表4所示。
從整體來看,高校科研數(shù)據(jù)知識庫采用的元數(shù)據(jù)標(biāo)準(zhǔn)類型多樣,這說明高校針對不同學(xué)科、不同主題的科研數(shù)據(jù)選用了不同的元數(shù)據(jù)標(biāo)準(zhǔn),科研數(shù)據(jù)描述更有針對性;但就具體學(xué)科來看,同一領(lǐng)域如生物和地球科學(xué),不同科研數(shù)據(jù)知識庫采用的元數(shù)據(jù)標(biāo)準(zhǔn)不盡相同,使用比較分散。
3.1 數(shù)據(jù)資源規(guī)模
科研數(shù)據(jù)知識庫資源包括科研數(shù)據(jù)集、文件、調(diào)查項(xiàng)目等,科研數(shù)據(jù)知識庫資源數(shù)量反映了其資源建設(shè)的豐富性。43%的高校在re3data.org網(wǎng)站上公布了科研數(shù)據(jù)知識庫的資源規(guī)模,存儲的資源包括數(shù)據(jù)庫(Dataverse)、數(shù)據(jù)集、文件、圖片、項(xiàng)目、記錄、條目、調(diào)查及其他等各種形式數(shù)據(jù)。不同科研數(shù)據(jù)知識庫因其存儲的科研數(shù)據(jù)類型不同,其資源規(guī)模的計(jì)量方式也不同。但整體來說,在各高校科研數(shù)據(jù)知識庫中,專題科研數(shù)據(jù)知識庫以收集、存儲和管理學(xué)科或項(xiàng)目科研數(shù)據(jù)為主要目的,而且大都以特定的科研機(jī)構(gòu)或科研項(xiàng)目為基礎(chǔ),因而其科研數(shù)據(jù)規(guī)模最大、數(shù)據(jù)量較為豐富;其次為存儲高校科研人員科研數(shù)據(jù)的專門科研數(shù)據(jù)知識庫;而機(jī)構(gòu)知識庫的內(nèi)容以科研文獻(xiàn)為主,科研數(shù)據(jù)存儲規(guī)模相對較小。部分高校科研數(shù)據(jù)知識庫的數(shù)據(jù)量可如表5所示。

表5 部分高校科研數(shù)據(jù)知識庫資源數(shù)量
科研數(shù)據(jù)的規(guī)模和數(shù)量反映了科研數(shù)據(jù)知識庫資源的豐富性,數(shù)據(jù)規(guī)模越大,用戶可獲取的資源就越多,就能越好地對科研數(shù)據(jù)進(jìn)行開發(fā)和利用。高校在建設(shè)科研數(shù)據(jù)知識庫時,應(yīng)注重?cái)U(kuò)大科研數(shù)據(jù)資源的規(guī)模,鼓勵科研人員通過知識庫來保存和共享科研數(shù)據(jù)。
3.2 數(shù)據(jù)許可協(xié)議
科研數(shù)據(jù)的共享和重用過程很容易產(chǎn)生知識產(chǎn)權(quán)糾紛。為消除知識產(chǎn)權(quán)帶來的限制,科研人員一般通過知識產(chǎn)權(quán)許可機(jī)制來賦予他人合法使用科研數(shù)據(jù)的權(quán)利[6]。目前,211個國內(nèi)外高校科研數(shù)據(jù)知識庫采取的數(shù)據(jù)許可協(xié)議有Apache許可證2.0版(Apache license2.0)、BSD開源協(xié)議(BSD)、知識共享許可協(xié)議(CC)、CC0許可協(xié)議、版權(quán)聲明(Copyrights)、開放數(shù)據(jù)公用許可(ODC)、開放政府許可協(xié)議(OGL)、公共領(lǐng)域許可(Public Domain)、互惠許可(Reciprocal License,簡稱RL)和其他共10種,采用各項(xiàng)數(shù)據(jù)許可協(xié)議的高校科研數(shù)據(jù)知識庫數(shù)量如圖6所示。
除了不明確的“其他”類數(shù)據(jù)許可協(xié)議之外,高校科研數(shù)據(jù)知識庫采用最多的數(shù)據(jù)許可協(xié)議是CC,即在聲明自身版權(quán)的前提下允許他人合法分享、使用和演繹科研數(shù)據(jù),這既能幫助高校科研數(shù)據(jù)知識庫實(shí)現(xiàn)資源共享,又能保護(hù)科研人員享有的版權(quán),是平衡數(shù)據(jù)共享(公共利益)和版權(quán)保護(hù)(作者利益)的靈活方式。其次是版權(quán)聲明,即標(biāo)明版權(quán)所屬,只允許在法律允許范圍內(nèi)使用,這與CC的區(qū)別是,用戶可以不經(jīng)作者或其他著作權(quán)人同意而使用其已發(fā)表的作品,但應(yīng)按照規(guī)定支付報(bào)酬并注明出處,這種版權(quán)聲明對用戶的限制力度較CC大。之后是公共領(lǐng)域許可和CC0許可協(xié)議,這兩種數(shù)據(jù)許可協(xié)議同意完全將科研數(shù)據(jù)置于公共領(lǐng)域,實(shí)現(xiàn)科研數(shù)據(jù)的無門檻訪問。
3.3 知識庫的開放程度
科研數(shù)據(jù)知識庫作為科研數(shù)據(jù)保存和共享的重要載體,其開放程度可以從數(shù)據(jù)上傳和數(shù)據(jù)獲取兩方面來評判。211個高校科研數(shù)據(jù)知識庫的數(shù)據(jù)上傳有封閉、公開和限制3種狀態(tài);數(shù)據(jù)訪問有封閉、限時、限制和公開4種狀態(tài);數(shù)據(jù)上傳和訪問的限制方法有付費(fèi)、機(jī)構(gòu)會員、注冊和其他4種類型。機(jī)構(gòu)科研數(shù)據(jù)知識庫的數(shù)據(jù)上傳和訪問也可以同時有多種開放狀態(tài)、多種限制類型。數(shù)據(jù)上傳和數(shù)據(jù)獲取的不同開放程度知識庫數(shù)量分別如圖7和圖8所示。

圖6 高校科研數(shù)據(jù)知識庫數(shù)據(jù)許可協(xié)議使用數(shù)量

圖7 高校科研數(shù)據(jù)知識庫數(shù)據(jù)上傳開放程度

圖8 高校科研數(shù)據(jù)知識庫數(shù)據(jù)可訪問情況
由圖7可知,絕大部分高校科研數(shù)據(jù)知識庫在數(shù)據(jù)上傳方面都是限制(158個)或不開放(50個)上傳,可供公眾自由上傳數(shù)據(jù)的知識庫只有5個。數(shù)據(jù)上傳的限制類型主要是知識庫注冊(84個)和成為機(jī)構(gòu)會員(63個)。
高校科研數(shù)據(jù)知識庫內(nèi)不同科研數(shù)據(jù)的開放訪問程度也不同,同一知識庫可能有多種數(shù)據(jù)訪問類型。由圖8可知,90%(190個)的科研數(shù)據(jù)知識庫支持部分?jǐn)?shù)據(jù)全公開訪問,50%(114個)的科研數(shù)據(jù)知識庫實(shí)行數(shù)據(jù)的限制性訪問,21%(44個)的科研數(shù)據(jù)知識庫實(shí)行數(shù)據(jù)的限時訪問,另外還有29個科研數(shù)據(jù)知識庫不開放數(shù)據(jù)訪問。
整體來看,高校科研數(shù)據(jù)知識庫主要對注冊用戶和機(jī)構(gòu)內(nèi)用戶開放,符合高校為機(jī)構(gòu)內(nèi)科研人員數(shù)據(jù)存檔的需求。同時,非完全公開數(shù)據(jù)上傳也有助于控制數(shù)據(jù)質(zhì)量。目前,絕大部分高校科研數(shù)據(jù)知識庫的數(shù)據(jù)是完全面向公眾開放的,這與其實(shí)現(xiàn)科研數(shù)據(jù)共享的初衷一致。
綜合數(shù)據(jù)許可協(xié)議和開放程度來看,高校建立的科研數(shù)據(jù)知識庫重視資源的開放、共享和使用,為用戶利用科研數(shù)據(jù)提供了便利。
4.1 建立完整的數(shù)據(jù)政策,提供完善的數(shù)據(jù)服務(wù)體系。
211個高校科研數(shù)據(jù)知識庫制定的數(shù)據(jù)管理政策內(nèi)容以數(shù)據(jù)使用協(xié)議為主,在科研數(shù)據(jù)管理、共享、保護(hù)和隱私方面涉及較少。由于管理政策關(guān)乎科研數(shù)據(jù)的質(zhì)量,共享政策關(guān)乎科研數(shù)據(jù)的訪問和利用,數(shù)據(jù)保護(hù)和隱私政策關(guān)乎科研人員的知識產(chǎn)權(quán)和隱私保護(hù),這幾方面都會影響科研數(shù)據(jù)知識庫的建設(shè)和使用,因此,高校科研數(shù)據(jù)知識庫應(yīng)制定一套包含存儲、獲取、管理、開放、使用、隱私和保護(hù)等整個過程的完整政策法規(guī),為科研數(shù)據(jù)管理和共享建立政策支撐和法規(guī)保障。
在完整的數(shù)據(jù)政策的指導(dǎo)下,高校科研數(shù)據(jù)知識庫還應(yīng)建立一套包括數(shù)據(jù)管理計(jì)劃、數(shù)據(jù)采集與加工、數(shù)據(jù)組織與標(biāo)引、數(shù)據(jù)保存、數(shù)據(jù)獲取與復(fù)用、版權(quán)咨詢和數(shù)據(jù)管理素養(yǎng)等在內(nèi)的科研數(shù)據(jù)管理與共享服務(wù)體系。通過完善的數(shù)據(jù)服務(wù),滿足科研人員數(shù)據(jù)管理與共享的需求,提升科研人員數(shù)據(jù)存檔和管理的積極性,豐富科研數(shù)據(jù)知識庫資源數(shù)量。
4.2 完善元數(shù)據(jù)管理,建立數(shù)據(jù)處理和加工規(guī)范。
由調(diào)查可知,不同高校用于描述科研數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)不盡相同,特定學(xué)科表現(xiàn)尤為明顯,存在元數(shù)據(jù)標(biāo)準(zhǔn)使用分散、管理不到位的問題。高校在如火如荼地建設(shè)科研數(shù)據(jù)知識庫的同時,還應(yīng)重視科研數(shù)據(jù)的元數(shù)據(jù)管理,即結(jié)合不同學(xué)科特征,分別選定統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),再在此基礎(chǔ)上對元數(shù)據(jù)方案進(jìn)行個性化和開放性的擴(kuò)展,在保證通用性的前提下,滿足個性化需求,從而更好地實(shí)現(xiàn)數(shù)據(jù)組織、利用、整合和長期保存。
科研數(shù)據(jù)管理與共享服務(wù)的落腳點(diǎn)在于科研數(shù)據(jù)的增值利用和再創(chuàng)造,這就涉及到數(shù)據(jù)處理和加工的問題。科研數(shù)據(jù)越規(guī)范,加工程度越高,其利用效能就越大。高校在建立科研數(shù)據(jù)知識庫時,應(yīng)制定一套規(guī)范的數(shù)據(jù)處理和加工流程,對科研數(shù)據(jù)進(jìn)行深層次的揭示和規(guī)范化的呈現(xiàn),挖掘科研數(shù)據(jù)的內(nèi)在價值,進(jìn)而實(shí)現(xiàn)科研數(shù)據(jù)產(chǎn)出、存儲、重用和再造的良性循環(huán)。
此外,不同學(xué)科的研究方法和研究過程不完全相同,所產(chǎn)生的科研數(shù)據(jù)的呈現(xiàn)形式、數(shù)據(jù)格式與所需存儲空間也必然不盡相同。高校在建立科研數(shù)據(jù)知識庫時,要考慮多種數(shù)據(jù)格式的存儲和利用問題,注重?cái)?shù)據(jù)知識庫基礎(chǔ)設(shè)施的靈活和可擴(kuò)展性,即要建立一個可重構(gòu)、可長期利用的科研數(shù)據(jù)知識庫。
4.3 豐富知識庫的學(xué)科和內(nèi)容覆蓋面,擴(kuò)大知識庫科研數(shù)據(jù)資源規(guī)模。
在211個高校科研數(shù)據(jù)知識庫中,只有7%的數(shù)據(jù)類型涵蓋生命科學(xué)、自然科學(xué)、人文社會科學(xué)和工程科學(xué)4個學(xué)科內(nèi)容,其他數(shù)據(jù)知識庫存儲的科研數(shù)據(jù)所涉學(xué)科不夠完整。就資源數(shù)量來說,各高校科研數(shù)據(jù)知識庫的存儲規(guī)模普遍較小,且以標(biāo)準(zhǔn)化文檔、文本和圖片等為主,可重用的元數(shù)據(jù)和數(shù)據(jù)集資源較少。
高校科研數(shù)據(jù)知識庫服務(wù)最終面向各個學(xué)科、各個研究機(jī)構(gòu)和全體科研人員,高校在建設(shè)科研數(shù)據(jù)知識庫時,應(yīng)注重多學(xué)科綜合發(fā)展,拓寬服務(wù)群體,擴(kuò)大知識庫的學(xué)科和內(nèi)容覆蓋面。與此同時,高校還應(yīng)盡量擴(kuò)大知識庫的科研數(shù)據(jù)資源規(guī)模,一方面采取多種措施鼓勵科研人員通過知識庫來保存和共享科研數(shù)據(jù);另一方面還可以依托圖書館員,通過嵌入科研機(jī)構(gòu)和課題組的科研過程,主動收集和整理保存科研數(shù)據(jù),豐富科研數(shù)據(jù)知識庫資源。
4.4 借鑒國外經(jīng)驗(yàn),加快推進(jìn)我國高校科研數(shù)據(jù)管理與共享機(jī)制。
全球在re3data.org上注冊的1 831個數(shù)據(jù)知識庫中只有211個是高校建立或參與建立的,高校是科研事業(yè)的重要主體和科研數(shù)據(jù)產(chǎn)出的重要來源,但高校建設(shè)科研數(shù)據(jù)知識庫的比例卻不到12%,這說明高校科研數(shù)據(jù)管理與共享整體較為滯后。而在已建立科研數(shù)據(jù)知識庫的高校中,歐美發(fā)達(dá)國家建立的數(shù)量較多,亞非等發(fā)展中國家建設(shè)的數(shù)量少,造成了地域和國別差異較大。
目前,我國也只有北京大學(xué)等少數(shù)高校建立了開放研究數(shù)據(jù)平臺,整體來看高校科研數(shù)據(jù)管理與共享機(jī)制建設(shè)非常薄弱。科研數(shù)據(jù)管理與共享對高校科研工作的發(fā)展有著重要的價值,我國高校應(yīng)加快建立科研數(shù)據(jù)管理與共享機(jī)制,制定統(tǒng)一的科研數(shù)據(jù)管理與共享政策規(guī)范,完善科研數(shù)據(jù)管理與共享服務(wù)體系,建設(shè)科研數(shù)據(jù)管理與共享基礎(chǔ)設(shè)施,為科學(xué)研究提供強(qiáng)有力的資源和服務(wù)支持。
當(dāng)前,科學(xué)研究正在朝數(shù)據(jù)密集型的第四范式發(fā)展,科研數(shù)據(jù)的價值不斷凸顯,科研數(shù)據(jù)管理和共享的需求日益增長。高校作為科研的重要主體,通過建立科研數(shù)據(jù)知識庫來滿足科研人員的需求成為發(fā)展的必然。現(xiàn)今全球高校科研數(shù)據(jù)知識庫數(shù)量上進(jìn)入穩(wěn)步發(fā)展的階段,但在數(shù)據(jù)政策、數(shù)據(jù)覆蓋范圍和數(shù)據(jù)處理加工方面還很欠缺,軟硬件設(shè)施發(fā)展不協(xié)調(diào),也與快速增長的數(shù)據(jù)產(chǎn)出和數(shù)據(jù)需求不相符合。高校在建立科研數(shù)據(jù)知識庫時,應(yīng)建立完備的數(shù)據(jù)政策和數(shù)據(jù)管理與共享服務(wù)體系,擴(kuò)大科研數(shù)據(jù)知識庫的學(xué)科和內(nèi)容覆蓋面,完善元數(shù)據(jù)管理和數(shù)據(jù)處理規(guī)范。而我國高校也應(yīng)借鑒全球高校科研數(shù)據(jù)知識庫的發(fā)展經(jīng)驗(yàn),加快科研數(shù)據(jù)管理與共享機(jī)制的建設(shè)進(jìn)程,以推動科研創(chuàng)新和知識再創(chuàng)造。
[1]劉 峰,張曉林,孔麗華.科研數(shù)據(jù)知識庫研究述評[J].現(xiàn)代圖書情報(bào)技術(shù),2014,(2):25-31.
[2]NASA Distributed Active Archive Center at National Snow &Ice Data Center[EB/OL].[2017-03-19].https://nsidc.org/daac/.
[3]鄒麗雪,歐陽崢崢,王 輝.生命科學(xué)領(lǐng)域數(shù)據(jù)倉儲特點(diǎn)及服務(wù)分析[J].圖書情報(bào)工作,2016,60(7):59-66.
[4]魏 悅,劉桂峰.英國高校科研數(shù)據(jù)管理政策內(nèi)容調(diào)查及啟示[J].圖書情報(bào)研究,2016(4):35-44.
[5]王 舒,王 紅,宋曉丹.科研數(shù)據(jù)的知識產(chǎn)權(quán)保護(hù)與許可機(jī)制研究[J].圖書館論壇,2016,(4):65-71.