999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

國外典型科學數據倉儲實施的元數據方案及啟示

2015-11-21 02:07:40胡芳
圖書與情報 2015年1期
關鍵詞:科學用戶

胡芳

(1.中國科學院文獻情報中心 北京 100190)

(2.首都師范大學圖書館 北京 100089)

國外典型科學數據倉儲實施的元數據方案及啟示

胡芳

(1.中國科學院文獻情報中心 北京 100190)

(2.首都師范大學圖書館 北京 100089)

元數據方案是建立科學數據倉儲需考慮的核心問題之一。文章從功能目標、元數據元素和元數據方案特點三個維度,分析四個國外典型的科學數據倉儲(DataCite、GBIF、DataStaR和OTA)的元數據方案。結果表明:四個科學數據倉儲元數據方案各有特點,其元數據元素各不相同,但都以用戶需求為中心構建方案。我國制定科學數據倉儲元數據方案,需從考慮功能定位、應用現有元數據標準及相關框架及以用戶為中心等方面對方案進行評估。

科學數據倉儲;元數據方案;DataCite;GBIF;DataStaR;OTA

在大數據時代和E-science背景下,科學數據作為一種學術交流資源,其作用日益凸顯,有必要建立科學數據倉儲對科學數據進行組織、保存和再利用,對科學數據實施數據監護。其中,元數據是建立科學數據倉儲需考慮的核心問題之一。如何根據已有的元數據標準,并結合本機構特點,構建能滿足用戶存儲、檢索、復用和分享科學數據等需求的元數據框架方案,是建立科學數據倉儲和實施數據監護需要考慮的一個重要問題。

1 國內外研究現狀

國外對科學數據倉儲的研究比較早,早在2009年,期刊《Cataloging&Classification Quarterly》策劃了一個專輯:《Metadata and Open Access Repositories》專門探討元數據與開放存儲庫問題。國外關于該問題的研究內容主要包括:科學數據倉儲元數據實施案例研究;用戶信息行為研究;元數據質量;圖書館的角色。可見專門針對科學數據倉儲的元數據標準和方案的比較研究還不太多,研究者注重個案研究。

國內直接研究科學數據倉儲元數據問題的文獻較少,主要介紹了Dryad和UKDA的元數據管理問題;提出了高校科學數據設計的原則,并在都柏林核心元數據的基礎上,提出了具體的元數據方案。其它相關研究包括對科學數據監護的研究,對科學數據監護的研究主要體現在:國外數據監護總體介紹及啟示;國外數據監護崗位設置;圖書館的角色;國內科研人員調查。可以發現研究以介紹國外科學數據項目進展的文獻比較多,對已有的元數據標準以及適用性分析還不夠,而這恰恰是本文重點研究的內容。

2 國外幾個典型的科學數據倉儲元數據實踐方案

2.1 典型科學數據倉儲的選取及簡介

根據數據倉儲注冊系統Databib統計,目前數據倉儲建設數量比較多的國家集中在美國、英國和加拿大。在學科分布上,數量占比較高的學科是:生物、環境、地球科學、多學科科學等。從隸屬類型上分析,隸屬于政府和機構的數據倉儲比較多,少數隸屬商業公司。為體現不同類型數據倉儲的元數據建設方案特點,本文選擇了DataCite、GBIF、DataStaR和OTA四個倉儲作為典型案例進行分析。這四個倉儲分別來自多國合作、美國和英國,體現了目前數據倉儲建設的主要國家分布。在學科上也包括綜合和具體小學科,分別選取了生命科學和語言文學,一方面可以體現自然科學和人文科學各自的特點,另一方面根據Databib的統計分析,生物科學是目前數據倉儲分布數量比較集中的一個自然科學,而語言文學是人文社會科學中數量分布比較集中的一個學科。在機構上選取了兩個單機構和兩個多機構的數據倉儲,體現了不同的特點(見表1)。

表1 四個典型倉儲的基本信息

2.2 DataCite元數據方案

2.2.1 DataCite目標

DataCite是由加州大學數字圖書館、德國國家科技圖書館、大英圖書館、蘇黎世聯邦理工學院圖書館、法國科技信息研究所、丹麥國家技術信息中心、荷蘭代爾夫特理工大學圖書館、加拿大科技信息研究所、澳大利亞國家數據服務中心和普渡大學合作完成的項目,該項目于2010年1月1日正式啟動。

DataCite的目標是“促進科學研究數據的網絡便捷獲取、提升科學數據的引用價值,并支持數據存儲,以利于未來研究中的證實和復用。”因此,DataCite的元數據方案也主要支持科學數據的引用和發現。具體而言,包括如下四個功能:第一,基于少量的必備元素,制定數據的標準引用格式;第二,提供與其他元數據方案,尤其是領域有關的方案之間的互操作;第三,通過一些可選元素對資源進行靈活描述(與其它資源的關系、同一資源的其它版本等),促進對數據的發現;第四,通過建立可控詞表,以便未來提供深層次服務(如發現服務)。

2.2.2 DataCite元數據元素

DataCite的必備元素(核心元素)包括:識別符(Identifier)、創作者(Creator)、題名(Title)、出版者(Publisher)、出版年(Publication Year)。其中識別符是DOI,創作者是指制作數據的主要人員,出版者是指將數據發布給研究社區的機構。

DataCite的可選元素包括:主題(Subject)、貢獻者(Contributor)、日期(Data)、語言(Language)、資源類型(ResourceType)、其它識別符(AlternateIdentifier)、相關識別符(RelatedIdentifier)、大小(Size)、格式(Format)、版本(Version)、Rights(權利)、描述(Description)。其中,其它識別符、相關識別符和版本這三個元素主要用來描述對象之間和對象內部之間的復雜關系。DataCite在元數據方案中對相關識別符的具體屬性進行了限定,包括:被引(IsCitedBy)、引用(Cites)、部分(IsSupplementTo)等18種關系值。

2.2.3 DataCite元數據特點

DataCite的元數據方案呈現如下特點:第一,必備元素比較少,只有五項;第二,可選元素中突出對描述對象之間的復雜關系的元素,并設置了多種復雜的值,方便對科學數據的引用和發現;第三,設置專人管理元數據。DataCite在成立之初就組建了專門的元數據工作小組,負責元數據方案規劃和制定。該工作小組認為由于DataCite成員來自10個國家的11個圖書館和研究機構,分布廣泛,其需求可能不一致,需要不斷更新元數據方案。因此,DataCite任命了一名來自TIB的專職人員負責元數據監管(Metadata Supervisor)。

2.3 GBIF元數據方案

2.3.1 GBIF目標

GBIF(Global Biodiversity Information Facility)是由全球多個國家和組織機構合作建設的一個數據倉儲平臺。GBIF的愿景是:為促進科學、社會和未來的可持續發展,讓公眾可自由地、普及性地獲取生物多樣性信息。可見其目標是:通過國際互聯網,讓全世界的生物多樣性數據在全球任何范圍內面向任何人都可免費獲取。當前,GBIF可提供來自1000多個機構的四億多條記錄,是最大的生物多樣性數據庫。

2.3.2 GBIF元數據元素

GBIF元數據方案是在生態元數據語言框架(Ecological Metadata Language,EML)的基礎上完善擴展而成的。GBIF的必備元素只有5項,包括:題名(title)、元數據提供者(metadataProvider)、語種(language)、發布日期(pubDate)、摘要(abstract)。其中,摘要是對數據集的簡單描述。題名是對提交資源的區別性描述,以便能區分出類似資源,可提供多個標題。

GBIF的可選元素很多,一共有53項,包括:基金(funding)、方法(methods)、地理位置(geographicCoverage)、知識產權(intellectualRights)、關鍵詞(keyword)、生存時間(livingTimePeriod)、機構名稱(organization name)、目的(purpose)、項目(project)、質量控制(qualityControl)等。

2.3.3 GBIF元數據特點

GBIF的元數據方案呈現如下特點:第一,必備元素少,但可選元素數量龐大,達50多項,除一些常規的通用元素外,還包括一些獨特的與學科領域有關的元素,如:地理位置、生存時間等;第二,提供一些工具,自動生成元數據元素。包括:集成發布工具包、元數據編輯器(Integrated Publishing Toolkit metadata editor)、達爾文核心元數據模版(Darwin Core Spreadsheet template metadata form)等。

2.4 DataStaR元數據方案

2.4.1 DataStaR目標

DataStaR(Data Staging Repository)是由康奈爾大學Albert R.Mann Library負責實施的一項美國國家科學基金項目。自2007年開始實施,2010年正式完成。DataStaR的功能是為康奈爾大學的學者提供一個本地的階段性(staging)存儲庫,包括兩個目標:一是支持研究過程中的合作與共享;二是為科學數據在永久性的學科或者機構存儲庫中進行發布提供支持。該項目關注的焦點是具體的“小科學”(small science)數據,不需要超大存儲容量但卻具有持久學術價值的小型數據。

2.4.2 DataStaR元數據元素

DataStaR的必備元素包括:所有者(Owner)、創建者(Originator)、題名(Title)、識別符(Identifier)、元數據與數據獲取許可(Metadata and data access permissions)、擬發布存儲庫(Publication repository)、擬發布/刪除日期(Target data for publication or deaccessioning)、文件級元數據(field-level metadata)。其中創作者是指數據創建的登錄人員,由系統自動生成。文件級元數據是指和文件自身有關的元數據,包括:文件名稱、文件格式、上傳時間等,由系統自動生成。

DataStaR的可選元素包括:聯系人員(Contact person)、與研究小組的關系(Relationship to research group)、與其它資源的關系(Relationship to other resources)、引文(Citing Publication)、摘要(Abstract)、時間范圍(Temporal coverage)、地理范圍(Geographic coverage)、使用權利(Usage rights)、主題(Subject)等,所有的可選元素都由作者自行提供。

2.4.3 DataStaR元數據特點

DataStar的元數據方案呈現如下特點:第一,需用戶自行輸入或選擇的元素少,只有四個,包括:創建者、題名、元數據與數據獲取許可和擬發布存儲庫,其余元素都由系統自動填寫或者具備缺省值;第二,元數據方案體現了語義網特征,可支持信息資源的自動發現和互操作;第三,將元數據視為語句集合(a collection of statements),方便用戶對元數據的復用。如:當用戶利用同樣的研究方法或者研究網站時,對元數據的復用可節省用戶時間。

2.5 OTA元數據方案

2.5.1 OTA目標

OTA(University of Oxford Text Archive)是牛津大學于1976年實施的一個數據倉儲,得到了英國聯合信息系統委員會(JISC)和英國藝術與人文研究委員會(AHRC)的支持。OTA的目標是:為促進科研和教學,對原始數字資源進行采集、編目、保存和傳播。其學科范圍是:與英國高等教育有關的高質量語言文學類。其資源的采集不局限于牛津大學內部,而是來自更廣泛的社區。OTA目前收錄25種以上不同語種的文本資源。

2.5.2 OTA元數據元素

OTA元數據元素不區分必備元素和可選擇元素,一共包括21項,主要有:第一,涉及數據內容的元素:題名(Title of Resource)、其它題名(Alternative Titles)、項目摘要(Project Summary)、資源摘要(Resource Abstract)、資源類型(Purpose Resource Type)、相關數字資源(Related Digital Resources)、學科關鍵詞(Subject Keywords);第二,與版權有關的元素:責任人(Creators)、出版者(Publisher)、其它責任人(Other Acknowledgements)、版權(Copyright)、數據保護法(Registration under the Data Protection Act);第三,其它元素:識別符(Identifiers)、基金(Funding)、數字資源創建時間(Date Digital Resource Created)、語種(Language)、數字化細節(Details of Digitization)、來源出版物(Sources)、出版物(Publications)、地理信息(Geographical coverage)、時間覆蓋(Temporal coverage)。

2.5.1 OTA元數據特點

OTA元數據方案呈現如下特點:第一,不區分必備元素和非必備元素,元素比較多,對每一個元素的具體內容都有詳盡的說明;第二,注重版權。21個元素中有5項與版權有關,全面揭示數字資源的版權歸屬。

如前所述,四個典型數據倉儲因功能目標不同,呈現不同的元數據方案,其中有共性也有差異(見表2)。

表2 四個典型倉儲的元數據方案

3 對我國制定科學數據倉儲元數據方案的啟示

3.1 國內科學數據倉儲元數據建設的發展現狀

我國對科學數據的元數據研究和實踐已經取得了一定成果。2002年,我國科技部開始實施科學數據共享工程,并制定了數據共享工程的核心元數據標準,主要包括:元數據基本信息、數據集引用信息和數據集負責方。之后,又陸續啟動了氣象、測繪等科學數據共享中心的建設與共享服務試點。

由于核心元數據標準都是與學科無關的元素,不能滿足具體學科用戶的使用。在此基礎上,各學科制定了相應的元數據標準,包括:《生態科學數據元數據》(GB/T 20533-2006)、《地理信息元數據》(GB/T 19710-2005)、《水利地理空間信息元數據標準》(SL420-2007)等。各自包括的內容有共同之處,但更體現了各自不同的學科特點。如:《生態科學數據元數據》包括七個模塊:標識信息、實體信息、場地信息、方法信息、數據質量信息、項目信息和分發信息。而《地理信息元數據》包括十類子集:標識信息、限制信息、數據質量信息、維護信息、空間信息、參照系信息、內容信息、圖示表達類目參照信息、分發信息、元數據擴展信息。

我國目前直接面向科學倉儲建設和服務的學科數據元數據標準還有待進一步探索和實踐,可結合科學倉儲的特殊功能需求和用戶使用需求,對學科領域的數據元數據標準進行部分吸收,并進行擴展,用于科學倉儲的元數據建設。如:地球系統科學數據共享網的建設就提供了基于XML Schema的元數據建模擴展機制。

3.2 制定科學數據倉儲元數據方案需考慮的問題

3.2.1 功能定位

制定科學數據倉儲元數據方案首先需要考慮該倉儲的功能定位,確定科學數據倉儲的組織和管理機構(單一機構還是多機構合作)、服務對象(本機構內部還是所有網絡用戶,或者特定學科群體用戶)、服務內容(是否需要滿足對科學數據的檢索、獲取、傳遞、存儲、復用等)。

國外四個典型科學數據倉儲實施的元數據方案表明:功能定位的不同,其元數據元素和特點也不同。如:DataCite主要用于支持科學數據的引用和發現,其元數據方案中可選元素重點突出描述對象之間的復雜關系,并設置了多種復雜的值;GBIF的目的是讓公眾可方便地獲取生物多樣性信息,其元數據方案體現了一些獨特的與生物多樣性學科領域有關的元素,如:地理位置、生存時間等;DataStaR主要用于支持康奈爾大學研究人員對項目在研期間數據的共享以及數據向最終存儲庫的發布,其元數據方案考慮了科研人員對語義網的應用需求,利用了語義網技術;OTA主要用于保存原始的語言文學類資源,版權歸屬相對復雜,其元數據方案重視版權保護。

3.2.2 現有元數據標準及相關框架的應用

國內外相關機構都制定了一些各領域的元數據框架(Metadata Scheme),較為知名的有:通用領域的都柏林元數據框架(Dublin Core)、用于生命科學領域的達爾文核心元數據(Darwin Core)、用于教育領域的IEEE學習對象元數據框架(IEEE Learning Object Metadata)等。

我國可根據本機構或者本項目用戶需求,對已有的元數據框架進行調整,刪除或者新增部分元數據元素和值。如:DataCite元數據方案依據德國國家科技圖書館之前所采用的元數據框架,由工作組成員討論而逐步完善;GBIF元數據方案借鑒了生態元數據語言框架(Ecological Metadata Language,EML),在此基礎上擴充了部分元素;DataStar借鑒了都柏林元數據框架(Dublin Core)、生態元數據語言本體(EML Ontology)、Fedora屬性(Fedora properties for Vitro)、FOAF本體(Friend of Friend Ontology)等已有的框架,建立了DataStaR核心本體(DataStaR core ontology)。利用現有的元數據框架或相關標準,一方面可提高科學數據倉儲元數據的共享性和通用性,另一方面,也可節省制定科學數據倉儲元數據方案的時間。

3.2.3 元數據方案評估

如前所述,四個國外典型科學數據倉儲DataCite、GBIF、DataStaR和OTA的用戶需求和項目目標功能不同,其元數據方案各自呈現出不同特點,它們各自包含的元素和賦值也各不相同。那么,應該如何評價面向科學數據倉儲的元數據方案呢?

綜合考慮四個科學數據倉儲的元數據方案特點,可以發現它們存在一個共同之處:都以用戶為中心來構建其元數據方案。首先,盡可能幫助用戶,以節約用戶建立記錄的時間。DataCite和GBIF的必備元素只有四五項;DataStaR的必備元素雖然多,但多數元素都可以計算機自動生成;OTA不區分是否必備元素,但每一項元素都有詳盡的說明,以幫助用戶理解。其次,考慮各自用戶的實際需求。如:DataCite重點考慮用戶對科學數據的引用和復用;GBIF突出對已有工具包的利用;DataStaR考慮科研用戶對關聯數據的應用;OTA突出對原始數據版權的梳理和保護。因此,面向科學數據倉儲的元數據方案應以具體用戶的需求為出發點和重心,滿足用戶對科學數據的查找與發現、識別與選擇、獲取與分享等不同的功能需求。

4 結語

在數據驅動科學時代,為了滿足科研用戶對科學數據的存儲、檢索、復用和分享等各種需求,國內外相關機構都構建了一些科學數據倉儲,其元數據方案是構建科學數據倉儲需重點考慮的問題之一。根據科學數據倉儲的功能目標、用戶需求特點,我國可借鑒已有的元數據框架或相關標準,制定符合需要的科學數據倉儲元數據方案。

[1]Greenberg,J.,White,H.C.,Carrier,S.,&Scherle,R.A Metadata Best Practice for a Scientific Data Repository[J].Journal of Library Metadata,2009,9(3-4):194-212.

[2]Dietrich,D.Metadata Management in a Data Staging Repository[J].Journal of Library Metadata,2010,10(2-3):79-98.

[3]White,H.C.Descriptive Metadata for Scientific Data Repositories:A Comparison of Information Scientist and Scientist Organizing Behaviors[J].Journal of Library Metadata,2014,14(1):24-51.

[4]Windnagel,A.The Usage of Simple Dublin Core Metadata in Digital Math and Science Repositories[J].Journal of Library Metadata.2014,14(2),77-102.

[5]Heidorn,P.B.The Emerging Role of Libraries in Data Curation and E-science[J].Journal of Library Administration,2011,51(7-8):662-672.

[6]黃如花,邱春艷.Dryad數據倉儲的元數據管理[J].圖書館雜志,2014(1):68-73.

[7]周波.高校科學數據元數據方案初探[J].圖書館學研究,2012(1):45-49.

[8]王芳,慎金花.國外數據管護(Data Curation)研究與實踐進展[J].中國圖書館學報,2014(4):118-130.

[9]葉蘭.國外圖書館數據監護崗位的設置與需求分析[J].大學圖書館學報,2013(5):5-12.

[10]樊俊豪.圖書館在科學數據管理中的角色定位研究[J].圖書情報工作,2014(3):27-41.

[11]張晉朝.高校科研人員科學數據獲取意愿研究[J].情報雜志,2013(6):70-75.

[12]劉峰,張曉林,孔麗華.科研數據知識庫研究述評[J].現代圖書情報技術,2014(2):25-31.

[13]Starr,J.,&Gastl,A.isCitedBy:A Metadata Scheme for DataCite[J/OL].[2014-09-23].http://www.dlib.org/dlib/ january11/starr/01starr.html.

[14]Chavan,V,&Penev,L.The data paper:a mechanism to incentivize data publishing in biodiversity science[J].BMC Bioinformatics,2011,12(Suppl 15):S2.

[15]University of Oxford.University of Oxford Text Archive[EB/OL].[2014-09-23].http://ota.ahds.ac.uk/.

[16]吳彬.生態科學數據元數據及其標準研究[J].中南林業科技大學學報,2010(12):5-79.

[17]蔣景瞳,劉若梅,周旭,等.國家標準《地理信息元數據》研制與實現若干問題[J].地理信息世界,2003(10):2-5.

[18]崔麗美,謝佳節,楊聯安,等.基于XML Schema地球系統科學數據的元數據擴展機制[J].測繪學報,2005(3):246-251.

Metadata Practice in Typical Scientific Data Repositories Abroad

Metadata design is one of the core questions of building a scientific data repository.This paper analyzes in details the four typical scientific data repositories abroad including DataCite,GBIF,DataStaR and OTA,in terms of aims,elements and features.The results show that three metadata practice present different features and elements,but they are all usercentered.Finally some suggestions are put forward for designing metadata for scientific data repositories in China,including considering the functions and aims,adopting the current metadata schemas and evaluating the metadata in a user-centered approach.

scientific data repository;metadata design;DataCite;GBIF;DataStaR;OTA

G250.74

A

10.11968/tsygb.1003-6938.2015021

胡芳(1984-),女,中國科學院文獻情報中心博士研究生,首都師范大學圖書館館員。

2015-01-27;責任編輯:魏志鵬

猜你喜歡
科學用戶
點擊科學
點擊科學
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
科學
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
科學拔牙
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 在线国产91| 亚洲不卡无码av中文字幕| 亚洲午夜福利精品无码不卡| 扒开粉嫩的小缝隙喷白浆视频| 在线a视频免费观看| 国产精品专区第1页| 在线观看网站国产| 欧美午夜小视频| 色综合五月婷婷| 久久精品人人做人人爽电影蜜月 | 国产精品尹人在线观看| 92精品国产自产在线观看| 色AV色 综合网站| 亚洲精品视频免费| 最新日本中文字幕| 999国产精品永久免费视频精品久久 | 亚洲黄色高清| 99r在线精品视频在线播放| 国产精品女熟高潮视频| 国产理论最新国产精品视频| 波多野结衣视频网站| 国产原创自拍不卡第一页| 亚洲综合色区在线播放2019| 久久国产精品国产自线拍| 亚洲中文字幕日产无码2021| 国内精品一区二区在线观看| 成人在线不卡| 无码免费的亚洲视频| 不卡色老大久久综合网| 日韩色图区| 99热这里只有精品在线观看| 免费一级α片在线观看| 国产精品亚洲五月天高清| 午夜少妇精品视频小电影| 中文无码精品A∨在线观看不卡| 欧美国产视频| 国产主播一区二区三区| 国产男人的天堂| 国产成人无码播放| 国产AV无码专区亚洲精品网站| 欧美成一级| 深夜福利视频一区二区| 成人福利在线免费观看| 麻豆精品国产自产在线| 国产成人精品一区二区不卡| 91国内视频在线观看| 久久毛片基地| 精品综合久久久久久97超人| 国产成人精彩在线视频50| v天堂中文在线| 国产亚洲欧美在线专区| 成人亚洲视频| 亚洲欧美不卡中文字幕| 高清无码不卡视频| 内射人妻无套中出无码| 99草精品视频| 中文字幕在线看视频一区二区三区| 精品视频91| 高清不卡一区二区三区香蕉| 2020精品极品国产色在线观看 | 久久这里只有精品66| 亚洲成年人网| 曰韩人妻一区二区三区| 亚洲性一区| 欧美特级AAAAAA视频免费观看| 国产自无码视频在线观看| 欧美成人A视频| 欧美不卡视频一区发布| 国产精品成人一区二区不卡| 欧美色综合久久| 日韩免费无码人妻系列| 精品免费在线视频| 国产精品久久久久久搜索| 亚洲综合色婷婷中文字幕| 国产91无码福利在线| 国产福利观看| 日本精品中文字幕在线不卡| 欧美精品亚洲二区| 久久香蕉国产线看观看精品蕉| 亚洲无码视频喷水| 国产精品视频系列专区| 综合色亚洲|