999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向發現服務的文獻元數據集成整合研究

2019-01-15 09:28:10馬袁燕
圖書館 2019年1期
關鍵詞:資源服務系統

馬袁燕

(中國科學技術信息研究所 北京 100038)

1 前言

云計算快速發展環境下,圖書館館藏由印刷型資源為主轉變為數字資源為主,文獻加工深度由目錄精細到圖表章節的層級,顆粒度越來越細。圖書館資源揭示功能的實現手段由OPAC轉為發現系統,系統功能由單一目錄檢索轉變為豐富發現獲取,且揭示層級越來越豐富。其中,元數據與實現發現系統的資源整合、資源檢索、資源管理、資源定位、挖掘與分析等多個方面緊密相關,也是圖書館在發現系統的調研、測評、實施到調整各個階段都不可回避的元素[1]。元數據種類多樣,按照來源可以分為在藏品建立或數字化時產生的內部元數據和在藏品建立或數字化之后才產生的外部元數據;按作用可將元數據劃分為管理元數據和用戶元數據兩大類;從數字信息資源組織與管理的角度,可按照功能劃分為管理型元數據、描述型元數據、保存型元數據、技術型元數據和使用型元數據[2]。文獻元數據作為描述型元數據可以幫助用戶快速精確地檢索所需要的資源,有利于圖書館管理和維護文獻資源。文獻元數據是資源發現系統的底層數據基礎,其類型、形式、來源渠道多樣,具有數量大、生命周期短暫、網絡存儲分散、類型格式復雜、資源組織異構、粒度層級復雜等特點[3],因此對規范化、科學性的文獻元數據進行研究非常必要。

2 面向發現服務的元數據集成整合研究現狀

2.1 面向發現服務的元數據描述標準研究

元數據是數據的數據,描述數據的數據。文獻元數據[4]即對文獻信息資源進行結構化描述、定位和指示的數據,它能幫助用戶更快更精確地檢索到所需文獻,也有利于圖書館管理和維護文獻信息資源。元數據的多源異構性決定了對其進行統一表示與描述的必要性。為了給資源發現系統提供強有力的支撐,我們必須將不同來源的元數據通過轉換映射形成統一的元數據描述框架,且轉換過程中要盡量減少信息損失的發生。

公益性文獻服務機構Trove發現系統目前使用的各種元數據模式主要包括都柏林核心元素集。Trove系統的都柏林核心元素集包括創作者、日期、唯一標識等元素[5]。Europeana根據其自身數據特點,基于DC設計了ESE(可擴展存儲引擎)元數據方案,并參照METS(元數據編碼和傳輸標準)和RDF(資源描述框架),在保留原有ESE核心元素基礎上設計開放跨領域的Europeana 數據模型。此數據模型可與多種元數據模式建立關聯,為元數據實現語義層面互操作提供可能。

日本國立國會圖書館制定了“NDL都柏林核心元數據描述(DC-NDL)”。DC-NDL由三部分組成:第一部分是“NDL元數據術語”,包括日本國立國會圖書館描述的元數據術語列表;第二部分是“應用程序配置文件”,指定日本國立國會圖書館元數據中每個組件(屬性、類和編碼方案)的用法,其中包含用于描述RDF/XML格式的每個組件的示例;第三部分是“RDF Schema”,是日本國立國會圖書館元數據條款的資源描述格式(RDF)版本[6],除了基本的信息描述外,語義化趨勢在統一的資源描述工作中也逐漸顯現。

開放資源集成平臺PubMed Central(PMC)支持NLM日志和交換XML格式與都柏林格式。國家生物技術信息中心(NCBI)和國家醫學圖書館(NLM)創造了一套日志歸檔和交換標簽套件,用于與出版商進行通用格式的日志內容交換。該套件提供了一組XML模式模塊,用于定義所描述期刊文章的文本和圖形內容的元素、屬性,以及一些非文章材料,如字母,書籍和產品評論[7]。國家圖書館“文津搜索”支持多種元數據標準,包括MARC、DC、XML、MDB、XLSX以及MDF,它對各類數據進行清理和解析,并將所有元數據字段都映射到“文津搜索”定義的統一的XML格式上[8]。

2.2 面向發現服務的元數據集成整合實踐研究

資源發現服務是一種“大數據”規模的元數據搜索服務,通過支持圖書館自動化系統,實現數據融合與語義檢索服務、跨機構元數據的開放與復用和分布異構系統的關聯訪問[9]。資源發現系統致力于從圖書館、互聯網、出版商和內容提供商處獲得元數據,以建立元數據倉儲系統,利用抽取、映射、規范、融合等智能化手段對數據進行全面聚合和深度組織,從而為用戶提供簡單的一站式檢索服務[10-11]。本文通過對資源發現系統的調研,從元數據獲取及整合方法兩個方面分述發現系統中的元數據集成整合實踐。

在元數據獲取方面,國外主要是通過主動與元數據生產方談判簽約獲取,部分依靠資源服務方的主動授權與上傳。商業發現系統以Proquest Summon系統為例,元數據只通過簽約廠商的途徑獲取,取消第三方元數據,從而保證了數據質量。Primo、EDS同Summon系統均采用與各資源提供商簽訂協議的方式獲取元數據。與商業發現系統不同,國外一些公益性元數據集成平臺主要采取合作共享的方式收集和獲取元數據。澳大利亞圖書館Trove系統作為合作共享式的典型范例,通過社區組建和社區聚合,形成了一個規模不斷擴大的全文數字資源庫,接受來自數百個文化機構的元數據資源[12]。澳大利亞國家圖書館在與電子資源數據庫商Gale和RMIT合作的同時,會在Trove中共享電子資源內容,并采取API、爬蟲、FTP或HTTP等方式獲取元數據。Europeana利用聚合器網絡可以在機構間交換元數據,機構將數據提交到一個聚合器(項目或組織),數據經過處理后被提供給Europeana。

表1 國內外主要發現系統元數據集成管理概況

DOAJ(開放存取期刊目錄)作為典型的開放資源集成平臺,其元數據資源獲取方式與其他平臺不一樣,要求出版商將元數據上傳到DOAJ的網站而非主動去期刊出版商網站抓取文獻元數據。DOAJ文獻元數據采用CCBY-SA4.0的版權限制方式向外傳播,允許自由地對文獻進行共享、修改、轉換或者以本作品為基礎進行創作甚至開展商業行為[13]。目前國內對于海量外文文獻資源元數據的獲取收集還處于起步階段,國家圖書館通過建設“文津搜索”集成了約2億條文獻元數據,國家科技圖書文獻中心也通過自主加工、談判引進等模式共獲取2.5億多條文獻元數據。

在元數據整合方法上,元數據集成管理流程主要分為解析、映射、查重合并及更新維護。Europeana對收集到的元數據采用RDF轉換存儲,以便在語義環境中通過關聯數據對其進行有效揭示,提高資源可用性,并為歐洲的數字資源門戶網站和搜索引擎提供支撐。OCLC利用SRU服務為VIAF(虛擬國際規范文檔)項目提供來自14個國家圖書館的關聯數據,通過匹配和關聯整合這些不同語言國家圖書館的規范文檔,提高了資源利用率。Proquest Summon需要對100多種不同資源類型的數據進行處理歸類,其發現服務匯集了不同類別的元數據和多個來源的完整文本。Summon利用其獨有的匹配和合并技術整合了包含學科專業詞匯的元數據資源,在可用條件下創建描述全文內容的記錄。所有的資源類型都被映射到Proquest Summon統一的結構框架下,從而實現同步平等地發現和揭示[14]。在傳統元數據整合基礎之上,研究者也越來越重視語義元數據的規范整合,并開展了相關實踐。表1列舉了國內外七個主要資源發現系統在元數據量、元數據獲取方式、元數據標準及元數據整合方法方面的概況。

2.3 面向發現服務的元數據集成整合的必要性

發現系統以元數據倉儲為基礎,以元數據索引為核心[15-16]。面向發現服務的元數據集成整合是一般元數據集成整合的分支,其對多來源元數據集成、整合、規范可以更好地服務于上層發現系統。筆者立足資源發現系統實現功能,采取調研的方法比較現有資源發現系統與跨庫檢索系統在系統功能上的差異,從而總結出兩者在文獻獲取方面的差異,進一步驗證面向發現服務的底層元數據集成整合研究具有必要性,調研結果見表2。

表2 國內資源發現系統功能調研

從調研結果來看,國內985高校資源發現系統,主要分為Summon、EDS、Primo、Find+、超星發現系統,985高校中只有17所實現了中英文一站式發現。這17所高校中有14所是被動引進Summon、Primo、EDS等外文資源發現系統。首先外文資源發現系統在本地建立元數據倉儲,然后將整合后的元數據統一發布在云平臺上,通過接口調用的方式供國內使用,其發布前的元數據集成整合流程無從獲知,加上網絡傳輸等影響因素,檢索效率不高。其次,資源發現系統與傳統跨庫檢索系統相比,雖然都采用統一檢索入口,但其文獻獲取原理卻不同。跨庫檢索系統是數據庫商提供各庫獨立接口,檢索結果只顯示訂購資源,不顯示無權限資源,資源發現系統卻對用戶檢索結果提供多來源指引。發現系統整合館藏OPAC,無法獲取在線全文時依然可以獲取紙質全文(如果有紙本的前提下),拓寬了資源獲取途徑。研究發現,系統的元數據集成整合,能為國家科技文獻服務提供保障。

從面向發現服務的元數據集成整合與一般元數據集成整合的區別來看,后者只是基于數據層面的大規模整合,沒有辦法實現文獻聚類等,它只是將元數據整合,但并未對元數據的薄厚作要求。調研結果顯示,清華大學資源發現系統和超星資源發現系統實現了學科趨勢分析及熱點分析等知識關聯,這是一般元數據集成整合做不到的。其次中科院文獻情報中心的資源發現系統提供可視化分面導航,這都是基于厚元數據所作的知識關聯分析。面向發現服務的元數據集成整合最終目的,是將單篇文獻的多個來源進行整合,將薄元數據整合成一條帶有多個來源指引的厚元數據記錄。

縱觀國內外主要的資源發現系統,我們可以發現,與跨庫檢索系統相比,資源發現系統的數據來源更加豐富。但圖書館在引進發現系統的過程中,只實現了本館館藏資源與發現系統資源的整合,未能整合聯合目錄數據庫館藏資源,也未能集成館藏目錄元數據資源;在全文獲取途徑方面,資源發現系統能夠實現在線獲取全文或多來源指引,但缺少館藏等機構元數據信息,未能實現在館藏信息統一元數據索引的基礎上,依據館藏機構的資源變化與當前用戶屬性動態呈現恰當的資源地址。此外,現有商業性發現系統的內部數據組織及外部發現服務功能仍然較為單一,其數據組織揭示多停留在題名、載體等資源外部特征,較少對資源內在特征進行知識組織揭示。對發現服務底層元數據集成整合的相關理論研究只注重檢索結果相關性排序,缺少對文獻元數據資源進行采集、加工、規范整合的流程研究。最后,國內發現服務多是直接引進或在國外發現服務基礎上進行二次開發,導致中文元數據覆蓋程度低、與國際標準脫節、ISSN號混亂、年代不準確等問題。因此,要實現基于海量元數據的資源發現向知識發現轉變,深化知識服務需求,就必須探究發現服務在元數據集成整合方面的標準規范和加工方法,發展圖書館多層次的發現服務功能。

3 發現服務元數據集成整合框架

基于文獻閱讀和對現有資源發現系統建設實踐的研究,文章總結出面向發現服務的文獻元數據集成整合流程,它主要圍繞總體流程與元數據標準映射體系、規范規則體系、查重/集成規則體系及規范文檔體系四個體系展開,總體框架由數據源、元數據集成倉儲和數據應用層構成。元數據集成倉儲劃分為注冊模塊、解析模塊、集成模塊和倉儲中心。每一種數據源先將其元數據標準在注冊模塊進行注冊,然后解析模塊通過接口調用相應的映射規則進行解析,解析完成后經過數據清洗規范,數據流轉至集成模塊,以機器為主人工為輔的方式進行元數據集成。元數據集成后進入元數據倉儲中心,建立中心索引,為知識發現、統計分析、專題計算等服務提供數據準備,總體流程見圖1。

圖1 文獻元數據集成總體流程圖

圖2 元數據集成方法

元數據集成整合方法如圖2所示,該方法首先梳理來源內各個業務系統間的元數據,主要考慮業務系統間的元數據是否有關聯,關聯是否完整等。元數據梳理后作為一種數據源被加載到文獻元數據集成整合系統。不同來源間的元數據在集成過程中,無論其屬于哪種文獻類型,都要優先集成書目元數據,然后基于書目元數據集成結果,對論文元數據進行查重集成。如來源1、來源2、來源3,通過一定查重集成規則集成為一條書目元數據后,再集成這3個來源的論文元數據。具體來講,A來源與B來源書目元數據集成時,以A作為首選元數據入庫,以B作為補充元數據,將B元數據中的元素與A元數據進行系統比對,然后將設定的補充元素入庫,并標記B。系統對所掛接的論文元數據進行查重集成,以A作為首選來源入庫,然后B/C元數據的補充元素帶著相應來源標記入庫。隨著數據源的增多,該元數據最終會形成一條豐富完整的厚數據。每個元素都標記來源,以便在數據有問題時對其進行拆分。書目元數據作為源頭,其處理需要以人工為主機器為輔,論文元數據可以按照相應的集成規則以機器為主人工為輔的方式處理,依次形成母體集成庫及文摘集成庫直至元數據庫。

4 面向發現服務的多來源元數據統一集成整合

4.1 文獻元數據映射匹配規則

文獻元數據集成整合為發現服務提供底層支撐作用,對發現系統功能的實現至關重要。元數據集成整合的最終目的,是將描述同一論文資源的元數據整合成多來源的厚元數據,提供多來源指引。建立文獻元數據映射/匹配規則,實現元數據互操作,是進行查重比較的首要前提,因此有必要建立統一的元數據框架,并與各來源標準建立映射關系,確保元數據格式統一。發現系統元數據來源于出版社、數據庫商、集成商等,出版社元數據標準各自為陣,亟待整合統一,不同標準中的元數據項表述不一。篇名在Wiley中元數據字段被表述為〈article-title〉篇名,而在Thomson Reuters中定義為〈title type=“item”〉篇名。對期刊論文元數據的調研發現,不同數據庫元數據類型也有所不同。對比NSTL與WOS、Scopus發現,WOS、Scopus使用一套元數據Schema描述多種文獻類型,只要在期刊論文中涉及某一文獻類型就會出現相關描述;NSTL則以文獻類型為基礎劃分元數據,某一文獻類型的元數據包含在此類文獻的Schema中。圖3給出了常見的元數據映射/匹配規則流程:系統對多來源數據進行數據解析,抽取來源元數據特征,提取有效規則建立規則庫,以期建立一種能兼容各種文獻元數據的格式標準,即一種多對一的元數據方案;對多來源異構數據構建元數據統一描述框架,形成統一元數據格式。

圖3 元數據標準映射體系

4.2 設計查重歸一算法豐富多來源文獻元數據

發現系統通常按照資源類型、主題、作者、時間、地區、館址、語種、分類、流派、在線全文、同行評議以及是否擴展至本館館藏之外等元數據項提供分面導航功能,逐層深入并縮小檢索范圍,直到發現符合需求的檢索結果。該功能實現的效果與元數據的薄厚及可獲得性呈正相關。表3列舉了同一篇論文在出版社和集成商平臺中所呈現出的信息項差異。我們觀察到各發現系統中元數據厚度參差不齊,相比出版社網站,集成商平臺的元數據厚度有限、部分元數據信息缺失,嚴重影響了資源的揭示效果。

表3 出版社與商用發現系統平臺元數據項差異

發現服務集成整合多源異構元數據,形成一條附帶多個來源指引的厚元數據記錄。映射完成后,我們需要根據不同文獻類型制定查重匹配算法,分別從母體、卷期、篇級、來源渠道等多個層次對資源實施查重與歸一;需要制定規則,確定所選元數據如倉儲的優先級順序,保證優勢類型元數據進入倉儲,且要確定作為補充元素的元數據類型。系統在元數據進入倉儲的同時要對其進行查重歸并,并標記相應的來源標簽,使元數據字段由“薄”變“厚”。元數據查重主要包括來源元數據查重(即同一數據來源由于進入倉儲的批次不同導致的重復)和系統內部的查重機制(同一文章有不同來源且進入倉儲的時間不同,需要對其查重合并),圖4為文獻元數據查重合并流程圖。查重體系中用戶輸入批次號,根據批次號獲取原始數據,根據節點拆分任務,將數據涉及的刊種聚類并獲取樣例,隨后將樣例與任務分發至節點,最后獲取節點完成的任務寫回元數據庫。

圖4 元數據查重合并機制

4.3 集成海量文獻元數據推進知識發現服務

發現服務并不是簡單獨立的文獻資源集成檢索系統,未來需要實現從基礎文獻服務到知識發現服務的轉變。將元數據整合規范后,對底層基礎文獻元數據進行語義分析,這種知識組織管理可以更好地推進發現服務。文獻發現層面通過科學文獻中的各類引文,在文摘索引與其所標文獻、文后參考資料與被引用資料之間建立關聯和鏈接[17]。我們通過分析文獻內容的關聯,可以發現該領域的研究熱點;而通過分析作者或機構的關聯,可以發現該領域中的核心作者和核心機構。底層文獻元數據整合后,將書目元數據、管理元數據、文摘元數據、結構元數據、關聯元數據等依次歸類,從而保證上下游鏈條間元數據的有效連接。研究者通過對文摘數據進行分詞、概念提取,實現主題標引和學科分類;通過實體識別、名稱消歧方法,實現名稱規范和對象歸一;最后基于漢語主題詞表等對元數據進行語義標識,對同一元數據集合進行語義知識組織加工,實現主題關聯、學科關聯、熱點分析、機構關聯等,如圖5所示。另外,基于館藏等元數據信息建立資源調度知識庫,將從圖書館、出版社、數據庫商和互聯網上獲取的文獻元數據資源與用戶、機構信息整合,形成記錄了來源的“集成化聯合目錄”與用戶、機構信息庫。依據用戶及其所需資源間的不同場景構建資源關聯的調度機制,設定調度規則,通過調度算法找到最適應用戶情景的文獻獲取方式,即當前情景的最優決策。

圖5 元數據知識組織關聯

5 結語

文獻元數據數量規模的擴大、文獻元數據顆粒度的精細、文獻資源數字化的擴展,使用戶能夠更便捷地得到更豐富、更準確的文獻資源檢索結果。由于現有整合技術的不成熟,文獻元數據集成要從數據源、元數據集成倉儲和數據應用層三個層次設計、完善。文獻元數據獲取方式的選擇,既要保證其質量,又得保證其數量、時效性與涵蓋范圍。文獻元數據集成應制定更加合理、規范、系統的文獻元數據統一描述規則,為文獻元數據映射、整合、加厚的后續處理流程提供更好支撐,設計更加合理的元數據映射規則、建設厚元數據以便將元數據本身多樣化的信息更好地保留下來。與此同時,數字資源不斷擴充、資源載體形態改變、外部鏈接失效、刊名變更等都依賴于元數據定期更新維護。如何建立數據獲取、集成和故障追蹤的全流程資源維護體系與元數據質量監控模型,都需未來進一步探索。

(來稿時間:2018年4月)

猜你喜歡
資源服務系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
基礎教育資源展示
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
一樣的資源,不一樣的收獲
服務在身邊 健康每一天
今日農業(2019年12期)2019-08-15 00:56:32
服務在身邊 健康每一天
今日農業(2019年10期)2019-01-04 04:28:15
服務在身邊 健康每一天
今日農業(2019年16期)2019-01-03 11:39:20
資源回收
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
主站蜘蛛池模板: 国产丝袜第一页| 国产在线精彩视频论坛| 久久综合亚洲鲁鲁九月天| 114级毛片免费观看| 亚洲国语自产一区第二页| 凹凸国产分类在线观看| 国产精品手机视频一区二区| 91香蕉视频下载网站| 九一九色国产| 一级黄色欧美| 91免费在线看| 国产精品大尺度尺度视频| 亚洲精品亚洲人成在线| 国产三级视频网站| 国产第四页| 中文字幕永久在线观看| 欧美黄网在线| 亚洲美女久久| 成人中文字幕在线| 国产无码网站在线观看| 国产高清在线丝袜精品一区| 毛片视频网址| 亚洲国产成人精品一二区| 日韩欧美国产三级| 无码精品国产VA在线观看DVD| 精品无码一区二区三区电影| 色综合久久88| 尤物精品视频一区二区三区| 中国成人在线视频| 亚洲精品va| 强奷白丝美女在线观看| 中文无码毛片又爽又刺激| 国产一区在线观看无码| 一级不卡毛片| 国产成人AV综合久久| 日韩毛片在线播放| 99久久国产精品无码| 亚洲 日韩 激情 无码 中出| 欧美高清三区| 国产在线精彩视频二区| 2021最新国产精品网站| 亚洲欧美日韩色图| 日韩免费毛片| 成人福利在线看| 欧美a在线| 99精品国产高清一区二区| 免费人成网站在线高清| 97精品伊人久久大香线蕉| 91成人免费观看在线观看| 国产在线一二三区| 暴力调教一区二区三区| 99re在线免费视频| 欧美福利在线观看| 91精品综合| 亚洲第一中文字幕| 福利在线免费视频| 国产欧美中文字幕| 国产精品永久久久久| 99尹人香蕉国产免费天天拍| 999精品色在线观看| 男女性色大片免费网站| 无码久看视频| 成年人午夜免费视频| 精品国产Av电影无码久久久| 麻豆精品在线播放| 国产毛片基地| 亚洲精品午夜无码电影网| 国产成人亚洲精品无码电影| 欧美成人看片一区二区三区 | 国产美女免费| a级毛片在线免费观看| 综合网久久| 国产综合精品一区二区| 国产在线观看成人91| 2021天堂在线亚洲精品专区| 亚洲精品福利网站| 中文字幕自拍偷拍| 午夜小视频在线| 亚洲综合亚洲国产尤物| 日韩黄色大片免费看| 黄色网址免费在线| 欧美伦理一区|