馮紅娟 李云龍 梁蕙瑋 李榮艷(國家圖書館,北京100081)
?
面向資源檢索的元數據倉儲建設研究
馮紅娟李云龍梁蕙瑋李榮艷
(國家圖書館,北京100081)
[摘要]隨著數字資源的日益增長,元數據正發揮著越來越重要的作用,尤其是在資源組織與檢索過程中。基于元數據倉儲建設搜索引擎,成為實現資源一站式檢索的新模式。在調研現有元數據倉儲研究成果基礎上,介紹國家數字圖書館元數據倉儲的建設情況,提出存在的問題,并進行反思與展望。
[關鍵詞]數字圖書館元數據倉儲搜索引擎資源整合
[分類號]G250.71
隨著計算機、網絡技術的發展和國家信息基礎設施環境的完善,數字圖書館的建設得到穩步推進,數字資源不斷增長,但由于不同資源及系統間存在異構性,傳統的整合模式與檢索服務已難以滿足對圖書館資源的統一管理與揭示,這不僅降低了資源的利用率,更給用戶帶來極大不便。為提升服務水平、節省用戶查詢時間、提高資源利用率,需要建立一種新型的資源檢索模式。
通過建立元數據倉儲來進行資源整合[1],開創元數據收集、整合、管理和服務的新機制,可提升檢索響應速度和整合效率,有利于數據挖掘和知識發現,可實現各類數字資源的一站式檢索服務。元數據倉儲的建設將為數字資源的有序組織、統一管理和高效檢索提供基礎,為數字資源的深層次揭示提供保證,為讀者提供方便、快捷、功能強大的數字資源服務,并進一步推動數字圖書館建設的可持續發展。
目前,元數據倉儲的建設方式和相關技術研究已得到圖書館、科研機構和數據庫廠商的廣泛關注,相繼開發出一些與元數據倉儲相關的數字資源整合服務平臺。以下是幾個元數據倉儲應用的實例。
2.1 Primo
Primo[2]是Ex Libris公司開發的一站式資源發現與獲取解決方案,可集成物理館藏、數字資源以及圖書館訂購或通過其他方式擁有使用權限的遠程電子資源或數據庫。在元數據倉儲的建設方面,Primo已整合全球超過5億學術期刊論文、報紙、電子書等資源的元數據,其中包含了Springer、OCLC WorldCat、Elsevier Scopus等系統的元數據。目前,Pri?mo系統已被哈佛大學、牛津大學、清華大學、上海交通大學、鄭州大學等眾多機構采用[3]。該系統可為用戶提供簡潔的搜索界面,實現一站式資源發現,并提供MetaLib聯邦檢索的集成。
2.2 Summon
Summon[4-6]是Serials Solutions公司推出的一項服務,可以提供圖書館館藏資源、圖書館訂購電子資源及免費開放獲取資源等各類型中外文資源的統一發現與獲取服務。在元數據倉儲建設方面,Summon與9000余家出版社合作,收錄10億多條、100多種不同資源類型的元數據記錄,包括期刊、書籍、報紙等內容。Summon系統目前已被全球數百家圖書館選用,如哥倫比亞大學、劍橋大學、北京大學、西安交通大學等。
2.3萬方數據統一資源整合服務平臺(UNIRMS.Net)
UNIRMS.Net是萬方數據為實現信息資源的統一整合、檢索和服務而開發的資源整合服務平臺。該平臺主要采用兩種資源整合技術,第一種是基于元數據倉儲的整合,即將多個全文數據庫資源的元數據導入或者轉換到同一個檢索系統,組成一個元數據集,通過該檢索系統對所有元數據進行Web檢索和發布,以實現對本地資源、互聯網信息資源的整合;第二種是基于中間件的整合,在SFX資源整合框架的基礎上實現對網絡數據庫資源等虛擬資源的整合。該元數據倉儲的數據包含了中外文圖書、期刊、論文、專利等內容,總數據量達5億多條(含中外文數據及引文數據)。
2.4 CALIS統一檢索平臺
CALIS統一檢索平臺的建設旨在互聯網環境中,針對異構數字資源,為用戶提供一種新的整合檢索服務,進而提高資源利用率。CALIS統一檢索平臺采用新型的基于元數據的檢索技術,能夠對本地和異地的各類數字資源提供統一的檢索。主要提供以下4類檢索服務:對多種異構數字資源系統的聯邦檢索、基于元數據倉儲的跨庫檢索服務、對用戶提供個性化檢索服務和與其他應用系統的集成檢索服務。
以上基于元數據倉儲的檢索系統相比傳統的聯邦檢索,查詢效率及用戶體驗都有了較大改觀,在進行詳細調研分析后,國家數字圖書館博采眾長,開始建設元數據倉儲,并基于元數據倉儲推出了資源搜索門戶——文津搜索系統[7],對國家數字圖書館的資源和服務進行整合,為讀者提供一站式檢索服務[8]。
3.1建設意義
隨著數字圖書館的不斷發展,元數據得到大規模普及使用,建立一個開放、統一的元數據倉儲和管理規范體系,對資源整合與揭示具有重要意義。國家數字圖書館元數據倉儲通過將來源不同的各類異構數據庫元數據匯集,按一定的規則進行清洗、整合并轉化成統一格式元數據的過程,為實現圖書館資源的統一管理與揭示奠定了基礎。
3.2整合范圍
國家數字圖書館元數據倉儲計劃將收集到的各類元數據進行整合,元數據范圍包括自建數據庫元數據、外購數據庫元數據、全國聯合編目中心元數據以及參與聯合建設的公共圖書館自建資源元數據等。
從資源類型來說,整合范圍包含圖書、期刊、報紙、多媒體資源、古文獻、縮微資源、文檔、詞條等內容,涵蓋圖書館館藏的各種資源類型。從元數據格式來說,整合范圍包含Marc、Excel、XML、Word、Access、SQL Server等格式。截至2014年8月,已整合各類數據庫130余個,元數據超過兩億條,并對其中元數據進行著持續更新。
3.3建設流程
元數據倉儲建設的具體工作流程包含元數據收集、核查、登記、規則制定、整合等環節,其流程如圖1所示。
在元數據倉儲的建設初期,首先需要制定元數據倉儲建設的相關技術規范[9]。圖書館界元數據的格式多樣,應用最廣的是機讀目錄格式(Machine- Readable Catalogue,MARC)和都柏林核心元素集(Dublin Core,DC),在參考以上兩種格式的基礎上,確定ID、來源ID、題名、其他題名、責任者、出版社、URL等40余個字段為國家數字圖書館元數據倉儲的核心字段,并設置可擴展的字段,以適應特殊元數據字段的情況。
3.3.1元數據收集
在元數據收集過程中,除了元數據本身,還需要對元數據的字段語義及各項描述信息進行準確收集,如元數據記錄條數、元數據對應的起止日期等,以便對元數據進行維護和后續更新。針對不同數據源,需采取不同的收集策略,目前主要有系統自動收集、通過OAI-PMH接口獲取及人工收集3種元數據收集策略。

圖1 元數據倉儲建設流程
系統自動收集需要研發數據接口程序,通過不同系統間的數據接口自動進行元數據的收集,這種方式可節省人力物力,并可保證數據實時更新,是比較理想的收集策略,圖書館自建資源的元數據正在進行數據接口的研發;通過OAI-PMH接口進行數據收集,主要是針對提供了OAI-PMH接口的數據庫;人工收集元數據主要是由人工導出或生成元數據,通過郵件、FTP、光盤、移動硬盤等方式提交,該方式靈活簡便,不涉及原有系統的改造,所以在收集元數據尤其是收集外購數據庫元數據時應用較多,其缺點是元數據更新周期依賴于元數據收集頻率,不能實現實時更新。
3.3.2元數據核查
為保證元數據的可用性、完整性、準確性,提高元數據倉儲的數據質量,需要對收集到的元數據進行細致核查。元數據核查主要內容如表1所示,元數據核查階段發現的問題,可通過與元數據提供方協商進行修改,或重新進行元數據收集。
3.3.3元數據登記
元數據登記是將每次收到的數據庫元數據各項描述信息進行記錄,登記項包含數據庫名稱、數據庫元數據格式、元數據條數、元數據更新周期、元數據更新方式、元數據對應的起止日期、元數據容量、元數據字段名等內容,除了元數據固有信息的登記,還包含整合情況的信息登記,如數據庫整合成功條數、失敗條數及原因等。詳細而準確的元數據登記,將有助于保證元數據倉儲建設的有序開展和不斷壯大。

表1 元數據倉儲數據核查原則及內容
3.3.4元數據規則制定
元數據規則是將多樣化、異構的各類元數據,轉化為統一的元數據倉儲格式需遵循的規范,包含元數據格式轉換的“映射規則”、確定檢索點字段的“檢索規則”及用戶界面的“顯示規則”。由于各類數據庫存在異構性,元數據格式、編目規則及描述粒度都存在差異,針對不同類型的資源需單獨制定其元數據規則。
另外,在元數據規則制定過程中,還需進行資源分類,國家數字圖書館元數據倉儲將資源分為圖書、古文獻、論文、期刊報紙、多媒體、縮微文獻、文檔、詞條8個一級分類,不同文獻類型分別設置不同的檢索字段(如表2所示),以實現對資源的分類整合及精確檢索。

表2 元數據倉儲文獻分類及檢索字段
3.3.5元數據整合
元數據整合是根據元數據規則制定數據解析器,將多樣化元數據導入統一的元數據倉儲中。數據解析器首先遍歷數據存儲文件,自動識別未處理的文件及其格式;之后,調用相應的解析器解析數據,實現當前格式數據向元數據倉儲格式的轉換,并將轉換后數據存儲至數據庫,開展數據的查重、修改、刪除、合并等清洗工作;最后,導出數據為搜索引擎提供索引支持和檢索顯示。
3.4建設成效
元數據倉儲可以為搜索引擎提供數據支持,基于國家數字圖書館元數據倉儲建設的文津搜索系統自2012年正式發布使用以來,成效顯著。中文方面,不但包含國家圖書館的館藏圖書、期刊、論文、古籍文獻,還包含了同方知網、維普、方正阿帕比、萬方等外購數據庫,并計劃將參與聯合建設的公共圖書館元數據也納入其中;外文方面,包含了Emerald、DDRS、Sage、EBSCO等十余個外文數據庫資源。
由于文津搜索系統基于元數據倉儲建設,采用分布式存儲的方式,與聯邦檢索[10]相比,不再受限于各數據庫的檢索效率和傳輸時間,因此檢索速度得到明顯提升,響應時間一般小于1秒,可實現兩億多條元數據的海量文獻信息一站式檢索,資源的查全率和查詢速度都得到較大提升。
除了具有檢索速度快、查全率較高的優勢以外,基于元數據倉儲的搜索引擎,功能設計更加靈活。由于元數據在本地,搜索引擎可實現分類檢索、排序、去重、聚類、熱詞排行、云圖、個性化設置等功能,滿足了用戶的多樣化需求。
基于元數據倉儲建設的搜索引擎,在響應速度、查詢效率、用戶體驗等方面均取得了良好的使用效果,但也還存在以下問題亟待解決。
①元數據收集與更新問題。元數據倉儲的數據來源具有多樣性,自建資源的收集相對容易,可通過建設數據接口來實現元數據實時更新;外購數據庫的元數據收集需與數據庫廠家進行溝通協商,多采用手動更新,更新周期較長;公共圖書館自建資源的元數據收集需與各公共圖書館達成合作意向,也存在更新不夠及時的問題。
②尚未充分利用規范數據。規范數據對信息的查找、定位和闡明關系具有重要作用,有利于提高檢索的查準率和查全率。但目前只有圖書館書目數據進行了規范化處理,外購數據庫和自建數據庫還沒有規范數據,如何對這些海量元數據進行規范化處理,為元數據倉儲知識關聯奠定基礎,提高檢索服務效率,是一個值得研究的課題。
③某些數據庫缺少元數據標準規范。元數據倉儲接收到的元數據包含MARC、DC、XML、SQL、ACCESS等多種格式,編目字段及描述粒度也不一致,某些數據庫還缺少相應的元數據標準規范,這對元數據倉儲的數據質量產生了一定影響。
針對以上問題,在元數據倉儲建設過程中,還需進一步完善元數據收集及更新機制,增加宣傳推廣,提升元數據倉儲建設的認知度,將有助于元數據收集和更新工作的順利開展,有助于元數據倉儲提升數據質量。另外,在元數據倉儲建設過程中,還需在工作經驗積累的基礎上,加強對元數據標準、數字資源分類、規范控制、唯一標識符以及數據挖掘等方面的理論及實踐研究,進一步推動元數據倉儲的可持續發展。
元數據倉儲的建設除了技術平臺的研發,更重要的是資源內容的建設,如何為搜索引擎提供內容豐富、更新及時、質量可控的元數據,是元數據倉儲提升服務質量的關鍵。而合作共建共享無疑是元數據倉儲建設的最好途徑,也是其發展趨勢。目前,各圖書館的外購數據庫大多具有獨立的入口,自建數據庫、專題庫等也還有較多仍處于“孤島”狀態,使用率低。通過合作共建共享,可以將更多的數字資源進行收集、匯聚、整合和服務,一方面可以節省元數據倉儲建設成本,另一方面可以提高資源的利用率,為讀者提供一站式的資源發現和獲取服務。
參考文獻:
[1]徐榮華.基于元數據倉儲的資源整合應用[J].圖書館雜志,2012(4):67-73.
[2] Exlibris Primo[EB/OL].[2014- 07- 10].http://www.exlibris. co.il/.
[3]許新巧,劉華,詹華清.學術搜索引擎Primo和Google Scholar的比較分析[J].圖書館學研究,2013(18):38-43.
[4] The Summon Service[EB/OL].[2014-07-17].http://www.se?rialssolutions.com/en/services/summon.
[5]秦鴻,錢國富,鐘遠薪.三種發現服務系統的比較研究[J].大學圖書館學報,2012(5):5-11.
[6]趙國榮.高校圖書館數字資源整合探索與實踐[J].圖書館學研究,2012(20):53-56.
[7]文津搜索[EB/OL].[2014-08-26].http://find.nlc.gov.cn/.
[8]魏大威.數字圖書館的科學規劃與發展探析——國家數字圖書館的探索與實踐[J].圖書館理論與實踐,2013(4):1-4.
[9]梁蕙瑋,薩蕾.數字圖書館推廣工程面向數字資源整合的元數據倉儲構建[J].國家圖書館學刊,2012(5):27-32.
[10]馬燁.國外主要聯邦檢索系統的興起、現狀及發展趨勢[J].圖書館建設,2009(3):1-5.
馮紅娟女,1983年生。碩士,館員。
李云龍男,1988年生。碩士,助理館員。
梁蕙瑋女,1974年生。碩士,館員。
李榮艷女,1982年生。碩士,館員。
收稿日期:(2014-11-07;責編:張欣。)