〔摘 要〕數字資源整合是現階段圖書館發展的必然趨勢。筆者根據所在單位開展數字資源整合平臺的建設經驗, 介紹了國內外有代表性的資源整合系統,對比了國內主要的資源整合模式,明確了資源整合的目標,具體描述了基于元數據倉儲的數字資源整合平臺的建設過程,主要包括元數據倉儲的建設、統一檢索系統的建設和資源調度系統的建設。
〔關鍵詞〕元數據;倉儲整合;資源整合;統一檢索
〔中圖分類號〕G250.73 〔文獻標識碼〕B 〔文章編號〕1008-0821(2012)10-0046-04
“我們淹沒在信息的海洋中,卻飽受著知識的饑渴”這句話恰到好處的形容了我們所面臨的信息環境[1]。隨著計算機技術和網絡技術的迅猛發展,圖書館所面臨的信息環境發生了巨大的變化,館藏資源除了傳統的印刷型文獻以外,還包括數字圖書、數字期刊以及網絡資源等不同類型的資源。由于這些資源分布于不同的數據庫當中,每種數據庫的構建方式、支持平臺都不盡相同,同時數據的組織形式、管理模式以及存儲格式也不盡相同,這就出現了數據庫之間的異構性問題。不同的數據庫之間知識關聯程度較低,而且內容交叉重復。當用戶檢索文獻時,由于各數據庫的檢索界面和檢索方法都不一樣,用戶需要在不同的數據庫之間進行切換和重復操作,無法實現“一站式”的便捷檢索,同時查準率、查全率也難以得到保障。因此,如何有效地對數字資源進行集成、重組、整合,建立具有關聯性的資源體系,以解決“數字信息孤島”,提高數字資源的利用率成為圖書館迫切需要解決的問題[2]。
1 國內外資源整合系統的介紹
20世紀90年代,國外圖書館和IT界就開始了有關數字資源整合方面的相關研究[3]。相繼開發出一些功能完善、應用成熟的數字資源整合系統,如ExLibris公司開發的SFX、MetaLib和DigiTool等產品,探索出一套完整的數字資源整合解決方案[4];Iunovative Innovativefaces公司的MAP(Millnenium Access Plus)系統,通過WebOPAC的搜索功能及Innopac Milennium版的管理模塊將館內的各類型的電子資源整合到一套資源存取管理工具中[5]。此外,還有UnionSearch Platform、ENCompasswith Link Finder Plus、WebFeat、Ilink、Chameleon iportal、Iport、Zportal、Xdierctory and Xflow、Uportal等系統,在國外也有很廣泛的應用[5]。特別是由ProQuest的Serial Solutions部門開發設計的Summon服務系統,近年來引起了業界的廣泛關注,獲得了由軟件和信息協會(SIIA)頒發的2011年的CODIE獎,被譽為最好的企業檢索解決方案[6],成為北京大學圖書館數字資源整合的3個備選系統之一[7]。
我國圖書館探索數字資源整合研究始于2003年,之后逐漸受到關注。在理論研究方面,《電子圖書館整合檢索之理論與實踐》(臺灣的陳昭珍學者所著)是我國第一部數字資源整合方面的著作,該書分析了圖書館進行數字資源整合的必要性以及整合模式,介紹了Z39.50協議在數字資源整合中的應用,并對今后的整合檢索發展趨勢作了一些前瞻性的展望[8]。李家清的《信息資源整合》、賈宏的《數字圖書館網絡信息資源整合及其技術分析》,以及馬文峰主持的國家基金項目“數字資源整合的理論與方法”,都對數字資源整合理論進行了深入的探討。在應用實踐方面,由于相關研究起步較晚,目前國內相對成熟的數字資源整合系統并不多,具有代表性的有清華同方的異構統一檢索平臺USP(Union Search Platform)、北京拓爾思(TRS)的資源整合門戶(TRS IIP)和參考鏈接系統(TRS Info Linker)[1],還有超星的讀秀和Medalink(百鏈)系統等。
2 資源整合案例——以沈陽航空航天大學圖書館為例 近幾年,沈陽航空航天大學圖書館(以下簡稱我館)加大了數字資源的引進和自建力度。目前,我館以各種形式開通的中外文數據庫達到了28個,自建專題數據庫5個,數據存儲達到42.6 TB,此外還開通了多個免費的數據庫,形成了以引進數字資源為主、自建數據資源為輔的類型多樣、內容廣泛的館藏數字資源體系。2011年,我館成功申報了中央財政支持地方高校發展專項基金項目“遼寧省航空航天專題數字資源共享平臺建設”,以此為契機,為了提高我館數字資源的利用效率,把異構資源統一檢索平臺作為項目建設的重點工作,進而實現數字資源的深度整合。
2.1 資源整合系統的選擇
數字資源整合是在各種數字資源自主性、分布性、異構性的基礎上,運用各種集成技術和手段將各類數字資源集成在統一的利用環境下,實現“一步到位”的檢索,讓用戶極其方便的利用各種數字資源,為其節省寶貴的時間和精力[9]。數字資源整合需要借助相對成熟的軟件系統,整合系統的選擇就顯得至關重要。對于國外的資源整合系統,考慮到成本高、空間距離遠以及技術支持響應速度慢等因素,首先被排除掉,不作為備選方案。國內的資源整合系統,理論上有兩種實現統一檢索的資源整合方式,即通過抽取元數據的深度資源整合和通過技術層面的外掛式資源整合。我館重點調研和試用了清華同方的異構統一檢索平臺USP、超星的讀秀和Medalink(百鏈)兩個系統。
清華同方的USP采用了雙層的B/S結構體系,包括用戶注冊和引擎配置模塊、統一檢索模塊以及檢索結果顯示模塊三部分[10]。它的工作原理是分析異構數據庫的各個字段,進行字段間的映射,再把用戶的檢索請求轉換成能被不同數據庫接受的檢索表達式,通過數據庫廠商提供的數據接口并發檢索本地或互聯網上的多個數據庫,最后對檢索結果進行去重、排序,并以統一的格式將檢索結果輸出到結果頁面上。USP的檢索過程相當于代替用戶同時登陸多個異構數據庫進行檢索并把檢索結果返回給用戶。如圖1所示。
圖1 USP檢索原理
讀秀和Medalink學術搜索,是由超星公司研制開發的基于海量元數據及全文數據的中外文知識搜索和文獻傳遞系統。讀秀學術搜索是全球最大的中文文獻資源服務平臺,Medalink整合了國內高校圖書館購買的100多個外文數據庫的元數據,也被稱作“外文讀秀”[11]。元數據是關于數據的who、what、when、where、why and how,是“關于數據的數據”[12]。讀秀和Medalink的工作原理是將所有可利用的異構數據庫內資源對象的元數據記錄導入到一個新的數據庫中,歸并、查重、處理后重新生成全文索引,當用戶提出檢索請求時,為用戶提供指向數字資源的超鏈接。如圖2所示。
圖2 元數據檢索原理
我館自2011年3月開始,先后對上述兩個資源整合系統進行了全面、深入的試用,覆蓋了我館的館藏書目、28個商業數據庫以及5個自建數據庫。對于本地資源,主要測試、評估對數據的映射、收割和導入,以及對信息的揭示和資源獲取的速度等方面;對于外網資源,進行了對元數據索引中數字資源規模、質量的考察,以及與我館所購數字資源覆蓋程度的比對。通過試用對比發現,基于跨庫檢索模式的資源整合系統,僅僅通過建立一個代理界面來接受用戶的檢索請求,并將這些請求轉換成相應的數字資源系統方法和檢索語言,并將各個資源系統返回的檢索結果進行排序和整合[13]。這種整合模式,盡管技術簡單、操作方便,而且不占用大量的存儲空間,但是限于目前計算機的處理能力和網絡寬帶等因素,需要很長的時間才能將檢索結果返回到用戶統一操作界面,浪費了用戶大量的時間,同時檢索結果的去重、查全率和查準率并不能得到有效的保障。而基于元數據倉儲的資源整合系統,通過對元數據的聚合,為資源整合打下了一個實際的同構基礎。經過收集、轉換后,不僅數據格式統一、結構清晰,而且可以按照用戶的需求建立多種分類體系,甚至可以實現對數據更高級的組織和管理。另外,在整合資源規模,特別是外文資源方面,超星的資源整合系統遠遠好于清華同方的系統,也更適合于我館,可以很好的彌補我館外文文獻的不足,所以,我館選擇了與超星合作,進行數字資源統一檢索平臺的建設。
2.2 資源整合的目標
采用了基于元數據倉儲的數字資源整合模式,整合資源包括本地資源和遠程訪問資源,其文獻類型有紙質圖書、電子圖書、電子期刊、會議論文、學位論文、報紙、專利、標準、互聯網免費資源等。為用戶提供統一的檢索界面,實現“一站式”的獲取服務。檢索結果的輸出不但速度快、無重復,而且要實現文獻類型的聚類以及多角度的導航。利用OpenURL(開放鏈接) 解析功能,實現檢索結果與OPAC系統、數據庫全文、網站網頁地址、參考咨詢以及館際互借等服務的無縫鏈接,讓用戶通過最恰當的途徑能夠獲取目標內容和服務。允許用戶采用選擇、排序、二次檢索等方式處理檢索結果,保證用戶能夠方便、靈活地保存和輸出檢索結果(下載、打印、E-mail發送等)。
2.3 中心數據庫倉儲數據的建設
元數據的抓取要通過數據收割工具,將不同文獻系統中的數據收割、轉換、裝載到數據倉庫中,數據抓取共分為3個步驟:第一步是本館已經收集完整的圖書元數據、中文期刊元數據以及外文期刊元數據,直接通過Z39.50協議存儲到元數據庫中;第二步是本館未收集到的元數據部分,通過OAI-PMH協議的收割元數據工具,收割支持OAI-PMH協議的開放資源的元數據,將其更新并存儲到元數據庫中。OAI-PMH元數據收割取協議(OAI Protocol for Metadata Harvesting,OAI-PMH),簡稱OAI協議,是一個在分布式的網絡化環境下獲取特定元數據信息的標準協議,該協議通過定義一個標準的接口,使服務器能夠將其存儲的元數據信息有選擇地提供給外部應用程序或其他服務器[14];第三步是對于不支持OAI協議的數據庫,提供基于網頁分析的元數據抓取工具Spider,可以抓取不支持OAI協議的元數據存儲到元數據庫中。
元數據的處理要借助于智能查重排序分析、OLAP分析以及報表工具等數據分析預處理工具,對關系表實施映射合并處理,提前建立索引,通過相關的事實表、維表用以支持多維業務試圖,從而實現對倉儲數據的多維分析,以建立標準的元數據格式;元數據存儲在中心元數據庫中,主要分成索引目錄、關系映射數據庫,各自發揮著不同的作用。索引目錄被用于檢索,而關系映射數據庫則被用于元數據與原文之間的關聯;元數據倉儲通過提供OAI-DP服務,可以實現其它應用系統調用并返回XML格式的結果。資源調度系統與元數據倉儲進行集成,能夠提供調度任務的分發記錄;元數據自動更新工具,可以實現對元數據實時更新和發布。元數據的應用流程如圖3所示。
元數據收割、抓取元數據查重、索引處理元數據統一檢索資源調度獲取全文圖3 元數據的應用流程
2.4 統一檢索系統的建設
元數據以統一格式存儲之后,為了搜尋方便,需要建立一個元數據搜索引擎。搜索進程不斷監聽新的搜索任務,一旦發現有新的搜索任務,則向指定的數據提供者URL發出帶不同命令行參數的OAI請求,并得到相應的響應結果,這就是搜索引擎的基本工作過程[15]。其算法選擇如下:首先為這些元數據創建一系列索引表,按照題名、創建者、日期、主題等元數據信息的集合形式排列。當用戶有檢索需求時,輸入一個關鍵字,搜索引擎會到一系列索引表中進行搜尋, 如果搜尋到符合條件的檢索信息,會把與此有關的元數據信息全部抽取出來,以提高查全率;同時,為了提高查準率,需要對索引關鍵詞進行篩選。利用過濾器對關鍵詞實施篩選,要從已經標準化的元數據中進行提取,將其格式信息完全過濾掉,進而獲得關鍵字,而不是全部元數據信息,接下來,把通過關鍵字形成的索引表傳送給搜索引擎,再根據索引進行搜尋,搜尋到的結果就是元數據當中的關鍵字,而這部分關鍵字則對應著元數據十分完整的信息,用戶利用關鍵字可以很方便地找到元數據對應的數據資源信息,整個檢索過程即索引列表——關鍵字——元數據——資源數據。
資源整合系統支持快速檢索和高級檢索,支持對文章內容的全文檢索;支持多面搜索,即檢索一種文獻類型資源時,還可以顯示出其它文獻類型資源信息;同時通過自然語義分析,調整用戶檢索詞的分詞體系以達到精確檢索、智能檢索的目標。系統利用聚類緩存技術及數據庫集成技術,使得檢索結果的反饋時間以秒級計算。檢索結果的輸出支持統一格式顯示,不但能夠實現排序、合并及去重,還能夠實現對檢索結果的多角度聚類和分組。如圖4所示。
圖4 沈陽航空航天大學圖書館統一檢索界面
2.5 資源調度系統的建設
資源調度系統是幫助圖書館及用戶在檢索與原文獲取之間建立鏈接的系統,主要解決圖書館文獻服務中上下文敏感幫助和原文鏈接服務。該系統是基于OpenURL標準的多級調度系統,能夠自動更新調度知識庫,允許自定義本地調度規則并定制個性化調度服務[16]。資源調度系統采用了動態腳本技術來制定調度規則,這樣便于增加新的資源與服務,能更有效地實現資源與服務的調度。同時支持向第三方提供資源注冊的接口、標準,便于數據商對資源注冊信息進行批量更新。
OpenURL是一種開放式的鏈接框架結構,可以將信息源、信息服務和用戶需求很好地融合在一起。OpenURL全文鏈接同時附帶有元數據信息、資源地址信息,利用維護鏈接解析器,依照相應規則動態生成開放鏈接的“URL”,一對一、一對多地實現資源之間的鏈接,并對資源之間的關系進行動態的管理。資源調度遵循著就近最快原則,即對不同資源設立權重,根據客戶端來源情況判斷優先調度最快資源;遵循自動傳遞優先于人工傳遞原則,對于常用資源實現自動傳遞,自動傳遞無法判斷的需求自動轉到人工傳遞。3 結 語
數字資源整合是信息社會發展的必然,是實現信息共享的前提,是提供優質化服務的基礎[17]。基于元數據倉儲的數字資源整合系統,具有強大的資源整合功能、完善的數據集成功能、高效的后續服務功能,為用戶提供了方便、快捷的“一站式”服務。當然,基于元數據倉儲的數字資源整合方案也存在著一些問題,如元數據存儲需要占用大量的硬件空間、數據更新可能不及時等,但是總體來看,它還是現階段比較優秀的數字資源整合方案。
參考文獻
[1]閆志紅.我國高校圖書館數字資源整合模式研究[D].重慶:重慶大學,2008.
[2]屈冠軍.基于實現跨庫檢索的數字資源整合技術探討[J].圖書館,2009,(6):86-88.
[3]Anna Coleman,Paul Bracke,Subramaniam Kathik.The Integration of Non—OAI Resources for Federated Searching in DLIST,an Epfints Repository[J].D—Lib Magazine,2004,(10).
[4]姜愛蓉,王平,鄭小惠.分布異構資源整合管理系統的技術特點和應用趨勢——MetaLib SFX綜述[J].現代圖書情報技術,2004,(4):1-5.