張宏偉 齊明明 史 磊 李 楊
(黑龍江中醫藥大學圖書館,黑龍江 哈爾濱 150040)
統一檢索也叫異構數據源整合檢索,是以多個分布式異構數據源為對象的檢索系統[1],可以實現不同規模、不同類型資源庫的資源整合與一站式檢索服務,實現檢索結果的統一展現和知識關聯發現。系統向用戶提供統一的檢索接口,將用戶的檢索要求轉化為不同數據源的檢索表達式,并發地檢索廣域網上和圖書館本地的多個分布式異構數據源,并對檢索結果加以整合,在經過去重和排序等操作后,以統一的格式將結果呈現給用戶[2]。
統一檢索系統是針對圖書館內部來源不同的數字資源進行數據整合與檢索的一站式搜索與知識發現服務系統[3]。基于元數據倉儲的統一檢索系統除具備異構數據源檢索分發、結果頁面分析、結果去重合并、結果集統一和分類展示等功能外,其重大改進在于實現多數據源的元數據本地化采集、存儲和管理,實現基于本地元數據倉儲的資源整合檢索與全文獲取服務[4]。因此,基于元數據倉儲的統一檢索系統不僅僅是一種統一檢索系統,更是一種本地化的知識發現與服務系統[5]。
元數據倉儲平臺是實現圖書館數字資源整合與利用的最有效手段,它的主要工作是采集各異構數據源的元數據信息,構建的難點在于元數據的采集、存儲管理及數據同步。
建成一個良好的元數據倉儲,是信息服務的基礎,只有擁有規范的、高質量的元數據,才有可能建成靈活實用的資源服務體系。元數據采集設計示例如圖1所示。

圖1 元數據采集設計示例
2.1.1 采集對象分析
元數據采集的主要對象為能夠提取元數據信息的數據庫。一般有本地自建數據庫、分布式自建數據庫以及外購數據庫。
2.1.2 本地自建數據庫
本地自建數據庫是圖書館對內部資源進行加工整理而形成的專題或特色數據庫,其表結構等數據庫詳細信息均可獲得,因此對于該部分數據庫的元數據獲取相對容易。
行業數據庫的建設應遵循一定的指導原則,應具有可使用性、互操作性和可持續性。這樣在后期的使用、升級或者構建其他服務時才能順利進行。
2.1.3 分布式自建數據庫
分布式自建數據庫為其他機構建立的數據庫,其對象數據不在本地。這部分數據與行業數據庫類似,可以抽取出元數據信息,但是其數據庫不在本地,所以其對象數據調用服務過程與行業數據庫會有所不同。
當用戶向本地Web服務器發送檢索請求時,查找到自己想要信息并調用其詳細內容時,如果對象數據在本地,則直接在本機構內數據庫中獲取數據返回到發布頁面;如果不在本地的話,可以直接從異地數據庫中取回數據返回到本地發布端,此過程并不會把異地數據庫中的數據取回來放在自己的服務器上,而是同步顯示在發布端。
2.1.4 外購數據庫
外購數據庫一般都是封裝好的,我們無法獲得其元數據信息。但是對于少數可以提供其元數據信息表的,我們提供導入工具。
數據庫可以按照特定格式導出數據庫內容。對于不同性質的數據庫,如圖書、期刊數據庫,可以分別按照其元數據必備字段要求導出,支持的格式包括xls、txt、dbf、xml等,但是建議最好是xml文件,這樣易于統一管理。
對于外購電子資源,根據電子資源供應商提供的服務方式,可以通過開放Z39.50協議、Web Service接口、相關API接口等獲取該電子資源供應商授權的元數據信息。
2.2.1 元數據存儲架構
數字圖書館需要整合大量的館藏資源、外部電子資源與網絡資源。因此,從數據存取效率和存儲安全性方面考慮,建議元數據倉儲采取架構在多個物理服務器之上的分布式服務,支持數據分布以及負載均衡兩種基本分布方式,并支持兩種方式的組合運用。
方式一是根據數據分類、功能不同,把內容分開存儲。將整個元數據倉儲的數據根據內容不同分為兩類,分別存放于數據庫(a)和數據庫(b)中,(a)(b)內容不同。
方式二是內容相同,數據不分開,只是每套數據分別存儲在不同的數據庫中,數據庫(a)和數據庫(b)內都存放全部元數據倉儲內容,(a)(b)內容相同。
資源調度服務器分發任務的方式可以根據網絡流量、檢索并發或者來訪IP地址來進行任務分發。
元數據倉儲數據庫集群系統服務模式如圖2所示。當用戶向元數據倉儲平臺Web服務器發送檢索請求時,其請求可能會被資源調度服務器分配到檢索集群中的任意一個檢索服務器,如分配給(a),(a)檢索后并從原數據庫中取回檢索結果,資源調度服務器在發布集群中選擇一個發布服務器,如(b),則(b)選擇接受數據,并返回結果,將結果頁面以一定方式顯示給用戶。

圖2 數據庫集群服務模式
2.2.2 元數據庫管理
構建元數據庫倉儲一樣要有很好的維護性。元數據倉儲管理重點在于其中的數據,所以當數據有了新的變化,增加或減少,元數據倉儲管理端都應該能夠方便地進行處理。
①當自建原數據庫內數據發生變化時,元數據庫需要隨之變化。②當增加新的自建數據庫時,元數據庫需要增加同步的數據庫量。③數據庫增加新內容或者增加新的數據庫,由于網絡環境不能實現同步,可通過表單提交元數據信息。
元數據同步更新可以分為實時和非實時。非實時同步可以通過查看數據庫表的關系得到。其操作步驟一般為:①查看數據庫表的關系;②在源機器上根據表的關系導出數據;③在目標機器上根據表的關系使用命令刪除數據;④在目標機器上根據表的關系使用命令導入數據。
但是這種方式有很大的時間損耗,數據不能實時更新,因此我們采用實時同步的方式。元數據實時同步分為兩種方式,一種為主動的,一種為被動的。主動的元數據同步:元數據庫服務器定時查找對象數據庫是否有更新,如果有更新,則進行增量同步。被動的元數據同步:對象數據庫更新后,定期上傳更新數據到元數據服務器。
由于機構內各個專題庫數據庫結構各異,如果要設定數據庫對元數據倉儲服務器的自動上傳,需要對每個數據庫進行改造,因此我們采用主動的元數據同步方式,由元數據服務器定期檢測對象數據庫,進行增量同步。
檢索服務是統一檢索系統的主要功能。為了具備更好的用戶體驗,采用簡潔的檢索入口(類似Baidu的一框式搜索),通過元數據內容全文索引來檢索和返回結果,對結果進行合并、排重、排序等處理,并通過全文調度引擎分析全文鏈接,提供全文獲取服務。基于元數據倉儲統一檢索系統架構如圖3所示。

圖3 基于元數據倉儲統一檢索系統架構
統一檢索系統為用戶提供簡單檢索入口。用戶在檢索前,可以選擇資源類型進行檢索,如期刊、圖書、學位論文、會議、報紙等。每種資源類型還可以選擇相應的元數據字段,以進一步縮小檢索范圍。用戶也可以直接輸入檢索詞進行檢索,系統默認在所有資源元數據中進行檢索。
系統將用戶的檢索請求轉化為統一的檢索表達式,并發送到本地的元數據倉儲中,根據檢索范圍分發到對應的元數據庫索引中進行檢索。檢索結果通過處理引擎進行合并、排重、排序等操作后,以統一的格式將結果呈現給用戶。
統一檢索提供一站式的檢索入口和檢索結果展現,能夠減輕用戶學習檢索不同數據源的負擔;采用多元數據庫分布式全文檢索,能夠有效提升檢索效率,節省用戶檢索時間;檢索結果合并,為用戶呈現格式統一、分類聚合、多種排序的檢索結果,大大方便用戶的瀏覽和選擇。
統一檢索系統提供高級檢索功能。用戶可以對選中的多個數字資源同時進行檢索,可以輸入復雜的組合檢索條件來提高檢索精度,包括組配檢索、日期限制、排序限制以及字段內部的截詞和邏輯檢索等。
統一檢索系統提供統一的檢索結果展現方式,包括檢索結果概覽和細覽,用戶可以在一個頁面中瀏覽不同資源庫中檢索出的結果信息。可以瀏覽每條結果的詳細信息,甚至直接下載全文。
檢索結果概覽支持多庫結果的統一展現,同時提供不同資源庫的檢索結果集分類和分面展現。這些展現方式都可以在一個頁面上集中體現,方便用戶根據自己的需要選擇性查看。
結果細覽頁面提供該檢索結果的全文獲取方式。不同資源類型所提供的全文獲取服務不同,從總體上來看,資源全文獲取服務可以包括以下幾部分。
①電子資源服務,包括電子資源全文下載和電子資源在線閱覽。電子資源全文下載需具有電子資源訪問權限。電子資源在線閱覽分為兩種,一種為常見的非結構化文檔,如Word、PDF、PPT、Excel、HTML、圖片等,可以提供格式轉換和在線查看;另一種為電子資源。
②館藏服務,查看各個參與圖書館的館藏信息,并提供圖書館藏狀態查看、預借、續借服務(需要與圖書館OPAC系統集成)。一般顯示3個有此館藏的圖書館名稱,點擊“更多”可以展開該頁面,顯示全部有此館藏的圖書館列表(需要與館際互借和文獻傳遞系統集成)。
③互聯網服務,互聯網公共搜索引擎,如百度新聞、百度文庫、豆瓣書評等,需要進行統一檢索配置。互聯網專業搜索引擎,如國家知識產權局專利檢索、標準技術網標準搜索等,需要進行統一檢索配置。
④文獻傳遞服務,虛擬參考咨詢要與本館虛擬參考咨詢系統集成,館際互借要與館際互借和文獻傳遞系統集成。
文獻資源的檢索與利用是科研工作的重要組成部分,基于元數據倉儲的統一檢索系統能夠整合圖書館現有數據庫資源、外購的各種數據資源以及互聯網搜索引擎資源,提供資源的一站式檢索與服務。可以實現不同規模、多種資源庫的資源整合與檢索,實現檢索結果統一展現,縮短了讀者查找文獻的時間,延長了讀者科研的壽命。
[1]徐榮華.基于元數據倉儲的資源整合應用[J].圖書館雜志,2012(4):67-73.
[2]李洪梅.數字圖書館異構資源統一檢索研究[J].圖書館學刊,2013(2):49-53.
[3]葛川,陳洪梅,劉嵐.數字資源統一檢索系統的設計與實現[J].現代情報,2011(4):49-52.
[4]蔣繼平,姚倩.文獻資源整合中的統一檢索系統應用研究[J].大學圖書館學報,2011(1):72-76.
[5]鄧曉音.統一檢索平臺評價標準及比較研究——以CALIS“外文期刊網”及交大圖書館“思源探索”檢索平臺為例[J].情報科學,2012(12):1844-1848.