鄭麗君
(華南農業大學圖書館 廣東廣州 510640)
隨著信息數據的網絡化、數字化的發展及信息搜索引擎技術的快速發展,圖書館文獻信息資源的組成形式、類型和數量都發生了極大的變化,這些發展與變化為讀者的多途徑、多空間獲得與發現所需的信息資源提供了方便與可能。然而,豐富多樣的資源在滿足讀者需求的同時,卻也因為不同的信息資源在組織結構、資源分布和訪問方式等方面的差異,給讀者的資源利用帶來了極大的不便。圖書館也一直通過利用技術,如建設門戶網站與數據庫、提供OPAC檢索與全文鏈接等,來努力實現對數字資源的最大程度整合,但這些以通過資源名稱檢索和鏈接來揭示資源存在的服務并不能滿足用戶的需求,使得用戶在社會信息活動中需要信息資源時想到的信息獲取途徑往往是利用谷歌、百度、搜狐等一站式搜索引擎和Google Scholar、SCIRUS、INFOMINE 等學術搜索引擎,使得圖書館處于一個非常尷尬的境地,也使得不少商家看到了其中存在的巨大商業價值。于是,在元數據檢索、關聯檢索等技術發展的基礎上,一些一站式資源發現系統應 運 而 生 , 如 Primo、EBSCO Discovery Service(EDS)、Encore等,OCLC也推出了自己的一站式知識資源發現與服務系統WorldcatLocal,這些系統通過類似Google的簡單檢索框,采用統一路徑以實現對圖書館各種資源的發現和獲取。
計算機技術與通信網絡技術的發展,推動著圖書館快速的完成了自動化、網絡化管理系統建設。但隨著各類數字資源在圖書館館藏中所占比重的升高,傳統的OPAC等查詢檢索系統不能對豐富的數字資源、網絡資源、OA資源進行一站式檢索的弊端進一步顯現,為了為讀者提供統一的資源一站式檢索接口,圖書館將追求的目光開始轉向了更深層次的資源整合方向,圖書館界掀起了一股大到國家共享工程項目,小到每個圖書館的特色文獻資源數據庫、機構知識庫、文獻數字化建設的資源整合熱潮,但由于建設時期、開發平臺、建設標準等方面的差異,致使這些資源的聯合統一檢索無法輕易實現,如何實現資源數據的收割、獲取、融合與展現,成為了資源進一步整合的攻克方向。
數據關聯整合、實時跨庫檢索和元數據集中索引檢索是圖書館界解決上述問題的主要方式。數據關聯整合通過檢索詞準確定位資源,如通過作者、主題詞等找出密切相關聯的資源;實時跨庫檢索是在對各異構分布資源平臺、數據和協議充分研究的基礎上,采用XML標準數據格式和Open URL、ODL、OAI等標準通用檢索協議,借助計算機強大的實時處理能力,將讀者的查詢請求即時構造成各數據源特定的檢索表達式,同時并行分發給各分布異構數據源,經各數據源實時檢索處理后,將檢索結果聚合、去重、排序整合后,統一呈現給讀者;元數據集中索引檢索是在分析各個分布式異構數據庫的元數據特性基礎上,參照元數據國際標準規范,構建新的元數據體系,再通過數據映射、抽取等技術手段,對各數據源的元數據進行收集、收割,經查重、聚合、修正等數據規范化加工后,集中存儲到中心元數據倉儲中,實現對所有異構資源的元數據分類聚合與統一,最終建立一個單一的元數據集中式索引。
這些多種更深層次的資源整合技術的出現,讓圖書館的資源整合走向了深入,向著資源語義化等方向發展,但在實際的整合中,數據的關聯整合須建立在規范的數據描述基礎上,而目前對數據的規范描述特別是科學數據的規范描述還沒有形成統一的規范標準,OCLC等機構間的規范標準也相差較多;實時跨庫檢索盡管實現了對異構資源庫的實時并發檢索,但卻因為受限于數據庫的協議標準、訪問方式和網絡聯通狀況等因素,隨著外部數據源的逐漸增多,整合難度隨之加大,容易出現整合檢索進程緩慢與中斷現象;元數據集中索引的整合檢索需要數據提供商許可才可采集、索引元數據,如果數據提供商不許可則完全不能整合??梢钥闯?,每一種資源整合技術都展現出了自己頗具優勢的一面,如關聯整合展現出了在提高檢索深度方面的巨大優勢,但對目前環境下的圖書館資源進行全部的關聯整合還不現實。因此,如何集成多種技術,進而為讀者提供既有資源整合、又能實現資源發現的檢索成為了圖書館資源建設的下一個課題。Primo等資源發現系統就是實現了跨庫檢索與元數據集中檢索的功能集中與融合,這些資源發現系統對用戶的檢索請求都是從跨庫檢索與元數據集中索引兩個層面進行檢索,最后經去重整合后統一展現給用戶,巧妙的利用了兩大整合技術的優勢,提升了用戶的檢索體驗,滿足了讀者一站式資源檢索需求,實現了從資源整合到資源發現的圖書館資源服務轉變。
資源發現服務主要是通過資源發現系統來實現的,工作原理是系統提供商通過與出版社等內容提供商的合作,對海量的、來自異構資源的元數據和部分對象數據,采用分析、抽取等手段進行預收集,并將這些數據按映射轉換規則轉換為標準的格式,納入到元數據標準體系中,形成一個預聚合的元數據聯合索引庫,在本地或者遠程中心平臺提供統一的搜索服務。自2009年Proquest旗下的Serials Solution公司推出第一款網絡級資源發現系統Summon以來,短短幾年間,越來越多的資源發現系統陸續發布,越來越多的圖書館也進行了引進和應用。據2009年一項針對美國ARL(Association of Research Libraries)的100所高校圖書館成員使用新一代資源發現系統情況的調查顯示,超過三分之一的高校成員館采用了新一代資源發現界面。另一項調查也顯示,僅在2010年引進Summon、Primo、Worldcat Local與 Encore 四大主要資源發現系統的圖書館就有1270家,累計安裝達2875家。我國的圖書館特別是一些高校圖書館也陸續開始了資源發現服務系統的引進與應用,如北京大學圖書館、浙江大學圖書館、西安交通大學圖書館以及北京師范大學圖書館引進了Summon系統,清華大學圖書館、上海交通大學圖書館、中科院高能所圖書館、農科院圖書館、中國社科院圖書館引進了Primo系統。
盡管國內外一些圖書館已成功的應用資源發現系統,但對大多數圖書館來說,資源發現系統還是一個較為新鮮的事物。一方面,引進資源發現系統的圖書館數量非常有限,且主要集中在高校。另一方面,我國還沒有一款自主開發的資源發現系統,對其的學術研究也還不深入?,F有的研究主題從對資源發現系統的介紹與比較、系統的發展趨勢、系統的產生場景與需求等較為宏觀淺層的研究深化到了發現系統的算法優化設計、基于DOM中間件技術的資源發現模式等涉及系統算法設計優化、平臺開發創新的較深層面,但由于研究群體較為單薄,研究成果有限,資源發現服務還有待進一步深化研究。
以數據密集型科學研究為代表的科學研究第四范式隨著信息技術的發展與大量科學數據的產生而到來,圖書館用戶特別是其中的科研人員的信息需求將隨之發生變化,為滿足這些用戶信息需求的嵌入式學科服務也正在進一步深化與轉變,基于結構復雜、類型多樣、數量巨大的大數據相關業務也逐漸成為支撐這些服務開展的基礎與保障,利用數據分析、數據挖掘、數據抓取、數據語義化等大數據技術去實現不同用戶、不同場景、不同需求的信息需求是圖書館在大數據時代的信息服務保障。對資源發現服務來說,如何從這些存在差異的場景、需求中去發現用戶的差異需求,進而提高可以解決用戶問題的信息知識,都值得關注和研究。
目前,圖書館應用的資源發現系統主要是Summon、Primo、Worldcat Local與Encore等,這些資源發現系統在資源的檢索原理、元數據獲取方式、服務模式等基本相同,但在數據來源與數據量、功能與服務、定價方式等方面存在著差異,隨著圖書館對資源發現服務的重視,將有越來越多的資源發現系統會投入市場,如何根據自身需求進行服務系統的選擇資源發現服務系統,將變得越來越困難,資源發現系統的選擇對圖書館來說是一個難題。對我國的圖書館來說,還需考慮到漢化的情況。如何根據自身的服務特征、存在場景與用戶需求,進而得出最優的選擇方案無疑將是未來資源發現服務的另一大關注點。
目前市場上的發現系統主要由以色列、美國等國的公司或OCLC等組織研發,對于國際元數據收錄較多、中文元數據收錄較少,如全球圖書館行業的領軍機構OCLC推出的Worldcat Local以強大的Worldcat為基礎,提供了全世界近2萬個圖書館的館藏紙質資源和部分數字資源的信息共17億條,但其中收錄的中文元數據資源卻只有國家圖書館2010年上傳的230萬條中文資源數據。因此,在我國圖書館的引進和應用系統時,如何實現對用戶需求最大的中文元數據覆蓋收錄與自己館藏資源的覆蓋收錄都會是系統選擇中的一大考慮因素。資源發現系統規范標準的缺失使得市場上的系統之間存在較大差異,除以上中文資源欠缺之外,資源發現系統的元數據訪問獲取方式、服務功能等都也存在差異,在實踐應用中,為了與現有的資源數據、服務平臺等無縫、安全對接,如,館藏資源和系統覆蓋資源的外部訪問和調用;通過資源調用接口特定的資源內容、格式、使用數量和頻度等權限信息,保護資源提供者的資源在可控范圍內被合法和安全利用范圍內;等等。將有越來越多的開放接口API被開發和應用,系統開發的標準化研究也會日益被重視。
近幾年興起的資源發現服務系統自推出以來,國內外圖書館的快速引進與應用說明了其存在的價值與競爭力,但目前從其發展的系統數量較少且無中文系統、研究文獻不足、應用還不普遍等現狀都可以看出,資源發現服務將是未來圖書館延伸服務、科學研究的增長點。對其的關注點也還可能不僅僅局限于系統的本身服務以及文中所述的接口與標準化等方面,還可能隨著科學研究第四科學研究范式和大數據時代的到來,對非結構化數據的處理、對用戶個體場景的分析等都可能是需要關注和研究的熱點,本文的研究只是關于資源發現服務的一個初步探索。
[1]熊擁軍.數據挖掘在數字圖書館個性化服務中的應用[D].長沙:中南大學計算機應用專業,2005.
[2]李曉瑩.圖書館異構數據庫檢索系統功能分析[J].情報雜志,2007,(2):134-136.
[3]嚴武軍,馬小燕.高校數字圖書館元數據檢索系統的設計與實現[J].計算機工程與設計,2006,(1):168-170.
[4]聶華.發現服務——通向深度整合與便捷獲取的路徑[C].2011高校圖書館發展論壇暨數字圖書館前沿問題高級研討班,四川成都,2011.
[5]包凌,蔣穎.圖書館統一資源發現系統的比較研究[J].情報資料工作,2012,(5):67-72.
[6]韓志萍.美國圖書館界新一代資源發現前端的興起及應用—兼議對中國高校圖書館的啟示[J].圖書館管理,2009,(30):55-62.
[7]Breeding Marshall.The new frontier[J].Library Journal,2011,136(6):24-34.
[8]北京大學啟用Serials Solutions Summon發現服務[EB/OL].[2012-12-10].http://www.serialssolutions.com/news/serialssolutions-peking-university-summon-simplified.
[9]Prim資源發現與獲取系統案例[EB/OL].[2012-12-10].http://www.exlibris.com.cn/support/casestudy.Html.
[10]項英,李向軍.高校圖書館資源發現服務系統應用研究[J].情報科學,2012,(11):1682-1685.
[11]孫楊.OCLCWorldcat local發展綜述[J].山東圖書館學刊,2011,(5):46-54.
[12]國家圖書館加入OCLC WorldCat資源共享網絡[EB/OL].[2011-07-19].http://www.ccnt.gov.cn/xxfb/xwzx/whxw/201004/t20100429_78833.html.