大數據背景下我國高校圖書館檢索服務應用研究

2014-08-18 10:05:15施亮魏鳳萍

現代情報 2014年6期

施亮+魏鳳萍

〔摘要〕大數據時代的高校圖書館面臨著如何解決資源有效檢索和利用的問題。本文介紹了高校圖書館正在采用的幾種主流檢索服務技術并舉例對它們做出了評價，最后對未來檢索服務應用的趨勢也做出了展望。

〔關鍵詞〕檢索服務；技術應用；高校圖書館；大數據

〔中圖分類號〕G252.6〔文獻標識碼〕A〔文章編號〕1008-0821（2014）06-0139-04

我國高校的學術資源投入一直在保持較快增長，根據“教育部高等學校圖書情報工作指導委員會”發布的《高校圖書館發展報告》，2006-2011年納入統計的近500所高校的文獻資源購置費均值超過了300萬元人民幣，其中超過了1 000萬元的高校有42所，有5所高校超過了3 000萬元[1]。文獻資源購置費的高投入帶來了文獻資源的高增長，以北京的清華大學圖書館和武漢的華中科技大學為例，到2011年底學術資源館藏總量分別為4197萬冊（件）和579萬余冊（含院系資料室），均涵蓋了理、工、文、經管等各學科的綜合資源，另外分別有各類網絡數據庫500個和400多個以及大量電子期刊和圖書資源。高校館藏的不斷積累，標志著學術資源“大數據（Big Data）”時代的到來。

1高校圖書館在大數據時代面臨的困境

韓翠峰認為，大數據時代的到來將對作為社會中儲存信息知識、提供信息服務的信息中心的圖書館形成沖擊與挑戰[2]。付蔚和王海蘭找到的一份2002年的評估報告指出Google搜索引擎在一天半的時間內處理的問題要比全美所有圖書館一年所提供的檢索服務量要多[3]。而在2007年余金香等人做的文獻統計，也支持了以上評估報告的結論，她們發現不少的調查研究都報道了大部分的用戶包括學生、教師及專業人員查找資料時的首要信息源不是圖書館購買的商業電子資源或者聯機公共檢索目錄，而是Google[4]。筆者認為造成這種結果的原因主要在于隨著館藏資源的日益豐富，學術資源種類繁多、數據量大、形式各異，不同的電子資源又往往分散在各自獨立的數據庫、檢索系統和發布系統，這使得圖書館的學術信息資源比較分散雜亂，給讀者檢索和利用造成了許多不便，所以適時、有效地利用先進的學術資源檢索技術是高校解決上述問題的重要途徑。

2現有檢索技術及其優缺點

目前我國高校圖書館采用的檢索技術主要有“聯機公共檢索目錄”和“聯邦檢索”，現分別介紹如下：

2.1聯機公共檢索目錄

聯機公共檢索目錄的英文為“Online Public Access Catalog”又簡稱OPAC，它通過計算機終端查詢圖書館書目數據資源，為讀者提供館藏文獻的線索和獲取館藏文獻的便利。最早的OPAC系統出現在20世紀80年代，OPAC的初始設計是基于編目理論發展的印刷型世界，目錄典型地揭示紙質書刊館藏，延續了傳統圖書館卡片式目錄的構建思路，提供與卡片式目錄相同的記錄內容、記錄格式和檢索途徑[5]，隨著網絡技術的飛速發展，目前廣泛采用的OPAC是第二代，它在檢索點和網絡功能方面進行了改進。根據錢文麗和李亮先提供的調查，我們發現目前國內高校可供選擇的OPAC的系統廠家有十幾家，其中在我國“211工程”院校使用較多的主要有國內公司開發的libsys、ILAS和MELINETS以及國外的INNOPAC、ALEPH和WebCat[6]。

2.1.1聯機公共檢索目錄的工作原理

OPAC的工作原理主要分為3個層次，圖書館館藏書目元數據與電子資源元數據一起構成數據層；業務邏輯層構建在數據庫系統與客戶端之間，為每一數據源的MARC元數據建立統一的文檔類型定義，并通過該類型定義將各數據源的元數據映射成全局XML文檔視圖來進行整合；客戶端在OPAC的基礎上，經過一定的擴充修改后實現統一檢索功能。如圖1：

該系統可查詢清華大學圖書館收藏的中西文圖書、日文圖書、俄文圖書、中西文期刊和1994年以后入藏的日文期刊、多媒體資源、大部分外文電子期刊、學位論文和中外文電子圖書，以及7個專業圖書館及部分系圖書館的館藏。它使用命令語句并包含菜單導向檢索，增加了關鍵詞檢索，更多地為用戶顯示數據庫記錄中的有關主題信息，有的系統還使用詞組進行檢索。此外，該系統更注重用戶界面的設計，為用戶提供更多的功能，如下拉式菜、幫助功能、拼寫錯誤校正、瀏覽查找、布爾邏輯檢索、圖形顯示書目資料的排架位置等。更為突出的是突破了書目數據的限制，引進了期刊題錄、文摘及情報數據等。

2.1.2對聯機公共檢索目錄的評價

OPAC系統的應用對學術檢索的作用是顯著的。首先，OPAC為讀者檢索館藏資源提供了一個統一的界面；其次，OPAC的應用促使讀者養成利用網絡查詢資源的習慣；最后，OPAC的機讀目錄格式為揭示網絡信息資源提供了可能。

當然，OPAC也存在自身的局限，余金香和李書寧就認為OPAC發展中存在以下問題：①書目記錄之間的關聯性不強，用戶不易辨別和理解檢索結果各實體之間的關系；②文獻單元應該從形式層面提升到內容層面上；③檢索問題：失敗率偏高、耗時，擴展檢索能力不強[4]。2005年OCLC在《對圖書館與信息資源的認知：給OCLC成員的報告》中提到：信息用戶中“84%的用戶使用搜索引擎進行信息檢索，1%的人從圖書館網頁上進行信息檢索，只有10%的大學生認為，在通過搜索引擎找到圖書館網站后，圖書館的館藏可以滿足他們的信息需求”[7]。由此看來，OPAC技術還需要進行進一步改進，以便更好地滿足讀者檢索學術資源的需求。

2.2聯邦檢索

維基百科對聯邦檢索的功能定義為：它可將一個檢索請求以合適的語法進行轉換后發送到一組獨立的數據庫中，并合并檢索到的檢索結果以簡潔統一的格式和最小的重復顯示出來，同時能提供一個自動或者用戶選擇的排序方式對結果集進行排序。業界主流的聯邦檢索系統包括WebFeat、MetaLib、Serials Solutions和Muse系統，截止到2007年，以上幾家公司擁有了全球近20 000萬家用戶[8]。endprint

2.2.1聯邦檢索的工作原理

聯邦檢索的運作機理是這樣的：首先它為每個數據庫創建資源描述，隨后選擇滿足特定信息用戶需求的檢索數據庫，將用戶提問式轉譯成適合所選數據庫的檢索格式，接下來合并檢索結果并按用戶需求定制個性化的排序方式將檢索結果反饋給用戶，如圖3：

1111圖3聯邦檢索流程結構圖

以Metalib系統為例，我們可以實現如下功能的檢索：①檢索館藏的紙質資源的電子目錄；②檢索圖書館購買的電子資源并提供全文鏈接；③檢索Google Scholar等網絡免費電子資源并直接反饋全文信息；④可以自定義不同資源進行整合檢索；⑤讀者在登錄個人空間模塊后該系統能提供個人檢索的書目記錄文檔，也能提供個性化數據庫集合定制檢索，以及提供定期檢索提醒服務。

2.2.2對聯邦檢索的評價

聯邦檢索技術與聯機公共檢索目錄結合，讓學術資源的整合檢索更加便利，從而提高了學術資源的利用率。

盡管聯邦檢索系統具有自身的優勢，但Webster認為該技術還是不能根本解決檢索平臺間日益增長的復雜性和缺乏統一性等問題[9]。聯邦檢索在使用過程中會存在著一些無法克服的困難，主要有以下幾點：①因在多個數據庫中同時進行實時檢索，這就導致了聯邦檢索的結果返回速度過慢；②由于每次各個數據庫反饋給聯邦檢索的結果有限（每次只能抓取20～30條結果），所以無法實現真正意義上的結果的相關性排序和去重。③讀者必須通過圖書館的認證系統才能實現檢索功能；④聯邦檢索并不能優化檢索系統，其功能受制于本地數據庫檢索性能和搜索能力的局限。考慮到聯邦檢索技術功能的不足，陳家翠認為元搜索為基礎的知識發現系統是下一次學術資源檢索發展的方向[9]。

3檢索技術應用的趨勢

鑒于OPAC和聯邦檢索系統的不足，近年來，圖書館界一直在尋求一種數字資源的整合之道。為用戶提供一個實現各類學術資源發現與獲取的一站式解決方案，以提升用戶利用資源的有效性與友好性，基于元數據預索引的網絡級發現服務系統即是其中的佼佼者[10]。2010年，美國著名的教育技術方面年度報告《地平線報告》就指出，網絡規模發現服務將是未來三年發展迅速的一個領域。據幾大網絡規模發現服務提供商統計，至2011底，已經有400余家美國高校圖書館和公共圖書館使用網絡規模發現服務[11]。目前，被我國高校用戶認識和采用發現服務系統主要有Summon、EDS和Primo 三個產品，雖然用戶數量較少，但已引起了業內的廣泛關注。

發現服務系統將圖書館的所有資源和館外學術資源納入了統一的架構和單一的索引體系，它事先為圖書館眾多的本地和遠程資源建立了一個集中索引倉儲，用戶通過一個類似Google的單一檢索框檢索這個倉儲以實現資源的一站式檢索，并且這些系統還會對檢索結果進行有效的組織和揭示，以幫助用戶發現最合適的資源，系統的穩定性方面也超越了所有以往的統一檢索產品。因此它是高校圖書館學術資源深度整合和便捷獲取的發展方向。

目前的發現系統主要采用兩種系統架構：純SaaS（軟件即服務）型和混合型。純SaaS型以Summon系統為代表，完全將元數據倉部署在云端，力求實現對于圖書館全部資源元數據的覆蓋，并在此基礎上構建一個完整統一的元數據索引，如圖4。

混合型以Primo系統為代表，本館館藏和自建資源數據部署在本地，其他元數據部分在云端，目的是以館藏和自建資源補充目前元數據倉儲中元數據覆蓋的不足，如圖5[12]。

兩種模式各有利弊，混合型模式能更好地和圖書館原有的OPAC系統進行整合，而純SAAS模式能減少圖書館對學術資源維護的成本。

有關發現服務系統的功能，我們以清華大學圖書館的“水木搜索”（Primo系統）為例：

①在資源整合方面可以整合查詢圖書館的各類館藏資源，包括實體資源和數字資源，涵蓋了本地擁有的資源、遠程存取資源、書目、全文等。

②在檢索方式方面，Primo提供了簡單檢索和高級檢索兩種模式，其中簡單檢索類似于Google的單一檢索框，方便讀者進行快速檢索；高級檢索則提供了“題名”、“作者”、“主題詞”等4個檢索字段限定欄，同時可以限定“資料類型”、“語種”和“出版日期”等文獻特征，同一字段內可以使用AND、OR、NOT進行邏輯檢索，可使用半角雙引號進行精確匹配，可使用截詞符，不同檢索條件間邏輯以AND邏輯連接，從而滿足精確檢索的需要。

③在檢索結果提煉方面，提供了多樣化的排序和分面分析功能。Primo將檢索結果按照相關度分值排序，與查詢相關度最大的排在最前面，讀者可以重新選擇排序方式，可以按日期或流行程度排序；在分面分析方面，可以通過主題、文獻類型、作者、出版來源和語種等十多個角度來提煉結果。多樣化的結果排序和分面為讀者篩選文獻提供了便捷的通道。

④在結果獲取方面，提供資源的一站式獲取。每條記錄的簡單瀏覽界面會顯示獲取鏈接，結果頁面提供直接查看館藏的借閱信息、提供已購電子資源的全文鏈接并提供開放資源的SFX鏈接功能等。

此外，該系統還整合了個性化顯示和Web2.0的功能，結果頁面會顯示與檢索主題相關的百科詞條，顯示圖書封面、目次、書評，并將不同版本或多個分冊的圖書書目記錄合并為一條記錄顯示；它可以讓人們聯機協作與共享信息，用戶參與互動，給系統提供的數據增值，用戶可以為百科詞條挑錯，為記錄增加標簽、評論、打分，還可以發送檢索結果至EndNote等。

當然，目前的發現服務系統也存在一系列問題，主要表現在：①國外的幾大發現服務系統針對中文資源的目錄簽約度不高，導致了發現服務系統僅能訪問少數中文資源；②并非所有資源都能實現全文檢索；③現有的資源發現系統尚不能很好地揭示不同資源條目之間的復雜關系[13]。

針對以上問題，目前發現提供商和圖書館解決采取了部分彌補措施，例如針對中文資源的訪問瓶頸，EDS和南京大學聯合開發了Find+，利用國內的合作團隊開發中文目錄資源；而某些高校采取的辦法是在引進國外發現服務系統的同時，引進國內開發的中文發現系統。西安交通大學圖書館為例，該館在引進國外Summon發現服務系統的同時，也購買了國內超星發現作為中文資源發現的補充。但由于版權的原因，要想實現所有資源的全文檢索可能是一個不可完成的任務。在今后的研發過程中，如發現系統更好地借鑒FRBR（書目記錄的功能需求）的思想，將會對資源條目之間的關系揭示帶來改進。endprint

4結束語

大數據時代的“3V”：量級（Volume），速度（Velocity）和多樣性（Variety）[14]給不斷加大學術資源建設投入的高校帶來了嚴峻挑戰，如何讓文獻檢索服務得到廣大師生用戶的認同是實現大數據第四個V（Value）的重要前提，而學術資源檢索技術的采用又是文獻檢索服務得以實現的重要前提。每個新的檢索技術的采用并不是對先前技術的全盤否定或者拋棄，而是以原有技術為基礎的改進和增加，它們之間是整合協同關系。高校的學術資源提供者應關注檢索技術的發展，了解各種檢索技術的優缺點，結合用戶的切實需求和使用習慣，及時引進新技術并科學引導用戶對新技術進行利用，以達到高效利用學術資源的目的。

參考文獻

[1]CNNIC.2011年高校圖書館發展報告[EB/OL].http：∥www.scal.edu.cn/courseInfo Search.html？miscdictId=7，2013-05-20.

[2]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報，2012，（5）：37-40.

[3]付蔚，王海蘭.Web20時代OPAC發展及書目創新服務的思考[J].圖書情報工作，2007，（2）：117-120.

[4]余金香，李書寧.Web20時代OPAC發展研討[J].圖書館雜志，2007，（8）：31-35.

[5]魏瑞斌，陳丹丹.基于引證網絡的高被引文獻實證分析——以知識服務為例[J].現代情報，2011，31（3）：117-121.

[6]錢文麗，李亮先.“211工程”高校圖書館OPAC系統比較評價研究[J].圖書館論壇，2010，（2）：75-77.

[7]黃田青，陳清文.WPopac：新一代的Opac[J].情報雜志，2007，（12）：112-113.

[8]馬驊.國外主要聯邦檢索系統的興起、現狀及發展趨勢[J].圖書館建設，2009，（3）：1-5.

[9]陳家翠.聯邦檢索機制及其存在的問題[J].圖書情報工作，2006，（6）：87-89.

[10]秦鴻，錢國富，鐘遠薪.三種發現服務系統的比較研究[J].大學圖書館學報，2012，（5）：5-11.

[11]安偉，徐敏，李剛.網絡規模發現服務的研究與實踐[J].圖書情報工作，2012，（9）：125-128.

[12]竇天芳，姜愛蓉.資源發現系統功能分析及應用前景[J].圖書情報工作，2012，（7）：38-43.

[13]陳定權，盧玉紅，楊敏.圖書館資源發現系統的現狀與趨勢[J].圖書情報工作，2012，（7）：44-48.

[14]官建文，劉振興，劉揚.國內外主要互聯網公司大數據布局與應用比較研究[J].中國傳媒科技，2012，（17）：45-49.

（本文責任編輯：馬卓）endprint

4結束語

參考文獻

[1]CNNIC.2011年高校圖書館發展報告[EB/OL].http：∥www.scal.edu.cn/courseInfo Search.html？miscdictId=7，2013-05-20.

[2]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報，2012，（5）：37-40.

[3]付蔚，王海蘭.Web20時代OPAC發展及書目創新服務的思考[J].圖書情報工作，2007，（2）：117-120.

[4]余金香，李書寧.Web20時代OPAC發展研討[J].圖書館雜志，2007，（8）：31-35.

[5]魏瑞斌，陳丹丹.基于引證網絡的高被引文獻實證分析——以知識服務為例[J].現代情報，2011，31（3）：117-121.

[6]錢文麗，李亮先.“211工程”高校圖書館OPAC系統比較評價研究[J].圖書館論壇，2010，（2）：75-77.

[7]黃田青，陳清文.WPopac：新一代的Opac[J].情報雜志，2007，（12）：112-113.

[8]馬驊.國外主要聯邦檢索系統的興起、現狀及發展趨勢[J].圖書館建設，2009，（3）：1-5.

[9]陳家翠.聯邦檢索機制及其存在的問題[J].圖書情報工作，2006，（6）：87-89.

[10]秦鴻，錢國富，鐘遠薪.三種發現服務系統的比較研究[J].大學圖書館學報，2012，（5）：5-11.

[11]安偉，徐敏，李剛.網絡規模發現服務的研究與實踐[J].圖書情報工作，2012，（9）：125-128.

[12]竇天芳，姜愛蓉.資源發現系統功能分析及應用前景[J].圖書情報工作，2012，（7）：38-43.

[13]陳定權，盧玉紅，楊敏.圖書館資源發現系統的現狀與趨勢[J].圖書情報工作，2012，（7）：44-48.

[14]官建文，劉振興，劉揚.國內外主要互聯網公司大數據布局與應用比較研究[J].中國傳媒科技，2012，（17）：45-49.

（本文責任編輯：馬卓）endprint

4結束語

參考文獻

[1]CNNIC.2011年高校圖書館發展報告[EB/OL].http：∥www.scal.edu.cn/courseInfo Search.html？miscdictId=7，2013-05-20.

[2]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報，2012，（5）：37-40.

[3]付蔚，王海蘭.Web20時代OPAC發展及書目創新服務的思考[J].圖書情報工作，2007，（2）：117-120.

[4]余金香，李書寧.Web20時代OPAC發展研討[J].圖書館雜志，2007，（8）：31-35.

[5]魏瑞斌，陳丹丹.基于引證網絡的高被引文獻實證分析——以知識服務為例[J].現代情報，2011，31（3）：117-121.

[6]錢文麗，李亮先.“211工程”高校圖書館OPAC系統比較評價研究[J].圖書館論壇，2010，（2）：75-77.

[7]黃田青，陳清文.WPopac：新一代的Opac[J].情報雜志，2007，（12）：112-113.

[8]馬驊.國外主要聯邦檢索系統的興起、現狀及發展趨勢[J].圖書館建設，2009，（3）：1-5.

[9]陳家翠.聯邦檢索機制及其存在的問題[J].圖書情報工作，2006，（6）：87-89.

[10]秦鴻，錢國富，鐘遠薪.三種發現服務系統的比較研究[J].大學圖書館學報，2012，（5）：5-11.

[11]安偉，徐敏，李剛.網絡規模發現服務的研究與實踐[J].圖書情報工作，2012，（9）：125-128.

[12]竇天芳，姜愛蓉.資源發現系統功能分析及應用前景[J].圖書情報工作，2012，（7）：38-43.

[13]陳定權，盧玉紅，楊敏.圖書館資源發現系統的現狀與趨勢[J].圖書情報工作，2012，（7）：44-48.

[14]官建文，劉振興，劉揚.國內外主要互聯網公司大數據布局與應用比較研究[J].中國傳媒科技，2012，（17）：45-49.

（本文責任編輯：馬卓）endprint