尹娟
摘 要: 現如今,全國各地的高校均已在網絡技術和信息基礎的支持下建立起數字圖書館,并對其進行不斷的更新和完善。搜索引擎技術是當前數字圖書館中支持圖書檢索的重要工具,也是數字圖書館先進技術和功能服務日趨完善的表現形式。本文從高校數字圖書館中必不可少的檢索工具入手,以雅虎搜索引擎為例,對數字圖書館中依托搜索引擎技術建立的檢索工具及該工具的功能和工作原理進行分析討論。
關鍵詞: 數字圖書館 檢索工具 網絡信息資源
高校數字圖書館是高校學生、教師及其他相關人員獲取信息資源的最佳途徑,圖書館檢索工具是大家從數字圖書館中獲取重要信息資源的幫手。數字圖書館有專業的檢索工具,才能正常發揮信息檢索功能,讓讀者快速、高效地檢索信息,幫助讀者找到自己想要的準確的信息資源。
一、國內高校數字圖書館建設現狀
從根本上看,數字圖書館應該是重要的數字信息資源匯聚地,在網絡環境下,數字圖書館可以進行高效的數字化信息組織和查詢工作,還可以為廣大讀者解決數字化信息服務問題[1]。
(一)高校數字圖書館建設現狀
現實中的數字圖書館建設并不是千篇一律的,而是根據現實需求和實際情況,將其建設成為多種形式,其中比較突出的幾項包括:第一,類似中國數字圖書館工程這樣的數字化系統工程,由國家主導建設,需要投入大量數字技術和數字信息資源。第二,類似超星數字圖書館的網上書店,用戶可以直接在網絡上借書、還書、看書。第三,類似上海數字圖書館這一類直接由傳統的實體圖書館轉化以后的類型,需要將其中的書籍內容和形式進行數字化轉變。
現在仍有許多地方在如火如荼地建設數字圖書館,而且圖書館的功能和作用不斷完善,不少高校數字圖書館已經同時具備以上三種功能和特點。這樣的建設工作是具有重要意義的:一是讓中文網絡領域中的學術信息資源得到了極大的豐富;二是為網絡上的各類信息檢索用戶提供便利,要從圖書館查資料,可以借助網絡實現。
其實在高校數字圖書館的建設過程中也遇到了一些問題,其中最迫切需要解決的問題是對信息量巨大網絡信息資源的組織工作不夠重視。工作量大并且聲名遠播的中國數字圖書館、上海數字圖書館、清華大學建筑數字圖書館等都存在這一問題。
當然,高校數字圖書館在運營發展過程中已經漸漸意識到網絡信息資源的組織和管理是非常重要的,已經開始在這方面加大關注度,并設置了一些小欄目用于參與網絡信息資源的組織。
(二)數字圖書館的指標
專業的數字圖書館應該具備以下三個指標:
第一,數字化資源豐富。作為一個完整的圖書館,必定擁有豐富的圖書資源,而將圖書館轉化成為數字圖書館以后,原有的圖書資源會轉化成為數字化資源,所以成功轉化的數字化圖書館應該具有豐富的數字化資源。按照建設要求,屬于圖書館中必須具備的數字資源的內容有:圖書館中的OPAC書刊目錄庫、全圖書館中各類書籍匯總后的數據庫、多媒體數據庫、圖書館的網絡數據庫、以網絡信息為主的網絡信息資源庫,等等。
第二,能提供信息資源檢索服務。數字圖書館的信息資源檢索服務能讓用戶從數字圖書館中檢索獲取Web,FTP,Gopher,Wais,Usenet等互聯網絡信息資源。除此之外,還能給廣大用戶提供書刊和書目信息的檢索服務,以及音頻、視頻形式的資源檢索服務。
第三,擁有專門的信息檢索界面,并能在該界面處理與信息檢索有關的各種操作。數字圖書館建成以后使用的是統一的檢索界面,對數字圖書館中各類型信息的檢索及難度較高的跨數據的檢索都可以在這個統一的界面上操作。
二、搜索引擎的應用
搜索引擎技術的應用是實現數字化圖書館檢索的關鍵,分析數字圖書館檢索一定要從廣泛應用的搜索引擎技術入手。
(一)搜索引擎
網絡用戶如果要在網絡上查找信息或者是鏈接到自己感興趣的網站之中都要借助搜索引擎的幫助,否則只有用戶死記硬背網址信息,才能避免迷失于浩瀚無邊的網絡信息海洋之中。除了信息搜索方面的功能和作用以外,搜索引擎還可以用來自動搜集和標引網絡上的信息,用戶可以通過關鍵詞、關鍵語句等進行信息檢索,而且通過這樣的方式搜索信息時會更加方便、高效、快速。當然,要全面強化檢索效果,還需要對搜索引擎的應用進行人工干預,以免自然狀態下檢索到的信息質量不高,信息檢索的準確率偏低。
我們現在能夠通過瀏覽器看到相關的信息檢索結果,主要得益于與搜索引擎在網絡中發揮作用。據悉,要實現最終看到檢索結果這一步,需要先通過一些專業的搜索軟件從互聯網上收集網頁數據、信息內容,并且將收集到的網頁信息交給網站中的檢索系統。在這一步過程中比較適用的搜索軟件是Robot,Spider,WebCrawler等。第二步是讓檢索系統發揮作用對網頁中的每一個信息都進行掃面和排序,排序的時候可以根據關鍵性詞匯出現的頻率排序,這樣可以確保最后輸出的排序結果更接近用戶的實際需要。第三步是借助頁面生成系統再次將檢索過程中輸出的排序結果組裝成為網絡頁面,讓我們從網絡頁面上清楚地看到自己想要查找的信息[2]。
(二)雅虎公司的搜索引擎應用分析
雅虎的搜索引擎應用是比較先進的,值得大眾學習和借鑒。從雅虎搜索引擎應用現狀及數字化圖書館發展趨勢看,數字化圖書館中搜索引擎的應用可借鑒雅虎的以下兩種模式:
第一,雅虎的目錄搜索引擎。目錄搜索引擎指的是采用人工標引方式組織網絡信息的分類目錄體系,雅虎采用的是這樣的目錄體系。因為在分類目錄體系下,雅虎提供的目錄服務中帶有搜索功能,所以常有人將分類目錄體系乘坐目錄搜索引擎。雖然目錄搜索引擎的搜索范圍被限定在目錄系統之中,依然能在目錄系統中為用戶搜索網站,而且因為搜索結果會以相關網站地址為返回信息內容,被一部分人稱為網站搜索引擎。當然,這種戲稱的目錄搜索引擎與真正的搜索引擎之間是有著差別的,二者可以說是完全不同的兩個概念。雅虎有需要的時候肯定會從外引進搜索引擎,不過雅虎本身的分類目錄體系并不會被淘汰,因為雅虎自由目錄體系同樣能為雅虎內部搜索帶來幫助。
第二,自身目錄服務和Google搜索引擎相結合。雅虎公司走自身的目錄服務和Google搜索引擎結合的模式,是因為以“搜索引擎”聞名全球的雅虎公司本身并不做搜索引擎,真正屬于雅虎公司自己的只是一個網站目錄搜索引擎,即只能搜索自己網站目錄的“搜索引擎”,因為這種自身目錄服務確實與“搜索”沾邊,所以被大家稱為目錄搜索引擎。
雅虎公司應用的全文搜索引擎是和大多數的企業的門戶網站一樣,從專做搜索引擎的公司引進的。現在國際上做搜索引擎比較有名的公司有“Inktomi”公司,微軟應用的也是這一家公司提供的搜索引擎。在國內市場中能夠為國人和個大企業提供搜索引起服務的是百度。當然,雅虎公司與這些直接引擎搜索引擎的公司有所不同,因為雅虎公司引進的Google搜索引擎還需要與雅虎自身的目錄服務系統配合使用,而且雅虎現在對兩種搜索工具的配合非常完美,優勢突出。基于這方面的原因,采用了統一搜索界面的雅虎公司搜索系統,在人工標引和自動標引兩個方面都表現得很優秀。
三、國內高校數字圖書館中的搜索引擎應用
國內高校數字圖書館的建設如火如荼,隨著建設經驗的豐富和數字圖書館建設要求的不斷嚴格,搜索引擎技術的應用勢在必行。事實上制約搜索引擎應用的技術難題、市場需求問題等均已在數字圖書館發展過程中被攻破,現在應用搜索引擎技術建設數字圖書館檢索正合適。
(一)高校數字圖書館搜索引擎技術難關已經攻破
現階段國內數字圖書館檢索的建設條件已經成熟,數字圖書館檢索功能所需的搜索引擎技術和技術的應用都已不成問題。首先,國內數字化圖書館領域已經實現了對OPAC書刊目錄庫的標準化發展要求。其次,數字圖書館中所需要的全文數據庫資源已經非常豐富,這些資源基本上是通過自建和購買的方式獲取的。再次,主持工作的相關人員已經掌握先進的技術,能夠將信息資源進行優化整合,還能夠幫助用戶實現對信息資源的跨庫檢索。最后,為專業檢索服務系統的建設提供幫助,讓這個檢索系統變得更加完善。
(二)高校數字圖書館對搜索引擎技術的應用需求增加
第一,人工標引方式逐漸力不從心。在建設數字圖書館以前,圖書館一貫采用的都是人工標引的方式,這種標引方式在雅虎等企業內部應用還比較實用,但對數字化圖書館來說卻有些不合時宜。一是數字化圖書館中需要標引管理資源內容豐富、數量龐大,完全依靠人工標引將是一個浩大的工程,而且效率極低。現在人工標引已經無法滿足數字圖書館的標引率要求,必須轉而應用更加高效的標引方式。二是面對網絡信息資源的時候,人工標引的方式不太合適。網絡信息資源的數量、種類規模更加龐大,所以在處理網絡信息資源的時候,根本無法采用人工標引的方式。如果不顧現實情況,強制采取人工標引的方式,肯定會造成進度緩慢,耗時長久,造成大量人力、物力和資金成本方面的浪費。例如,“211工程”立項的一個高校圖書館共建項目,這個項目要求建設一個CALIS網絡重點學科導航庫。這個重點學科導航書庫的建設需要納入213個重點學科導航庫及6萬個領域內有分量的學術網站,為了實現這個建設目標,拉來了48個圖書館,花費了將近2年的時間,期間的人力和財力浪費更是嚴重。總體而言,建設效率非常低。
第二,搜索引擎技術表現突出。如果說人工標引方式在網絡資源庫建設和管理方面力不從心的表現,讓大家越來越重視自動化的搜索引擎技術的話,那么,搜索引擎技術自帶的優勢則加快了數字圖書館資源建設中引進搜索引擎技術的步伐。引進搜索引擎技術的用途:一是節省人力和相關的投入,例如,資金方面的投入。在達到節約效果的同時還能依靠技術保證信息資源的完整性和全面性。二是因為有雅虎公司的正確示范,讓數字圖書館找到了自動標引和人工標引相結合的正確方式,引進搜索引擎技術能夠加快自動標引與人工標引的結合,從而進一步凸顯搜索引擎技術的重要性和優越性。
四、高校數字圖書館檢索工具分析
數字圖書館檢索工具是圖書館用戶查詢信息、查找資料的時候使用的檢索服務工具,這個工具的建設和應用都需要由一個完善的檢索服務系統構成,由龐大的數字信息資源庫支持,最后還要設計統一的檢索平臺和用戶界面。
(一)數字圖書館檢索工具與搜索引擎的區別
數字圖書館中的檢索工具和互聯網絡中的搜索引擎都是為用戶提供信息檢索、關鍵字搜索等相關服務的工具或者是系統,但二者之間并非完全重合。從二者的實際應用情況和數字化圖書館的發展情況來看,二者的區別很大。首先,數字圖書館檢索工具可提供的檢索服務更周到全面,服務范圍更加廣闊。檢索工具不僅能夠提供搜索引起在互聯網絡上提供的網絡信息資源檢索,還能夠對數字圖書館中各種專業的資料信息和資源庫進行檢索。其次,搜索引擎提供的是與人工標引方式相對的自動標引方式,在進行網絡信息資源和數字圖書館資源檢索和標引的時候固然比人工標引更高效,但會出現有干擾信息的情況。數字圖書館檢索工具將自動化標引發方式包含其中,能夠與人工標引方式相互配合。
(二)高校數字圖書館檢索功能
第一,跨庫檢索功能。一個正規圖書館中需要建設多個資源庫,跨庫檢索的功能就是為了讓用戶檢索信息的時候不出現隔閡,能夠直接對多個資源庫進行檢索,從中尋找自己想要的信息資源。
第二,檢索工具支持進行全文檢索。全文檢索功能指的是數字圖書館檢索工具能夠憑借關鍵字檢索到選定的網絡信息資源庫中做過內容標引的部分,并將檢索到的所有匹配結果如實反饋給用戶,讓用戶從中獲得自己想要的信息。當然,在支持這方面的檢索工作的前提是搜集整理網絡信息資源的時候,數字圖書館檢索工具對各個資料所在網站和網頁全文都進行了收集和標引,再入庫。
第三,提供多途徑檢索服務功能。常規的檢索途徑就是輸入關鍵詞檢索,但這樣的檢索方式太過單一,不夠嚴謹,無法讓用戶更快完成檢索工作。為了讓用戶檢索獲得的結果更加接近自己的使用需求,必須在單一的關鍵詞檢索方式基礎上進行擴展,例如增加自然語檢索或者是主題詞檢索等方式,這樣可以增強檢索結果的準確性。因為用戶的檢索需要,應該讓檢索工具支持以下幾種檢索方式:布爾邏輯運算檢索、特征字段檢索、權重檢索和支持相鄰檢索等。
第四,目錄檢索功能得到支持。該項功能是根據雅虎的目錄檢索系統設置,同樣具有內部的目錄檢索服務能力,而且從雅虎經驗來看,檢索工具應該對功能給予高度支持。
第五,支持多媒體信息檢索。隨著現代社會信息資源的形式變得越來越多種多樣,處理信息的設備、工具應該具備處理多樣化信息的功能。檢索工具支持多媒體信息檢索功能,說明檢索工具能進行多種形式信息資源的檢索。目前除了文本信息資源檢索外,還需要檢索工具支持的多媒體信息檢索功能包括:針對圖像信息的檢索功能,針對聲頻或者是視頻的信息檢索功能。
(三)高校數字圖書館檢索的優勢
第一,在檢索結果排序方面的優勢。高校數字圖書館中數字信息資源的檢索結果一般是按照時間和用戶查詢信息的相關性排序。
第二,檢索操作流暢、舒心。高校數字圖書館采用的都是統一的檢索界面,而且檢索界面設計簡潔、大方,賞心悅目,這樣大家在不同高校數字圖書館檢索的時候都能熟練操作。高校數字圖書館的檢索結果顯示方式統一,所有檢索結果都能按照標準格式,清晰明了地展現出來,方面用戶了解情況。
第三,數字圖書館的檢索功能具有自動化特征。自動化是數字時代的標志,數字圖書館的檢索便具有這種自動化的特征,能夠對網絡上的網址進行自動收集、對網頁萬文進行自動標引。當然,所有的自動化操作最后都需要經過一道人工審定的程序,這么做是為了進一步審查信息資源的真實性和準確性,避免完全自動化操作造成的錯誤得不到更改。從這一點可以看出人工服務是非常重要的,至少在自動化檢索達到100%準確以前,人工審查這一步不可省略。
第四,數字圖書館檢索的索引范圍廣闊。網絡中所有網頁基本上都被包含在數字圖書館的索引范圍內。同時數字圖書館的檢索工具,還能夠借助搜索引起技術對網頁中的詞句、內容進行分析、審查,經過專門辨別分析以后符合要求的網絡數字信息才會被正式加入數字圖書館的網絡信息資源庫,成為被檢索工具標引的內容。
五、結語
隨著越來越專業的搜索引擎技術的出現,還有以搜索引擎技術為基礎構建數字圖書館檢索工具的技術的逐步完善,現在已經擁有了打造數字圖書館檢索系統的能力,圖書館提供最健全檢索功能的基礎條件已經齊備。考慮到,數字圖書館檢索功能設置是一個系統工程,光依靠搜索引擎技術是不可行的,還需要有信息資源庫的支持。本文從國內高校數字圖書館建設現狀入手,通過對國內高校數字圖書館中的搜索引擎應用及國內高校數字圖書館檢索工具的分析,證實了搜索引擎技術的應用與國內高校數字圖書館檢索工具的設置有重大關聯,而且聯系十分密切。另外,通過本文的分析研究,還應該認識到充分而準確地應用搜索引擎技術,能讓數字圖書館檢索工具更加專業和高效,也能讓高校數字圖書館檢索優勢更加強勁。
參考文獻:
[1]韓慧琴,劉柏嵩.數字圖書館中的知識發現[J].情報學報,2001(3).
[2]黃海.中文搜索引擎核心技術之爭[J].圖書館雜志,2001(3).
[3]段其憲,時永梅.網絡檢索工具的比較研究[J].情報科學,2001(6).
[4]徐亞先.搜索引擎的功能概述與研究熱點[J].情報科學,2001(3).