王東波 曲阜師范大學圖書館 273165
基于新網絡的文獻信息資源檢索技術和方法
王東波 曲阜師范大學圖書館 273165
網絡信息組織模式已從Web1.0步入Web2.0,正在向Web3.0轉型。基于這種新網絡的文獻信息資源是當今社會最重要的信息資源。人們在運用新網絡文獻信息資源改善知識結構,完成學業、科研,提高綜合素養,提升工作能力的同時,又不得不為如何獲取新網絡環境下文獻信息資源的最佳途徑而苦惱。基于此,本文對新網絡環境下文獻信息資源的檢索技術、檢索方法和檢索途徑等進行了較系統的梳理、研究和揭示,并給出了比較好的解決方案和策略。
新網絡;文獻信息資源;檢索技術;檢索方法;檢索系統
文獻信息資源檢索技術是指人們為處理解決面臨的各種問題而查找、識別、獲取相關的事實、數據、知識等過程中運用的各種技術,也是利用現代信息資源檢索平臺如門戶網站、大型數據庫系統、隨書光盤系統、視頻VOD點播系統、各類課件等檢索有關文獻信息資源而采用的相關技術。
現在,隨著網絡信息組織模式已從Web1.0步入Web2.0,正在向Web3.0轉型,文獻信息資源檢索技術也不斷向兩大方向發展和延伸:一是傳統文獻信息資源檢索向全文文本、多媒體、超媒體、多載體、多原理等新型文獻信息資源檢索的發展,在深度上提高管理和組織文獻信息資源的能力,如探索自動抽詞、自動索引、自動翻譯、智能搜索等;二是文獻信息資源的網絡化和分布化,面向Internet中浩瀚無垠的資源,在廣度上提高管理和組織文獻信息資源的能力。在信息資源檢索技術研究領域中,基于概念、超文本信息和多媒體信息檢索技術已取得了突破性發展。未來,多媒體文獻信息資源檢索、可視化檢索、基于網格的檢索、語義檢索等將是網絡文獻信息資源檢索研究發展的重點。
1.2.1 文獻信息資源檢索語言
文獻信息資源檢索語言也稱檢索標識語言,是根據人們的檢索需要而創制的,其實質是表達一系列概括文獻內容的概念及其相互關系的概念標志系統。當前,文獻信息資源檢索系統主要涉及的語言為主題語言、分類語言、代碼語言、引文語言等。
新網絡環境下,檢索語言被廣泛應用,幾乎每個搜索引擎都具備語言檢索功能。語言還在網絡目錄、元數據、數據庫檢索系統中有廣泛應用。世界知名的Google就是因開發使用了基于引文索引語言的檢索結果組織技術而蜚聲世界的。將來的語義網,使得網中的所有信息都具有語義,可以實現機器可識別語義的數據的自動存取和利用,能實現信息的跨平臺、跨語種的聚合,它將會使人類從搜索相關網頁的繁重勞動中解放出來。網中的計算機能利用自己的智能軟件,在搜索數以萬計的網頁時,通過“智能代理”從中篩選出相關的有用信息,而不像現在的萬維網只給你羅列出數以萬計的搜索結果。
1.2.2 文獻信息資源檢索工具
文獻信息資源檢索工具是用于報道、存儲和查找文獻信息資源的一切工具與設備。它以各種類型的原始文獻為素材,在廣泛收集、篩選、分析的基礎上,用選定的檢索語言進行描述和標引,并按特定規則組織編排而成的多次文獻資源。現在文獻信息資源檢索工具品類繁多,主要按檢索手段、載體形態、收錄范圍、著錄對象、著錄方式、出版形式等劃分。
未來,依靠Mashup技術對用戶生成的內容信息及其精確闡明信息內容特征的標簽進行整合,進一步提高信息描述的精確度,使得內容信息的特征更加明顯,便于用戶的有效檢索利用。運用UGC(user generated content:用戶生產內容)的篩選性過濾技術對各種信息進行的篩選,可將可信度高的信息向前排,也利于信息檢索的質量。TAG/ONTO/RSS基礎聚合設施及漸進式語義網的發展將為Web構建完整的內容聚合與應用聚合平臺,為用戶提供更加個性化的準確、快捷的搜索引擎。作為對RSS高度整合的Web3.0,搜索也被高度整合,人們只需輸入自己的需求,就可以迅速得到所需信息,甚至一套完整的解決方案。
1.2.3 文獻信息資源檢索系統
基于文本信息的查詢系統如Archie、WAIS、Veronica等,雖然它們使因特網信息服務的友好性、易用性得以加強,卻提供信息資源范圍有限。而萬維網搜索引擎(SE)如Yahoo、Infoseek、 Lycos等就使網絡信息獲取方式產生了根本變化,為網絡信息查詢帶來了生機和活力。SE以超級文本方式提供世界范圍內的多媒體信息服務,既包括文本,又包括圖像、影視和聲音信息,徹底改變了過去只靠瀏覽挖掘信息的情況,用戶可以進行目標明確的檢索。SE也有它的局限性,如將信息的收集和查詢截然分開,不能實現真正的概念檢索,對多媒體的檢索也不能令人滿意等。為此,有學者提出了一種新的網絡信息服務模式,這種新模式包括兩個方面:一是面向用戶的個人信息查詢助理(Personal Information Searching Assistant,PISA),另一個是面向主題的主題信息代理(Subject Information Agent,SIA)。[1]
具有很好應用前景的語義檢索系統,目前雖然還處于發展初期,但已有不少相關產品問世。SEMPL是美國佐治亞州大學建的一個語義Web門戶,它可以查詢文檔內容的上下文關系,注釋Web網頁和提供語義相關內容的鏈接,實現了信息間豐富的關系查詢。Ontoweb是歐盟IST資助創建的一個學科語義門戶,它實現了門戶間的交流,雖然這種交流在一定程度上還很有限。
當前,我們已步入網絡化社會、信息化社會,電子信息、數字信息日益影響著我們的工作和生活。Internet擁有的包括圖書、期刊、報紙、會議資料、文件報告、新聞、專利文獻、標準、圖片資料、產品信息、電子游戲、各種軟件等在內的文獻信息資源,是我們獲取所需文獻信息資源的重要來源。學會共享和快捷檢索利用互聯網的文獻信息資源,是每個人要熟練掌握的。
目前,Internet文獻信息資源形式主要有:萬維網文獻信息資源、FTP文獻信息資源、TELNET文獻信息資源、USENET文獻信息資源、語義網文獻信息資源等。
2.1.1 萬維網文獻信息資源
萬維網(World Wide Web,縮寫WWW)是歐洲粒子物理研究中心為利用超文本方式傳遞信息而于上世紀90年代初期發明的,由于它在發布和瀏覽網頁上的多媒體和超媒體信息時方便、靈活、易用,發展很快,已成為家喻戶曉的網絡利用平臺。據專業人士統計,WWW信息資源已占Internet網上各種信息資源總量的78.3%。
現在,檢索Internet文獻信息資源的主要工具是搜索引擎,新浪、雅虎中國、搜狐、網易、Google中文、Infoseek、Excite、各類門戶網站等都普遍應用了搜索引擎。只要正確輸入查尋詞,就可獲取大量相關的網絡資源。這些文獻信息資源很多是免費的,但龐雜、魚目混珠,需要用戶仔細篩選。
2.1.2 語義網資源檢索
作為WWW的擴展,語義網是一種能理解人類語言的智能網絡,它不但能夠理解人類的語言,而且還可以使人與電腦之間的交流變得像人與人之間交流一樣輕松。語義網使得網絡中的所有信息都具有語義,可以實現機器可識別語義的數據的自動存取和利用。在語義網上檢索文獻信息資源,將會把我們從搜索相關網頁的繁重勞動中解放出來。因為網中的計算機能利用自己的智能軟件,在搜索數以萬計的網頁時,通過“智能代理”從中篩選出相關的有用信息。而不像現在的萬維網,只給你羅列出數以萬計的無用搜索結果。[2]
2.1.3 數據庫資源檢索
目前,國內外信息服務機構出版了成千上萬的各種類型的數據庫資源,這些資源由于數據更新快、出版周期短、信息處理方式多、使用方便等優點,大受用戶的歡迎。
一些大型數據庫,特別是專業性很強的數據庫,研制費用很高,價格昂貴(有些國外數據庫年購置費在幾十萬美元),一般用戶是買不起的。這就使得這些數據庫資源主要集中在高校、科研院所、大型圖書館等單位,由單位投資買入。數據庫商在這些收藏單位設鏡像點,或通過設定IP進行遠程訪問。有幸在這些單位進修學習或讀學位的同志,可免費獲得這些資源。不能共享上述資源的用戶,如查檢數據庫資源,只能通過購買上機卡或網絡交費訪問。如果在圖書館等信息服務單位查尋不到所需的數據庫資源,也可通過該單位的館際互借系統,獲取別的收藏單位的相關資源,只是需要辦理相關手續并繳費。
2.1.4 文獻信息資源的委托服務
如果用戶沒有時間,或不方便親自檢索、收集所需的文獻信息資源,可采取委托方式讓信息服務部門代辦。目前,相關的服務項目主要有:
(1)文獻代查、代檢。服務部門針對各個學科、各種目的的研究課題,以描述課題的主題詞、關鍵詞等作為檢索入口,從開題立項、研究中期、直到成果驗收,開展全程的文獻檢索服務。
(2)定題服務。服務部門根據用戶的學習、教學、科研、工作需要,定期或不定期對某一特定主題進行跟蹤檢索,把經過篩選的最新檢索結果,以書目、索引、全文等方式提供給用戶。或是針對各個學科、各種項目的研究課題,經與用戶協商從課題前期調研、開題立項、中期成果、直到成果驗收,開展整個過程的文獻檢索服務。
(3)科技查新。服務部門以文獻信息為基礎,以文獻檢索和情報調研為手段,以檢出結果為依據,通過查新為科研立項,科技成果的鑒定、評估、驗收、獎勵,專利申請等提供客觀依據,也能為科技人員進行研究開發提供快捷、可靠、豐富的信息。
(4)電子文獻館際互借。服務部門接受讀者的委托,向國內外高校圖書館及文獻情報機構請求提供所需的電子文獻。傳遞的文獻類型包括電子版學術期刊論文、學位論文、學術著作等。
(5)紙質文獻館際互借。服務部門可幫助用戶向國內外的圖書情報機構獲取期刊論文、學位論文、會議論文、科技報告、標準、專利、圖書等文獻資料。傳遞方式包括郵寄、電子郵件等。
現在,文獻信息資源檢索除基于內容的多媒體資源檢索如文本資源檢索、圖像資源檢索、音頻資源檢索和視頻資源檢索外,還向基于人工智能的資源檢索發展。另外,多種類型的資源檢索服務如公共信息資源檢索服務、個性化信息資源服務、特色化信息資源服務、互動式信息資源服務、輔助性用戶服務等也因用戶的需求而不斷涌現。
文獻信息資源的檢索可以利用網絡信息交流的便利性,借助于以上的服務模式,以電子郵件、網絡電話、圖文電視廣播和網上留言薄等方式尋求服務。人們要特別重視當前信息服務機構如圖書館開展的個性化網絡服務,借助信息推送服務(Push)、個性化定制服務和網上實時服務獲取需要的文獻信息資源。這些個性化服務是圖書館等信息服務部門為適應網絡環境下用戶的特殊要求,依托新技術而開展的面向用戶的高層次信息服務,它可以為用戶提供高效、快捷、便利的信息服務,是圖書館信息服務的發展方向,是高級的網絡服務。[3]
更高形式的文獻信息資源檢索服務會接踵而來,用戶只要手持帶有Wi-Fi或3G功能的智能終端(智能手機、上網本、MIDT等),人們可以隨時享受以“云計算”為代表的快捷虛擬服務,可以上網查詢文獻信息資源和所需信息,可以擁有個人海量的館藏。三網融合,使網絡覆蓋所有的城市和鄉村,加速了人間對信息資源的檢索和利用。圖書館也會把內容數據與個性應用緊密結合起來,把Web技術與客戶端技術無縫集成,可以開發出更“酷炫”、更加方便可用的內容展示形式和資源獲取途徑。[4]用戶借助移動網絡接收圖書館等提供的短信服務、移動數字圖書館服務、手機閱讀服務、館藏檢索服務。
[1] 丁蔚,倪波.因特網信息服務新模式[J].情報理論與實踐.2000(2):132-135
[2] 李玥.擁抱Web3.0[J].中國計算機報.2008年第29期
[3] 喬歡.信息行為學[M].北京:北京師范大學出版社.2010:230-232
[4] 朱強等.以開放的心態迎接新的信息技術[J].中國圖書館學報.2010(5):77-94
10.3969/j.issn.1001-8972.2011.07.121
本文系山東省藝術科學重點課題“高校文獻信息資源共享網建設”研究成果之一
王東波,男,1965年生,山東東平人,曲阜師范大學圖書館研究館員,研究方向為圖書館學、情報學。