孟津
摘 要:為了在擁有海量信息的因特網中充分挖掘信息資源,本文介紹了目前比較常用的信息檢索手段和方法,闡述了有關隱蔽網絡數據資源檢索策略。對一些不能被常規檢索方法獲得的信息進行分析,利用隱蔽網絡搜索引擎和專門的隱蔽網絡目錄等特殊的檢索手段對蘊藏在網絡中的信息資源進行挖掘,從而達到充分利用網絡資源的目的。
關鍵詞:搜索引擎;隱蔽網絡目錄;數據庫
作為知識經濟時代不可缺少的工具,因特網將全世界的信息資源帶到我們面前,使得人們獲取信息資源的渠道得到極大拓展。如何對大量的網絡信息進行挖掘、分析、處理,并從中提煉出有價值的內容,成為擺在人們面前亟待解決的問題。目前,搜索引擎被公認為是最好的,也是我們最常用的信息檢索方法。不過,單純利用常規搜索引擎進行信息檢索,很多信息無法被命中,資源利用率相對較低。繁雜冗余的內容充斥著網絡,難以甄選;而真正有價值的信息資源卻蘊藏在網絡深處,與我們擦肩而過,無人問津。
1 常見的網絡信息檢索手段和途徑
1.1 利用搜索引擎
目前互聯網上主流的搜索引擎有:百度、360搜索、Google等等,人們幾乎每天都要用到,利用這些搜索引擎,直接輸入檢索內容,就可得到與之相關的網址信息,使用起來簡單便捷,上手快,不需要任何檢索知識也可以輕松找到一些訴求信息。另外,對于學術性較強的檢索,可以利用Google Scholar這樣的綜合性學術搜索引擎,適合專業的研究人員和學者使用,可以從中挖掘出更權威、價值含量更高的信息,但要求使用者具備一定的網絡知識和信息檢索水平。
1.2 資源分類主體目錄
一些網站通過對網絡信息進行人工評價、組織整理,形成網絡主題指南,實現了資源分類的目的。像雅虎、360等門戶網站導航以及Open Directory開放式目錄等,分類一目了然,組織有序。用戶可以根據信息需求的類目找到相應入口,縮短查找時間,提高檢索效率。
1.3 專業性和綜合性數據庫
有的數據庫收錄學科比較窄,具有很強的專業性,雖然僅限于某學科專業的信息,但收錄該領域的信息比較全面,如美國《化學文摘》、Worldcat聯合目錄等。像工程索引(EI)收錄的學科就比較廣泛,涉及信息的種類比較多,屬于綜合性文摘數據庫。
2 查詢隱蔽網絡數據庫的特殊技術手段
在浩瀚的網絡資源中,有這樣一類網址,它們蘊含著豐富的信息資源,內容也十分有價值,但實際利用率卻很低。因為它們并沒有被其他的網頁鏈接,這些被稱為“未被鏈接”的網址是無法通過那些常用的方法檢索命中的,需要借助一些專門的網站,采用特殊的處理方式來進行查找。據不完全統計,通過搜索引擎和網絡目錄搜索到的信息大約只占網絡信息資源的三成左右,其余的資源對于這些搜索工具是不可見的,成為隱蔽網絡。隱蔽網絡數據庫的查找手段目前主要是利用搜索引擎挖掘和隱蔽網絡專門目錄。
2.1 利用搜索引擎查詢隱蔽網絡數據庫
查詢隱蔽網絡數據庫主要手段是利用網絡搜索引擎,在檢索主題詞后面加入類似“searchable database”或“interactive tool”等名稱,便可以檢索到符合以上查詢形式的數據庫,然后利用數據庫本身的檢索系統查詢具體的內容。數據庫經常使用的名稱有:database、search engine、searchable database、online collection、catalog、index等。此外,在檢索框中輸入“search form”能更好地限制檢索結果,如“logistics”+“database”+“search form”可以有效地過濾掉那些僅僅含有“database”這個詞,但不是數據庫形式的信息資源,而找到真正與物流相關的數據庫。
此外,還可以利用專門的學術搜索引擎,這些系統都關注隱蔽網絡學術信息,通過一般檢索手段很難系統全面地搜索到其中的內容。比如:Base是世界級海量內容的搜索引擎之一,專注于學術開放獲取網絡資源。Vascoda是一個交叉學科門戶網站,它注重特定主題的聚合,集成了圖書館的收藏、文獻數據庫和附加的學術內容。
2.2 利用隱蔽網絡專門目錄
隱蔽網絡專門目錄是經過人工挑選,學術資源質量較高,得到學術研究團體廣泛認可的搜索工具。例如隱蔽資源平臺Complete Planet就是比較大的網絡目錄之一,它收錄了數萬個隱蔽數據庫,列舉了近百個主題,在各個主題下又包括了更細化的分支領域。此外,還有各個行業領域的的專門性目錄,這些目錄全面地、系統地整理了相關領域的網絡資源。
3 網絡信息資源檢索的發展趨勢
3.1 智能化。
智能化是網絡信息檢索未來主要的發展方向。智能檢索是基于自然語言的檢索形式,機器根據用戶所提供的以自然語言表述的檢索要求進行分析,而后形成檢索策略進行搜索。近幾年來,智能信息檢索作為人工智能的一個獨立研究分支得到了迅速發展。在Internet技術迅速普及的今天,面向因特網的信息獲取與精化技術已成為當代計算機科學與技術領域中迫切需要研究的課題,將人工智能技術應用于這一領域是AI走向應用的一種新的契機與突破口。
3.2 多樣化。
多樣化首先表現在可以檢索的信息形態多樣化,如文本、聲音、圖像、動畫等。目前網絡信息檢索的主體仍是文本信息,基于內容的圖像檢索技術和語音識別技術的發展,將使多媒體信息的檢索變得逐漸普遍。圖像信息檢索的準確率、檢全率將進一步提高。多樣化的另一個表現就是檢索工具向多國化、多語種化方向發展。網絡的迅速普及,使得整個世界變成了地球村,世界各地上網人數的不斷增多,使得英語已無法滿足所有用戶的需要,語言障礙越來越明顯。以后主流數據庫和檢索平臺必將提供更多語種的版本,或者提供更加智能化的在線翻譯服務。
3.3 個性化。
個性化主要指檢索平臺內容的特色化和服務的定制化。網絡資源的指數級膨脹,使得用戶在獲得自己需要的信息資源時要花費大量的時間和精力,每個人的不同信息需求將凸現于標準化、單一的“大眾需求”之上。未來檢索平臺為了吸引用戶眼球,必將著重發展自己的特色主打產品,做到資源內容 “與眾不同”。同時,利用大數據分析用戶的檢索內容和檢索習慣,根據其興趣、愛好、關注方向等因素,主動為其推送合適的資源內容,為其量身打造特色服務,更好地滿足用戶的信息需求。
4 結語
網絡信息資源是無比龐大的,我們只有根據具體的情況,去確定最合適的檢索策略,才能事半功倍地獲取有價值的信息。常用的搜索引擎可以讓我們快捷地查詢到工作、學習相關的信息,已經成為我們網絡生活中不可缺少的一部分。而那些隱蔽信息更蘊含著檢索人員難以置信的財富。遨游“看不見的網站”可獲得那些不容易查找的寶貴資源,那種成就就好比在早期地圖上發現未被標識的新大陸一樣,充滿了驚喜和滿足。隨著互聯網技術不斷發展,網絡資源檢索的方法和途徑也將與時俱進,推陳出新,更加智能、先進的檢索手段必將使我們的信息需求得到更好的滿足,幫助我們更好地認識這個信息世界。
參考文獻:
[1]熊瑩.關于科技文獻信息檢索方法的研究[J].科技傳播,2014,6(21):24-25.
[2]畢歡.網絡信息檢索及其發展趨勢研究[J].電腦知識與技術,2018(10):8-9.
[3]劉興達.計算機信息檢索技術的發展及問題研究[J].科技與創新,2018(02):121-122.
[4]李丹立,周飛.淺析檢索數據庫的選擇[J].現代經濟信息,2019(14):432.
[5]賴宏慈.圖書館信息檢索途徑分析[J].科技資訊,2010(19):254.
[6]周思繁.淺談網絡信息檢索方法及技巧[J].科技文獻信息管理,2015,29(02):17-19.