杜小丹
摘 要:文章闡述了隱蔽網絡的定義,介紹了隱蔽網絡形成的原因,根據隱蔽網絡形成的原因進行了歸類。著重分析了圖書館應對隱蔽網絡信息資源的重要意義,介紹了圖書館應對隱蔽網絡的幾種方式。
關鍵詞:隱蔽網絡;搜索引擎;圖書館
認為利用常規性的方式搜索出的表面層網絡信息資源占整個網絡信息資源的16%,而余下的都是深層次的網絡信息資源,占比高達84%。據Bright Plant 公司研究數據表明,互聯網上有大于5500億份文件,其中隱形內容的文檔大約有5000億個,排除格式與數據類型不同所造成的差異,也可以看出有形內容遠遠少于隱形內容。隱形網絡資源不僅數量巨大而且增長迅速。隱形網絡的信息質量比較高,但是一般的搜索引擎難以搜索到這些高質量的隱蔽網絡信息資源。特別是受到學者、學生、研究者等青睞的學術隱蔽網絡信息資源,更是難以獲取。如何有效應對隱蔽網絡信息資源是一個值得研究的課題。
1 隱蔽網絡概述
1.1 隱蔽網絡定義
1994年Dr.Jill Ellsworth 第一次在互聯網領域使用Invisible Web這個概念,它指的是那些使用常規搜索引擎很難發現的信息內容[1]。2001年,Gary Price 、Christ Sherman合著了《隱蔽網絡:揭開搜索引擎看不到的信息源》,書中他們把隱蔽網絡定義為:通過互聯網能夠獲取,但由于技術原因普通搜索引擎不能夠獲取,或者是不作為索引的那部分文件、文本頁又或者是其他權威性、高質量的信息[2]。在國外Invisible Web又有Dark Matter、Deep Web或者Dark Net等等說法,譯成中文就是“深層網絡”、“隱蔽網絡”、“看不見的網絡”、“黑色網絡”或者“深網”。
1.2 隱蔽網絡的形成原因及類型
Garry Price, Chris Sherman把隱蔽網絡分為四類,分別是私人網絡、不透明網絡、專有網絡和真正的不透明網絡。
1.2.1 形成原因
1)技術原因。網絡內容采用HTML的互聯網發展初期,網絡結構為樹型目錄式,使用者通過點擊超鏈接的方式訪問網頁。這種實現網上數據搜集的方式是通過“蜘蛛spiders”、“爬行者crawlers”等自動化軟件進入網站、找到那些新建網頁。隨著技術的進步,目前的網站運用新的技術,網絡內容除了HTML外還有聲像、圖片等。常規搜索引擎對于聲像、圖片等的索引能力有限,不能處理特殊格式的文件,對于個性化的知識、區域性的知識及專業性的知識也就更無能為力。當網站注冊哪個搜索引擎的時候,這個網站會被這個搜索引擎搜到。但如果這個網站含有當地數據庫的很多信息會限制搜索引擎的搜索功能。數據庫和基于數據庫的網站含有非文本信息、數據庫文檔等,這些文件需要特殊的命令才能夠檢索到,所以這是隱蔽網絡信息形成的最大的技術障礙。隱蔽網絡的核心部分是數據庫內容,一般搜索引擎很難跨過數據庫入口設置的賬號、密碼等的提問。一些存在數據庫的站點也會阻礙網絡蜘蛛在動態網頁中的行動。
2)非技術原因。首先網頁中有復雜的信息,有用的、無用的、;科學的、隨意的,那些未經過論證不知真偽的信息被搜索者檢索到會有一定的誤導作用。對于這些繁雜的信息,多數搜索引擎會采取一定措施進行管理,這種管理有時候也會剔除有用的信息,那些有用信息就會變成隱蔽信息。其次,如若要求搜索引擎對網絡中網頁有較高的索引率,則需要高的成本去進行開發和維護。一般的網絡公司并不想要索引這些非HTML格式的文件,因為這些文件搜索時要么需要跟進實時信息占用很多搜索引擎,要么花費很多。目前,只有極少數的搜索引擎能夠有財力、物力去維持網頁覆蓋率,這也造成隱蔽網絡信息的產生。再者,一些經營網站的人,把大多數的內容封閉起來,只對公司內部員工或者注冊的用戶開放。這種情況下,即使是最好的搜索引擎也無法透過注冊過程進行搜索[3]。
1.2.2 類型
隱蔽網絡的形成除了技術原因、經濟原因外,還有知識產權方面的原因。根據隱蔽網絡形成的原因,本文將隱蔽網絡以下七種:需密碼或者是注冊的網站、網上可檢索的數據庫、實時數據、未被鏈接的網頁、動態生成的網頁、部分非HTML格式文件和其他難搜索的信息。
2 圖書館開發隱蔽網絡信息資源的意義
圖書館的主要工作是為檢索者提供高質量的學術信息,隱蔽網絡信息資源數量大、發展快、質量高、專業性強而且成本低廉,這些剛好符合圖書館對網絡信息資源的要求。所以有必要對隱蔽網絡信息進行開發利用。圖書館開發隱蔽網絡資源可以提高其資源的供給能力。自建數據庫與商業數據庫是目前圖書館兩種主要的館藏資源,商業數據庫的使用需要向數據庫提供商繳納巨額費用。圖書館的經費有限,一般情況下只能購買有限的數據庫使用權和有限的用戶使用額度,特別是外文數據庫,只夠幾個人同時在線運用,而且查找的內容往往只有文摘部分。圖書館的自建數據庫常常是針對某一個主題進行的,數量少、建設時間長。這兩種主要的資源并不能滿足檢索者對資源的需求。不過隱蔽網絡信息資源中的大部分數據庫是免費的,并且信息專業性強,圖書館如果應對得當,可以擴充館里面的館藏資源,提升信息資源的供給能力,同時也不用付出高昂的建設費或者使用費,也可以向讀者提供更多更高質量的信息資源。圖書館應對隱蔽網絡信息資源可以滿足讀者對信息資源的深層次需求。讀者的學習及科研逐步依賴于網絡信息資源,要求高質量的信息資源、有深度的信息內容、針對問題的全面信息、專業性強且要有相關性,這些都是傳統的搜索引擎無法達到的。某些隱蔽網絡信息資源的專業性強的特點可以滿足讀者的一些需求,問題是一些讀者并不知道隱蔽網絡資源的存在,依舊依賴于傳統搜索引擎,再者讀者即使知道也沒有時間和精力去專門搜索。因此圖書館有責任通過對隱蔽網絡的信息資源的說明和索引讓讀者重新認識網絡信息資源,為其縮短檢索時間,提高讀者的檢索質量,從而使讀者獲取更深層次的資源信息。圖書館應對隱蔽網絡信息可以發揮館的優勢,滿足自身的發展需求。在網絡的時代,信息蘊藏著商機,網絡信息資源的開發利用為傳統信息服務業注入新的活力。圖書館在信息的組織、檢查、建設數據庫方面具有優勢,特別是信息資源的再開發重組等方面,因此,發掘出隱蔽網絡中質量高但還沒有引起多數人重視的信息資源可以使圖書館資源更具價值與特色[4]。
3 圖書館應對策略
圖書館作為信息資源的提供者與利用者,以及信息時代下網絡信息資源的組織導航者,已然意識到隱蔽網絡信息資源的價值與潛力。圖書館可以從以下幾個方面考慮應對隱蔽網絡信息資源。
3.1 圖書館網站信息結構盡可能平面化
搜索引擎的搜索深度有限,深層次的網絡頁面存在于隱蔽網絡中不為讀者知道。因此,圖書館網站信息可以采用平面化的結構,盡可能的把網絡做小。如若內容太多,可以通過建立姐妹站點的分布式方式來容納資源。
3.2 圖書館網絡信息資源盡可能文本化
網絡信息資源的非文本化是隱蔽網絡形成的原因之一。目前多媒體技術尚不夠成熟,如要避免使網站中的信息成為隱蔽網絡信息,最好是將非文本資源文本化:在非文本元素的代碼中運用包含關鍵詞的Alt屬性標簽說明、盡量少用Flash、減少純圖像網頁、在URL中列出非文本元素鏈接的文本描述。
3.3 建立學科信息資源指引庫或者隱蔽網絡的導航
圖書館可以組織館員根據一些重點學科或者專業,多角度、多途徑的篩選、過濾、重組分散于某一些學科中的學術隱蔽網絡資源,從而建立出相應的學科信息資源指引庫或者是隱蔽網絡導航,把它放在圖書館主頁上面,力圖做到具有專業性與特色性。
3.4 將隱蔽網絡作為讀者教育的一個內容
美國蘭格地亞社區學院圖書館曾把隱蔽網絡當作“圖書館研究指南”講座的開聲白;加州大學開設了隱蔽網絡教程。這樣做不僅能激發讀者探索網絡的好奇心更能提高其網絡信息搜搜能力。教育的方式多種多樣,可以在教學過程中進行,也可以結合一些培訓課程,在實際操作過程中講解檢索的技巧。圖書館的教育活動除了以講座、報告、學術活動進行以外,還可以用電子郵件、網頁留言等方式主動向讀者、科研人員推送。
3.5 提高圖書館電子資源的可見度
可以通過組織統一檢索平臺或者元搜索引擎實現,具體方法可以有:整合電子資源與OPAC、通過OPAC檢索其他圖書館信息。美國的Texas大學,利用Z39.50協議連接了二十五所高校圖書館、六十所公共圖書館[5]。
3.6 提供一些網絡指南
搜索引擎對于專業數據庫無能為力,檢索者可以“迂回”查找隱蔽網絡資源,著名搜索引擎比如Google、Yahoo!等提供了查找數據庫的功能[6]。檢索者如要查找某個主題的信息內容,運用Google、Yahoo!等先找到有關于這個主題的數據庫網址,檢索者再根據這些數據庫網址進入相應的主頁,進而獲取深層次的隱蔽網絡信息。這主要是通過搜索主題詞加database進行查找,但這種方式比較費用費力,搜到的信息可能并不全面。
3.7 建立隱蔽網絡專門目錄
有很多的公司和網站已經開始建立新的搜索工具,用來查找專業數據庫中的深層信息,致力于發掘高價值信息。Http://lii.org/包含可見資源與不可見資源、一萬四千多個網站的有評注的主題目錄,經過圖書館員篩選值得信賴。Garry Price, Chris Sherman創辦的Http://www.invisible-web.net/用于檢索Invisible Web資源,該網站價值高、資源廣博。Http://www.freepint.com/gary/direct.htm擁有龐大數據的Invisible Web資源鏈接,用于檢索隱蔽網絡的權威網站。Http://www.academicinfo.net是一個學術資源主題指南,提供大學生研究論文、教授學習計劃的素材。除此之外,FindLaw,Profusion,InfoMine等等都是檢索Invisible Web的指南工具[7]。
受研究局限性所限,圖書館應對隱蔽網絡信息資源的方法還有待補充完善,圖書館從自身層面做出應對網絡隱蔽信息的努力,不過有效的信息資源控制是全面的,從人類整體利益來看網絡信息管理應該和圖書館的事業一樣,實行終身制,這個只有政府能夠長久維持。單個組織或個人不能夠很好的解決這一問題,應從更高的層面著手。
參考文獻
[1]梁平,陳紅勤.網絡信息資源理論與實踐研究[M].北京:中國書籍出版社,2012.
[2]]劉宏軍,李勝.隱蔽網絡資源的采集與整合[J].情報資料工作,2007,(1).
[3]梁煥平.隱蔽網絡及其檢索策略研究[J].情報雜志,2004,(7).
[4]王子熙.高校圖書館隱蔽網絡資源的開發利用[J].新世紀圖書館,2007,(2).
[5]沈健,李文波.隱形網絡:圖書館應用現狀及開發策略[J].圖書館論壇,2006(5):125-127.
[6]Gary Price,Chris Sherman[J].Exploring the invisible Web.On-line,2001,25(4):32-34.
[7]劉雅晴.隱蔽網絡及其資源檢索策略研究[J].情報科學,2006,(5).