付雅慧

摘 要:數字化信息服務作為圖書館服務的重要組成部分,優化信息檢索技術、提高公共圖書館數字化服務水平是圖書館領域一直探討的問題。網格信息檢索技術是利用網格技術具有的強大計算機優勢和資源共享優勢,為信息檢索提供查詢調度以及資源管理的服務。網格技術下主題爬蟲依照目標主題進行相關的信息搜集、智能處理和分析、滿足用戶檢索需求。其對于信息收集的精準化、信息處理智能化、信息檢索高效化、信息知識共享化等特征,在提高圖書館數字化服務中對于信息獲取的查全率、查準率、專業性、以及查詢速度等方面發揮優化作用。
關鍵詞:網格技術;主題爬蟲;圖書館;數字化服務
在信息學中,網格是一種用于集成或共享地理上分布的各種資源,使之成為有機整體,共同完成各種所需任務的機制。網格技術環境中主題爬蟲算法兼有網格技術資源搜集與共享的特征,在信息網格平臺上,主題爬蟲算法主要通過智能化的信息搜集、處理、分析,用以提高公共圖書館數字化服務過程中的信息檢索的效能。
一、主體爬蟲算法概述
網格服務模式對于解決知識資源的“孤島”問題,發揮很大作用。其計算有3種類型,即計算網格、信息網格與知識網格,文章主要是結合信息網格進行分析。信息網格同樣具有網格的4項優勢:第一,打破局限于計算機網絡硬件聯通的困境,實現應用層面上的聯通,資源共享,消除孤島;第二,信息網絡節點的協同配合實現對于同一項目的同時處理;第三,采用國際開放的標準,不再進行集中控制,提高服務質量;第四是動態,可拓展,互聯網環境中信息網格實現動態的知識信息更新以及高度的可擴展。
主題爬蟲根據目標主題,采用智能化方式從Web上收集主題相關的頁面集,然后采用機器學習或信息檢索的方法對收集到的信息進行智能處理和分析,最后以方便、有效的檢索方式滿足用戶信息檢索需求。根據業務不同,爬蟲具有不同類型,本文主要是基于垂直型爬蟲的分析。主題爬蟲在搜索引擎中主要是具有定位作用的URL來實現對于目標獲取,一般經過兩個處理步驟:一是將下載到的網頁存儲到頁面庫,用于下一步的索引建立;二是將該URL添加到已經讀取的URL隊列中,從而防止網頁反復抓取。主題爬蟲抓取的網頁可以分為5部分:已經下載的網面集合、已過期網頁集合、等待下載的網頁集合、可知網頁結合、不可知網頁集合 。信息網格的優勢以及主題爬蟲的處理步驟、部分結構、友好特性共同呈現出了對于信息收集精準化、信息處理智能化(主題爬蟲采用在線頁面重要性計算策略進行頁面的抓取,即Online Page Importance Computation,簡稱OPIC,其實是改進的PageRank算法)、信息檢索高效化、信息知識共享化等功能。
二、主題爬蟲算法與圖書館數字化服務
圖書館服務數字化是時代發展的必然趨勢,主要包括:文獻提供服務、參考咨詢服務、促進閱讀服務、社區活動與社區信息服務、特殊服務。具體表現為信息知識的查全率、查準率、專業性、以及查詢速度等。運用主題爬蟲算法在實現信息處理的功能時,在優化圖書館更好實現數字化服務的需求方面,表現出獨有的技術優勢和功能特性(見表1)。
表1 主題爬蟲功能類型與公共圖書館數字化服務需求特征
主題爬蟲功能類型 公共圖書館數字化服務需求特征
信息收集精準化:垂直型爬蟲是針對特定主題、行業的爬蟲,它可以實現數據挖掘精確、標準 查準率:檢出的相關文獻與檢出的全部文獻的百分比
信息處理智能化:OPIC策略,實現“在線頁面重要性計算” 查詢速度:獲得理想查詢結果的速度
信息檢索高效化:分步處理、分工、協作 查全率:數據庫內檢出的相關的信息量與總量的比率
信息知識共享化:友好性,資源調度與管理 專業性:檢索出的文獻信息專業化程度
三、圖書館數字化服務過程中面臨的問題
在圖書館數字化建設的過程中,如何完善數字圖書館的館藏資源以及打破圖書館數字化資源庫之間的界限實現應用層面上的聯通,是對于圖書館信息資源更加有效利用的技術突破。此外,圖書館在提供數字化服務過程中,對于知識產權的保護成為了國際學術界和政府管理部門投入較大關注的部分。針對圖書館數字化建設過程中涉及到的知識產權問題,主要是表現在生產、傳播、利用三個服務環節。世界各國針對信息資源建設中的知識產權問題都有相應的對策,但是有待于達成共同的認識,形成國際化的標準和共同的理念。
1.圖書館數字化信息資源不全面
在物聯網快速發展的助力下,全球各行業都逐漸進入大數據時代。數字化信息資源是數字圖書館存在的核心價值體現以及提供數字化服務的物質基礎。傳統圖書館數字化建設節奏不斷加快,圖書館資源建設主要是以正式出版物為主,網絡上的非正式出版物以及公共媒體平臺上的用戶行為信息、社交過程中的灰色信息和政府非公開的公共管理信息等缺失。圖書館的資源大多是科研文獻、基礎常識文獻、歷史小說文獻等,這些文獻資源呈現出靜態、結構化和少量半結構化的狀態,致使在這個大數據時代圖書館資源表現出滯后和不完整的問題。
2.圖書館數字化服務制度不健全
圖書館事業的發展需要相應的制度保障,其中圖書著作權的保護,是圖書館數字化時代所面臨的極具挑戰的問題。陳傳夫認為法律對推動圖書館事業發展的兩種重要的外部力量之一(另一種為科技)。也就是說法律規定下的制度對于集團利益協調起著重要的作用。圖書館數字化建設時代在制度建立方面的缺位導致圖書館數字化服務過程中的不足,如圖書館提供的數字化服務相對單一,一方面是圖書館作為知識信息提供的載體,由于自身數字化知識庫建設的不足,導致的無法提供全面系統的知識信息,而使得讀者自由閱讀權利得不到保障;另一方面則是因為保障制度缺失,圖書館在提供服務,滿足用戶信息需求過程中,未制定相對統一的提供知識信息的規則,從而直接影響到讀者對于知識信息獲取權利的實現程度。(網格采用統一的標準進行抓取,通過應用層面的聯通,保障知識資源建設的充足以及固定了相對統一的標準,爬蟲算法的抓取是遵守非準入抓取的協議,這也就實現了對于知識信息獲取統一規則的固定以及保障讀者獲取信息的公平性)
3.圖書館數字化服務配套技術的不適應
對于圖書館的數字化服務來說,網格科技在圖書館領域的應用,對于提升圖書館的服務來說具有重大而意義。憑借網格技術,使圖書館信息結構得到一定的優化,促使信息文獻在最大范圍內實現資源的共享,獲取更多元的知識信息,實現信息資源的搜集和整合。但是如何實現資源的最大限度的收集?如何快速的進行信息資源的整理以及使得資源整體較為格局化?對于構建網格技術下的圖書館數字化服務而言發揮至關重要的作用。如果采用不適合的技術進行信息的搜集,很可能導致較低的查全率、查準率以及降低無法保障查詢的進度等問題。比如,信息搜集過程中的知識產權的侵犯的問題。
4.圖書館數字化服務中的知識產權問題
圖書館在提供服務的過程中知識產權不受保護的現象時有發生。在數字時代,這種圖書館數字化服務中的有關知識產權的問題會進一步的顯化,主要體現在圖書館提供的參考咨詢、館際互借、文獻傳遞以及其他的服務等方面。比如,陳敏認為數字參考咨詢面臨的侵權問題更加的復雜,涉及到用戶需求的接受和使用、答案的組織和編排以及答案的提交和傳遞全過程;鄭惠伶指出知識產權風險已經成為制約館際互借服務開展的關鍵性問題。所以,圖書館數字化服務中知識產權問題對于圖書館數字化服務的實現起著至關重要的作用。如果不能妥善處理知識產權問題,那么對于知識生產以及傳遞將面臨一定的阻礙,對于實現數字化圖書館的建設而言也是非常大的絆腳石。
四、主題爬蟲算法對于圖書館數字化服務的優化
網格技術下主題爬蟲算法通過優化圖書館數字化服務建設,從而實現對于圖書館數字化服務水平的提高。主題爬蟲在搜索引擎中主要是具有定位作用的URL來實現對于目標獲取,并對獲取的信息進行格局化分類,利用自身友好性以及爬蟲算法架構的特征屬性實現對于知識產權保護,充分發揮信息收集精準化、信息處理智能化、信息檢索高效化、信息知識共享化等功能優勢,對于解決圖書館數字化服務中由于數字信息資源的不足、服務制度不健全導致較低的查全率、查準率以及由于技術不配套、知識產權風險等問題導致的查詢進度緩慢和專業程度不高的現象發揮重要作用。
1.主題爬蟲算法精準收集提高查準率
數字圖書館網格環境下主題爬蟲算法對于資源收集的功能優勢,實現資源整合,提高了用戶對信息供給與需求的匹配度,主要體現在資源的內容、形式、載體等方面。主題爬蟲算法主要是根據目標主題為用戶提供信息查詢方面的服務。首先,以智能化方式從Web上收集與目標主題相關頁面,實現資源整合;其次,借助信息檢索或者機器學習的方法對已經收集到信息進行智能化信息處理與分析;最后,用戶以最為方便、有效的檢索方式獲取滿足信息檢索需求頁面。根據主體業務的不同,采用垂直型的爬蟲算法而言,在上文提到抓取的兩步驟里面,主要是通過利用URL,有效的避免重復,并通過五部分分類,準確分析信息抓取的全面與否。主題爬蟲算法通過實現數據挖掘精確、標準更好的滿足了圖書館數字化服務用戶對于查找文獻的查全率需求。比如,信息資源表現形式上,針對同一個主題可以同時搜集到有關呈現出音頻、文字、圖像等不同形式的信息資源。
2.主題爬蟲算法信息處理智能化提升查詢速度
借助Internet進行信息搜集,僅實現把相關信息進行相互關聯,并進行粗略加工,但網格技術下的主題爬蟲算法是利用其功能屬性特征發揮信息處理智能化優勢。通過對讀者所需文獻信息開展主題性搜索與解析,主題爬蟲在進行抓取過程中采用OPIC即“在線頁面重要性計算”,具有針對性的獲得具有高匹配度的文獻信息,然后利用網格技術實現應用層面上聯通,從而保障信息能夠跨越界限的被用戶接收到。
3.主題爬蟲算法信息檢索高效化保障查全率
數字圖書館建設過程中不僅實現文本知識的數字化,還實現可視化圖書資源的被檢索,用戶借助主題爬蟲算法能在較短時間里完成文獻信息的整合管理,從而實現供給文獻資源的全面性。主題爬蟲算法在進行資源抓取的過程中采用的模式是分工協作,即一臺主機,其余機器負責不同主題的搜集,分工分布的處理,保障信息搜集的專業性以及高效性。當讀者通過網格對圖書以及文獻信息進行搜查時,通過解析信息需求的主題與已分配的主機進行匹配,便能快速實現信息快速的查詢。
4.主題爬蟲算法信息知識共享化提升專業度
數字圖書館本身不僅僅具有基于互聯網背景下實體的聯通,還具有基于網格技術下應用層面的聯通。構建信息知識網格使書籍以及信息資源能夠達成共享以及防范任意形式的信息資源不相互關聯(除法律或者相關協議約定禁止的信息資源)。采用網格技術前提是有統一的轉入和識別的標準,在此基礎上便可以突破過往對于異構知識不能共享的局面,同時對于網格所聯通的數字資源庫以及專家資源而言,相互能夠提供更加專業和權威的資源。如果提供資源的范圍是局限的,那么所提供資源的可靠性以及專業性就有待考究。主題爬蟲算法基于友好性的特征,在保護知識產權的前提下,對于拒絕訪問的信息資源會很好遵守協議,從而保障信息資源獲取合法性以及知識信息合理調度和管理,突破資源共享受限的障礙。
5.主題爬蟲算法在搜索引擎下更垂直準確的應用
“通過網絡爬蟲目標是盡可能地采集信息頁面,而在這一過程中,它并不在意信息頁的順序和被采集頁面的相關主題。這需要消耗相當多的系統資源和網絡寬帶,并且對于這些資源的銷號并沒有換來采集頁的較高利用率。主題爬蟲則是盡可能快地爬行,采集盡可能多的與預先定義好的主題相關的網頁。主題爬蟲可以通過整個網絡主題分別采集,并將不同采集整合在一起,以提高整個網絡采集的覆蓋率和頁面利用率。
網絡的抓取策略可以分為深度優先、廣度優先和最佳優先三種。傳統的網絡爬蟲是按照預先設定的廣度優先策略、深度優先策略這兩種優先策略相結合的方式爬行網頁。這種爬行方式的特點是爬蟲按照預先設定的爬行深度爬行網頁,它不會理會網頁的內容,當爬蟲爬行到給定的蛇毒時,爬蟲停止工作。所以它搜集到的信息比較全,但是它爬行慢,有許多無效網頁。
那么,最佳的優先搜集策略按照一定的網頁分析算法,預測侯選URL和計算文本內容與目標網頁相似度或與主題的相關性,并獲取評價最好的一個或幾個URL進行抓取,它只訪問經過網頁分析算法預測為“重要”的網頁。存在的一個問題是,在爬蟲抓取路徑上的很多相關網頁會被忽略,因為最優先策略是一種局部最優的搜索算法。所以需要將最佳優先結合具體的應用進行改進,以跳出局部最優點。研究表明,這樣閉環調整可以將無關網頁數降低30%--90%.”
五、小結
網格環境下的數字圖書館是采用統一標準和規范,利用先進的網格技術構建統一、透明、高效的信息資源共享系統,實現圖書館資源數字化和服務的互聯互通。圖書館服務數字化是基于互聯網時代背景下滿足用戶需求的必然趨勢,網格技術下爬蟲算法的功能優勢能夠在一定程度上解決數字化服務過程中的問題,優化圖書館數字化服務從而提高數字化服務的水平。但從圖書館數字化服務制度的不完善以及網格技術實現存在一定障礙而言,主題爬蟲算法在圖書館數字化服務中得到實現,需要進一步的研究網格技術如何充分發揮其屬性特征以及主題爬蟲算法如何從網頁抓取到數字圖書館知識庫的知識抓取等問題。
參考文獻:
[1]“科普中國”百科科學詞條編寫與應用工作項目.網格. [EB/OL].[2017-10-15].https://baike.baidu.com/item/%E7%BD%91%E6%A0%BC/265734?fr=aladdin.
[2]龔 強.關于網格特征的研究[]].信息技術,2004
[3]朱玉麗.基于網格技術的主題爬蟲算法優化的研究與實現[D].沈陽工業大學,2007
(作者單位:黑龍江大學圖書館)