高校圖書館利用八爪魚網絡爬蟲技術高效采集元數(shù)據(jù)

2019-09-10 07:22:44張志勇

現(xiàn)代信息科技 2019年4期

摘要：隨著數(shù)字圖書館的發(fā)展，數(shù)字資源逐漸成為高校圖書館館藏不可缺少的一部分。元數(shù)據(jù)一直是圖書館實現(xiàn)文獻有序化的主要工具。在數(shù)字圖書館的建設中，元數(shù)據(jù)也同樣起到重要的作用。傳統(tǒng)的元數(shù)據(jù)提取方法通常采用手工錄入或者復制粘貼的方法，效率低下，費時費工，錯誤率高。文章探討利用八爪魚網絡爬蟲技術自動采集元數(shù)據(jù)的方法，該方法可提高元數(shù)據(jù)的提取效率，并且具有較強的適應性。數(shù)字資源元數(shù)據(jù)的建設對于圖書館來說，還是一個需要不斷研究、不斷實踐、不斷發(fā)展的新興領域。如何基于高校圖書館數(shù)字資源元數(shù)據(jù)的特點，實現(xiàn)元數(shù)據(jù)的自動采集是本文研究的重點。

關鍵詞：八爪魚；網絡爬蟲；元數(shù)據(jù)；高校圖書館

中圖分類號：TP391.1；G250.73 文獻標識碼：A 文章編號：2096-4706（2019）04-0004-03

Acquisition of Metadata Efficiently by Using Octopus Web Crawler Technology in

University Libraries

ZHANG Zhiyong

（Guangdong Peizheng College，Guangzhou 510830，China）

Abstract：With the development of digital libraries，digital resources have gradually become an indispenSable part of the collection of university libraries. Metadata has always been the main tool for library to achieve document ordering. Metadata also plays an important role in the construction of digital libraries. Traditional methods of metadata extraction usually use manual input or copy and paste method，which is inefficient，time-consuming，labor-consuming and high error rate. This paper discusses the method of automatically collecting metadata using octopus web crawler technology. This method can improve the efficiency of metadata extraction and has strong adaptability. For libraries，the construction of digital resource metadata is still a new field that needs to be studied，practiced and developed continuously. How to realize the automatic collection of metadata based on the characteristics of digital resources metadata in university libraries is the focus of this paper.

Keywords：octopus；web crawler；metadata；university library

1 元數(shù)據(jù)概述

在圖書館與信息界，元數(shù)據(jù)被定義為：提供關于信息資源或數(shù)據(jù)的一種結構化的數(shù)據(jù)，是對信息資源的結構化的描述；其作用為：描述信息資源或數(shù)據(jù)本身的特征和屬性，規(guī)定數(shù)字化信息的組織，具有定位、發(fā)現(xiàn)、證明、評估、選擇等功能。元數(shù)據(jù)具有傳統(tǒng)目錄的“著錄”功能，目的在于使信息資源的管理維護者及使用者可通過元數(shù)據(jù)了解并辨別資源，進而管理和利用資源，為形式管理轉向內容管理奠定必要的基礎。[1]

2 高校圖書館數(shù)字資源元數(shù)據(jù)建設的特點

與圖書館傳統(tǒng)編目工作相比，數(shù)字資源元數(shù)據(jù)的建設有其自身的特點。因此，對數(shù)字資源進行編目不能如傳統(tǒng)編目工作那樣完全依賴圖書館館員，而需要結合自動編目方法。自動編目可以極大地節(jié)省人力，提高元數(shù)據(jù)制作的速度，但是，數(shù)字資源，尤其是網絡信息資源的自由性、不規(guī)范性、非結構化特點會影響元數(shù)據(jù)的質量，因此，數(shù)字資源元數(shù)據(jù)的建設應加強對信息自動處理技術的研究，充分利用受控詞表、本體等知識組織工具提高對文本進行自動處理的準確性。

多年來，圖書館的編目工作一直以手頭文獻為著錄對象，而數(shù)字文獻由于有了數(shù)字文本，就有了對信息資源的內容乃至知識點進行挖掘與組織的可能。因此，數(shù)字資源元數(shù)據(jù)除了可以以文獻為著錄對象外，還應進一步以作品為著錄對象，擺脫文獻由物理形態(tài)帶來的限制，圍繞作品整合資源，最終實現(xiàn)整合知識，建立多層次的關聯(lián)關系，為用戶提供準確高效的知識導航。

網絡信息資源與圖書館傳統(tǒng)館藏有著很大的區(qū)別，因此，建設網絡信息資源元數(shù)據(jù)應首先研究制訂適用于網絡信息資源的元數(shù)據(jù)標準體系，標準的制定既要關注網絡信息資源的特點，又要與通用的元數(shù)據(jù)標準保持相對的一致，以保證標準具有開放性，能通過互操作實現(xiàn)信息資源的共建共享。

數(shù)字資源具有多種來源、多種媒體類型，因此，對數(shù)字資源元數(shù)據(jù)的利用中很重要的一個環(huán)節(jié)是整合不同來源、不同類型的元數(shù)據(jù)，揭示其中的關聯(lián)關系，使用戶可以一站式獲取所需資源。

圖書館應根據(jù)其館藏情況、系統(tǒng)建設的特點來考慮數(shù)字資源元數(shù)據(jù)的采集方式。第一種是基于OPAC，以紙本文獻的書目數(shù)據(jù)為核心，整合相關數(shù)字資源元數(shù)據(jù)，這種方式適用于數(shù)字資源建設初期，本館館藏仍然以書目數(shù)據(jù)為主的情況；另一種方式是構建元數(shù)據(jù)倉儲，整合各種類型、各種來源的元數(shù)據(jù)，實現(xiàn)一體化的元數(shù)據(jù)服務，這種方式適用于建設了大量不同來源、不同格式的數(shù)字資源元數(shù)據(jù)的情況。

3 元數(shù)據(jù)自動提取功能的實現(xiàn)

元數(shù)據(jù)的采集有多種方法。第一種方法是逐個文件人工提取；第二種方法是借助軟件公司來實現(xiàn)數(shù)據(jù)的提取和上傳；第三種方法是根據(jù)自身的情況研發(fā)軟件或使用已有的軟件，實現(xiàn)數(shù)據(jù)的自動提取。大多數(shù)有采集需求的單位，都不想自己手工復制粘貼數(shù)據(jù)，因為這樣費時費力，效率不高，錯誤率高，而外包給軟件公司雖然解決了效率和錯誤率問題，但是費用高昂。那如何才能簡單高效低費率地采集目標網站的元數(shù)據(jù)呢？其中最常用的手段就是使用網絡爬蟲工具去獲取。[2]

3.1 網絡爬蟲及八爪魚采集系統(tǒng)介紹

網絡爬蟲是一種按照一定的規(guī)則，自動地抓取萬維網信息的程序或者腳本，[3]又稱為網頁蜘蛛，網絡機器人。互聯(lián)網中存在各種網頁，每一個網頁都有其對應的網址。通常，人們通過人工的方式從互聯(lián)網中獲取所需的信息，這種獲取信息的方式覆蓋面小，而且高度耗費人力。網絡爬蟲解決了這一問題，它可以從一個或者一組網址出發(fā)，訪問其關聯(lián)的所有網址，并且可以從每個網址對應的頁面中提取所需要的、有價值的數(shù)據(jù)。[4]

八爪魚網頁采集器就是網絡爬蟲的一種。用戶可以設置從哪個網站爬取數(shù)據(jù)，爬取哪些數(shù)據(jù)，爬取什么范圍的數(shù)據(jù)，什么時候去爬取數(shù)據(jù)，爬取的數(shù)據(jù)如何保存等等。[5]

八爪魚采集系統(tǒng)是一款免費網絡爬蟲軟件，系統(tǒng)采用分布式云構架，聯(lián)合客戶要求，整個系統(tǒng)部署在騰訊云平臺之上。系統(tǒng)包含主程序、監(jiān)控程序、采集規(guī)則配置客戶端、分布式采集集群和存儲集群，如圖1所示。

主程序實現(xiàn)任務負載均衡分發(fā)，采集集群實現(xiàn)多類別、多站點同時并發(fā)采集，采用先進高效的采集技術，采集過程高效準確。存儲集群可存儲半結構化和非結構化的數(shù)據(jù)，具有高容錯性、高可用性。[6]

監(jiān)控程序提供一個“一站式”人機交互界面供系統(tǒng)管理人員使用。功能包括服務資源管理、節(jié)點資源管理、任務控制及監(jiān)視。

采集規(guī)則配置客戶端通過模擬人工網頁瀏覽操作，可視化制作采集規(guī)則流程，無須編寫代碼。采集規(guī)則配置數(shù)據(jù)存儲在一個配置數(shù)據(jù)庫中。實現(xiàn)對互聯(lián)網目標信息源各類碎片化信息的實時采集。提供數(shù)據(jù)的導出接口，向外部系統(tǒng)提供數(shù)據(jù)導出功能，補充數(shù)據(jù)來源，如圖2所示。

實現(xiàn)7×24小時循環(huán)信息數(shù)據(jù)的采集、增量的信息采集，全網采集、定向采集、智能提取形式結合。

八爪魚采集原理是：通過大數(shù)據(jù)分析人瀏覽網頁，復制數(shù)據(jù)的行為，通過記錄和模擬人的各種上網行為，利用自動程序代替人瀏覽網頁和手工復制粘貼網頁數(shù)據(jù)，從而實現(xiàn)自動化采集目標網頁數(shù)據(jù)，并通過不斷重復一系列預設的動作，實現(xiàn)全自動采集數(shù)據(jù)。其客戶端程序用于配置及管理任務（包括云采集和定時云采集），數(shù)據(jù)導出程序負責導出數(shù)據(jù)，支持Excel、SQL、TXT、MySQL等數(shù)據(jù)格式，支持一次導出百萬級別數(shù)據(jù)。

本地采集程序負責根據(jù)工作流對網頁進行打開、抓取、采集數(shù)據(jù)，通過正則表達式與XPath原理，快速獲取網頁元數(shù)據(jù)。基于Firefox內核瀏覽器的采集流程，通過模擬人工操作模式實現(xiàn)對網頁數(shù)據(jù)的全自動提取。通過精確定位網頁源碼中各個數(shù)據(jù)XPath路徑，八爪魚能夠批量精準采集出用戶所需元數(shù)據(jù)。

3.2 八爪魚采集系統(tǒng)軟件的安裝與登錄

打開八爪魚官網（http：//www.bazhuayu.com/）下載最新版本，安裝到本地計算機，軟件需要NET Framework 3.5 SP1支持，在安裝時軟件會自動檢測是否安裝了NET Frame work 3.5 SP1，如果沒有安裝則自動從微軟官方在線安裝。安裝完成后使用電子郵箱或者手機號碼免費注冊賬戶并登錄。

3.3 采集目標網站元數(shù)據(jù)的操作流程，以維普期刊導航數(shù)據(jù)為例創(chuàng)建數(shù)據(jù)采集流程

3.3.1 創(chuàng)建采集任務

（1）進入主界面，點擊右側導航條“任務”按鈕，打開任務界面，點擊“新建”下拉菜單，選擇“自定義采集”。

（2）輸入采集網址的方法有“手動輸入、從文件導入、批量生成和從任務導入”四種，可以先把需要采集的目標網址URL保存到一個文件中，再將目標網址URL復制粘貼到網址輸入框中，注意輸入的網址不要超過1萬條，這里我們選擇手動輸入即可，點擊“保存網址”。

內置瀏覽器會打開網頁，右邊的操作提示顯示“請選擇頁面元素”，點擊核心期刊導航中的折疊按鈕，在操作提示中點擊“點擊該元素”按鈕，網頁上的折疊區(qū)域打開，同時在流程圖中自動添加“點擊元素”。

3.3.2 創(chuàng)建翻頁循環(huán)

若需要采集的元數(shù)據(jù)比較多，出現(xiàn)多頁分布情況，則需要創(chuàng)建翻頁循環(huán)。

（1）點擊其中一個期刊類別鏈接，打開網頁之后，點擊右上角的按鈕，使制作的流程呈現(xiàn)可見狀態(tài)。點擊網頁下方的“下一頁”按鈕，選擇“循環(huán)點擊單個鏈接”，翻頁循環(huán)創(chuàng)建完成。可在左上角流程中手動點擊“循環(huán)翻頁”和“點擊翻頁”幾次，測試是否正常翻頁。

（2）若加載詳情頁時加載速度很慢，網頁一直處于緩沖狀態(tài)，無法立即執(zhí)行下一個步驟，可以在“循環(huán)翻頁”的高級選項里設置“Ajax加載數(shù)據(jù)”，超時時間設置為3-5秒，點擊“確定”按鈕，八爪魚在采集數(shù)據(jù)時將會等待3-5秒時間，讓瀏覽器加載網頁數(shù)據(jù)，讓下一步驟得以順利執(zhí)行。

3.3.3 創(chuàng)建列表循環(huán)

若需要采集的元數(shù)據(jù)常常以表單格式分布在目標頁面，則需要創(chuàng)建列表循環(huán)。

（1）用鼠標右鍵點擊網頁上的“中國科技核心期刊”按鈕，可以看到自動有紅色虛框框住鏈接按鈕，在操作提示中提示“已選中一個鏈接，同時發(fā)現(xiàn)34個同類鏈接，您可以”，點擊“選中全部”，操作提示框提示“已選中34個鏈接，以下是列表，您可以：采集以下鏈接文本、采集以下鏈接地址、采集以下元素innerHtml……循環(huán)點擊每個鏈接”。

（2）鼠標點擊“循環(huán)點擊每個鏈接”按鈕，流程圖中自動創(chuàng)建一個循環(huán)點擊元素的流程，對其他元素進行同樣的操作，可以一一打開不同深度的頁面。列表循環(huán)就創(chuàng)建完成，并進入到第一個循環(huán)項的詳情頁面。若進入詳情頁時一直在緩沖狀態(tài)，無法執(zhí)行下一個步驟，可以在“點擊元素”的高級選項里設置“Ajax加載數(shù)據(jù)”，Ajax超時設置為3秒，點擊“確定”。

（3）數(shù)據(jù)提取，接下來采集具體字段，分別選中頁面中需要抓取的元數(shù)據(jù)，點擊“采集該元素的文本”，可以在“配置抓取模版”中修改字段名稱。

若需要抓取的元數(shù)據(jù)占據(jù)多行，可以用鼠標點擊其所在的位置，點擊“操作提示”框中的右下角圖標，擴大選項范圍，直至包括全部正文內容，選擇“采集該元素的文本”，修改字段名稱，數(shù)據(jù)提取完畢。

（4）若網頁加載速度非常慢，或者要避免訪問頁面較快出現(xiàn)防采集問題，可在流程各個步驟的高級選項里設置“執(zhí)行前等待”幾秒時間，設置后點擊“確定”。

3.3.4 數(shù)據(jù)采集及導出

（1）點擊左上角的“保存”按鈕，點擊“開始采集”按鈕，彈出對話框中有“啟用本地采集、啟用云采集、設置定時云采集”三個選項。選擇“啟動本地采集”，“啟用本地采集”用于測試流程是否正確，也用于免費采集數(shù)據(jù)任務，其它兩個選項為收費項目。

（2）采集完成后，會跳出提示，選擇“導出數(shù)據(jù)”，選擇“合適的導出方式”，將采集好的數(shù)據(jù)導出，這里我們選擇Excel作為導出格式，保存文件，數(shù)據(jù)就導出來了。

4 結論

通過利用八爪魚網絡爬蟲技術可提高高校圖書館元數(shù)據(jù)的采集效率，豐富數(shù)據(jù)來源，為讀者提供更豐富的數(shù)字資源。充分利用大數(shù)據(jù)技術，采集互聯(lián)網及第三方的數(shù)據(jù)豐富圖書館特色數(shù)據(jù)庫，建立一個先進、高效、穩(wěn)定的第三方數(shù)據(jù)采集系統(tǒng)，怎樣提高數(shù)據(jù)提取的效率，是圖書館信息技術部需要研究的重點內容。技術人員只需借助八爪魚軟件，根據(jù)數(shù)字資源的情況設置一定的規(guī)則，對導出的數(shù)據(jù)稍做調整，就可以既省時又省力地完成對元數(shù)據(jù)的提取和上傳，并且規(guī)則設定之后可以重復使用，既克服了傳統(tǒng)手工采集時工作量大、容易出錯的問題，又極大地提高了后期數(shù)據(jù)提取的效率。[7]

但是，我們也要看到八爪魚等網絡爬蟲采集器的局限性：即這些爬蟲軟件只能爬取網頁上存在的電子元數(shù)據(jù)，它們無法抓取紙本資料上的元數(shù)據(jù)，如何高效獲取紙本資料元數(shù)據(jù)依然是一個值得每個圖書館人員思考的問題。

參考文獻：

[1] 蔡毅杰，駱兵.元數(shù)據(jù)在圖書館信息管理中的應用 [J].科技信息，2014（5）：144.

[2] 陳樂.基于Python的網絡爬蟲技術 [J].電子世界，2018（16）：163+165.

[3] 劉宇，程學林.基于決策樹算法的爬蟲識別技術 [J].軟件，2017，38（7）：122-125.

[4] 毛逸恒.基于網絡爬蟲的網頁信息獲取技術 [J].通訊世界，2018（6）：11-12.

[5] 百度百科.網絡爬蟲 [EB/OL].https：//baike.baidu.com/ item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB，2018-12-25.

[6] 八爪魚官網.http：//www.bazhuayu.com/.

[7] 崔玉潔，廖坤.借助八爪魚采集器實現(xiàn)過刊網刊元數(shù)據(jù)的自動提取 [J].編輯學報，2016，28（5）：485-488.

作者簡介：張志勇（1977.09-），男，漢族，廣東五華人，圖書館管理員，本科，研究方向：圖書館數(shù)字資源管理。