Web收割工具的描述型元數據功能評析*

2019-03-27 11:11:08臧國全

圖書館 2019年3期

臧國全李哲

（1 鄭州大學信息管理學院鄭州 450001；2 鄭州大學公共管理學院鄭州 450001）

1 引言

人類社會進入了因特網時代，Web資源已成為人們使用信息資源的主體。但是，因特網是一個動態網絡，通過其發布和傳播的Web資源隨時可能消失，因此，保存Web資源的歷史完整性和連續性就成為了因特網時代的一項社會職責。

目前，不少信息機構已開始履行這項職責，建立Web保存項目，長期保存這類數字化知識遺產。保存的前提是收割，保存的目的是供用戶日后訪問使用。收割需要使用Web收割工具，訪問需要使用描述型元數據。如果Web收割工具可以自動生成描述型元數據以支持被收割內容的自動發現，不僅可以顯著提高元數據的生產效率，實現元數據生產的規模化，也可減少Web保存的成本，甚至可提高Web保存信息的描述質量，高效地滿足用戶對它的發現與使用。

因此，我們有必要通過訪問相關專業網站，考察Web收割工具描述型元數據功能的現狀，評估收割過程對元數據功能的支持程度，并在此基礎上，分析Web收割工具描述型元數據功能所涉及的一些基本問題，提出解決這些問題的基本思路。

2 Web收割工具描述型元數據功能的現狀評估

2.1 方法

本研究中的Web收割工具選自國際因特網保存聯盟（IIPC）2017年發布的《Web收割工具目錄》[1]，選擇的主要標準是具有描述型元數據功能。

評估項目有兩個：一是工具的基本情況，包括主要作用、收割形成的文件類型、與其他工具之間的關系；二是工具的元數據功能，包括工具采用的描述型元數據方案、收割過程中自動抓取的元數據元素、用戶可賦值編輯的元數據元素、可被輸出應用的元數據元素。

評估過程分三個階段：首先，訪問網站，瀏覽分析有關收割工具的介紹；其次，下載安裝或注冊試用這些工具，對描述型元數據功能逐一考察；最后，聯系工具創建者，征求其對考察結果的意見，核實實驗準確度，完善實驗結果。

2.2 結果

常用Web收割工具的描述型元數據功能考察結果見表1。

表1 常用Web收割工具的描述型元數據功能考察結果

Web Archive Discovery[9]功能：開源工具，主要功能是實施Web收割后，提供Web保存的全文檢索。方法：使用WARC的索引工具分析以WARC和ARC格式保存的Web文件內容，將分析結果傳送至Apache Solr服務器，生成索引；檢索者通過客戶端工具檢索Solr索引，生成查詢結果生成文件的類型：WARC和ARC格式與其他工具的關系：Solr索引，是實現該工具核心功能所需的外部工具采用的元數據方案：JSON。該工具將對WARC和ARC文件的解析結果生成JSON格式文件，用于SOLR檢索可自動賦值的元數據元素：描述型有抓取日期、URL、內容類型等；管理型有來源文件、服務器、主機、hash函數等用戶可賦值編輯的元數據元素：無。所有描述型元數據元素都可自動生成可輸出被外部使用的元數據元素：所有的元數據元素都可被導出Web Curator Tool[10]功能：開源Web收割工作流程管理工具，包括收割內容的許可和授權、內容選擇和范圍劃定、收割活動實施和質量檢查以及存檔保存等生成文件的類型：WARC和ARC格式與其他工具的關系：使用Heritrix 收割Web內容，使用WARC文件為最小保存單元，可結合使用Wayback Machine和Rosetta DPS采用的元數據方案：DC可自動賦值的元數據元素：抓取日期并自動計算記錄在dc:date字段中。其他的描述型元數據元素需用戶添加用戶可賦值編輯的元數據元素：Web資源的名稱、所有者、注釋以及DC中描述字段中的其他基本元素可被外部使用的描述型元數據元素：所有元數據都添加到WARC和ARC格式的文件中。當這些文件被提交到保存系統中時，這些元數據也都將存儲在提交信息包（SIP）中Webrecorder[11]功能：免費的社交媒體收割工具，可抓取用戶的社交過程，包括交互內容、交流語境、動態多媒體、復雜JAVA腳本等；嚴格按照時序收割用戶交流過程中涉及的Web頁面和其他數字對象，保存用戶的真實使用經歷。收割結果以WARC格式文件保存。網站抓取和保存對象的回放使用同一軟件，稱為對稱Web保存法生成文件的類型：WARC格式與其他工具的關系：無采用的元數據方案：JSON可自動賦值的元數據元素：描述型有創建者、標題、抓取日期/時間、存檔文件格式、URL等用戶可賦值編輯的元數據元素：無。該工具聲明將開發這類元素可輸出被外部使用的元數據元素：所有生成的內嵌于WARC文件中的元數據元素都可以被調用

2.3 結果分析

由表1可知，雖然不同收割工具的元數據功能不盡相同，但總體上對描述型元數據的支持程度都不高，具體表現在：

其一，大部分收割工具都獲取并存儲了技術型元數據，以便準確地重構和再現收割的Web信息資源，但獲取描述型元數據的不多，因為收割的文件中描述型元數據本來就很少。因此，在工具內部甚至工具外部由人工創建描述型元數據就成為了常見的補充方法。

其二，除非原始網頁的創建者在創建網頁時就習慣性地在相應標簽內（如HTML格式網頁的meta標簽）嵌入更多描述型元數據元素，否則自動生成這類元素比較困難。

其三，幾乎所有收割工具都抓取網站標題和收割日期作為描述型元數據元素，但有時自動抓取的元素內容是無效的，比如，網站標題“主頁”和“標題”等無實質內容描述。

其四，并不是所有的工具都以相同的方式定義描述型元數據，表現在兩個方面：一是采用的描述型元數據方案不一樣，有DC、JSON、CDX、WARC等；二是自動生成和人工賦值的元數據元素不盡相同。

如何提高Web收割工具的描述型元數據功能？筆者認為可從以下兩個方面著手：

其一，針對Web特質，建立對其進行描述的元數據方案。據OCLC（聯機計算機圖書館中心）考察，業已存在的描述型元數據方案對Web描述的支持都較差，還沒有出現一個完全適合Web的描述型元數據方案。本文對部分收割工具的描述型元數據功能進行了考察，并征求收割工具開發者對考察結果的意見時，部分開發者表示要積極尋求用戶反饋，以確定對用戶有價值的元數據元素；另一些期望與圖書館、檔案館和博物館等信息機構合作研究出一個適合Web描述的元數據元素集合；還有一些期望圖書情報學界制定出臺一個用于Web描述的元數據方案。實際上，這個元數據方案是收割工具提供元數據功能的前提，正是因為它的缺失，收割工具無章可循，各行其道，一方面導致混亂，另一方面其針對性和適用性無法得到保證。這是目前Web收割工具的描述型元數據功能欠佳的原因之一。

其二，收割工具自動抓取或產生元數據元素的描述內容，實現自動賦值。這里涉及三個問題：一是收割工具需設計該項功能，這是工具開發的技術問題；二是從Web網站和頁面中自動抽取元數據的賦值內容，這是自然語言自動理解和多媒體的自動描述問題，也屬于技術問題；三是Web頁面的腳本標記中包含所需的賦值內容，比如Web頁面源代碼標記語言中的元數據標記（如HTML的meta）中包含元數據元素所需的賦值內容，這是規范使用Web頁面的元數據標記問題，需要強化Web管理來規范Web內容創建者的元數據構建行為，屬于管理問題。目前，上述三個問題的解決方案都不到位，不少收割工具的元數據功能設計欠佳，甚至缺失；自然語言自動理解和多媒體的自動描述技術仍不成熟，準確度還沒有達到規模化應用水平；Web頁面創建雖有技術規范，但管理規范仍然缺失。這是Web收割工具的描述型元數據功能欠佳的原因之二。

3 Web收割工具的描述型元數據功能分析

由上分析可知，Web收割工具描述型元數據功能的實現涉及兩個問題：元數據方案的建立和元數據賦值的自動化。第二個問題的解決更多的不是依賴于圖書情報學，而是依賴于技術和管理；第一個問題的解決則純粹是圖書情報學的任務。因此，本部分僅探討第一個問題，即對構建適合于Web的描述型元數據方案所涉及的一些基本問題進行分析。

3.1 構建的基本原則

雖業已存在多個描述型元數據方案，如DC、MARC等，但均無法完全反映Web站點和專題Web站點集合的獨特性質，比如URL、站點內容的動態性等。因此，Web描述元數據方案宏觀上至少應該在以下幾個方面有所體現：

形式上，獨立于Web保存機構和現有元數據方案；但需與相關元數據標準兼容，以備交換元數據標引結果和細化元數據元素之需要；目的上，滿足最終用戶和元數據實踐者（一般也是保存機構）對Web保存與檢索的需求；內容上，定義了一套簡潔的描述型元數據元素，并附使用說明以指導元數據標引實踐；方法上，融合圖書管理中的目錄式描述方法和檔案管理中的存檔式描述方法，建立既可進行簡單標引又可在需要之時進行詳細描述的彈性實用的Web描述元數據方案；實踐上，可實現大規模自動標引，這就要求既無需深度描述，也無需隨著時間推移進行大規模遷移和轉換，以滿足標引對象數量巨大的要求。

3.2 在線站點的描述與存檔站點的描述

不少圖書館和檔案館等信息機構同時建有實體（存檔）Web數據庫（如Archive-It）和虛擬（在線）Web數據庫（如學科導航），既需要描述存檔站點，也需要描述在線站點，因此Web描述元數據方案應兼顧這兩類站點。但是，我們需在元數據設計時考慮兩類站點的不同之處。

價值上。在線站點提供最新信息，具有現實價值；存檔站點提供歷史信息，具有長期的研究價值。如，收割美國白宮網站的不同內容版本并存檔，可以用來研究美國近三屆政府在環境保護政策方面的不同之處。

訪問鏈接上。在線站點元數據描述的是當前版本，隨著站點消失，其訪問URL將導致死鏈。但是，當在線站點被收割存檔后，其訪問鏈接指向存檔版本，既不會消失也不會產生死鏈。

日期記錄上。在線站點元數據的記錄日期可能是它被描述時的瀏覽日期，或是首次上線的日期。但存檔站點的抓取日期很重要，應在其元數據中予以描述。當收割并存檔一個站點的所有不同內容版本時，可根據抓取日期瀏覽該站點的演變歷史。

訪問限制上。絕大部分在線站點均可公共訪問，且無訪問限制。但存檔站點的訪問權限取決于存檔機構，在訪問機制建立前，存檔站點一般僅供現場訪問。

因此，同一個站點的在線版本和存檔版本的元數據描述不完全一樣。如果一個機構期望兩個版本同時被描述從而提供用戶訪問，可設計一個元數據方案，但須兼容兩者的不同之處，比如穩定的訪問URL。從成本效益角度來看，這種方案可能是一個比較理想的選擇。

3.3 目錄式描述與檔案式描述

前者主要用于圖書館對館藏數字資源的著錄，著錄內容來自描述項內容的抽取，主要元素有標題和主題詞。后者一般是一組來源相關的未公開發表信息資源集合存檔的一種描述方法，標題是基于存檔內容概括設計出來的，而不是抽取出來的，且常常使用大量文本型注釋描述存檔內容的語境。許多存檔Web資源集合都是專題性Web資源選擇與收割的結果。

兩種描述方式的一些元素是相同的，尤其是檢索點，比如，主題詞、Web信息資源的類型、人名、組織機構名、地理名稱等。

圖書館和檔案館是實施Web保存的主要信息機構，目前這兩類機構的Web存檔實踐是目錄式描述和檔案式描述共存，它們的描述方式由來已久，不易改變。因此，Web描述型元數據方案設計應該考慮圖書館和檔案館的實踐慣例，同時滿足目錄式和檔案式描述的需要。

3.4 站點式描述與集合式描述

前者的描述對象是單個站點，后者是多個站點的集合，且站點之間一般具有相關性，比如一個專題的所有站點。

選擇策略。兩種描述方式都可用于Web存檔內容，選擇哪種方式取決于Web保存機構和可利用的人力資源等。目前，圖書館常采用站點式描述方法建立在線單站點的元數據記錄，通過檢索系統提供用戶訪問；相反，檔案館幾乎都采用集合式描述方法將收割的專題性Web站點集合作為一個描述單元構建元數據，供長期保存之用。很明顯，站點式描述對于收割大量站點但人力資源不充足的機構是一個沉重負擔，尤其是要求詳細描述的情況。因此，根據保存目的、Web資源屬性和人力資源情況選擇描述方式是一種常見策略。

集合式描述的優勢。按照專題收集Web站點，比如記錄一個重要事件或向已建立專題添加Web站點，這種Web存檔采用集合式描述比站點式描述更具成本效益性。另外，集合式描述可通過記錄集合的范圍、作用和共同的主題特征等提供語境信息，這是站點式描述無法實現的。集合式描述是資源發現的基礎，可輔助于單站點描述，比如，在集合式描述的基礎上，輔助于各個站點的標題和URL，可同時提供宏觀和微觀兩個層級Web存檔的標引。但這種方法的使用要有“度”，比如，當存檔Web集合包含大量站點時，列出一個冗長的URL清單可能作用不大，也容易產生混亂。

鑒于上述分析，Web描述元數據方案應該既適合于站點式描述也適合于集合式描述，但在一些易產生歧義的元素標引上應輔助說明。比如，單個網站的標題常常是站點中重要文本內容的轉錄，而一個Web集合的標題常由收集機構設計；單個站點的創建者容易被識別，除非有意匿名，而一個聚焦在當前某一事件或主題的Web站點集合很少存在一個整體上的內容創建者；針對一個主題的Web資源集合式描述，其日期記錄可以是收割的時間跨度，但一個單獨在線站點的日期記錄只能是被瀏覽且描述的時間或上線時間。

3.5 滿足最終用戶的需求

根據OCLC的調查[12]，Web保存的最終用戶主要集中在各學科的科研人員，且主要需求有：①除了用于Web存檔內容發現所需的描述型元數據元素外，還需存檔Web的語境信息，比如：來源信息，選擇收割站點和構建Web資源集合的決策信息，Web資源集合的收割完整性和收割站點的內容變化歷史軌跡等。②相對于開放的在線Web訪問上的便捷性和普遍性，存檔Web資源的訪問限制（如局限在圖書館內部現場瀏覽）是用戶使用的障礙之一。③用戶使用存檔Web資源存在可獲得性障礙，比如：訪問系統復雜性，界面缺乏友好性，缺乏用戶支持服務項目等。

為此，Web描述元數據方案在設計元素時應標引下列內容：Web存檔資源的出處、收割的完整性、站點內容改變記錄、存檔Web的知識產權、訪問限制等。

3.6 滿足元數據實踐者的要求

元數據實踐者主要有：學者出于研究目的構建個人Web資源庫；圖書館使用RDA和MARK，尋求用于描述Web資源的相關元素；檔案機構將其采用DACS和EAD標準描述的檔案映射到結構更加簡單的Web工具（如Archive-It）中；保存系統對Web收割內容進行元數據標引。

根據OCLC的調查[13]，元數據實踐者的相關需求主要有：①元數據標引應該大規模自動化，因為大多數機構從事這項工作的人力資源非常有限；②與圖書館和檔案館現行的Web存檔描述標準相兼容；③目前，目錄式、檔案式和混合式描述方法同時使用，需要尋到一種解決方案將上述三種方法有效結合；④目前的Web存檔描述標準及應用高度不一致，不僅體現在元數據元素上，還表現在元素的內容賦值上，故應建立統一的Web存檔描述標準；⑤描述存檔Web的元數據標引結果需在多個Web保存系統之間交換甚至共享，應制定這類元數據的跨系統再利用協議。

因此，為了滿足元數據實踐者的上述需求，Web描述元數據方案應該遵循以下原則：簡單高效，以實現規模化自動化標引；分析吸收現行的元數據方案，以實現元數據方案之間的兼容性；具有一定程度的可擴展性，以包容目錄式和檔案式兩種描述方法；標準化，以實現元數據元素及其賦值規則的統一化；協議化，以實現跨系統的交換和共享。

3.7 元數據元素的選擇

我們應針對Web特質選擇元數據元素，所選元素均應適用于Web描述，包括單站點和專題性的多站點集合兩個層級的描述，且使用說明也應完全體現Web描述的特質。

元素選擇應遵循的原則有：適合于規模化賦值；既可獨立使用，也可結合圖書館和檔案館現行標準一起使用，以提供細粒度描述；元素名稱和定義應盡可能采用現行元數據標準，以增強各標準間的兼容性和描述的一致性；各元素的使用說明應為標引者提供幫助，且標引結果不產生歧義；應包含常用元素（如貢獻者、日期、主題詞、標題等），這些元素對所有類型信息資源的識別和發現至關重要；其他元素須適用于存檔Web站點的描述，比如產權和URL等；應適用于各層級的描述，如單站點描述、專題性的多站點集合描述等，這種描述應遵從存檔標準中（如DACS和EAD）的多層級描述原則。

我們選擇元數據元素一般分四個步驟：首先，基于目前廣泛應用的數字資源描述標準DC、EAD、MARC21、MODS和schema.org等，選擇通用元素，如貢獻者（Contributor）、創建者（Creator）、日期（Date）、描述（Description）、語種（Language）、關系（Relation）、主題詞（Subject）、標題（Title）等；其次，針對Web特質，設計其他候選元素，如收割者（Harvester）、范圍（Extent）、類型（Genre/Form）、產權信息（Rights）、URL等；再次，針對每個候選元素，界定含義、輔助使用說明以及與其他主要描述型元數據方案之間的映射；最后，采用德爾菲法，征詢業內專家、Web資源描述實踐者和最終用戶的意見，并進行一定規模的試標引，完善所建立的Web描述元數據方案。

（來稿時間：2018年5月）