王艷翠 洪彥風 崔建偉 宗風強
(聊城大學 圖書館,山東 聊城252059)
網(wǎng)絡管理工具項目是新西蘭國家圖書館與大英圖書館合作開發(fā)的、在國際互聯(lián)網(wǎng)保存協(xié)議支持下實施的開放源代碼工具。 合作用戶在圖書館環(huán)境下使用網(wǎng)絡管理工具時, 它是一種對在線材料進行選擇、收割及質量評估的支持工具。 學科專家確定了收割的部分站點或整個站點(這些站點通常于某一學科領域或某一重要事件相關)時,可利用該工具進行有選擇的網(wǎng)絡收割。作為參與國際網(wǎng)絡存檔共享的益處,它可從http://webcurator.sf.net 網(wǎng)頁上免費獲取。
自2007 年1 月, 新西蘭國家圖書館使用網(wǎng)絡管理工具作為選擇性網(wǎng)頁存檔方案的基礎。 新版工具開發(fā)的第一年,大幅度的提高和改善了收割活動質量并實施了2 項大的收割活動。
本文介紹了生產環(huán)境中使用網(wǎng)絡管理工具的經(jīng)驗、網(wǎng)頁收割活動及網(wǎng)絡管理工具的開發(fā)背景。
無論新西蘭社會和文化歷史是以書籍、報紙、圖片的形式存在的,還是以網(wǎng)站、博客及YouTube 影片形式存在的,新西蘭國家圖書館都要根據(jù)法律授權和它所擔負的社會責任對其進行保存,而越來越多的新西蘭文化遺產僅能從網(wǎng)上獲得。用戶覺得網(wǎng)上的內容既有價值又方便,但網(wǎng)絡內容的暫時性、缺乏明確的所有權、動態(tài)性特點對任何試圖獲取和保存它的機構都是巨大的挑戰(zhàn)。網(wǎng)絡管理工具通過允許機構捕獲幾乎所有的在線文件而解決了這些問題。 在線文件包括: 網(wǎng)頁、網(wǎng)站、網(wǎng)絡日志及目前大多數(shù)格式(包括HTML 網(wǎng)頁、圖片、PDF 文檔、word 文檔、音頻、視頻等多媒體內容)。 為保持這些文件的完整性與權威性,網(wǎng)絡管理工具盡可能細致地對它們進行處理。 公眾從那些安全的、長期保存的在線遺產中的獲益是無法估量的。
新西蘭國家圖書館自1999 年開始就有一個選擇性網(wǎng)頁存檔計劃。 到2006 年底,新西蘭國家圖書館已使用HT 跟蹤網(wǎng)站復制軟件對在線材料進行收割,并在一個基于MARC 的選擇、查詢數(shù)據(jù)庫中對其進行跟蹤觀察。 HT 跟蹤軟件給圖書館留下了一項積壓的工作——收割的材料不能用于長期保存的存檔。目前正在實施的數(shù)據(jù)遷移計劃就是把材料轉換成適合存檔的格式。
網(wǎng)絡管理工具支持一個包括一系列專門任務的收割工作流程:選擇在線資源;尋求收割許可并使其可公開查閱;對其進行描述;確定范圍和界限;列出網(wǎng)頁收割清單;執(zhí)行收割;進行質量審查并批準或拒絕收割資料;在數(shù)字倉儲或數(shù)字文檔中保存已認可的資料。
目前,多數(shù)網(wǎng)頁存檔活動嚴重依賴于收割實施者的專門技能。 然而,網(wǎng)頁管理工具通過自動處理網(wǎng)頁存檔的技術細節(jié)使得用戶和學科專家(而不是工程師和系統(tǒng)管理員)的收割更具有責任性。網(wǎng)絡管理工具是開放源代碼軟件,并可在Apache 公共協(xié)議下從http://webcurator.sf.net 網(wǎng)站上免費獲取。網(wǎng)站提供用戶存取手冊、郵寄清單、截圖、常見問題解答、技術和管理文件、源代碼、故障跟蹤系統(tǒng)、開放源代碼計劃項目頁等。
網(wǎng)絡管理工具是新西蘭國家圖書館主要的工具,并用其管理亞歷山大特恩布爾圖書館的電子出版物。 在2007 年,相當于2.5 倍的全職電子選擇者直接使用該工具管理著所有的選擇、收割及質量審查。 該工具與圖書館的政策、工作流程、溝通及支持服務緊密集成并影響到更廣泛的工作人員。 例如:技術服務維護系統(tǒng)的硬件和軟件通過幫助界面進行管理;通過內容服務實現(xiàn)編目;國家數(shù)字圖書館進行數(shù)字化存檔的維護。
網(wǎng)絡管理工具設計的目的是使該工具盡量的與任何現(xiàn)有的系統(tǒng)緊密結合。 該工具配置使用了圖書館的Sun SPARC 服務器、Solaries操作系統(tǒng)、Oracle 數(shù)據(jù)庫、Apache THHP 服務器并安裝Tomcat 用于網(wǎng)絡服務、Novell 電子地址的用戶身份驗證服務。 制作系統(tǒng)配置了2 個服務器:一個用于核心模塊,一個用于收割(該配置可同時運行8 個并行收割)并與其他圖書館系統(tǒng)共享現(xiàn)有的數(shù)據(jù)庫和文件服務。
它大幅改善了質量審查的方便性和有效性, 決策過程更快速有效。 收割歷史質量審查工具被證實是改善質量審查最有用的工具。 此工具列出了所有附有簡要信息的特定目標, 這些信息包括開始日期、數(shù)據(jù)下載、網(wǎng)址收割、收割成功或失敗、所用時間及現(xiàn)狀等。 這對于強化質量審查過程中所需的大部分信息是非常有用的。
1.2 版質量審查工具一個簡單有效的改變是: 增加了三種不同的方法用于選擇查看收割站點。 這三種方法是:用瀏覽工具查看目前的收割案例;觀看直播網(wǎng)站;查看以前的存檔版本(互聯(lián)網(wǎng)存檔或本地存檔)。收割案例在另一個瀏覽器窗口開放,并允許審查者把收割復本與站點的其它版本進行比較。
1.2 版也對網(wǎng)絡管理精簡工具作了更新。 但新西蘭國家圖書館不使用精簡工具更改網(wǎng)站, 因而收割不會從它的許多變化中直接受益。新西蘭國家圖書館已試行使用該工具。 實踐證明,該工具新的觀看功能對于選擇和查看任意收割文件都是極其有益的。
作為圖書館收割計劃的一部分,最大的已完成并審查的收割規(guī)模是21GB,遺憾的是它未能通過質量審查。 新西蘭國家圖書館已成功的收割、審查并存檔多個10GB 規(guī)模的網(wǎng)站。
隨著網(wǎng)站規(guī)模的增長,電子選擇器更多地依靠自定義文件和優(yōu)先性文件,尤其是排除那些允許電子選擇器中斷網(wǎng)站特別部分收割的過濾器。
新西蘭國家圖書館因而引進了一個更大的磁盤陣列用于數(shù)字資產存儲,并提供匯報工具使館員能持續(xù)監(jiān)測磁盤陣列的使用狀況。
當使用網(wǎng)絡管理工具描述網(wǎng)站成為可能時,新西蘭國家圖書館的政策就是在目錄中描述圖書館的整個館藏并提供從館藏目錄記錄到存儲在數(shù)字倉儲中的數(shù)字化條目之間的鏈接。當新西蘭國家數(shù)字遺產存檔取代臨時數(shù)字倉儲時,普通民眾可以獲取收割的網(wǎng)站和期刊。
在搜索圖書館網(wǎng)站目錄時的一個不足是:由于每個網(wǎng)站是單獨編目的,因而無法充分反映每個收割事件。為解決這一問題,大英圖書館計劃開發(fā)一個web 界面工具, 它提供基于主題和活動收割活動的存取,該工具為那些需要搜索特別網(wǎng)站的用戶提供額外幫助。 網(wǎng)絡管理工具目標(單個網(wǎng)站)及團體(網(wǎng)站收藏)定義使其成為可能。
新西蘭國家圖書館里用網(wǎng)絡管理工具成功實現(xiàn)了有選擇性的網(wǎng)頁存檔計劃:使用網(wǎng)絡管理工具進行選擇、安排、收割并審查網(wǎng)站,然后把它們提交至數(shù)字化存檔。 1.2 版的質量審查工具作了很大的改進,新西蘭國家圖書館目前正對開放源代碼網(wǎng)站進行故障追蹤記錄并把情況通知給該工具的未來修訂版。該工具的新版(1.3 版)目前已經(jīng)發(fā)布,預期它會進一步改善網(wǎng)站收割工作流程。新西蘭國家圖書館目前正在開發(fā)將來存儲和帶寬要求的容量模型,籌劃開發(fā)存取工具和域級別的收割。
[1]http://www.dlib.org/dlib/may08/paynter/05paynter.html[OL].
[2]http://www.httrack.com/[OL].
[3]http://opac.lianza.org.nz/cgi-bin/koha/opac-detail.pl?bib=121[OL].