閆曉創/新華社辦公廳
網頁存檔(Web Archive,下簡稱WA)是對互聯網上的信息資源進行收集、保存并確保其能被長期安全使用的活動。2003年7月,美國、加拿大、英國、法國等國家的十幾個機構聯合成立了國際互聯網保存聯盟(以下簡稱IIPC)[1],目前該聯盟已擁有超過40個成員機構,這些機構涵蓋世界上著名的圖書館、檔案館、大學、非營利組織以及商業服務供應商,成員機構的多元化極大地促進了國際上關于網頁存檔的合作和交流共享。IIPC還在結構、元數據、標準規范等諸多方面建立了一系列技術規范,并資助成員機構開發能夠實現網絡資源采集、管理、存儲、利用等功能的高質量、具有較高易用性的開源性軟件工具[2]。
IIPC的成員包含了目前世界上絕大多數在WA領域具有極高研究水平的機構。這些成員機構共有32個,分布在世界各個大洲,其中亞洲2個、非洲1個、歐洲20個、大洋洲2個、北美洲7個,成員機構主要WA項目及基本情況如表1。

表1 IIPC成員及其WA項目基本情況

國家 負責機構 開始時間存檔語言 獲取方式 收割方式西班牙 加泰羅尼亞圖書館 2005加泰羅尼亞語、西班牙語、英語URL檢索、關鍵詞檢索、字母順序瀏覽、主題瀏覽、熱門搜集區域內域名收割、大量收割、選擇收割、事件收割、主題收割法國 法國國家圖書館 2002 法語URL檢索、關鍵詞檢索、全文檢索、熱門搜集全國域名內收割、大量收割、選擇性收割、事件收割、主題收割法國 法國國家圖書館 2009 法語URL檢索、關鍵詞檢索、字母順序瀏覽、主題瀏覽、熱門搜集選擇性收割、主題收割愛沙尼亞愛沙尼亞國家圖書館2010愛沙尼亞語URL檢索、關鍵詞檢索、局部瀏覽選擇性收割、事件收割、主題收割克羅地亞克羅地亞國家圖書館2004克羅地亞語、英語URL檢索、關鍵詞檢索、高級檢索、字母順序瀏覽、主題瀏覽選擇性收割、全國域名內收割、主題收割荷蘭 互聯網記憶基金會2005英語URL檢索、關鍵詞檢索全國域名內收割、選擇性收割、事件收割冰島 冰島國家和大學圖書館1996冰島語、少量英語URL檢索全國域名內收割、選擇性收割、事件收割芬蘭 芬蘭國家圖書館 2006芬蘭語、瑞典語、英語URL檢索、全文檢索全國域名內收割、區域內域名收割、事件收割、主題收割瑞典 瑞典國家圖書館 1997 瑞典語 URL檢索全國域名內收割、大量收割、選擇性收割丹麥丹麥皇家圖書館、奧胡斯州和大學圖書館2005丹麥語、英語 URL檢索全國域名內收割、大量收割、選擇收割、事件收割挪威 挪威國家圖書館2001挪威語關鍵詞檢索全國域名內收割、事件收割斯洛文尼亞斯洛文尼亞國家和大學圖書館2007斯洛文尼亞語URL檢索、字母順序瀏覽、全文檢索選擇收割、事件收割英國 英國國家檔案館 1996 英語U R L檢索、全文檢索、字母順序瀏覽、主題瀏覽、熱門搜集選擇性收割、事件收割、主題收割英國 英國國家圖書館 2005 英語URL檢索、字母順序瀏覽、全文檢索、主題瀏覽選擇性收割、事件收割、主題收割荷蘭 荷蘭國家圖書館2007荷蘭語URL檢索、字母順序瀏覽、全文檢索選擇收割捷克 捷克國家圖書館2000捷克語URL檢索、主題瀏覽全國域名內收割、事件收割奧地利 奧地利國家圖書館 2008 德語 URL檢索、熱門搜集全國域名內收割、大量收割、選擇收割、事件收割、主題收割瑞士 瑞士國家圖書館 2008德語、法語、意大利語、英語URL檢索、關鍵詞檢索、全文檢索、主題瀏覽、熱門搜集選擇性收割、事件收割、主題收割拉脫維亞拉脫維亞國家圖書館 2005拉脫維亞語、俄語、英語URL檢索、關鍵詞檢索、熱門搜集選擇性收割、事件收割、主題收割新西蘭 新西蘭國家圖書館 1999 英語URL檢索、關鍵詞檢索、字母順序瀏覽、主題瀏覽選擇收割澳大利亞澳大利亞國家圖書館 1996 英語URL檢索、關鍵詞檢索、字母順序瀏覽、主題瀏覽、全文檢索選擇收割、事件收割

國家 負責機構 開始時間存檔語言 獲取方式 收割方式韓國 韓國國家圖書館2005韓語URL檢索、關鍵詞檢索、主題瀏覽選擇收割日本 日本國會圖書館2002日語關鍵詞檢索、全文檢索、熱門搜集大量收割、選擇收割埃及 亞歷山大圖書館 1996 英語 URL檢索 大量收割
目前全球范圍內IIPC成員開發的WA工具和軟件的功能涵蓋了網絡資源采集、保存、檢索、利用這幾個方面,是比價成熟的開源軟件。表2從軟件名稱、簡要情況說明、開發情況等進行了較為詳細的說明。

表2 IIPC成員開發的WA應用軟件[3]

JHOVE2開源的格式描述工具,主要用于描述ARC、WARC和GZIP等格式加利福尼亞數字圖書館、斯坦福大學圖書館、法國國家圖書館及NETARKIVET.DK MediaWiki Memento Extension存儲和保管(Collection storage and maintenance)用于MediWiki的插件,它支持用戶找到過去某一時刻MediWiki 所呈現的內容美國奧多明尼昂大學和美國洛斯阿拉莫斯國家實驗室Site Story針對事務性文件的存檔工具,該工具可選擇性地獲取和存儲分別對應在web瀏覽器和服務器中的內容美國洛斯阿拉莫斯國家實驗室WebArchive Transformation(WAT) Format用于網絡資源存檔的格式 互聯網檔案館(Internet Archive)WebArchive Transformation(WAT) Utilities用于從WARC格式的文件中提取元數據進行數據分析的數據集互聯網檔案館(Internet Archive)WarcManager 用于檢索WARC格式文件內容的工具 美國馬里蘭大學WARC Tools用于讀取和操作WARC格式文件,并將ARC格式文件轉化為WARC格式的工具集美國半藏檔案公司和互聯網檔案館( Internet Archive)TimeTravel Portal通過輸入原始的URL、時間等來查找存檔網絡資源的檢索入口L y u d m i l a B a l a k i r e v a,HariharShankar,Ilya Kremer,Herbert Van de Sompel Time Travel APIs用于降低檢索存檔網絡資源時所遇到的障礙并實現對存檔網絡資源自由利用的APIs Lyudmila Balakireva,Harihar Shankar, Herbert Van de Sompel Memento Time Travel chrome的擴展程序,它支持網站的時間瀏覽,并能夠規避死鏈接。該程序使用Memento協議,發現分布式網絡檔案資源,以此方式規避死鏈接Harihar Shankar NutchWAX(Nutch with WA eXtensions)獲取和檢索工具(Access and finding aids)利用Nutch搜索引擎和擴展程序來檢索網絡資源的工具互聯網檔案館(Internet Archive)和北歐國家圖書館聯盟WERA (WEbaRchive Access)網頁存檔的搜索和導航應用程序,利用NWA工具集進行構建,可通過一個網絡歸檔程序進行網頁存檔并且允許全文檢索互聯網檔案館(Internet Archive)和挪威國家圖書館Wayback Machine ARC或WARC格式的網絡存檔資源回放工具,允許對網絡存檔資源進行臨時瀏覽互聯網檔案館(Internet Archive)Xinq (XML INQuire)用于XML數據庫檢索和瀏覽的工具 澳大利亞國家圖書館
采集獲取工具。從功能角度看,采集工具中的Heritrix支持復雜的爬行定義和過濾,具有豐富的可配置功能,如抓取頻率可設置為每天、每周、每月等。它采用廣度優先算法,用來抓取完整的、精確的站點內容,并進行深度復制;在重新抓取相同的URL時,不刪除之前的版本,實現多個版本的同時保存。從開發角度看,該應用程序采用模塊化設計,用戶可以在運行時選擇適用的模塊。Heritrix由核心類和插件模塊構成,核心類可以配置,但不能被覆蓋;插件模塊可以由第三方模塊取代,所以用戶可以用第三方模塊來取代默認的插件模塊,滿足個性化需要。其他幾個采集工具在不同的機構也都有相應應用。該軟件適合大規模的網絡存檔。目前北歐國家圖書館聯盟采用該采集工具,并取得較好成果。
采集管理工具。IIPC提供的采集相關的工具包括Building Collections on the Web(BCWeb)、CINCH、Net archive Suite、WebCurator Tool(WCT)。其中BCWeb是一個允許圖書管理員來定義選擇性收割(正在進行的和主題事件)的管理工具,主要由法國國家圖書館負責運營和維護。Net archive Suite和WCT都是通過底層調用Heritrix進行資源采集的,其中Net archive Suite是一個可以讓圖書管理員定義和控制網絡材料收割的管理工具,支持主題采集、選擇性采集和國家頂級域名采集;WCT主要用于實現選擇性采集,支持圖書館和其他收藏機構管理web收割過程,并且支持非技術用戶對收割過程實現完全控制。
存儲保管工具。在存儲和保管工具方面,IIPC提供了HTTrack2ARC、Java Web Archive Toolkit(JWAT)、Site Story、WARC Tools等9個相關的工具。這些工具主要用于對采集的數據進行格式轉換、內容抽取、內容識別驗證。數據的封裝有AFF、ARC、WARCIP等格式,各種格式幾期特點如表3。其中WARC格式是運用較為廣泛的存檔格式,它在平臺獨立性、易用性、支持更新、標準化、開發性等八個方面均占優勢,更適合對網絡資源進行長久保存。

表3 數據封裝的格式與特點
獲取檢索工具。IIPC提供的獲取檢索工具主要有Time Travel Portal、NutchWAX(Nutch with WA eXtensions)、Wayback Machine等,其中使用最廣泛的為Wayback Machine。該工具主要由IA研發,集索引、摘要、呈現等多種功能于一體,可實現WARC文檔的增量索引,并提供基于URL的檢索訪問WA資源的服務。
開源性。這些軟件都具有良好的開源性,在互聯網上可以獲取這些軟件,并且可以結合實際做多次開發,以適應自身情況。WA項目中各環節的開源軟件均可在開源網站Source Forge上找到[4],并且可以找到同一個功能軟件的若干版本。
功能齊全。IIPC成員所開發出來的軟件包含了WA項目的各個環節,這些環節包括了資源的獲取、管理、存儲和保管、獲取和檢索等,各個環節都有配套軟件程序來實現相關功能。
IIPC在WA項目的發展中做出了相當重要的貢獻。具體來說,IIPC作為國際組織,為相關發展WA項目的機構提供了一個平臺,各個機構在此平臺開展充分的交流和協作,從而極大地促進了WA項目的發展。IIPC針對WA項目的各個環節成立不同的協作組,并針對相關難題進行公關,同時資助項目成員開展新的研究項目。IIPC成員針對WA項目的采集、管理、存儲、利用等環節開發了大量的軟件,這些軟件基本都為開源性,各個成員可以針對自身的實際情況進行個性化調整。
互聯網檔案館(Internet Archive,下簡稱IA)是IIPC的代表性成員,它作為一個全球性的非營利組織,在WA領域中的發展較為深入,是IIPC成員中唯一個面向全球網頁進行選擇性采集、存檔的機構[5]。IA作為一個非營利性的公益組織,它的發展較為全面、深入,對其他國家、機構發展WA具有很強的引領和指導作用,如為方便較小的組織機構開展WA項目,IA開發了ARCHVIE-IT軟件,僅需通過簡易的設置,就可對一定范圍內需要存檔的網頁進行相關操作[6]。
WA項目的價值會隨著時間變遷顯得越來越重要,未來的世界必定是互聯網高度繁榮的世界,WA項目在互聯網上進行存檔以備未來查考,因為通過互聯網查閱相關資料,將會是未來查考歷史的主要手段,這正是互聯網時代發展的必然結果。較之于傳統的史料,WA項目可更為真切地反映歷史事件,且通過WA項目我們可以在未來的任何一個時刻更為全面地了解一個重要歷史事件,以及這一事件的前因后果。此外,IIPC的成員機構為圖書館、博物館以及高校等,它們通過發展WA項目,能夠實現對現有業務的補充與完善。
合作性。中國互聯網信息中心(CNNIC)發布的《第36次中國互聯網發展狀況統計報告》顯示,截至2015年6月,中國的網站總數為357萬個;國家在線數據統計網站于2014年9月16日更新的數據顯示,全球互聯網網站數量已經超過10億,且仍在急速增長。面對如此龐大的數據資源,僅僅依靠某個機構的力量完成歷史記憶記錄,顯然是不可能的。必須加強國家之間、機構之間的密切協作,成立專門的協調組織來完成此項工作。IIPC作為一個國際范圍內的互聯網保存聯盟,對于推動相關機構間的國際合作起到了非常重要的作用,如,IIPC的成員機構針對Web Archive項目的各個環節成立了若干工作組,包括標準組、收割組、獲取組、保存組、結構組、研究人員需求組、獲取工具組、內容管理組、深層網頁組、度量和測試平臺組、互操作性工作組,等等。這些工作組針對所負責的領域進行深入探討研究,極大推動了世界范圍內WA項目的發展[7]。
開放性。網絡的一個最大、最明顯的特征就是自由(在相應的法律規范之下)與多元,這樣的特性能夠便于成員機構對接工作、開展研究。
技術性。WA項目具有較強的技術性,項目中網頁資源的采集、網頁資源的保存、網頁資源的查找、網頁資源的深層次開發等都會牽涉到非常多的技術問題。如WA項目的存檔策略在各個項目之間有不同的實現方式,IA是基于外部索引的壓縮存檔,PANDORA是基于多文件服務的存檔,NWA(瑞典、芬蘭、冰島、挪威四國合作的web資源存檔項目)是基于格式遷移的存檔,ERA(美國國家檔案館開展的一項對電子記錄進行保存和訪問的研究項目)是基于特征抽取的存檔等。其他如WA的采集流程、檢索利用等也都有很強的技術性。
公益性。WA項目是功在當代、利在千秋的事業,正是由于其公益性且實踐工作耗資巨大,因此在國內該項目的進展非常緩慢,進行項目研究的只有幾家公共單位。在國外,該項目由于擁有資金扶持,加之公眾具有較強的資源保存與開發利用意識,因此進展速度較快。如,Internet Archive作為一個非營利組織,它依靠捐款開展研究工作,從1996年至今它已近保存了超過1600億個網頁資源,為人類留下了寶貴財富。
WA項目研究主題非常豐富,包括存檔技術、系統、工作流程、法律規范、人員、組織、項目評價等,其中法律規范、人員、組織與項目評價的相關研究成果最能體現一國或地區的特色,不容忽視。目前,國內關于WA項目的研究尚處于初級階段,國內的研究大部分局限于對國外研究的淺層次介紹和分析,很少有對WA相關的技術、法律等問題進行深入討論的。因此,我們要進一步強化理論研究,并且突出研究主題。
如何存儲和保存海量的網絡資源,需要從國家層面加以統籌考慮。網絡存檔是一個功在當代、利在千秋的偉大事業,我國需要盡早將這項工作納入國家戰略之中。建議國家成立相應的機構負責統籌工作開展,可參照設置國家電子文件管理部際聯席會議辦公室管理電子文件[8]的模式,成立國家層面的機構負責網絡存檔工作。此外,還要加強國內圖書館、檔案館、博物館等單位的溝通與合作。
目前,國內對于網絡資源存儲的研究較為分散,亟需建立一個聯盟性質的機構把相關機構單位統一起來,實現優勢互補與資源的合理利用,不斷提升研究水平。國內WA項目做得較好的國家圖書館、北京大學、中科院文獻情報中心等,可聯合起來建立聯盟,并吸引國內其他有興趣、有實力的機構參與進來,共同推動WA項目的開展。在此基礎上,可建立工作試點單位,試點單位應從聯盟內部進行挑選,優先選擇工作起步早、工作基礎扎實、立足工作前沿的單位進行試點,開展試點工作時注意總結經驗、發現問題,并及時推廣試點經驗,為早日實現全國范圍內的網絡資源存儲做出貢獻。
目前,國內對于網絡資源歸檔的工作僅限于學術研究領域,政府并未出臺相應的法律法規。隨著網絡存檔實踐的不斷發展,必須建立健全相關的法律法規,規范網絡資源保存的相關內容。制定法律法規應當循序漸進,要充分借鑒相關行業的工作做法,如參照圖書館領域的呈繳本制度、考察網絡資源的版權保護問題,還要主動學習國外的相關做法,確保法律法規的完備與齊全。
注釋與參考文獻:
[1]IIPC [EB/OL]. [2015-12-05]. http://netpreserve.org/.
[2]張松巖.以IIPC為中心的全球Web Archvie項目研究[J].數字與縮微影像.2011(3):36-38.
[3]Tools and Software[EB/OL]. [2015-12-05].http://netpre-serve.org/Web-archiving/tools-andsoftware.
[4]S O U R C E F O R G E.h t t p s://sourceforge.net/projects/archive-crawler/?s ource=directory[EB/OL].[2016-2-15].
[5]InternetArchive[EB/OL].[2015-12-05].http://www.interne-tarchive.org/.
[6]About the Internet Archive [EB / OL].[2015-12-28].http : / /archive.org / about /.
[7]林穎,吳振新,張智雄.Web Archive存檔策略分析[J].現代圖書情報.技術.2009(1):16-21.
[8]閆曉創.國外Web Archive項目對我國的借鑒和啟示——以澳大利亞的PANDORA項目為例[J].檔案學研究.2012(5):79-83.