, ,,,,
隨著信息技術和互聯網的迅速發展,人們已經習慣并依賴通過網絡發布和獲取各類信息。但是網絡信息資源更新快、所依賴的載體不穩定,其長期保存問題備受關注。20世紀90年代以來,以歐美為首的發達國家相繼開展了網絡信息資源保存項目,具有代表性的有英國國家圖書館的UK Web Archive項目、英國國家檔案館的UK Government Web Archive項目、美國國會圖書館(Library of Congress)的LC Web Archives 項目、澳大利亞國家圖書館(National Library of Australia)的PANDORA項目、新西蘭國家圖書館的Web Archive項目和瑞典的Kulturarw3項目及日本國立國會圖書館(National Diet Library,NDL)的WARP項目。
日本國立國會圖書館是日本最大的公共圖書館,肩負著保存日本文化財產的使命。網絡信息資源收集和保存實驗項目(Web Archiving Project,WARP)是NDL于2002年開始實施的網絡信息資源收集和保存項目。本文擬通過對WARP的基本情況、具體特點、特色保存項目及取得成效的分析及介紹,希望為我國信息資源收集與保存提供些許借鑒。
NDL于2002年開始實施網絡信息資源收集和保存實驗項目WARP,之后為實現更廣范圍的收集,開展了“關于日本網頁的收集、累積及保存方法的調查(2004年10月至2005年3月)”、“網絡信息收集保存相關制度的意見征集(2005年7月)”等多項調查,并就收集方法、收集對象等進行了多次研討。2009年7月10日,日本公布了修訂后的《國立國會圖書館法》,規定NDL可收集、保存國家等公共機構的網站信息。伴隨著該法的實施,2010年4月1日,該項目正式更名為“網絡資源收集保存事業”。2012年7月NDL制定了《我們的使命·目標2012~2016》計劃書,將“各類資料、信息的收集與保存”列為未來5年要實現的6個戰略性目標之一。該目標是繼“輔佐國會活動”之后的第二大目標,進一步明確規定了要廣泛收集、保存各公共機構的網站和收集這些網站提供的各類資源的任務。
《國立國會圖書館法》第24條規定,WARP的收集對象包括國家機關、都道府縣、政令指定的都∕市、市町村、市町村合并后的法定合并協議會、獨立行政法人及特殊法人等法人、機構、大學、地方公共團體、地方公社等網站,各類活動的相關信息及電子期刊等。
WARP的收集過程包括選定、收集、組織、保存、公開等環節(圖1)。隨著網絡信息資源不斷更新,WARP定期進行收集、組織和記錄各類信息資源的變化并進行長期保存,視情況提供利用。

圖1 WARP的收集過程
WARP利用網絡機器人對網頁進行自動收集。機器人首先確定收集對象網站,設置起點網址URL。在收集該網頁html文件的同時,對文件內的信息資源進行解析,然后收集文字、圖片、視頻、音頻等。
接著移動到該網頁鏈接的其他網頁,繼續重復相同的工作(圖2)。

圖2 WARP網絡機器人的網頁收集流程[1]
針對不同的收集對象,WARP的收集頻率具體如表1所示。

表1 WARP的收集頻率[1]
NDL針對不同的情況采取了全面收集和選擇性收集兩種策略。首先,對于法律有明文規定、無須獲得所有權人許可即可收集的網站,采取全面收集策略,全面系統地獲取資源內容;其次,對于需要取得所有權人許可才能收集的網站,則選定收集主題,進行選擇性的收集[2]。這樣既能全面系統地獲取公立網站的資源和盡可能多地獲取各個方面的資源,又能有重點地選擇其他機構網站的資源和有針對性地獲取有價值的私有網站的信息資源。
WARP自實施以來,產生了許多特色保存項目,以下4項最具代表性。
1999-2010年,被稱為“平成大合并”的市町村合并運動在日本全國大規模地興起。根據總務省的統計,市町村數量由3 232個減少到1 719個,約1 500個市町村網站在網絡上消失了。WARP將這些失效的網頁以及合并協議會網站,在取得發布者許可后保存下來,部分網頁依據著作權者的意向供讀者在館內閱讀[3]。
日本國內的機關、自治體、大學等機構的網站,發布了大量有價值的電子文件,包括白皮書、會議資料、報告書、年報、論文等。NDL從這些網站中選擇性收集白皮書、會議資料、報告書、年報、論文等出版物及著作并保存,添加題名及著作者信息等,方便用戶查找及閱讀。
都道府縣的公報除登載地方公共團體制定和頒布的條例及法規外,還發布相關的公告、告示等信息。通過NDL的WARP項目,用戶可以在網上瀏覽全國各地所有的都道府縣公報。
2011年3月11日,日本東北部海域發生里氏9.0級地震并引發海嘯,造成重大人員傷亡和財產損失。4月1日,日本內閣會議決定將此次地震稱為“東日本大地震”。WARP對東日本大地震的相關網頁進行重點收集與保存,并建立了存檔項目——“雛菊”。除了高頻率地收集震后國家機關、受災地區自治體的網頁,還積極地收集與保存NPO(Non-profit organization)、NGO(Non-govern mental organization)、志愿者團體、各類學會及協會、企業等進行相關支援活動的機構的網頁信息,包括數字化的文本、圖片、音頻、視頻等。
由表2和表3可以看出,WARP保存的網絡信息資源數量大、類型多,達到了《我們的使命·目標2012~2016》計劃書中第二大目標——“各類資料、信息的收集與保存”提出的廣泛收集、全面保存的目的[4]。僅2015年一年,WARP保存的文件數量就近40億。
WARP項目自2002年實施以來,收集的主題數量和數據量逐年遞增,已逐漸成為NDL數字資源長期保存及資源建設的重要組成部分,對全面保存國家文化財產及數字文化遺產發揮了不可替代的作用。
WARP用戶瀏覽量不斷增加,取得了良好反響。因為WARP保存的網絡信息資源,用戶可以通過瀏覽永久保存的歷史網頁,欣賞舊時網頁的風采(如消失的市町村網頁等);通過對事件的搜索,關注重大歷史事件,覽盡歷史的發展歷程,感受時代的進步(如國會網頁等);還可通過關注網頁數據,研究深層聯系、進行數據分享、挖掘信息世界的潛在秘密(如各類學會及學會統計數據網頁等)。

表2 WARP收集的文件數量及數據量(2002-2015年)[5]
注:以網頁文件中具體包括的pdf、png等格式的文件數量計

表3 WARP保存的文件類型、數量及所占比例(2015年)[5]
WARP的特色保存項目,如消失的市町村網頁、都道府縣公報及大地震網頁保存等,都是WARP針對性進行收集與保存的體現,同時也體現了其超強的專業性。日本是一個自然災害多發的國家,NDL通過“東日本大地震”網頁存檔項目,不僅對此次地震、海嘯、核泄漏、復興重建、核電站事故等內容進行了收集與保存,還對各類學術研究、防災對策、災害救援、志愿支持、自救互救等信息進行了保存與記錄[6]。通過對“東日本大地震”這類自然災害原始記錄的收集、救災過程及方法的記錄、災后重建過程的保存,既可為專家、學者進行科學分析與學術考察提供豐富的資料,又可為今后的災害救援提供專業性指導和后世及各國提供借鑒。
WARP項目的實施離不開技術支持,資源收集機器人(Heritrix)、全文搜索引擎(Solr)、文件保存格式(WARC)、瀏覽應用(Wayback)等各項技術的開發與應用,為WARP的順利實施提供了技術保障。
網絡信息資源管理人員要根據項目的實施情況,不斷研發技術、完善系統,改進網絡信息資源收集與保存的技術與環境,為項目的順利實施提供堅實的技術保障。在資源選擇及收集策略上,做到具體情況具體分析,根據不同網站采取不同策略,盡可能全面收集,確保網絡信息資源收集與保存的全面性和代表性。
NDL在實施WARP項目的過程中,積極推進相關法律法規的頒布,為大規模收集和保存網絡信息提供了法律保障。如2009年日本修訂了《國立國會圖書館法》,2010年修訂了《著作權法》。《國立國會圖書館法》第二十五條第三款規定,為了達到協助國政審議的目的,NDL有權收集國家與地方公共團體等公有機構發布在網站上的資料;《著作權法》第四十二條第四款規定,國會圖書館基于法律收集網絡信息資料,無須取得著作權人的許可[5]。新法的實施為NDL的WARP項目提供了明確的法律依據與保障。
由此可見,網絡信息資源的收集與保存離不開立法工作。很大一部分網絡信息屬于公共領域資源,但隨著版權、知識產權問題越來越受到重視,網絡信息也逐漸被納入知識產權的保護范圍。我國也應強化這方面的立法工作,重視版權及知識產權問題,將版權法中的相關條文合理地利用到網絡信息資源收集與保護項目中。
《國立國會圖書館法》(1948年法律第5號)規定,凡是日本國內發行的出版物,都有向國立國會圖書館呈繳的義務。繳送的出版物包括圖書、雜志、報紙、DVD、樂譜、地圖等。這些出版物是國民共有的文化財產,為現在及將來的讀者所有并將代代傳承。2008年,日本為紀念呈繳本制度實施60周年,規定每年的5月25日為“呈繳本日”。1949年、2000年和2004年,《國立國會圖書館法》在修訂時多次對呈繳本制度的對象、義務及相關規定進行補充,不斷完善健全呈繳本制度。此外,日本還設計了專門的“呈繳本制度普及標志”,并設有專門的呈繳本制度審議會。審議會與NDL就網絡資源的保存、規定等定期召開會議進行研討,確保了網絡信息資源的收集與保存有法可依。
我國對傳統印刷出版物和實體電子出版物的呈繳都有相關的規定,但并沒有一部完整的呈繳法規,網絡信息呈繳的普及率也不是很高。為了更好地保護網絡信息資源,應將其列入法定呈繳的行列,明確規定呈繳的范圍、數量、時間、方式等,使其得到相關的法律保障。
網絡信息資源的收集與保存是一個復雜的過程,單靠一個機構或部門是很難完成的。WARP主動借鑒其他國家網絡信息資源收集與保存的相關技術,與世界各國的國立圖書館、國會圖書館及圖書館相關機構合作,進行信息共享、經驗交流,積極推進電子信息時代與海外各國的協作。
我們要加強與國內外各相關機構的聯系,積極了解其做法與措施、學習先進經驗,取長補短,探索出適合我國網絡信息資源收集與保存事業發展的技術與方法、適合中文互聯網的收集保存方案,為保留中華文明優秀文化遺產做出貢獻。
中國國家圖書館2003年著手進行網絡信息資源保存的試驗,啟動了網絡信息資源收集與保存實驗項目(Web Information Collection and Preservation,WICP)[7]。該項目以500家網站(政府網站、電子期刊網站、大學網站、企業網站及其他相關網站各100家)為收集對象,通過對網絡信息的發現、選擇、描述、分類、整合及編目,旨在探索適合中國國情的網絡信息收集與保存方法及路徑。該項目目前已經保存了大量專題信息并在繼續完善[8]。此外,北京大學網絡實驗室在國家“973”和“985”項目的支持下,于2002年開發建設了中國網頁歷史信息存儲與展示系統“中國Web信息博物館”(Web of Infomall)[9]。目前已經有90億以中文為主的網頁,但網頁信息只更新到2011年,在更新維護上與國外相比還有些差距。與日本相比,我國在網絡信息資源收集與長期保存研究方面,存在資源選擇不夠全面、更新維護速度較慢等問題,特別是在技術開發、立法工作及協同合作方面有一定差距。
NDL的WARP項目起步較歐美稍晚,但自該項目實施以來,在技術開發、資源選擇、立法工作、協同合作等方面認真探索,立足本館實際、結合本國國情,逐漸形成具有本國、本館特色的網絡信息收集保存事業,在國內外取得良好反響,也成為NDL網上在線服務的生力軍。借鑒日本國立國會圖書館WARP項目的經驗,對我國發展網絡信息資源的收集保存事業具有重要的參考意義。