劉 蘭
(北京師范大學圖書館 北京 100875)
隨著信息通訊技術的發展和互聯網的普及,萬維網(World Wide Web,簡稱WWW)已經成為現代社會不可或缺的一個重要組成部分,在社會生活中扮演著越來越重要的角色,成為組織機構和個人的主要活動空間,信息生產、發布、傳播和交流的主要平臺。目前,越來越多的信息以E-only(純電子本)的形式出現,原生數字化網絡信息資源呈指數增長,網絡信息資源逐漸成為人類文化遺產的重要組成部分,并且在整個信息資源構成中所占的比例越來越大。此外,網絡信息具有海量、動態指數增長、更新頻繁、生命周期短等特點,為人類文化遺產的長期保存和永久可獲取帶來了巨大的挑戰。
20世紀90年代,國外的圖書館、檔案館、博物館等文化記憶機構開始以項目的形式探索網絡信息采集和長期保存(也即Web Archive)的相關技術、理論和方法。經過近20年的探索,國外關于Web Archive的實踐和理論研究取得了較大的進展,積累了豐富的實踐經驗和理論成果,但網絡技術的不斷發展和演變(如以互動交流為主導的社會化網絡站點、以手持智能終端為接入工具的移動互聯網的快速發展與迅速普及)對Web Archive的實踐和理論研究提出了更大挑戰,指出了其新的研究方向和發展空間。
我國國家圖書館、北京大學網絡實驗室、中國科學院國家科學圖書館等相關機構也分別在國家“973”、“985”、國家社會科學基金等項目的資助下,對中國網絡信息資源的長期保存進行了理論研究和實踐探索。相關學者在對國外Web Archive實驗項目分析的基礎上分別研究了Web Archive流程及關鍵問題,如對國外相關項目的介紹和分析[1-4];對Web Archive具體實施過程中某一環節的研究,如對網絡采集過程及相關問題的研究[5-8];對采集來的網絡信息進行索引和檢索的研究[9-10];對采集來的網絡信息進行存檔和長期保存的研究[11-12];對存檔資源開發利用的研究[13];對Web Archive實施流程及關鍵問題的系統梳理[14];對Web Archive相關開源軟件的評價分析[15];對Web Archive發展歷程、意義和發展趨勢的梳理[16-18],等等。但隨著時間的推進,網絡技術在不斷發展演變,相應的Web Archive的實踐和理論也在不斷發展和更新,其內涵和意義也在不斷深化和發展。
Web Archive雖然引起了我國圖書館界及計算機界相關從業者和學者的關注和研究,但實際上還處于初級探索階段,其內涵和重要意義還沒能引起人們足夠的重視和廣泛的關注,尤其是作為文化遺產保存管理資助機構的政府,作為文化記憶機構重要組成部分的高校圖書館、檔案館等相關機構還沒給予其足夠的重視和應有的投入。因此,學術界非常有必要對Web Archive不斷豐富的內涵、不斷深化的意義進行深入的剖析,對Web Archive的實踐與研究歷程進行系統的梳理,對在網絡技術快速更新環境下的Web Archive未來發展趨勢進行探索,以引起我國相關機構、組織的深入認識和充分關注,加快我國Web Archive實踐發展的進程,實現對我國網絡信息資源的長期保存,保障當代及未來人們的網絡獲取、研究和生活之用,保護正在產生且急劇消失的當代最重要的人類文化遺產,盡可能避免造成不可挽回的損失。
Web Archive也被寫作“Web Archiving”,是指采集網絡信息進行存檔進而實現長期保存,以便未來的研究者、歷史學家和公眾利用的一系列活動過程的總和,在國內通常被翻譯成網絡信息資源長期保存[19]、網頁信息存檔[20]、網頁檔案館[4]、網絡信息檔案館[21]。其中,Web是指萬維網,即網站頁面所包含的資源,通常不包括以數據庫方式提供服務的正式電子出版文獻,如電子期刊和電子書。
根據Internet Archive團隊研制的Web Archive生命周期模型(Web Archiving Life Cycle Model,簡稱WALCM)[22]可知, Web Archive通常包括宏觀政策層、中觀管理層和微觀操作層3個層面的內容。具體來說,宏觀政策層是指,幾乎Web Archive的所有方面都涉及一些政策決定,這些政策決定可能是關于開發一項新的具體政策以進行網絡存檔,或者是采納現有的政策以進行一個新的采集活動。中觀管理層通常包括愿景與目標、資源與工作流、訪問/利用/重用、保存和風險管理5個方面的內容,其中,愿景與目標是指機構要明確其網絡存檔活動的目標;資源與工作流是指機構要審視其開展網絡存檔活動能獲取的資源(包括資金、專家、員工、潛在的合作者等),以便決定如何推進其網絡存檔項目的開展;訪問/利用/重用是指機構必須決定是否及如何提供對其存檔的訪問,并監管其用戶的使用內容;保存是指機構必須決定他們想要保存的數據,包括數據文件和元數據;風險管理是指機構必須考慮他們在網絡存檔活動中的風險應對方法,考慮訪問的知識產權和許可。Web Archive實施的具體操作層包括:(1)評估與篩選,即機構決定具體要采集哪些網站的數據;(2)范圍,即機構可以選擇存檔網站的一部分、整個網站或對整個網絡域進行采集和保存;(3)數據抓取,即機構可以通過對抓取頻率、文件類型、存檔與否等的微調來確定擬抓取的數據范圍;(4)存儲與組織,通常包括對存檔數據的短期或長期的存儲計劃,對于有些機構,存儲和組織階段也可以構成他們的保存活動;(5)質量保證和分析,即機構評估其存檔了什么,是否滿足了在存檔活動之初設定的目標。
簡而言之,Web Archive是為了應對網絡信息易逝性的問題、確保網絡信息能被未來的學者和普通大眾正常、長期訪問而由某一個或多個機構合作實施的,對網絡信息進行采集、存儲與組織、長期保存并提供訪問利用的一系列活動的總和。
Web Archive的提出源于網絡技術的飛速發展與普及,一方面,網絡在人們的日常工作、生活、學習中占據越來越重要的作用和地位,成為當今社會信息生產、交流和傳播的重要空間,網絡信息資源成為當今社會重要的信息資源之一,承載著當今人類的活動和精神文明。另一方面,網絡信息更新頻繁,以及各種自然災害、人為因素造成網絡信息的脆弱性,致使網絡信息生命周期短暫,大量的網絡信息丟失,給人類文明造成了不可挽回的損失。Web Archive是網站恢復、網絡備份的重要方法之一。同時,由于網絡信息涵蓋當今社會生活、工作、學習、娛樂的方方面面,是當今社會的一個虛擬化呈現和縮影。因此,網絡信息的長期保存得到全球記憶機構(如圖書館、檔案館)的重視,并在全球范圍內掀起了網絡信息長期保存的熱潮。網絡信息的長期保存是重要的社會問題和政治問題,是圖書館、檔案館等國家記憶機構的責任。隨著電子商務的快速發展與日益普及,由于網絡成為人類活動尤其是經濟交易的重要場所,網絡交易行為信息具有重要的法律證據作用,因此,網絡信息資源的長期保存還是重要的法律問題,是法律界從業者的重要職責和使命。全面認識Web Archive的意義與責任,有助于梳理Web Archive的各類責任主體,并對其應盡責任提出要求。
Web數據類型多樣,對硬件、軟件、環境安全等的要求和依賴性較強,致使Web信息具有脆弱性和易逝性,如由地震、洪水等自然災害造成的硬盤數據丟失、損壞;部分Web數據需借助特定設備才能被讀取,需要不同類型軟件(如plug-ins)來確保系統能識別那些過時的數字信息;信息技術的變化易使利用Web信息的技術和軟硬件迅速過時,造成以前的Web信息在新的技術環境下不可用;Web信息的動態變化造成無法準確確定和驗證原來的信息單元,使信息單元的起源及其歸屬變化難以追蹤,以致信息單元難以辨識和利用。以上這些都會造成Web信息的不可用,針對以上問題,Web Archive可以提供網站恢復工作。Internet Archive就以其采集并存儲的網頁信息幫助了很多網站進行站點恢復。美國Old Dominion大學采用Warrick通過Lazy Preservation的方法,遞歸式地在Internet Archive的歷史存檔庫、Google、LiveSearch和Yahoo這幾個搜索引擎的緩存庫4個Web倉儲庫中抓取網頁來幫助重建和恢復網站。英國國家檔案館名為“網絡連續性”(Web Continuity)的創新項目,對所有重要的政府網站提供歸檔和重定向服務。這些政府網站的用戶在遇到瀏覽器的404錯誤信息(找不到檔案)時,將被自動重定向到對應的存檔網頁。該項服務通過提供無縫導航和幫助網站進行自動歸檔功能的整合,極大地改善了用戶的體驗[13]。因此,從技術角度來說,Web Archive在一定程度上能幫助網站恢復,解決404等網頁無法正常訪問的技術問題,確保網絡信息的連續性與可訪問,其是確保網絡信息可訪問、可獲取的技術保障,具有重要的技術意義,是技術人員的責任和使命。
網絡信息具有海量、動態指數增長、更新頻繁、生命周期短等特點,根據權威機構統計,網絡信息資源的平均壽命僅為44~75天,其丟失原因主要有: 網頁內容更新、網站內容重組、網站主辦者的消失等[23]。作為一種“原生性”數字信息,網絡信息資源除了數字形式之外,無其他形式,這進一步加劇了Web資源的易逝性。Web信息資源在呈指數增長的同時,消失的速度也很驚人,如果不進行保存,大量的網絡信息資源將在不知不覺中消逝,給人類文明帶來重大損失。對網絡信息資源實施長期保存即網絡存檔,以滿足當代及未來人們訪問和使用信息資源的需求,成為目前人們非常重要的事情,特別是對于一些時政性強的網絡信息,如2000年悉尼奧運會相關的很多網絡信息資源已經無法找到。因此,Web Archive承擔著保護人類文明、保存人類文化遺產的社會使命,具有重要的社會意義和價值,是政府、記憶機構和全體社會成員的責任。
網絡技術的發展與普及,使網絡成為人類活動的第二場所,這就帶來了以下兩方面的現實:一方面,人類的網絡行為及網絡語言、網絡現象等成為社會學家、歷史學家、語言學家等學者研究的重要對象,Web Archive可以幫助社會學家、政治學家和媒體分析師等反映過去幾十年的時代精神,如對競選活動網站的Web Archive進行綜合分析,可以揭示社會面臨的各種問題;另一方面,隨著現代信息技術的加速發展與應用普及,以及在線出版的進一步發展,互聯網已成為科學交流的主要媒體與中介,越來越多的學者通過網絡來交流和獲取信息、進行科學發現、保持與同行的聯系[24]。
互聯網促成了網絡引文的出現和發展,網絡引文成為學術論文參考文獻的重要組成部分,以互聯網網址出現的網絡引文比重呈現逐年增長的態勢。網絡信息的易逝性使得網絡引文數據具有動態性和不可靠性,造成了網絡引文的不可追溯性,給學術科研領域帶來了巨大困擾和新的研究議題。網絡引文不可追溯的原因主要分為兩類,一種是網絡鏈接的失效,如由于硬件問題(如服務器關閉、網絡故障等)引起的鏈接失效;原有鏈接更新,如被刪除、修改;訪問網絡環境的變化造成的網絡鏈接問題。另一種是由于網頁內容變動造成的。針對這兩種原因導致的網絡引文不可追溯,國外學者提出了統一資源名稱法,如典型的數字對象標示符(Digital Object Identifier,簡稱DOI)的方法,雖然該方法對解決網絡資源位置的改變有一定幫助,但對于網絡資源內容的變動(修改或刪除)卻無能為力。Web Archive的典型代表項目Internet Archive(以下簡稱IA,也叫“互聯網檔案館”)、北京大學的Web Infomall及專門解決網絡引文保存問題的Webcite系統[25],在網絡信息資源長期保存的同時,在一定程度上解決了網絡引文不可追溯的問題,為學術研究的可繼承、可驗證性提供了保障。因此,基于以上兩方面的原因,Web Archive還具有重要的學術價值和意義,是每個學術科研工作者和學術科研機構的責任。
近年來,一方面,網絡視頻、網絡游戲、軟件、網絡新聞、電子書等主要依托數字終端、互聯網等數字化媒介而進行信息資源制作、發行、傳播、銷售的網絡信息資源產業獲得了長足發展,相應地,也帶來了更多信息資源權利人、網絡運營商、網絡用戶等相關主體之間的權益沖突。互聯網具有實時性、高速性、全球性、交互性、無限復制性等特征,數字環境下信息資源產權的保護面臨著更加嚴峻的挑戰,尤其是隨著網絡技術的普及,信息資源網絡化的開發利用帶來了更加嚴峻的產權人、鄰接權人與網絡運營商、網絡用戶之間的利益沖突。網絡背景下數字記錄和傳播技術使得“作品不再靠固定在特定的媒介物上傳播,而是脫離載體(物質介質)而流動”,侵權形式更加多樣、侵權行為更加隱蔽,單純靠財產權的法定保護難免造成維權困難、保護不足的困境[26]。正是由于對信息流控制的復雜性,如果信息資源權利人一旦面臨侵權,無限復制、無限傳播的網絡特性將使得權益人的損害面臨加倍放大、難以消除的危險。數字權益管理(Digital Rights Management,簡稱DRM)技術雖然在一定程度上能發揮相應作用,但面臨眾多形式的網絡侵權現象仍是力不從心,而網絡存檔能為網絡信息資源的知識產權保護提供新的思路和方案。另一方面,隨著電子商務的不斷發展,網絡消費以其便利、高效、低成本等優勢逐漸為商家和消費者普遍接受。然而,網絡消費在展現其優越性的同時,也存在一些亟待解決的問題。此外,網絡擴大了人類的活動邊界、延伸了人類的活動范圍,各種網絡行為引起的違法犯罪也迅速增加。針對以上三方面的法律問題,網上出版的資料和紙質出版的資料具有同樣的法律效力,有些機構和單位的事務處理流程都可能成為未來的法律憑證。其對這些資料必須進行有效的管理,精確地記錄它發布的信息和當時的環境,因此,需要對網絡服務器發出的所有請求和響應進行保存,而Web Archive可以作為包括知識產權專家在內的法律界人士不可或缺的證據。以消費者服務為例,當一家公司被指認侵犯知識產權(發明或商標)時,他可能希望提供其網站過去某一階段的網頁作為證據,在這種情況下Web Archive就能發揮重要的作用。
此外,國家記憶機構尤其是國家圖書館通常承擔著法定存繳該國出版物以保護該國歷史文化遺產的使命。隨著信息技術的發展,法定存繳的范圍逐漸擴大到各種電子出版物和網頁信息等,如2003年新西蘭國家圖書館法將法定存繳的范圍擴大到各類電子出版物,2006年8月1日,新西蘭“國家圖書館要求(電子文檔)公告” 〔The National Library Requirement (Electronic Documents)Notice〕生效,允許國家圖書館在法定存繳框架下對新西蘭的網站進行采集、保存和提供訪問[27]。此外,法國、挪威等國家圖書館也分別于2006年開始在法定存繳框架下對網絡信息實施存檔保護。
因此,Web Archive還具有重要的法律意義,即為互聯網環境下保護知識產權、維護網絡秩序、保護人民生命財產安全提供重要的法律憑證,是承擔國家文化遺產長期保存的國家圖書館在網絡環境下法定存繳內容的延伸和拓展,是法律界人士和國家圖書館等文化記憶機構的職責。
這一階段始于20世紀90年代,以1996年IA的成立為標志,開啟了各國記憶機構Web Archive的實踐探索。Web Archive由 Alexa 創始人布魯斯特·卡利(Brewster Kahle)創辦,作為一個非營利性組織的公益性計劃,其旨在實現全世界Web資源的收集、保存和永久獲取,為國際性存檔開發技術工具制定標準,鼓勵和支持圖書館、檔案館、文化遺產機構實現網絡資源的收集和保存,為人類創造一個互聯網圖書館[28]。IA是完整性采集最典型的案例,其目標是對全球公開可獲取的網絡資源進行定期的采集。同年,澳大利亞國家圖書館發起了對澳大利亞在線出版物、具有重要文化價值網站開展的長期保存計劃,即PANDORA(Preserving and Accessing Networked Documentary Resources of Australia,潘多拉項目)[29]。它是世界上最早的Web Archive項目之一,PANDORA項目對網絡資源進行選擇性地搜集,是Web Archive采集策略中選擇性采集的典型代表,制定了詳細、具體的網絡資源采集存檔選擇標準,基于這樣的采集標準,PANDORA項目保存的網絡資源主要包括:政府的公開出版物、教育機構出版物、會議論文、電子期刊和記載當前重要社會、政治等內容的網站。
瑞典國家圖書館斯德哥爾摩皇家圖書館也于1996年啟動名為Kulturarw3的Web信息資源采集項目。Kulturarw3項目是國際Web Archive項目中完整性采集的典型案例,制定了以瑞典Web信息資源為采集對象的一攬子收集方案,通過網絡機器人對該國網域內的網絡資源進行了系統的采集。該項目為北歐圖書館的聯合項目NWA(Nordic Web Archive)的開啟提供了借鑒經驗[30]。
1997年美國國會圖書館啟動網絡信息保存試驗項目Minerva Prototype,基于相關事件進行選擇性的網頁采集和存檔,如對2000年總統選舉、911事件等相關主題網頁的采集和保存[31]。作為實驗性的計劃,該項目還深入研究了有關Web信息的數字化、元數據、選擇和采集、長期保存與獲取方面的實際問題,從而為美國國會圖書館運行一個大規模的Web信息保存項目提供了指導和經驗。
1999年新西蘭國家圖書館啟動網絡存檔項目,對政府、藝術、歷史、醫學、音樂、環境、政策等主題相關網站進行選擇性的采集和保存[32]。
2000年捷克共和國國家圖書館在摩拉維亞(Moravian)圖書館和馬薩里克大學計算機科學研究所的合作下,開啟該國的Web Archive項目——WebArchiv,其在對該國網域進行完整采集和保存的基礎上,還基于事件進行相關主題網站的選擇性采集與保存[33]。同年,美國密歇根大學檔案館“Bentley Historical Library”啟動了UARP(University Archives and Records Program,簡稱UARP)項目,對該校獨特、重要、有持久價值的網絡資源(主要包括學術與管理政策、重要出版物、代表性的研究、教材、創造性成果)及密歇根大學網域的總體外觀與感受進行了采集和長期保存[34]。
2001年挪威國家圖書館啟動了Paradigma(Preservation,Arrangement &Retrieval of Assorted Digital Materials)項目,使國家圖書館在法定存繳框架下對該國網絡資源進行長期保存和提供獲取服務[35]。同年,英國國家圖書館啟動Web Archive實驗項目——Domain.UK,選擇性地采集和保存英國的相關網站,并為該國的Web Archive實踐積累經驗。
2002年法國國家圖書館啟動該國的Bnf Web Archive項目,在完整性采集和保存全國網頁的基礎上,還基于相關事件(如法國大選)進行重點主題的采集和保存,并對深層網采集相關技術進行探索[36]。
這一階段,各國記憶機構尤其是肩負著全國文化遺產法定存繳和長期保存的國家圖書館紛紛意識到網絡資源的重要性,逐漸將收集、存檔范圍拓展到各種電子出版物和網頁,通過開展實驗性的研究探索Web Archive的理論、技術、方法和流程,如澳大利亞國家圖書館的PANDORA項目開發出的用于選擇性采集網絡出版物的數字化存檔系統PANDAS,并制定了采集對象選擇標準和工作流程;新西蘭國家圖書館和英國國家圖書館共同開發了選擇性網絡采集的過程管理工具WCT等[15]。除了國家圖書館,非營利性組織(如IA)、高校檔案館(如美國密歇根大學檔案館)也開啟了對Web資源進行采集和長期保存的實驗。這些實驗性的項目為本國后續全面、深入地開展Web Archive實踐積累了經驗,為本國其他記憶機構和其他國家的Web Archive實踐提供了借鑒。
Web Archive作為一項系統工程,不僅涉及相關法律、政策,其技術、方法與流程也是一個不斷探索、不斷完善的過程。隨著各國Web Archive實踐與研究的不斷發展,不同層次、不同級別、跨組織、跨區域、跨國界的合作不斷涌現,而且對Web Archive的理論研究與探討也引起了國際學界的關注,國際性的合作組織開始誕生,并進一步促進了各種層次的實踐合作、理論研究與技術研發。
這一時期,隨著信息技術的迅速發展和互聯網的日益普及,越來越多的國家記憶機構認識到網絡存檔的重要意義,紛紛加入2002年法國國家圖書館啟動的該國的Bnf Web Archive項目的Web Archive實踐中,如2004年日本國會圖書館的WARP(Web Archiving Project)項目[37],2005年加拿大政府網絡存檔項目GCWA(Government of Canada Web Archive)[38]等。
與此同時,部分國家在實驗項目的基礎上大力發展合作,如1998年澳大利亞的PANDORA項目開始吸納各州圖書館加入,截至2004年該國所有的10個州立圖書館全部加入到PANDORA項目中來,分別負責某些專題的采集和長期保存;在2001年實驗性項目Domain UK實踐經驗總結的基礎上,2003年英國網絡存檔聯盟(UK Web Archiving Consortium,簡稱UKWAC)成立[39];美國國會圖書館積極與IA、WebArchivist.org、CCCE(The Center for Communication and Civic Engagement,通訊與公共事業中心)等機構深入合作,如國會圖書館與IA合作創建“2000年總統選舉”網頁保存項目,國會圖書館作為此項目的牽頭人,制定了采集內容標準、快照文件分析、開展數字資源長期保存的研究等,IA為此項目提供了“時光機”(Wayback machine)技術,為收集到的網頁建立按照時間進行瀏覽的索引,同時提供臨時的數據存儲;WebArchivist.org負責開發識別、采集、編目、分析大型網頁對象的系統,由Pew Internet & American Life Project(皮尤因特網與美國生活項目)負責提供資金、分析報告的撰寫;CCEE協助開發可檢索的元數據數據庫及用戶友好的檢索界面[31]。
除了以上在一國之內各種記憶機構的相互合作,跨區域、跨國性的合作也在不斷深入和發展。
1997年北歐五國(丹麥、挪威、芬蘭、冰島和瑞典)國家圖書館基于瑞典的Kulturarw3項目聯合啟動NWA(Nordic Web Archive)項目[40],其主要目標是聯合北歐各國圖書館建立歐洲網絡資源長期保存的合作機制,根據保存、訪問的要求制定相關的技術規格,協助國家項目協調發展。該項目研發了多個開源的功能組件,在聯合采集的基礎上實現了一個大規模、跨資源的Web Archive訪問系統,并以此為基礎積極參與相關系統的開發,在Web Archive系統架構和技術方法的發展上發揮了重要作用。
2003年6月網絡存檔國際聯盟(International Internet Preservation Consortium,簡稱IIPC)成立,該聯盟與成員達成共同出資參與項目和工作組的合作協議,其目標是:保存來自全球的互聯網內容,使其能夠持續地提供訪問;為IIPC制定出聯合規范;設計和開發網絡資源保存工具;促進公共工具、技術和標準的開發和應用,形成國際性存檔;鼓勵和支持各國進行Internet存檔和保存。該聯盟將成員按網絡存檔不同階段的任務分工分成5個工作組,分別負責制定聯盟戰略、開發網絡收割工具、研究長期保存政策和方法、研究對存檔網絡提供訪問的工具和技術等。隨著Web Archive實踐的不斷推進,聯盟成員隊伍不斷壯大,由成立之初的12名發展到目前的42個成員機構(截至2013年8月初)[41]。在IIPC的資助下,各成員機構分工合作,相互促進,分別開發了網絡爬蟲工具Heritrix、Smart Crawler、WCT、存檔訪問工具WERA (Web Archive Access)等[15],促進了網絡存檔工具的開發和普遍應用。
為了推動Web Archive的實踐發展,促進經驗分享和理論探討,以Web Archive為主題的各種級別的學術會議也不斷召開,如IIPC自成立以來每年都會舉辦一次全體成員的學術研討會;ECDL(European Conference on Research and Advanced Technology for Digital Libraries,數字圖書館研究與先進技術歐洲會議)自2001年以來每年都會組織專題組的IWAW(International Web Archiving Workshops,網絡存檔國際研討會),分別從開源工具、技術、政策、法律、已有項目經驗總結與展望、未來發展重點等幾個方面對Web Archive相關問題進行討論與分享交流;國際圖書館協會和機構聯合會的年會也會在資源保存保護專題中針對Web Archive相關問題進行研討。
這種方式主要是指小型組織或個人訂閱由企業或組織提供的采集服務而實施的網絡采集和存檔。由于Web Archive是一項系統工程,需要大量的人力、物力和財力,且對技術要求比較高,一些小型的組織、機構或個人出于研究的目的,需要對特定的網絡資源實施長期保存,但限于技術能力和投入,于是就出現了針對這些機構和個人的網絡信息采集和存檔服務[7],比較著名的有IA推出的Archive- it、Hanzo Archives公司推出的網絡存檔訂閱服務、加利福尼亞數字圖書館推出的WAS(Web Archiving Service,網絡存檔服務)、塞薩洛尼基亞里士多德大學計算機科學系推出的博客存檔服務BlogForever等。
4.3.1 Hanzo Archives的存檔服務
Hanzo Archives有限公司是2005年成立的一個提供網絡存檔軟件和服務的公司,由來自全球知名記憶機構的軟件愛好者和存檔專家共同建立的,提供商業化的產品和服務,幫助企業或組織抓取和保存網絡資源,并使那些基于網絡的電子存檔信息以自然的格式被索引和發現。用戶可以按需定制相關服務,其存檔的網絡電子信息范圍在不斷拓展,目前主要覆蓋以下幾種網絡資源類型:(1)網站,包括需要注冊登錄的、交互式的網頁及富媒體;(2)社交網站,如Facebook、Twitter、LinkedIn;(3)協作性系統,如Wiki、SharePoint等;(4)私密性的社會化網絡聊天工具,如Chatter、Jive和Yammer。目前,全球已有1 000多家公司使用Hanzo的服務完成存檔項目,該服務還能基于Web Archive為用戶提供競爭對手網站專利分析、企業公眾通信監管、跨國連鎖企業存檔全球網絡遺產等深層次的增值服務,如為可口可樂公司提供跨國公司品牌網站與設計媒體的遺產收集、保存等[42]。
4.3.2 Internet Archive推出的Archive-it服務
Archive-it是2006年2月Internet Archive推出的一種定制型網絡存檔服務,以幫助機構或組織收割、構建和長期保存數字化內容。通過其提供的用戶友好的網絡應用,Archive-it服務的合作伙伴可以對存檔的內容進行收集、編目和管理,并為該機構及其用戶提供7×24小時的訪問和全文搜索。收割到的內容可以托管并保存在Internet Archive的數據中心。由于Archive-it提供的服務省去了用戶很多技術方面的考慮,甚至不需要用戶自己的存儲設備,而且比通用的Internet Archive所建立的收藏更加專深,能滿足用戶個性化的需要,非常適合規模小、技術能力有限的組織和機構使用,目前已有來自美國46個州和世界上16個國家的275個組織使用Archive-it創建自己的網絡存檔,這些組織包括大學圖書館,地方檔案館、圖書館和歷史學協會,政府機構或非政府性組織,博物館和藝術圖書館,公共圖書館等[43],如哥倫比亞大學圖書館使用該服務按照本館現有的特色館藏選擇性地收集相應的網絡資源、哥倫比亞大學各機構的網站以及那些個人或組織的論文或成果被收藏在哥倫比亞大學物理館藏中[44]。
4.3.3 加利福尼亞數字圖書館的WAS
加利福尼亞數字圖書館(California Digital Library)提供的WAS是由加利福尼亞圖書館負責、作為Web-at-Risk的一部分,受NDIIPP(National Digital Information Infrastructure and Preservation Program,國家數字信息基礎設施和保存計劃)資助開發的,為教師、學生、研究者和圖書館員提供相關網站的定制型存檔,以供私人研究或公共獲取。WAS簡單易用,用戶不需要具備關于Web Archive的任何專業知識,也不需要存儲設施或技術人員的協助,只需關注內容,創建一個帳號,提交一個包含擬存檔網站相關信息的委托協議即可,其可以按需調整抓取設置和頻率。WAS還提供工具分析網站隨著時間的變化情況,提供對已存檔的網站進行關鍵詞搜索和抓取結果的統計分析。WAS目前已為22個合作伙伴創建了59個公共存檔,采集相關網站5 634個[45]。例如,密歇根大學網絡存檔項目2000年使用開源軟件自行存儲,2010年7月1日開始使用加利福尼亞數字圖書館的WAS進行網絡存檔[46]。
4.3.4 塞薩洛尼基亞里士多德大學計算機科學系的BlogForever
BlogForever是歐盟資助的一個合作項目,由塞薩洛尼基亞里士多德大學(Aristotle University of Thessaloniki,簡稱AUTH)計算機科學系創建和維護,其主要目的是創建一個軟件平臺以促進博客的聚集、保存、管理和傳播,并能捕捉到動態和不斷變化的博客以及其網絡和社會結構。任何用戶和組織都可以使用BlogForever的軟件和指南創建一個數字化的存檔以保存他們選擇的博客[47]。
隨著博客、微博等社交網站的不斷涌現、迅速發展和快速普及,社會化網絡站點成為重要的一類網站,在人們生活、信息交流與傳播中發揮越來越重要的作用,并且這類資源的動態性更強、更新頻率更高。對這類網站資源的采集與長期保存引起了學界和業界的高度重視,如Hanzo Archives推出的存檔定制服務將存檔范圍從基本的網站逐漸擴大到對社交網站Facebook、Twitter、LinkedIn的采集與存檔,AUTH的BlogForever服務專門提供對博客的存檔和長期保存。2012年12月,Springer舉辦了關于社會化媒體的長期保存和應用專題研討會,專門探討社交網站的采集與存檔問題[48]。這些社交網站通常需要注冊登錄,屬于深層網的范疇,對這些社交網站內容的采集和長期保存將是未來一段時間內業界研究和探索的重要方向之一。
移動互聯網(Mobile Internet,簡稱MI)是一種通過智能移動終端,采用移動無線通信方式獲取業務和服務的新興業態,包含終端、軟件和應用3個層面。終端層主要包括智能手機、平板電腦、電紙書等。隨著寬帶無線接入技術和移動終端技術的飛速發展,人們迫切希望能夠隨時隨地乃至在移動過程中都能方便地從互聯網獲取信息和服務,移動互聯網應運而生并迅猛發展,甚至有人提出互聯網正在向移動化全面遷移。隨著越來越多的用戶通過這些移動終端訪問網絡,越來越多的網站為這些移動設備專門設計適合其特點、需求的可替代性網站。這些移動網絡同樣具有重要的存檔價值和意義,需要開發新的工具以解決移動互聯網存檔的相關技術問題。例如,美國阿肯色州哈丁大學的研究者們開發了移動互聯網自動發現工具Findmobile以協助對移動互聯網網站的采集與存檔[49]。對移動互聯網存檔的研究和探索將成為未來學界和業界關注和探索的重要領域之一。
Web Archive作為一項系統工程,耗費大量的人力、物力、財力,其目的是為了當代及未來研究者和普通大眾可獲取和研究之用。經過近20年的實踐努力,其已經存檔了大量的網絡資源,對這些存檔的網絡資源進行開發利用,以及如何開發利用、開發利用的價值評估、方法和工具的研究將引起越來越多學者的關注和探討,成為Web Archive研究與實踐領域的又一重要課題。例如,法國國家圖書館的Peter Stirling等人以該館的Web Archive項目為例,研究隨著越來越多國家Web Archive實踐的發展,如何開發這些存檔的網絡資源以滿足研究者的需要,尤其對那些以網絡為研究對象的社會學者,他們通過對法國國家圖書館網絡存檔潛在用戶的訪談進行定性研究,探索研究者需要的內容和服務,分析存檔以怎樣的方式呈現才能促進利用,以及需要考慮的道德和方法問題[50]。WebART項目旨在批判性地評估Web Archive對現實研究的價值,并開發信息訪問工具和方法以最大限度地促進網絡存檔為學術研究所用。該項目以實際研究問題出發,對網絡存檔資源的學術價值進行評判,以荷蘭為例,與荷蘭國家圖書館合作,進行跨學科的社會科學相關主題(如綜合計算機科學、信息科學和新媒體等)研究[51]。IIPC每年都會舉行會議對相關議題進行討論,2013年的議題是“網絡存檔的學術訪問:過程、需求和挑戰”,其主要關注目前網絡存檔被學者和研究者利用的方式、學者希望利用Web Archive但遇到的IP限制及其他技術障礙以及網絡存檔作為學術資源如何提供訪問等問題[52]。
[1]向 菁,吳振新,司鐵英,等. 國際主要Web Archive項目介紹與評析[J]. 國家圖書館學刊,2010(1):64-68.
[2]朱蓮花,劉春燕. 韓國的國家知識門戶網站與Web Archive現狀研究[J]. 情報理論與實踐,2010(7):120-123,78.
[3]張松巖. 以IIPC為中心的全球Web Archive項目研究[J]. 數字與縮微影像,2011(3):36-38.
[4]閆曉創. 國外Web Archive項目對我國的借鑒和啟示:以澳大利亞的PANDORA項目為例[J]. 檔案學研究,2012(5):79-83.
[5]劉 蘭,吳振新,張智雄,等. Web Archive的采集策略研究[J]. 現代圖書情報技術,2009(1):10-15.
[6]劉 蘭,吳振新. Web Archive信息采集流程及關鍵問題研究[J].情報理論與實踐,2009(8):113-117.
[7]劉 蘭,吳振新. 網絡存儲信息采集方式研究[J]. 圖書館雜志,2009(8):28-31.
[8]沈勁枝,寇文波,田晨耕. 基于特征定位邊界預測的Web檔案正文采集[J]. 現代圖書情報技術,2009(12):52-56.
[9]吳振新,向 菁. Web Archive檢索系統架構分析[J]. 現代圖書情報技術,2009(1):22-27.
[10]孫志茹,吳振新,曲云鵬. 基于Wayback的索引策略研究[J]. 現代圖書情報技術,2009(4):14-18.
[11]林 穎,吳振新,張智雄. Web Archive存檔策略分析[J]. 現代圖書情報技術,2009(1):16-21.
[12]李 睿,郭世月. 網絡報紙資源存檔格式對比及ARC/WARC格式選擇[J]. 圖書館論壇,2010(4):78-80.
[13]吳振新,張智雄,孫志茹. 基于數據挖掘的Web Archive資源應用分析[J]. 現代圖書情報技術,2009(1):28-33.
[14]王 芳,史海燕. 國外Web Archive研究與實踐進展[J]. 中國圖書館學報,2013(2):36-45.
[15]劉 蘭,吳振新,向 菁,等. 網絡信息資源保存開源軟件綜述[J].現代圖書情報技術,2009(5):11-17.
[16]李 華,吳振新,郭家義,等. Web Archive發展歷程與發展趨勢研究[J]. 現代圖書情報技術,2009(1):2-9.
[17]周林興. Web Archive保存研究:現狀、意義與發展策略[J]. 檔案管理,2009(5):26-28.
[18]周 毅. 網絡信息存檔:檔案部門的責任及其策略[J]. 檔案學研究,2010(1):70-73.
[19]劉 蘭. 網絡信息資源長期保存的問題與挑戰[J]. 圖書館雜志,2009(3): 10-13.
[20]耿 磊. 起步階段的網頁信息資源長期保存[J]. 上海檔案, 2012(2): 13-15.
[21]楊道玲. 中文網絡信息資源保存問題探討[J]. 檔案學研究, 2006(3): 39-42.
[22]Donovan L, Hukill G, Peterson A. The Web Archiving Life Cycle Model[EB/OL]. [2013-12-12]. http://archive-it.org/static/files/archiveit_life_cycle_model.pdf.
[23]National Digital Information Infrastructure and Preservation Program[EB/OL]. [2013-12-12].http://www.loc.gov/loc/lcib/0601/ndiipp2.html.
[24]Borgman C L. Scholarly Communication and Bibliometrics[J] .Annual Review of Information Science and Technology,2002(36):3-72.
[25]陸 偉,韓曙光,沈祥興. 網絡引文不可追溯性及其解決方案研究[J]. 中國圖書館學報, 2009(4):99-105,118.
[26]PageVault [EB/OL]. [2013-12-12].http://www.projectcomputing.com/products/pageVault/.
[27]Web Archiving at the National Library of New Zealand[EB/OL].[2013-12-12]. http://www.lianza.org.nz/sites/lianza.org.nz/files/webarchives_vlala.pdf.
[28]Internet Archive[EB/OL]. [2013-12-12]. http://archive.org/index.php.
[29]Pandora[EB/OL].[2013-12-12].http://pandora.nla.gov.au/.
[30]Kulturarw3- The Swedish Archive[EB/OL]. [2013-12-12]. http://www.ifs.tuwien.ac.at/~aola/publications/thesis-ando/Kulturarw3.html.
[31]Grotke A M. Minerva Project Selecting and Collecting[EB/OL].[2013-12-12]. http://search.proquest.com/docview/216508044?accountid=8554.
[32]New Zealand Web Archive [EB/OL]. [2013-12-12]. http://natlib.govt.nz/collections/a-z/new-zealand-web-archive.
[33]What is WebArchiv? [EB/OL]. [2013-12-12]. http://en.webarchiv.cz/.
[34]University Archives & Records Program[EB/OL]. [2013-12-12].http://bentley.umich.edu/uarphome/.
[35]Paradigma[EB/OL]. [2013-12-12].http://www.paradigma.de/1339--%7Ede%7EIndexEndkunden.html.
[36]Digital Legal Deposit: Four Questions about Web Archiving at the BnF[EB/OL]. [2013-12-12]. http://www.bnf.fr/en/professionals/digital_legal_deposit/a.digital_legal_deposit_web_archiving.html.
[37]Sakaguchi K.Progress Report on the Web Archiving Project on Japanese Constitutional Revision[EB/OL].[2013-12-12]. http://rijs.fas.harvard.edu/crrp/documents/sakaguchi.pdf.
[38]Government of Canada Web Archive[EB/OL]. [2013-12-12].http://www.collectionscanada.gc.ca/webarchives/index-e.html.
[39]Tuck J. Web Archiving in the UK: Cooperation, Legislation and Regulation[J]. Liber Quarterly, 2008,18 (3/4):357-365.
[40]Nordic Web Archive (NWA)[EB/OL]. [2013-12-12].http://nwa.nb.no/.
[41]IIPC[EB/OL]. [2013-09-25]. http://www.netpreserve.org/.
[42]Hanzo Archives[EB/OL]. [2013-12-12]. http://www.hanzoarchives.com/.
[43]About Archive-It[EB/OL]. [2013-12-12]. http://www.archive-it.org/learn-more.
[44]Columbia University Libraries[EB/OL]. [2013-12-12].http://www.archive-it.org/explore?fc=organizationType%3Acolleges AndUniversities#explore?fc=organizationType%3Acolleges AndUniversities&show=Organizations&_suid=728.
[45]The Web Archiving Service[EB/OL]. [2013-12-12]. http://webarchives.cdlib.org
[46]UM WebArchives Policy [EB/OL]. [2013-12-12].http://bentley.umich.edu/uarphome/webarchives/UM_WebArchives_Policy_20110324.pdf.
[47]BlogForever[EB/OL].[2013-12-12]. http://blogforever.eu/.
[48]Special Issue on Social Media Preservation and Applications(Springer) [EB/OL]. [2013-12-12]. http://blogforever.eu/specialissue-on-social-media-preservation-and-applications/.
[49]Schneider R,McCown F. First Steps in Archiving the Mobile Web:Automated Discovery of Mobile Websites[EB/OL].[2013-12-12].http://dl.acm.org/citation.cfm?id=2467735.
[50]Stirling P, Chevallier P, Illien G. Web Archives for Researchers:Representations, Expectations and Potential Uses[EB/OL] [2013-12-12].http://dlib.org/dlib/march12/stirling/03stirling.html.
[51]WebART: Web Archive Retrieval Tools[EB/OL]. [2013-12-12].http://staff.science.uva.nl/~kamps/webart/.
[52]Call for Proposals: The Scholarly Use of Web Archives[EB/OL].[2013-12-12].http://blogs.loc.gov/digitalpreservation/2013/02/call-for-proposals-the-scholarly-use-of-web- archives/.