王 靜
(山東大學歷史文化學院,山東濟南,250100)
早在1994年,國際上開始了關于網絡信息資源保存的討論,隨后美國、瑞典、澳大利亞等一些國家的圖書館、檔案館開展了多個網絡信息保存實驗項目。網頁歸檔作為網絡信息資源保存的重要方法,在近20年內一直是網絡信息保存的重點探索建設項目,國際上許多國家和地區相繼展開了網頁歸檔項目建設。目前,網頁歸檔項目在北美和歐洲的發展比較成熟,其他地區網頁歸檔項目的開展相對較晚,我國在網頁歸檔方面仍處于起步階段。檔案館作為致力于發展檔案事業的科學文化事業機構,理應積極地為網頁歸檔項目的發展做出貢獻。
首先,信息技術迅猛發展,網絡的應用越來越廣泛。據《中國互聯網發展報告》(2014),截止2013年12月底,我國網頁總量為1500億個,同比增長22.2%[1]。網頁數量激增的同時,網頁的壽命卻非常短暫,互聯網網頁平均每周以8%的速度更新,網頁的平均生命周期只有大約44-75 天[2]。因此,若要對網頁資源進行再利用需要對網頁進行歸檔保存。
另一方面,雖然目前學界對于網頁能夠成為檔案并沒有達成一致認識,但網頁上所顯示的文字、圖片、音像等多種形式的內容真實記錄了人們的網絡活動,這種原始記錄性與檔案的本質屬性相同,因此網頁資源具有檔案價值。同時,各學科領域的學者都有利用網絡文獻作為學術論文引文的情況,發布在網絡上的電子文獻已經成為學術研究的重要引文來源,并且可能會發展為未來學術研究的主要資源,因此對網頁進行歸檔保存也是學術研究的需要[3]。
根據《檔案法》、《檔案館工作通則》等有關文件的規定,檔案館是“黨和國家的科學文化事業機構,是永久保管檔案的基地,是科學研究和各方面工作利用檔案史料的中心”,有責任積極參與網頁歸檔項目建設。早在2004年,全國檔案工作會議就已指出各級國家檔案館應該具有的“四位一體功能”包括“檔案信息服務中心”功能,明確了檔案館在信息時代進行檔案信息資源整合開發的功能和職責。
第一,檔案館作為發展檔案事業的專門機構,在長期實踐過程中積累了大量關于檔案收集、整理、編目、保存和服務的經驗和方法,并長期開展關于檔案的理論研究工作,因此能夠為網頁歸檔項目的發展提供重要的理論和方法指導。
第二,檔案館作為黨和國家重要的科學文化事業機構,一直深受黨和國家重視。為保障網頁歸檔項目的順利實施和發展,需要建立起網頁歸檔項目體系,這一體系的建立需要以檔案館為依托,同時以政府的相關政策法規為指導,因此黨和國家的重視與支持是開展這一項目的重要保障。此外,依托現有數字檔案館的建設基礎,借助其人力、技術、管理等資源發展網頁歸檔項目,能夠提高效率、提升質量,實現互利共贏。
第三,檔案館作為集中保管檔案的中心,能夠配合網頁檔案提供來源于多個機構的相關主題的檔案信息,且提供的檔案信息具有可信度高、權威性強甚至獨一無二等特點,滿足用戶對檔案信息原始性和真實性的需求。
國際上對于網頁歸檔的探索開始于1996年,美國一直走在網頁歸檔項目研究和實施的前列,開展的多個項目已取得重要成果。我國網頁歸檔項目建設起步較晚,在技術、管理、政策法規等方面需要進一步探討和完善。下面以表格的形式對美國和中國的重要網頁歸檔項目進行簡介。詳見表1。

表1 中美網頁歸檔重點項目簡介
網頁歸檔項目的實施,最終目的是滿足用戶的利用需求。但一直以來,由于網頁上信息來源的廣泛性和開放性,網頁歸檔工作觸及數字作品的呈繳制度和知識產權等方面的法律內容,成為影響網頁資源保存和開放利用的主要因素。
美國的版權法條款中有關于呈繳的規定內容。美國《1976 版權法》第407 款規定只有機器可讀的文件不需要呈繳;1988年該條款被重新修訂,規定依托物理載體的電子文件需要呈繳,如磁帶、縮微膠片等;1993年再次修改的版權法將非印刷品包含進了呈繳范圍;2005年,美國版權法第108 款重新修訂,將呈繳范圍擴大到了在線資源[7]。至此,美國通過立法來規定圖書館或其他機構有權力保存和開放利用這部分資源,為網頁歸檔項目的實施和發展提供了法律支持。同時,美國的版權法支持“合理使用(fair use)”和“默示許可(implied license)”,并逐漸成為普遍的網絡資源保存和利用的適用法律準則,許多網頁歸檔項目的實施主體也在研究“免責條款”以規避法律風險[8]。
中國的網頁歸檔項目實施仍處于起步階段,采取政府主導的模式,相比之下法律建設顯得比較落后,呈繳本制度和著作權法方面也并沒有相關的明確規定。因此,在具體實施過程中,只能針對版權所有者發現自己受保護的資源在未經允許的情況下被保存下來進行的申訴進行滯后處理。
美國的網頁歸檔項目主持機構多樣化,涵蓋國家圖書館、國家文件與檔案署、高校以及個人等。例如,美國的IA 和Web Citation 項目都是個人創辦的非營利機構,LCWA 由國會圖書館牽頭開展,北德克薩斯大學主辦了“GyberCemetery”項目,國家文件與檔案署開展了“不定期保存聯邦機構及政府網站信息內容”項目等。同時,這些項目的實施和發展并不是靠單個機構孤軍奮戰,而是擁有眾多合作機構,例如商業網站、高校、研究機構等,甚至不同項目、不同國家間也開展廣泛合作。2003年IA 和十個國家的圖書館共同創建了國際因特網保存聯合會(International Internet Preservation Consortium,IIPC),此后多個國家陸續加入。各國圖書館在IIPC 的框架下開展合作,共享技術工具和歸檔資源,極大地促進了各國網頁歸檔項目的發展[9]。
我國的Web 信息博物館項目由北京大學主持開發,WICP 項目由國家圖書館主導。國家圖書館擔當項目的主持和領導機構,有利于網頁歸檔標準的制定和制度的實施,并能從國家層面上總體規劃和協調網頁資源。高校的參與能夠發現網頁資源收集、整理、存儲和服務中存在的問題,并提出解決方案,有利于網頁歸檔項目的發展和服務質量提升。此外,目前我國還不是IIPC 的成員,國際合作還未大規模展開,在一定程度上阻礙了我國網頁歸檔項目收集范圍的擴大和技術手段的提升。另外,檔案館在具有參與網頁歸檔項目諸多優勢的情況下卻并未參與其中,值得我們深思和改進。
網頁歸檔項目的參與單位體現了國家重視程度和社會檔案意識水平。總體來看,美國的網頁歸檔項目體現出主持機構多樣化、社會機構廣泛參與的特征。我國網頁歸檔項目不多,主持機構集中,社會參與度不高。
(1)采集對象
由于各項目建立的目的不同,采集對象的選取也會有不同的側重。美國的IA 項目使用采集軟件Heritrix,采用網頁快照的方式對互聯網網頁進行抓取,因此成為當今世界網頁采集量最大的項目。Web Citation 項目建立的最初目的是解決“壞鏈”問題,用戶使用該網站對包含引用內容的網頁用網頁快照的方式進行固化保存。LCWA 項目則主要針對突發事件和重要專題進行網頁歸檔保存。
我國主要的兩個網頁歸檔項目由于實施目的不同,采集對象也有所區別。中國Web 信息博物館項目目前可收集中國所有的靜態網頁。WICP 項目最初定位是關于網絡信息資源保存問題的研究項目,設定的采集對象為具有標本性質的500 個具體網站,主要包括政府、電子期刊、高校、企業各100個代表性網站及其他類型網站100 個[10]。
(2)采集資源類型
美國的網頁歸檔項目采集資源類型在不斷擴展,Web Citation和IA 項目起初只收集網站上的網頁資源,但隨著網站內容形式的不斷豐富和采集技術的提高,在線出版物、音頻、視頻、動畫等多種資源類型逐漸被納入到網頁歸檔項目的采集資源類型范圍內。
我國的網頁歸檔項目起步較晚,在發展過程中借鑒了其他國家的經驗,因此采集的網頁資源類型多樣,不僅包括文字信息,而且對于網頁的結構、深層網頁、超鏈接以及動畫、音像等多媒體信息也有一定的保存。
(3)采集方式
美國的網頁歸檔項目最初采用單一的采集策略,即選擇式(在確定采集對象后按照一定的頻率進行周期性持續性采集)或廣泛式(基于收割軟件自動地在采集范圍內采集網頁資源)采集。在隨后的發展中,許多項目在自身單一采集方式的基礎上逐漸融合其他的采集方法,即在廣泛采集的基礎上針對突發事件及重要專題進行有選擇的采集的方式。
我國的Web 信息博物館和WICP 項目均采用復合式的采集策略。以WICP 項目為例,截至2008年底,該項目廣泛采集和存儲了全部約8 萬個政府網站、291種中文電子報紙,同時針對奧運會、新農村建設、非物質文化遺產等39 個重要專題進行專題網頁保存,并對其進行數據挖掘和質量監測。
網頁歸檔項目對網頁資源進行采集、歸檔保存、管理等一系列活動的最終目的是向公眾提供利用服務。網頁歸檔項目的網站建設是提供利用的主要窗口,能夠直觀、簡便地向用戶展示網頁歸檔項目的概況,是網頁歸檔項目的重要組成部分。下面分別列舉美國和中國的網頁歸檔項目網站,探討其提供服務的能力。

表2 中美網頁歸檔項目對比
我國的Web 信息博物館項目由北京大學主持開發,WICP 項目由國家圖書館主導。美國的主要網頁歸檔項目也大都由國家圖書館主持開展。國家圖書館擔當網頁歸檔項目的主持和領導機構,便于從國家總體規劃和協調配置網頁資源,具有一定的優勢[11]。資源龐大,任何機構都無法獨自完成網頁歸檔項目的建設與發展重任,因此網頁歸檔項目的實施需要多方機構的積極參與和協調配合。
在網頁歸檔項目中,雖然檔案館相較于圖書館起步低、經驗少,但作為構建社會記憶的重要機構,檔案館有責任和優勢開展網頁歸檔項目。因此,檔案館應更為積極地參與網頁歸檔項目,吸取各方經驗,提高參與度和服務質量。同時,檔案館還可發揮自身優勢,積極促成政府、科研機構、高校、企業甚至個人等多方機構參與網頁歸檔項目,在多方合作的基礎上,不斷促進網頁歸檔項目發展。
另一方面,目前我國還不是IIPC 的成員,國際合作工作還未大規模展開,在一定程度上阻礙了我國網頁歸檔項目收集范圍的擴大和技術手段的提升。在今后的工作中,應努力開展國際合作,提升我國網頁歸檔項目的建設水平。
由于網頁上信息來源的廣泛性和開放性,網頁歸檔工作觸及數字作品的知識產權(主要是著作權方面)、采集權、公布權等多方面的法律問題。網頁歸檔項目系統沒有權力采集保存和公布利用受到知識產權保護的網頁信息,因此網頁歸檔項目的順利實施需要相關法律法規來保障網頁歸檔機構擁有網頁資源采集保存和公布利用的權力,但各國的檔案法規大多并不涉及網頁資源歸檔的問題。美國版權法下設呈繳制度相關規定,經過多次修訂確立了在線資源的歸檔制度,為網頁歸檔項目的開展提供了法律支持。目前,與美國相比,我國相關立法嚴重缺乏,應通過各種渠道積極促進網頁歸檔相關政策法規不斷建立健全。
檔案館作為黨和國家重要的科學文化事業機構,一直深受黨和國家的重視。檔案部門應利用自身優勢,加強與政府部門的溝通,積極爭取政府部門的政策支持,在建立健全相關法律法規方面積極諫言獻策。2012年3月正式展開的著作權法第三次修訂工作已經涉及到網絡環境下數字作品的著作權保障機制問題。檔案部門應積極把握正在開展的《著作權法》全面修訂的機會,建議增加網頁歸檔相關內容。同時,檔案部門也可積極建議建立關于網頁歸檔的專門法規,并提出可行方案。
另一方面,檔案館在開展網頁歸檔工作時,需遵從國家、地區以及行業的相關法規政策,保證尊重及維護歸檔網頁的知識產權和其他合法權益。2012年修訂的著作權法,明確規定了網絡信息資源的發表權、修改權、復制權等。2006年7月頒布實施的《信息網絡傳播權保護條例》,具體規定了信息的網絡傳播過程中著作權人與發布者、傳播者、利用者的相關權益。網頁歸檔工作的開展,必須在符合這些相關法規政策的前提下進行,并在實踐中積極提出完善修改的意見。
在授權方面,目前網頁歸檔項目主要采取征集的方式采集網頁資源,即檔案部門主動與網站達成協議,采集該網站的網頁并開放利用。網站對于其發布的信息具有一定的法律權限,在尚無明確的法律法規的情況下,檔案部門主動與網站進行溝通,取得明確授權,可以在一定程度上規避法律風險。
網頁歸檔項目是一個系統工程,涉及法規政策、合作機構、采集策略及技術等多個方面。面對這個復雜而系統的整體,我們應按網頁歸檔工作確定采集范圍,采集、存儲、開放利用的實施步驟,制定一套完善的網頁歸檔流程和標準以保證項目的順利實施。
制定網頁歸檔工作的標準體系是網頁歸檔項目建設的重要基礎性工作。檔案館在這方面具有無可比擬的優勢,檔案館在長期實踐過程中積累了大量關于檔案收集、整理、保存和利用服務的經驗和方法,并長期開展有關檔案的理論研究工作,因此在網頁歸檔的制度和標準建設中能夠提供合理有效、切實可行的意見。在具體操作中,理論與實踐相結合,在對網頁歸檔的工作流程、采集策略、著錄標準等進行標準化的同時展開相關實踐論證其可行性,從而保證網頁歸檔標準制定與項目實施相輔相成、并駕齊驅。
首先,從檔案學的角度來說,網頁資源屬于電子文件范疇,因此網頁歸檔項目標準的制定應達到電子文件管理最基本的質量目標,即:真實性、完整性、可讀性和可用性。因此標準的制定應考慮以下幾點:(1)保證網頁的來源和時間聯系不被破壞,保持網頁資源的原始面貌;(2)完整記錄相關元數據(來源網站、發布日期、知識產權信息等),保障網頁資源背景信息和著錄信息的完整;(3)保障歸檔網頁資源存儲環境與介質的安全,同時保證存儲格式的可讀性;(4)保障歸檔網頁資源不依賴原始的網絡環境與軟硬件環境,具有可用性[12]。
網頁歸檔工作流程與一般檔案管理流程有所不同,但歸檔網頁文件本身屬于電子文件的范疇,因此在網頁歸檔管理流程設計中可以借鑒電子文件管理理念。在網頁歸檔管理流程設計中將網頁的采集、存儲、著錄、開放利用流程作為歸檔網頁的完整生命周期,借鑒檔案管理的流程對其進行全程控制,保證歸檔網頁管理從采集到利用的連續性和規范性。在數字信息資源保存領域,目前學界公認的標準模式是OAIS 參考模型,網頁歸檔管理流程可參考OAIS 模型作為邏輯架構,以實現歸檔網頁資源長期保存和利用的目標[13]。
美國的網頁歸檔項目研究和實施起步較早,在法律建設、機構合作、采集策略等方面發展較為成熟;我國網頁歸檔項目建設尚處于起步階段,在技術、管理、政策法規等方面需要進一步探討。我國已開展的Web 信息博物館項目和國家網絡信息資源保存實驗項目的開展已經取得一定的成果,在今后的工作中應積極吸取各國經驗不斷發展,明確項目主體、開展多方合作,完善法律建設、獲得明確授權,完善歸檔流程、制定相關標準,積極促進網頁歸檔項目的發展完善。此外,互聯網企業及個人機構也應積極參與網頁歸檔工作,見證網絡發展歷程,感受時代進步。
[1]中國互聯網協會.中國互聯網發展報告[J].互聯網天地,2014(6):73-74.
[2]羅勇.互聯網檔案發展十年評述[J].檔案與建設,2009(9):11-14.
[3]嵇建梅,俞潔麗.網頁歸檔概述[J].管理學家,2013(6):664.
[4]LOC.Library of congress collections policy statements supplementary guidelines.[R/OL].http://www.loc.gov/acq/devpol/webarchive.pdf,2015-03-20.
[5]LBRARY OF CONGRASS.About Digital Collections[EB/OL].http://www.loc.gov/library/about—digital.html,2015-03-20.
[6]WebCite Consortium.FAQ[EB/OL].http://www.webcitation.org,2015-03-20.
[7]王爍.美國網頁歸檔項目——Internet Archive 發展研究[J].蘭臺世界,2012(6):18-19.
[8]王爍,丁宇.美國網頁歸檔項目Web Citation發展狀況研究[J].檔案,2012(4):43.
[9]王爍,丁宇.網頁歸檔項目重點問題研究[J].云南檔案,2012(8):42-43.
[10]陳力,郝守真,王志庚.網絡信息資源的采集與保存——國家圖書館的WICP和ODBN項目介紹[J].國家圖書館學刊,2004(1):4-5.
[11]姜萌萌,袁永翠.簡析我國網頁歸檔項目對檔案館工作的啟示[J].蘭臺世界,2013(8):29.
[12][13]劉乃蓬,張偉.檔案管理模式下網絡信息資源長期保存的研究[J].中國檔案,2012(9):66-68.