謝玉雪 鄭曉丹
(中國人民大學(xué)信息資源管理學(xué)院 北京 100872)
自1999年“政府上網(wǎng)工程”啟動以來,經(jīng)過二十多年的發(fā)展,我國電子政務(wù)已取得突出成就。隨著數(shù)字政府制度化水平的不斷提升,政府官方網(wǎng)站成為便利的信息發(fā)布和事務(wù)處理平臺,民眾愈來愈傾向于選擇從政府官網(wǎng)了解信息、參與決策,因而,政府網(wǎng)站資源也成為具有豐富檔案價值的信息記錄。但互聯(lián)網(wǎng)時代網(wǎng)絡(luò)信息的便捷性伴隨著諸多風險,其更新快、易消逝的特點給政府網(wǎng)站資源的長期保存和開發(fā)利用帶來挑戰(zhàn)。檔案部門承擔著保存時代記憶、維護歷史真實面貌的使命,有責任、有義務(wù)參與到政府網(wǎng)頁信息資源的存檔實踐中來。
關(guān)于“政府網(wǎng)頁存檔”,國內(nèi)外已有一定研究成果。國外方面,克里斯汀·馬丁(Kristin E.Martin)和凱莉·尤班克(Kelly Eubank)以北卡羅萊納州政府網(wǎng)站檔案為例,探討了開發(fā)網(wǎng)頁檔案的過程,包括從網(wǎng)頁上收集信息的方法、網(wǎng)頁檔案中材料的選擇過程以及網(wǎng)頁存檔的技術(shù)等;[1]托里·瑪奇(Tori Maches)和瑪萊娜·克里斯坦森(Marlayna Christensen)概述了網(wǎng)絡(luò)檔案收集工具的創(chuàng)建過程,包括建立機構(gòu)需求和重視、更廣泛地評估網(wǎng)絡(luò)存檔政策和規(guī)范,并思考如何可持續(xù)利用現(xiàn)有資源。[2]國內(nèi)方面,權(quán)麗桃對政府網(wǎng)絡(luò)信息資源歸檔責任主體與適用的采集策略進行深入探討,并對如何實現(xiàn)網(wǎng)絡(luò)信息資源增值效益提供了建議;[3]何玉顏以英國政府網(wǎng)頁檔案館的實踐為例,闡述了其建設(shè)概況、技術(shù)選擇以及提供利用等方面的經(jīng)驗,并提出我國可以借鑒這些經(jīng)驗,結(jié)合我國實際情況,推動我國網(wǎng)頁歸檔工作的發(fā)展;[4]尹哲指出了當前檔案部門開展網(wǎng)頁歸檔存在的問題,并對網(wǎng)頁歸檔工作提出一系列建議,諸如以網(wǎng)頁欄目作為確定歸檔范圍和保管期限的依據(jù)、根據(jù)不同的內(nèi)容需求選擇歸檔技術(shù)、不斷爭取法律保障等。[5]但是,從現(xiàn)有研究成果可看出,當前我國學(xué)者傾向于對國外先進的政府網(wǎng)絡(luò)歸檔項目的情況介紹與經(jīng)驗教訓(xùn)的總結(jié)、借鑒,對國內(nèi)相關(guān)項目及其建設(shè)現(xiàn)狀與未來發(fā)展進行初步展望,尚沒有對政府網(wǎng)頁歸檔的組織機制、建設(shè)要素等進行整體規(guī)劃和細致探析。因此,本文在分析當前我國政府網(wǎng)頁歸檔實踐現(xiàn)存問題的基礎(chǔ)上,從宏觀和微觀兩個層面提出政府網(wǎng)頁歸檔發(fā)展策略建議。
自2002年起,我國先后進行了開發(fā)政府網(wǎng)頁歸檔實踐項目、頒布相關(guān)政策標準等實踐,這些項目的開展和政策標準的發(fā)布,在一定程度上能夠反映我國政府網(wǎng)頁歸檔的現(xiàn)狀。
第一個項目是“中國Web信息博物館”(Web Info-Mall),該項目由北京大學(xué)于2002年開發(fā)建設(shè),是我國最早開展的網(wǎng)頁存檔實踐項目,目前維護的中文網(wǎng)頁已達30億,且其采集速度仍在不斷擴大規(guī)模[6]。除全面持續(xù)地收集網(wǎng)頁之外,它還對獲得的海量網(wǎng)頁進行組織儲存,形成歷史網(wǎng)頁存儲系統(tǒng)和回放系統(tǒng),允許用戶通過輸入URL瀏覽歷史網(wǎng)頁、回放專題網(wǎng)頁。[7]
第二個是由國家圖書館牽頭啟動的“網(wǎng)絡(luò)信息資源保存”試驗項目(Web Information Collection and Preservation,WICP),該項目于2003年開始進行網(wǎng)頁資源收集,并于2007年加入國際互聯(lián)網(wǎng)保存聯(lián)盟[8]。WICP主要收集靜態(tài)網(wǎng)頁,并根據(jù)網(wǎng)站和網(wǎng)頁的特點提供鏡像存檔和專題存檔兩類功能,鏡像存檔針對政府網(wǎng)站、電子報刊等資源;專題存檔則是以中國重大事件為專題來采集內(nèi)容,如北京奧運會、非典專題等。該項目在試驗過程中,發(fā)現(xiàn)網(wǎng)絡(luò)信息從采集、整合到保存、利用的全過程都面臨著技術(shù)手段、經(jīng)濟支持、責任體系、法律規(guī)范等挑戰(zhàn),針對發(fā)現(xiàn)的不足研發(fā)相應(yīng)解決策略。事實上,網(wǎng)絡(luò)信息存檔是一項對人、財、物等資源要求很高的工作,單靠某一機構(gòu)的力量難以取得理想成果,因此積極與圖書館、檔案館等機構(gòu)進行合作是較為理想的選擇。[9]
但是目前來看,以上兩個項目并不成功,并沒有實現(xiàn)可持續(xù)發(fā)展,收割的資源無法提供利用,更沒有進行再開發(fā)以產(chǎn)生新價值[10]。
隨著電子政務(wù)的發(fā)展,國家愈加重視政府網(wǎng)頁存檔問題,自2016年以來頒布了一系列相關(guān)政策和標準指導(dǎo)政府網(wǎng)頁歸檔工作開展。如表1所示。

表1 我國政府網(wǎng)頁歸檔相關(guān)政策與標準
在政策方面,國家層面和檔案部門都頒布了相關(guān)文件,要求重視政府網(wǎng)頁歸檔。2016年11月中共中央辦公廳、國務(wù)院辦公廳印發(fā)的《國家電子文件管理“十三五規(guī)劃”》要求“推進政府網(wǎng)頁及電子郵件、音視頻等電子文件歸檔”。2017年5月國務(wù)院辦公廳印發(fā)的《政府網(wǎng)站發(fā)展指引》指出:“網(wǎng)頁歸檔是對政府網(wǎng)站歷史網(wǎng)頁進行整理、存儲和利用的過程。政府網(wǎng)站遇整合遷移、改版等情況,要對有價值的原網(wǎng)頁進行歸檔處理。歸檔后的頁面要能正常訪問,并在顯著位置清晰注明‘已歸檔’和歸檔時間。”[11]
國家檔案局在《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》中指出,要研究制定重要網(wǎng)頁資源的采集和社交媒體文件的歸檔管理辦法。2018年,寧波市檔案局根據(jù)國家檔案局的決定,與北京市檔案局等三家單位一道成為網(wǎng)站網(wǎng)頁資源歸檔試點單位。[12]隨后,為做好試點工作,寧波市人民政府辦公廳于2018年10月29日印發(fā)實施《寧波市政府網(wǎng)站網(wǎng)頁歸檔管理暫行辦法》,該辦法首次明確規(guī)定了政府網(wǎng)站網(wǎng)頁歸檔管理的職責分工,規(guī)范了網(wǎng)頁資源收集、保管、利用等各環(huán)節(jié)工作,不僅為實現(xiàn)政府網(wǎng)頁資源保管和利用創(chuàng)造有力保障,更促進了政府網(wǎng)站規(guī)范建設(shè)并進一步拓寬了電子文件管理研究領(lǐng)域。[13]
在標準方面,2017年7月,我國發(fā)布了國家標準《信息和文獻WARC文件格式》(GB/T33994-2017),主要用于規(guī)范以WARC格式保存的網(wǎng)頁歸檔文件。[14]2019年12月16日,國家檔案局正式頒布行業(yè)標準《政府網(wǎng)站網(wǎng)頁歸檔指南》(DA/T80-2019)[15]。該標準共分為9章,明確了網(wǎng)頁資源的歸檔范圍和保管期限,規(guī)定了各業(yè)務(wù)環(huán)節(jié)的具體要求以及網(wǎng)頁歸檔功能模塊設(shè)計等。2020年12月14日,由寧波市檔案局牽頭制定的推薦性國家標準《OFD在政府網(wǎng)站網(wǎng)頁歸檔中的應(yīng)用指南》(GB/T 39677-2020)正式發(fā)布,計劃于2021年7月1日起正式實施。該標準對政府網(wǎng)站網(wǎng)頁元素、OFD文件轉(zhuǎn)化范圍及規(guī)則進行了明確規(guī)定,為政府網(wǎng)站主管部門開展網(wǎng)頁歸檔提供了科學(xué)指南,并為政府網(wǎng)站網(wǎng)頁歸檔工作建立了新的規(guī)范。[16]
以上這些政策與標準的出臺在一定程度上推動了我國政府網(wǎng)頁歸檔工作的發(fā)展。
盡管上述兩個網(wǎng)頁存檔項目為我國政府網(wǎng)頁存檔提供了一些實踐經(jīng)驗,而且在國家檔案局等部門的推動下政府網(wǎng)頁存檔項目也開始在部分地區(qū)進行試點,但我國政府網(wǎng)頁存檔實踐仍面臨很多問題。
3.1.1 缺乏統(tǒng)一的領(lǐng)導(dǎo)主體
目前我國政府網(wǎng)頁歸檔仍處在起步階段,多數(shù)歸檔項目規(guī)模較小,且多由檔案行政部門對本機構(gòu)的網(wǎng)頁信息進行抓取后進行自我管理,缺乏統(tǒng)一的領(lǐng)導(dǎo)機構(gòu)?!墩W(wǎng)站網(wǎng)頁歸檔指南》(DA/T80-2019)要求網(wǎng)站主辦單位對網(wǎng)頁信息從生成、發(fā)布到歸檔的全過程進行管理,實現(xiàn)完整歸檔并確保信息可靠,而檔案部門在政府網(wǎng)頁歸檔工作中承擔監(jiān)督指導(dǎo)的責任,應(yīng)制定相關(guān)的規(guī)章制度以規(guī)范工作開展,明確網(wǎng)頁歸檔功能模塊需求以指導(dǎo)系統(tǒng)設(shè)計,還需及時接收網(wǎng)頁檔案并保障其安全。反觀國外,政府網(wǎng)頁存檔項目主要由圖書館與檔案館主導(dǎo)。如英國國家檔案館(The National Archives,TNA)、美國的加利福尼亞圖書館、加拿大圖書檔案館(Library and Archives Canada,LAC)等開展的政府網(wǎng)頁存檔項目,不僅保證了項目推進效率,而且作為第三方機構(gòu)捕獲政府機構(gòu)的網(wǎng)絡(luò)信息資源也充分發(fā)揮了社會記憶保存機構(gòu)的優(yōu)勢,承擔了公共文化服務(wù)部門應(yīng)盡的職責。
3.1.2 缺乏完善的法規(guī)體系
網(wǎng)頁歸檔工作的開展,需要嚴格遵守法律法規(guī),尊重及維護網(wǎng)頁涉及的知識產(chǎn)權(quán)和其他合法權(quán)益,我國目前此方面的法律法規(guī)尚處于空白狀態(tài)。英美加等國均通過《圖書館與檔案館法案》《出版物合法處置規(guī)范》等法律,獲得采集政務(wù)網(wǎng)頁資源的授權(quán),使政府網(wǎng)頁歸檔項目有法可依,我國《檔案法》《著作權(quán)法》中對此沒有明確的規(guī)定,使檔案館等歸檔主體缺乏動力。另外,具體到歸檔操作指南,盡管我國目前出臺的政策性文件對政府網(wǎng)頁歸檔的責任主體、歸檔范圍、保管期限以及收集、整理移交的過程進行了梳理和規(guī)范,但對歸檔方式、采集策略、歸檔技術(shù)、工具等具體問題并未給出詳細建議,還應(yīng)進一步完善。
3.1.3 缺乏靈活的合作機制
缺乏靈活的合作機制導(dǎo)致歸檔行為影響范圍較小、規(guī)范性較差。組織層面,目前我國政府網(wǎng)頁存檔項目仍在試點階段,規(guī)模較小,僅局限于某一個機構(gòu),無法實現(xiàn)各政府部門間的信息整合,不利于信息共享,降低了網(wǎng)頁信息存檔的價值。另外,目前我國政府網(wǎng)頁存檔項目關(guān)注點仍在“收”的階段,對網(wǎng)絡(luò)資源的整理與開發(fā)利用方面仍涉及較少或?qū)哟屋^淺,未能夠結(jié)合公眾的利用需求進行政府網(wǎng)頁的收集、整理和開發(fā)利用。技術(shù)層面,目前已有項目并未與相關(guān)信息部門、技術(shù)部門等建立廣泛的、密切的合作,選擇的歸檔方式和技術(shù)往往存在較大的隨意性,如雖然采標《信息與文檔-warc格式》(ISO28500:2009)發(fā)布的《信息和文獻 WARC文件格式》(GB/T 33994-2017)引入了網(wǎng)頁歸檔WARC格式,為網(wǎng)頁歸檔提供了一定參考,但我國在網(wǎng)絡(luò)存檔、長期保存方面缺乏對WARC格式成規(guī)模的研究和實踐[17],未能解決該格式在我國網(wǎng)絡(luò)資源環(huán)境下存在的局限性問題,不利于政府網(wǎng)頁的便捷利用與長久保存,需加以調(diào)整和完善。
3.2.1 歸檔范圍和保管期限不明確
中國Web博物館項目和WICP等項目對資源的采集并未根據(jù)一定的研究需求進行篩選,而是對網(wǎng)頁進行全面收集,且目前各級檔案部門對應(yīng)納入歸檔范圍的網(wǎng)頁沒有明確規(guī)定,對保管期限更是未做清晰界定。事實上,部分政務(wù)網(wǎng)站網(wǎng)頁并不具備長期保存價值。因此網(wǎng)頁資源歸檔范圍和保管期限應(yīng)視其內(nèi)容的價值水平而定,倘若一味保存則可能造成網(wǎng)頁數(shù)據(jù)的冗余,導(dǎo)致大量低價值甚至是無價值的網(wǎng)頁數(shù)據(jù)占據(jù)存儲空間。
3.2.2 歸檔技術(shù)和標準不完備
網(wǎng)頁信息采集主要針對靜態(tài)或動態(tài)網(wǎng)頁及其中文件,隨后提取網(wǎng)頁內(nèi)的全部信息。靜態(tài)網(wǎng)頁與動態(tài)網(wǎng)頁的抓取難度也不相同,靜態(tài)網(wǎng)頁的抓取從技術(shù)上較易實現(xiàn),只需按時間頻率定期進行即可;而動態(tài)網(wǎng)頁的捕獲則無法單純依靠抓取軟件實現(xiàn),且以目前的技術(shù)條件無法實現(xiàn)安全存儲。此外,隨著網(wǎng)頁技術(shù)不斷發(fā)展,網(wǎng)頁文件類型和格式不斷更新。除了傳統(tǒng)的HTML格式文件以外,Java文件、Ac-tiveX文件、Jpg圖片文件等新型格式的網(wǎng)頁文件也層出不窮,但目前尚未有明確標準規(guī)范來指導(dǎo)這些文件歸檔。[18]
3.2.3 歸檔所需成本與效益不對稱
政府網(wǎng)頁歸檔工作是一項對資金投入要求高、開展周期長的工程,需要雄厚且穩(wěn)定的財力支持才能取得成果。國外的網(wǎng)頁歸檔項目能夠成功開展的重要原因之一就是擁有可靠且多元的資金支持,如美國“LCWA項目的資金來自于政府的‘國家數(shù)字信息基礎(chǔ)設(shè)施及保存計劃’,哥倫比亞大學(xué)圖書館的網(wǎng)絡(luò)信息采集項目則是在安德魯·W·梅隆基金會(Andrew W.Mellon Foundation)的資助下進行的”[19]。而我國WICP項目的經(jīng)費來源僅是國家圖書館館內(nèi)預(yù)算,在圖書館本身的財政壓力就比較大的情況下,網(wǎng)頁信息存檔項目難以獲得強而有力的資金支持。[20]
此外,政府網(wǎng)頁信息存檔工作投入大但回報周期較長,存在成本與效益的矛盾,因而商業(yè)機構(gòu)往往不愿意資助,此類項目資金主要依賴政府財政。
針對目前我國政府網(wǎng)頁存檔面臨的主要問題,本文根據(jù)誰來做、怎樣做、怎樣做好的思路,宏觀上從確定檔案館的領(lǐng)導(dǎo)主體地位、完善相關(guān)法律、細化操作指南、加強對外合作交流等方面,微觀上從根據(jù)網(wǎng)頁特點確定歸檔范圍及其保管期限、采取適當?shù)臍w檔技術(shù)以及降低成本等方面提出具體的應(yīng)對策略。
4.1.1 確定檔案館的主導(dǎo)地位
檔案館在政府網(wǎng)頁歸檔工作中的主導(dǎo)地位是由網(wǎng)頁文件的檔案屬性以及檔案館職責兩方面決定的。
網(wǎng)頁具有檔案屬性,具體而言具有原始性和歷史性,這就決定了網(wǎng)頁的保存應(yīng)劃入數(shù)字檔案館歸檔范圍。一方面,從原始性來看,隨著越來越多的機構(gòu)通過網(wǎng)頁來發(fā)布信息、開展工作和提供服務(wù),網(wǎng)頁文件是機構(gòu)職能履行過程原始記錄;另一方面,從歷史性來看,網(wǎng)頁記載的信息與其他類型的信息一道構(gòu)成完整的社會記憶,網(wǎng)頁以圖文結(jié)合、音視頻結(jié)合等豐富形式呈現(xiàn)今天人們的生活方式和狀態(tài),為后人提供了了解歷史的全新入口。同時,網(wǎng)頁中包含了豐富的人類文化成果,由各類政府機構(gòu)發(fā)布的信息報告,由成千上萬的網(wǎng)民創(chuàng)作的博客文章、網(wǎng)絡(luò)文學(xué)、網(wǎng)絡(luò)音樂等等,能夠全面、多維、立體地呈現(xiàn)今天的社會文化圖景。[21]
檔案館是國家檔案資源的集中保管場所、檔案事業(yè)的專門管理機構(gòu)以及科學(xué)文化機構(gòu),具有保存檔案、傳承歷史的職責。第一,檔案館是集中統(tǒng)一保管檔案的中心,政府網(wǎng)頁經(jīng)過采集和歸檔之后即成為網(wǎng)頁檔案,理應(yīng)交由檔案館集中統(tǒng)一保管。第二,檔案館作為管理檔案并提供利用的專門機構(gòu),從實踐角度,已然積累了大量開展檔案業(yè)務(wù)工作的經(jīng)驗和方法;從理論角度,檔案工作自身完備的理論體系和研究經(jīng)驗也能為網(wǎng)頁歸檔項目的發(fā)展所借鑒。第三,檔案館的重要職責之一就是“為黨管檔”,長期以來與黨和政府保持著良好的交流與協(xié)助關(guān)系,因而由檔案館主導(dǎo)政府網(wǎng)頁歸檔工作能夠較為方便地取得政府機構(gòu)的信任和支持,保證項目高效推進。[22]
此外,國外由檔案館主導(dǎo)的政府網(wǎng)頁歸檔項目的成功,也為檔案館確立在這項工作中的主導(dǎo)地位提供了實踐支持。英國政府網(wǎng)站檔案館(UKGWA)與加拿大網(wǎng)頁檔案館(GCWA)是較為成熟的、有代表性的政府網(wǎng)頁歸檔項目。UKGWA項目由TNA于2003年9月創(chuàng)建,盡管由于數(shù)據(jù)量的不斷增加,該項目的網(wǎng)頁收集與開發(fā)模式由2016年之前的TNA自主管理模式轉(zhuǎn)變?yōu)楹献鞴步J?,但TNA始終在該項目中發(fā)揮著主導(dǎo)作用。[23]2004年4月22加拿大國家圖書檔案館法案頒布,該法案授予LAC采集網(wǎng)頁資源的權(quán)利?;诜傻谋U?,LAC的電子資源采集項目成為加拿大的電子資源呈繳項目。[24]
值得注意的是,當前,大數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源,全國各地先后成立了數(shù)據(jù)管理部門專門開展大數(shù)據(jù)收集和研究。因此,需明確長期以來承擔政務(wù)信息管理職責的傳統(tǒng)檔案部門與這些新興的數(shù)據(jù)管理部門各自的職能定位及兩者之間的職能關(guān)系,并積極創(chuàng)造機會加強協(xié)作,集二者之長,以求實現(xiàn)效益最大化。為此,應(yīng)建立適宜的溝通協(xié)商機制,不斷提高檔案部門與大數(shù)據(jù)管理部門的交流和溝通效率,從而加強職責分工和工作協(xié)同。[25]
4.1.2 完善法規(guī)制度、細化標準指南
法律層面,政府網(wǎng)頁歸檔工作開展需要面臨出版和知識產(chǎn)權(quán)等相關(guān)法律問題。一方面,政務(wù)網(wǎng)站主管部門、檔案部門、法律部門應(yīng)合作并為政府網(wǎng)絡(luò)信息資源歸檔保存爭取相關(guān)的法律法規(guī)支持,此外,也應(yīng)積極探索標準文件、格式兼容以及資源共享等方面的溝通與協(xié)作,尋求全方位的法律支撐和規(guī)范保障。另一方面,檔案部門在開展網(wǎng)頁歸檔工作中還會面臨信息侵權(quán)等法律問題,因此需要檔案部門主動與網(wǎng)站主管部門溝通,雙方就網(wǎng)站、網(wǎng)頁歸檔授權(quán)達成明確合作協(xié)議,盡可能規(guī)避法律風險,保障雙方權(quán)益。
在法規(guī)制度與標準指南層面,應(yīng)加強對政府網(wǎng)頁歸檔的引導(dǎo),目前已有國家圖書館制定的《國家圖書館數(shù)字資源保存管理暫行條例》《長期保存數(shù)字資源保存工作流程》等規(guī)范,國家檔案局也頒布了《政府網(wǎng)站網(wǎng)頁歸檔指南》(DA/T 80-2019),為推動政府網(wǎng)頁歸檔有序發(fā)展,應(yīng)在此基礎(chǔ)上對政府網(wǎng)頁采集、歸檔、整理、利用的全過程做出詳細的指導(dǎo)。如采集方式可依照依據(jù)形成者、內(nèi)容主題、用戶需求等原則確定;保管期限根據(jù)內(nèi)容重要程度區(qū)分為歸檔級、服務(wù)級、鏡像級和鏈接級[26]。為了實現(xiàn)方便公眾利用的目的,網(wǎng)頁歸檔項目應(yīng)注重網(wǎng)站建設(shè),以直觀、簡明的方式向用戶展示項目資源、引導(dǎo)用戶進行檢索。
4.1.3 促進交流、加強合作
政府網(wǎng)頁歸檔是一個系統(tǒng)工程,涉及采集、整理、開發(fā)利用、提供服務(wù)等多個環(huán)節(jié)和法律、政策、技術(shù)等多方面因素,具有復(fù)雜性高、投入大、建設(shè)周期長的特點。因此需要建立靈活的合作機制,促進檔案部門與圖書館、研究機構(gòu)等政府網(wǎng)頁歸檔參與主體之間的合作,積極推進第三方組織、志愿者的參與。
此外,還應(yīng)積極參與國際會議、加強與國外網(wǎng)頁歸檔較為成熟的責任主體之間的合作交流,借鑒其成功經(jīng)驗。如在保存系統(tǒng)與存檔技術(shù)層面,澳大利亞早先開發(fā)了面向主題的 PANDAS信息采集系統(tǒng),該系統(tǒng)通過識別和選擇項目采集指南中明確規(guī)定的主題分類來完成信息采集;在網(wǎng)絡(luò)信息采集的工具選擇方面,現(xiàn)廣泛使用的網(wǎng)頁爬蟲軟件Heritrix,是 IA 項目與北歐五國國家圖書館(冰島、芬蘭、瑞典、挪威、丹麥)聯(lián)合開發(fā)的產(chǎn)物[27];對于網(wǎng)絡(luò)信息使用者和生產(chǎn)者的收集工作亦可借鑒英國國家檔案館經(jīng)驗采用基于云的信息上傳歸檔功能。
4.2.1 根據(jù)網(wǎng)頁欄目特點明確歸檔范圍和保管期限
作為政府工作的重要輔助平臺,我國政府網(wǎng)站通常設(shè)計不同欄目承擔不同工作,不同欄目形成的信息重要性并不相同,因此,可以根據(jù)政府網(wǎng)站欄目類別明確歸檔范圍和保管期限。政府網(wǎng)站欄目大致可分為政府信息公開類、在線辦事類、公眾參與類三類:首先,政府信息公開類欄目主要是向公眾發(fā)布信息,一部分是政府工作年報或規(guī)劃、法規(guī)文件等,另一部分則是動態(tài)信息和通知公告等,前者內(nèi)容重要且相對穩(wěn)定,后者更新速度快、時效性較強。第二,在線辦事類欄目中提供的虛擬服務(wù)大廳,具有一定的時效性,而網(wǎng)上審批、網(wǎng)上辦事等業(yè)務(wù)則會涉及單位和個人信息。第三,公眾參與類欄目即就相關(guān)熱點事件或工作安排征詢公眾意見,具有一定的時效性。上述欄目信息穩(wěn)定性較強的、涉及公民信息安全的,應(yīng)長期保存,而時效性較強的則只需保存一段時間即可。[28]政府網(wǎng)站欄目類別及其內(nèi)容特點與歸檔保管期限如表2所示:

表2 政府網(wǎng)站欄目類別及其內(nèi)容特點與歸檔保管期限
4.2.2 采取適當?shù)木W(wǎng)頁歸檔技術(shù)
目前主流的網(wǎng)頁歸檔技術(shù)包括推送和拉取兩種模式,兩種模式的采集主體不同,適用不同的網(wǎng)頁收集情況和要求。推送模式由政府或者第三方機構(gòu)主動將網(wǎng)站信息主動呈繳或捐贈到保存機構(gòu),這種主動的方式有助于深層網(wǎng)頁和數(shù)據(jù)庫資源等采集難度較大的資源也能夠安全、便捷地轉(zhuǎn)移到保存機構(gòu)。拉取模式則是由保存機構(gòu)使用特定軟件工具,將網(wǎng)站信息資源采集、下載并保存在本地服務(wù)器中。采集方法又可進一步劃分為四類:一是廣泛式采集,即采用收割軟件自動采集國家域名范圍內(nèi)或整個因特網(wǎng)的網(wǎng)頁及其他在線資源,能夠?qū)崿F(xiàn)大范圍、全面、快速采集,但采集質(zhì)量和時間難以把控;二是選擇性采集,即根據(jù)資源主題、內(nèi)容、價值等要素有選擇地采集部分網(wǎng)絡(luò)空間或特定資源,經(jīng)過選擇收集的資源內(nèi)容質(zhì)量相對較高,但目前以人工甄選為主,工作量較大且判斷會受個人主觀因素影響;三是專題性采集,一般針對具體的專題或事件進行采集;四是復(fù)合式采集,[29]即綜合利用以上多種采集方法,實現(xiàn)優(yōu)勢互補,能夠在一定程度上同時滿足廣度與深度的要求。因此,上述采集方式適用于不同的主體及其各異的資源收集需求,對資源廣度要求較高的采集活動可以選擇廣泛式采集;有特定工作開展或研究需求的主體通常需要在某一領(lǐng)域深度挖掘信息,因此可以在實施選擇性采集或?qū)n}采集;復(fù)合式采集則適用于掌握一定經(jīng)濟實力、技術(shù)基礎(chǔ)較好的大型組織機構(gòu),實施廣度采集的同時,選擇重點領(lǐng)域或重要事件進行深度采集,實現(xiàn)資源采集全面性與深入性相結(jié)合。[30]四種采集方法的特點及適用情況如表3所示:

表3 主要網(wǎng)頁資源采集方法
4.2.3 降低成本、提高效率
針對政府網(wǎng)頁歸檔工作所面臨的成本高昂、收益遲緩等問題,可以從以下兩方面入手,降低成本、提高效率。一是對政府網(wǎng)站信息存檔的組織、領(lǐng)導(dǎo)體制機制進行科學(xué)設(shè)計,并不斷探索和完善,以科學(xué)規(guī)劃指導(dǎo)體制建設(shè),各主體之間分工協(xié)作,以明確的責任強化各項工作實施,并注重溝通及時、暢通,避免重復(fù)存檔,節(jié)約人力、物力、財力等。[31]如2003年7月成立的國際互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preservation Consortium, IIPC)通過軟件共享的方式為各項目提供技術(shù)支持,IIPC網(wǎng)站提供網(wǎng)頁歸檔工具、開源軟件的免費下載,各國可以根據(jù)實情修改軟件源代碼適用本國需求。IIPC也資助成員國進行軟件開發(fā),成員共享,有效節(jié)省人力、物力。[32]二是積極吸收廣大公眾的力量,推動政府網(wǎng)頁歸檔工作更加開放、更具活力。雖然檔案館在政府網(wǎng)頁歸檔工作中有著天然的優(yōu)勢,但由于我國各級綜合檔案館人力、物力、資金、技術(shù)等條件的限制,難以應(yīng)對政府網(wǎng)頁歸檔工作所需的復(fù)雜技術(shù)、專業(yè)標準、嚴格規(guī)范等要求。因此,一些地方可探索政府網(wǎng)站信息存檔工作公眾參與途徑,政府網(wǎng)頁歸檔外包服務(wù)就是良好的方式,可以根據(jù)地方情況由淺入深,不斷提高水平和質(zhì)量。首先,在項目規(guī)劃設(shè)計階段,應(yīng)廣泛收集各方意見,明確采集內(nèi)容和范圍、采集技術(shù)、用戶需求等信息;其次,項目正式運行階段,可在網(wǎng)站開辟用戶參與板塊,發(fā)布項目運行相關(guān)信息以供用戶掌握,并允許用戶在技術(shù)改進、內(nèi)容選擇等方面發(fā)表建議;最后,待項目發(fā)展取得一定經(jīng)驗后,鼓勵第三方組織、個人等成為歸檔主體,以獨立或者合作形式自主開展存檔實踐,不斷提高歸檔水平、優(yōu)化服務(wù),滿足社會多元化信息需求。[33]
在互聯(lián)網(wǎng)技術(shù)的進一步發(fā)展,政府透明度不斷擴大以及公民對政府信息的知情和參與意識不斷提升的背景下,政府通過互聯(lián)網(wǎng)發(fā)布信息、辦理業(yè)務(wù)或是與公民互動的程度也將不斷提高,必將產(chǎn)生大量檔案信息。因此,有必要通過借鑒國外相關(guān)成功案例以及國內(nèi)已有的實踐,不斷提高我國政府網(wǎng)頁歸檔實踐的規(guī)范發(fā)展,推動政府網(wǎng)頁歸檔走向成熟。