趙 玉 王 健
(中國人民大學信息資源管理學院,北京,100872)
英國國家檔案館(The National Archives,簡稱TNA)2012年11頒布的《文件收集政策》(Records Collection Policy)取代了2007 年的舊版本《文件征集和處置政策》(Acquisition and Disposal Policy)。《文件收集政策》中規定了英國國家檔案館需要長期保存文件的歸檔范圍、收集時間和保存地點。
為了處置與公眾相關的文件,英國國家檔案館接著頒布了一系列《操作選擇策略》(Operational Selection Policies,OSPs)。這些策略接受各方的意見,包括文件使用者、檔案工作者、使用該策略的政府機構等,并會根據這些意見進行修訂和更新。在2014 年4 月11 日針對英國政府網站檔案館(UK Government Web Archive,簡 稱UKGWA)頒布的《操作選擇策略第27 則:英國中央政府網站資產》(Operational Selection Policy OSP27: UK Central Government Web Estate,簡稱OSP27)中正式對政府機構網站歸檔項目的范圍和內容作出說明和規定。
英國國家檔案館對政府機構網站的歸檔由來已久。早在1997年,英國國家檔案館就利用國家數字檔案數據集系統(National Digital Archive of Datasets ,簡稱NDAD)對政府機構的數據集有選擇地收集和保存。這些數據集及其背景信息來自政府部門的物理轉移。為了保證數據通過NDAD網站能夠被下載或者購買,NDAD 將原始數據的格式統一轉為開放的CSV格式。
2010 年至今,隨著政府公布數據集方式的演變,英國國家檔案館推出UKGWA 捕獲和保存這些數據。英國國家檔案館利用UKGWA在文件產生的原始背景下保存政府機構網站所有形式的內容(包括網頁、官方出版物、數據集、多媒體等網站信息)及元數據(比如形成時間、形成者等),保證數字檔案資源的內容、背景和結構的完整性。
2013年12月,英國中央政府部門逐漸由各自的網站向集成的GOV.UK 轉變,英國國家檔案館的目標由抓取部門網站的數據集和部門網站本身變為每年兩次對data.gov.uk 清單上的數據集及data.gov.uk網站本身進行全面捕獲和抓取。目前,UKGWA 已是世界上最大的和使用最頻繁的網站檔案館之一,擁有超過30 億資源定位符并仍然以每月超過1000 萬的頁面瀏覽量增加。

表1 UKGWA與OSMA對比表
在線社交媒體檔案庫(Online Social Media Archive,OSMA)建于2014年5月8日,是英國國家檔案館在社交媒體蓬勃發展的背景下建設的UKGWA的重要組成部分。隨著Twitter、YouTube 等社交媒體在英國社會的流行,英國政府機構開始普遍利用社交媒體和其他數字媒體形式與公眾在線交流。相應地,文件的產生方式也隨之改變。正如英國國家檔案館館長Clem Brohier所說,“社交媒體在政府部門活動中的作用越來越重要,政府機構利用Twitter 闡釋政策,通過YouTube 推廣各種舉措。因此英國國家檔案館有必要開發出專門的系統支持社交媒體平臺上的歸檔工作,并將收集的信息作為官方公眾文件的一部分。……后代可以通過推文了解歷史,正如我們通過歷史電報了解過去。”
為了適應這種變化,英國國家檔案館適時將政府機構的社交媒體賬戶產生的信息有選擇地作為文件列入歸檔范圍,以可獲取、保存背景信息和再利用的方式來保存所產生的數字文件,保證文件的真實性和完整性。從2014 年5 月8 日起,英國國家檔案館對中央政府部門在官方推特賬戶上發布的推文和YouTube賬戶上發布的視頻進行歸檔。
UKGWA(英國政府網站檔案館)和OSMA(在線社交媒體檔案庫)之間的關系,詳見表1。
為了有效地利用資源和限制所捕獲文件的范圍,英國國家檔案館Twitter的歸檔工作根據以下規則進行,英國在線社交媒體檔案庫收集的文件是政府機構而非公眾個人或者其他組織在推特上發布的推文,其歸檔范圍如下:國家政府機構和非內閣部門的推文;其他政府組織和非政府組織可按照政府部門的要求歸檔;在UKGWA 歸檔范圍內的網站鏈接都會被保存。但并不是政府機構所有的推文以及每條推文下面的內容都會被保存,在線社交媒體檔案庫也對不在歸檔范圍的內容作出規定:轉發的推文、對推文的的回復和對話、官員個人的賬戶、不在UKGWA 歸檔范圍的網站鏈接(比如報紙文章)。
在推文的收集方面,英國在線社交媒體檔案庫一次就能夠捕獲多達3200 張推特的“快照”。用戶可以獲取出現在推文的鏈接,還可以通過網絡檔案館或者完整的網址訪問原來的網頁。英國在線社交媒體檔案庫保存的帶有編碼的推文能夠確保每條推文和它的背景信息(比如發布日期和時間)的完整性,為以后的長久研究提供了可靠的資源。

圖1 2012年倫敦奧運會官方推特賬戶
此外,在YouTube 視頻的捕獲方面,英國在線社交媒體檔案庫目前運行的視頻檔案庫測試版具備搜索功能,即按照發布的部門,可以搜索整個視頻目錄。Twitter 目前沒有搜索選項,但也可以使用英國國家檔案館已公布的JSON和XML文件查詢和分析推文所包含的信息。
目前,在線社交媒體檔案庫上保存了包括2006 年至2014 年早期產生的7000 多個視頻和2008 年至2013年9月產生的65000條推文,這些被歸檔的社交媒體的內容是在“在線社交媒體檔案庫”項目的試點階段被捕獲的,收集了包括2012年倫敦奧運會(見圖1)和2012年女王鉆石慶典(見圖2)等歷史性事件的文件。

圖2 2012年女王鉆石慶典
在線社交媒體檔案庫的出現和發展標志著英國國家檔案館開始捕獲政府機構在社交媒體上產生的文件,并將其長期保存。2003年以來,英國政府網站在線開放的超過30億的資源(包括網頁、文檔、互動游戲等)被英國國家檔案館作為UKGWA 的一部分歸檔。現在,隨著社交媒體的出現,這個規模將會越來越大。在線社交媒體檔案庫上保存的文件和視頻,成為UKGWA眾多檔案資源的組成部分。英國國家檔案館的在線社交媒體檔案庫根據英國國內各個社交媒體平臺使用的現實情況,有針對性地選擇了使用最為頻繁的Twitter和YouTube提出具體的應用指南,因此有很強的實踐指導性。
隨著網上服務理念的日益成熟,電子政務應用建設水平不斷提高,越來越多的政府機構采用Web技術,通過網站發布信息、提供服務、辦理業務,實現與公眾之間的直接互動。在這些活動過程中,必然產生大量有價值的Web資源。政府網站信息不僅包含了大量的政府政策法規、新聞、通告等,還是對政府網絡活動的最真實記錄,并且其中有不少都是“原生性”數字信息。
政府網站信息資源是政府為了履行職責,向公眾提供服務而發布在政府網站上的信息,是政府運作的記錄憑證,具備長期保存價值,其重要性不言而喻。作為英國政府網站檔案館(UKGWA)的有機組成部分,在線社交媒體檔案庫(OSMA)中的社交媒體文件無疑屬于重要的政府網站信息資源。
不管是為了開發政府網站信息資源所包含的社會和經濟效益,還是為公眾長久獲取政府網站信息資源提供途徑,又或是為后代保存重要的數字記憶,開展政府網站信息資源長期保存工作刻不容緩。而英國國家檔案館在這方面的有益探索,即英國政府網站檔案館(UKGWA)和在線社交媒體檔案庫(OSMA)項目的開展,為我國檔案館和圖書館界進行政府網站信息資源長期保存工作提供了借鑒,值得我們思考與學習。
[1]OPERATIONAL SELECTION POLICY(OSP27). http://www. nationalarchives.gov.uk/documents/information-management/osp27.pdf.[2015-05-28].
[2]The National Archives Makes Social Media Part of the Nation's Official History-Videos and tweets archived online as the public record.http://www.nationalarchives.gov.uk/documents/press-release-social-media-archive.pdf.[2015-05-28].
[3]英國國家檔案館.http://www.nationalarchives.gov.uk/.[2015-05-28].