999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

檔案館保存政府網(wǎng)站策略研究

2016-03-10 13:35:52石華
檔案管理 2016年1期

石華

摘 要:本文介紹了政府網(wǎng)站歸檔的背景,指出網(wǎng)站是政府與公眾通過網(wǎng)絡(luò)交流的證據(jù),保存政府網(wǎng)站是記錄政府如何實(shí)現(xiàn)電子政府的唯一真實(shí)的方法,網(wǎng)站歸檔應(yīng)該盡量歸檔網(wǎng)站上的所有內(nèi)容。介紹了鄭州市檔案局館對于政府網(wǎng)站歸檔工作進(jìn)行試點(diǎn)的實(shí)踐,包括選擇歸檔范圍、確定歸檔時(shí)間,介紹了兩種歸檔技術(shù):直接轉(zhuǎn)移和遠(yuǎn)程采集,并介紹了網(wǎng)站存檔格式WARC文件格式。

關(guān)鍵詞:網(wǎng)站歸檔;政府網(wǎng)站;WARC

1 網(wǎng)站歸檔的背景

互聯(lián)網(wǎng)給檔案工作者帶來了許多理論和實(shí)踐問題。例如,政府網(wǎng)站本身就是電子文件,還是政府網(wǎng)站包含著電子文件?政府網(wǎng)站只是發(fā)布信息的平臺(tái)嗎?換句話說,政府網(wǎng)站本身僅僅是另一種出版物嗎?隨著網(wǎng)絡(luò)、設(shè)備、應(yīng)用的不斷變化,許多政府網(wǎng)站已經(jīng)變成了政府和公眾信息交流的平臺(tái)。由此,政府網(wǎng)站已經(jīng)具備了出版物和文件的雙重屬性。

在2014年以前,國內(nèi)很少有檔案部門考慮將網(wǎng)站內(nèi)容納入歸檔范圍。2014年,楊冬權(quán)局長表示要啟動(dòng)為各級國家政府網(wǎng)站網(wǎng)頁存檔工作,那就對檔案部門提出了一個(gè)問題:是將政府網(wǎng)站本身作為一個(gè)文件歸檔,還是將其中的某些網(wǎng)頁作為文件歸檔呢?過去檔案人員一般認(rèn)為網(wǎng)站并不是文件,而是包含有文件。根據(jù)《電子檔案術(shù)語》中對電子文件的定義:“電子文件是國家機(jī)構(gòu)、社會(huì)組織或個(gè)人在履行其法定職責(zé)或處理事務(wù)過程中,通過計(jì)算機(jī)等電子設(shè)備形成、辦理、傳輸和存儲(chǔ)的各種形式的信息記錄。”如果政府部門通過網(wǎng)站處理事務(wù),如果用戶在做決策時(shí)參考了它們,或者如果網(wǎng)站有動(dòng)態(tài)的信息交流,或者如果網(wǎng)站的內(nèi)容、功能和用戶記錄具有文件保存價(jià)值,那么,網(wǎng)站就包含著電子文件。

英國國家檔案館對網(wǎng)站文件最初管理方法是運(yùn)用風(fēng)險(xiǎn)管理方法識(shí)別網(wǎng)站中哪些內(nèi)容屬于機(jī)構(gòu)文件,然后確定保管方法,制定管理策略及程序。這種方法僅僅保存網(wǎng)站數(shù)據(jù),而不是整個(gè)網(wǎng)站,存在信息資源丟失的風(fēng)險(xiǎn)。近年來檔案界開始改變對網(wǎng)站的看法,不再將網(wǎng)站僅僅看做文件保存的地方,而將網(wǎng)站本身看做文件,認(rèn)為網(wǎng)站是政府與公眾通過網(wǎng)絡(luò)交流的證據(jù),保存政府網(wǎng)站是記錄政府如何實(shí)現(xiàn)電子政府的唯一真實(shí)方法,網(wǎng)站歸檔應(yīng)該歸檔網(wǎng)站上所有內(nèi)容。

2 鄭州市檔案局館對政府網(wǎng)站歸檔備份工作的實(shí)踐

2015年,河南省鄭州市檔案局館決定對政府網(wǎng)站歸檔工作進(jìn)行試點(diǎn)。

2.1 確定網(wǎng)站歸檔范圍。在決定收集政府網(wǎng)站之后,我們必須弄清要收集哪些網(wǎng)站。和建立紙質(zhì)文件歸檔范圍一樣,鄭州市檔案局館制定了一個(gè)收集標(biāo)準(zhǔn)來規(guī)定哪些網(wǎng)站需要永久保存。我們決定歸檔以gov.cn結(jié)尾的鄭州市所有政府部門、機(jī)關(guān)單位的網(wǎng)站。許多政府網(wǎng)站更新相對緩慢,對這些網(wǎng)站我們每6個(gè)月收集一次,對有些更新較快的網(wǎng)站我們可定為每周收集一次,在網(wǎng)站升級改版的時(shí)候必須收集。我們還可根據(jù)公眾要求收集某些網(wǎng)站,根據(jù)重大事件的發(fā)生靈活調(diào)整網(wǎng)站收集范圍。

2.2 網(wǎng)站歸檔保存方案。目前,政府所面臨的大部分問題都涉及多個(gè)部門。未來的人們?nèi)绻肓私猬F(xiàn)在的一些事情,僅僅參考某一個(gè)政府部門網(wǎng)站是遠(yuǎn)遠(yuǎn)不夠的,需要利用多個(gè)相關(guān)的政府部門、非政府組織和個(gè)人的網(wǎng)站資源。顯然,保存網(wǎng)站是一個(gè)跨部門的綜合課題,需要集思廣益。方案之一便是互聯(lián)網(wǎng)檔案館(www.archive.org)現(xiàn)在使用的模式,由某一個(gè)檔案館負(fù)責(zé)保存所有的網(wǎng)站。另一種方案是由不同的檔案館分級收集各自管理范圍內(nèi)的網(wǎng)站。最后一種方案就是按需收集。組織一些檔案館就某個(gè)專題、某重大事件進(jìn)行網(wǎng)站收集,如世博會(huì)或天津大爆炸事件。總之,保存網(wǎng)站的最終方案也許是上述幾種方案的結(jié)合。

2.3 網(wǎng)站歸檔保存技術(shù)。收集網(wǎng)站所需使用的技術(shù)也是多種多樣的。這些技術(shù)可以粗略地分為兩大類:直接轉(zhuǎn)移和遠(yuǎn)程采集。從概念上來講,收集網(wǎng)站資源最簡單的方法就是直接拷貝原數(shù)據(jù)。這種方法需要網(wǎng)站所有者的合作,允許我們直接訪問網(wǎng)站服務(wù)器,從服務(wù)器上拷貝整個(gè)網(wǎng)站的所有文件,并將這些文件轉(zhuǎn)移到網(wǎng)站保存機(jī)構(gòu)。我們可以使用可移動(dòng)存儲(chǔ)介質(zhì)轉(zhuǎn)移數(shù)據(jù),也可以在線收集。

這種方法相當(dāng)于在檔案館網(wǎng)站服務(wù)器上重新搭建并復(fù)制了一個(gè)網(wǎng)站,只是網(wǎng)站內(nèi)容被定格在某一天。這種方法最大的優(yōu)點(diǎn)是通過精確復(fù)制原網(wǎng)站的內(nèi)容保證了對原有網(wǎng)站最真實(shí)的拷貝。可這種方法仍然存在潛在的弊端。首先,這種方法非常耗費(fèi)時(shí)間,并且技術(shù)十分復(fù)雜,需要再次安裝一個(gè)完整的資源管理系統(tǒng),同時(shí)還要關(guān)閉某些網(wǎng)站內(nèi)容,如日期顯示和計(jì)數(shù)器等。顯然這種方法并不適合大規(guī)模保存網(wǎng)站。其次,還必須保持原有的技術(shù)架構(gòu)來支持網(wǎng)站,而這種技術(shù)架構(gòu)可能已經(jīng)與現(xiàn)在網(wǎng)站的架構(gòu)不同了。我們希望歸檔的目標(biāo)網(wǎng)站應(yīng)用了各種不同的網(wǎng)站服務(wù)器軟件、搜索引擎、數(shù)據(jù)庫技術(shù)和內(nèi)容管理系統(tǒng),由某一家機(jī)構(gòu)來實(shí)現(xiàn)這些技術(shù)的整合是行不通的。因此,這種方法適用于收集比較簡單、數(shù)據(jù)性的網(wǎng)站,并且是能夠跨平臺(tái)運(yùn)行的網(wǎng)站。檔案館目前僅針對這類特殊的網(wǎng)站利用這種直接轉(zhuǎn)移的方法進(jìn)行收集,尤其是對那些生命周期較短的網(wǎng)站進(jìn)行一次性復(fù)制。

當(dāng)我們要收集大量網(wǎng)站的時(shí)候,我們就會(huì)使用遠(yuǎn)程采集技術(shù)。使用網(wǎng)頁爬蟲軟件來模擬網(wǎng)絡(luò)瀏覽器,從而實(shí)現(xiàn)對網(wǎng)站的遠(yuǎn)程采集。頁面采集列表向網(wǎng)頁爬蟲傳達(dá)采集指令。首先,網(wǎng)頁爬蟲向網(wǎng)站服務(wù)器發(fā)出訪問請求,訪問列表上的第一個(gè)頁面并進(jìn)行復(fù)制保存。網(wǎng)頁爬蟲會(huì)識(shí)別該頁面所有的超鏈接并將這些鏈接加入到采集列表。網(wǎng)頁爬蟲通過循環(huán)記錄每個(gè)頁面的超鏈接,實(shí)現(xiàn)對整個(gè)網(wǎng)站所有頁面的采集。這個(gè)采集程序通常是由一些參數(shù)控制的,如網(wǎng)頁爬蟲所跟蹤超鏈接級數(shù),這個(gè)參數(shù)可以對采集的范圍進(jìn)行界定。檔案部門在操作篩選政策時(shí),可以注明要收集哪些網(wǎng)站,以多長時(shí)間為周期對網(wǎng)站進(jìn)行采集。網(wǎng)站回溯器提供了一個(gè)便捷且新穎的訪問方式,即重寫目標(biāo)網(wǎng)站所有的超文本鏈接,而非直接指向原始網(wǎng)站。通過這些重寫的鏈接地址,用戶可以在檔案館的系統(tǒng)中瀏覽當(dāng)時(shí)的網(wǎng)站內(nèi)容。

遠(yuǎn)程采集技術(shù)主要優(yōu)勢在于能夠高效率和低成本地采集大量網(wǎng)站,各網(wǎng)站數(shù)據(jù)進(jìn)入一個(gè)總后臺(tái),可以跨網(wǎng)站檢索。但也有一些缺點(diǎn)。該技術(shù)明顯局限在于網(wǎng)頁爬蟲只能采集那些被鏈接內(nèi)容,而數(shù)據(jù)庫深層數(shù)據(jù)和那些只能通過搜索才能訪問的內(nèi)容卻不能被采集。該技術(shù)不能采集微博、微信等需登錄網(wǎng)站,不能采集音、視頻。該技術(shù)不是備份,不能恢復(fù)原網(wǎng)站。

2.4 網(wǎng)站歸檔的速度和文件大小。鄭州市檔案局采用遠(yuǎn)程采集技術(shù)采集政府網(wǎng)站,數(shù)據(jù)量增長很快。因?yàn)榫W(wǎng)頁鏈接全部重寫,系統(tǒng)很難找到增量的點(diǎn),所以每次均全部采集,無法使用增量采集。舉例來說,采集鄭州市人民政府、鄭州檔案信息網(wǎng)等7家單位,耗時(shí)28小時(shí),采集網(wǎng)頁52萬頁,采集的文件大小共1.5G。鄭州市共約上百家政府網(wǎng)站,都采集下來,其存儲(chǔ)容量是驚人的。鄭州市檔案館存儲(chǔ)共60T左右,就算都存成政府網(wǎng)站,也存不了多長時(shí)間。看起來使用云存儲(chǔ)是必需的方案了。

3 網(wǎng)站保存文件格式WARC介紹

鄭州市檔案局館保存的網(wǎng)站采用的存檔格式是WARC文件格式,但一般會(huì)壓縮成gz文件,分卷壓縮。WARC (Web Archiving File Format) 網(wǎng)絡(luò)存檔文件格式,2009年5月成為正式國際標(biāo)準(zhǔn),標(biāo)準(zhǔn)號為ISO 28500:2900。此格式是唯一面向網(wǎng)絡(luò)資源長期保存的資源保存格式,WARC 格式具有軟件生態(tài)環(huán)境完善、內(nèi)容豐富、便于管理、易于擴(kuò)展、支持大容量文件保存等特點(diǎn),同時(shí)適合網(wǎng)絡(luò)資源和數(shù)字資源的長期保存使用[1]。

WARC 文件可以使用的軟件:

(1)抓取軟件:目前最常用的兩種采集軟件是Heritrix 和GNUWget,面向用戶桌面的工具中常用的是WarcCreate 軟件。

(2)文件處理軟件:指以保存、交換等應(yīng)用為目的,對WARC文件進(jìn)行處理的軟件,包括格式驗(yàn)證、切割、組合、元數(shù)據(jù)抽取等。

(3)索引、檢索與訪問軟件:可對WARC文件進(jìn)行索引,用于檢索,并提供檢索界面,響應(yīng)用戶的檢索請求,將檢索結(jié)果在瀏覽器中呈現(xiàn)給用戶。常用Nutchwax、Wayback Machine、Solr 和Momento。

(4)綜合管理軟件:集成了采集、管理、索引和發(fā)布等流程,便于保存機(jī)構(gòu)快速開展網(wǎng)絡(luò)存檔活動(dòng)。其中較知名的是新西蘭和英國圖書館開發(fā)的Web Curator Tools和荷蘭圖書館開發(fā)的NetArchiveSuite。

截至2014 年7 月,英國圖書館互聯(lián)網(wǎng)存檔項(xiàng)目已經(jīng)保存了24TB 的網(wǎng)絡(luò)資源,法國國家圖書館保存了450TB的網(wǎng)絡(luò)資源,澳大利亞圖書館的Pandora項(xiàng)目數(shù)據(jù)量也達(dá)到了12. 22TB。這些資源都以WARC格式保存。美國國家檔案館發(fā)布的文件進(jìn)館格式指南,也將WARC文件格式列為可接受格式[2]。鄭州市檔案局館進(jìn)行政府網(wǎng)站存檔工作,也采用這一格式,這是符合國際潮流的。

參考文獻(xiàn):

[1]曲云鵬.網(wǎng)絡(luò)存檔文件格式WARC研究[J].圖書館學(xué)研究,2014(24):20~28.

[2]http://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html#webrecords

(作者單位:鄭州市檔案局 來稿日期:2015-10-20)

主站蜘蛛池模板: 手机成人午夜在线视频| 国产一级二级在线观看| 中国精品久久| 午夜啪啪福利| 亚洲一区二区在线无码| 亚洲 日韩 激情 无码 中出| 欧美成a人片在线观看| 久久国产免费观看| 国产网站一区二区三区| 看你懂的巨臀中文字幕一区二区| 日韩不卡免费视频| 亚洲一区二区视频在线观看| 欧美激情综合| 91年精品国产福利线观看久久| 呦系列视频一区二区三区| 免费av一区二区三区在线| 一本大道视频精品人妻| 亚洲成人一区二区三区| 91久久国产热精品免费| 99热这里只有精品免费| 国产精品尤物铁牛tv | 国产精品福利尤物youwu| 在线观看亚洲精品福利片| 亚洲一区二区黄色| 日本免费一级视频| 99在线视频免费观看| 国产成人精品亚洲77美色| 欧美一区精品| 成人在线观看不卡| 亚洲综合18p| 毛片a级毛片免费观看免下载| 日本亚洲国产一区二区三区| 久久久久亚洲av成人网人人软件| 91麻豆国产视频| 亚洲精选无码久久久| 国内精品久久人妻无码大片高| 视频一本大道香蕉久在线播放| 亚洲不卡av中文在线| 国产成人一区在线播放| 日日摸夜夜爽无码| 777国产精品永久免费观看| 欧美午夜理伦三级在线观看| 91精品久久久久久无码人妻| 免费人成视频在线观看网站| 无码乱人伦一区二区亚洲一| 福利一区在线| 巨熟乳波霸若妻中文观看免费| 久久这里只有精品免费| 国产精品分类视频分类一区| 亚洲天堂2014| 东京热高清无码精品| 青青青国产视频手机| 一级爱做片免费观看久久| 精品自窥自偷在线看| 一级一级一片免费| 欧美精品综合视频一区二区| 福利片91| 中文字幕在线播放不卡| 一本大道香蕉高清久久| 亚洲高清无在码在线无弹窗| 伦伦影院精品一区| 在线观看91香蕉国产免费| 97se亚洲| 日韩高清成人| 第一页亚洲| 在线国产三级| 在线综合亚洲欧美网站| 欧美激情视频一区| 天天色综网| 中文字幕一区二区视频| 91在线播放免费不卡无毒| 欧美在线一级片| 欧美一区精品| 中文纯内无码H| 久操中文在线| a级毛片免费看| 波多野结衣亚洲一区| 欧美一级99在线观看国产| 久青草国产高清在线视频| 日本精品影院| 国产精品污视频| 欧美福利在线播放|