999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

檔案館保存政府網(wǎng)站策略研究

2016-03-10 13:35:52石華
檔案管理 2016年1期

石華

摘 要:本文介紹了政府網(wǎng)站歸檔的背景,指出網(wǎng)站是政府與公眾通過網(wǎng)絡(luò)交流的證據(jù),保存政府網(wǎng)站是記錄政府如何實(shí)現(xiàn)電子政府的唯一真實(shí)的方法,網(wǎng)站歸檔應(yīng)該盡量歸檔網(wǎng)站上的所有內(nèi)容。介紹了鄭州市檔案局館對于政府網(wǎng)站歸檔工作進(jìn)行試點(diǎn)的實(shí)踐,包括選擇歸檔范圍、確定歸檔時(shí)間,介紹了兩種歸檔技術(shù):直接轉(zhuǎn)移和遠(yuǎn)程采集,并介紹了網(wǎng)站存檔格式WARC文件格式。

關(guān)鍵詞:網(wǎng)站歸檔;政府網(wǎng)站;WARC

1 網(wǎng)站歸檔的背景

互聯(lián)網(wǎng)給檔案工作者帶來了許多理論和實(shí)踐問題。例如,政府網(wǎng)站本身就是電子文件,還是政府網(wǎng)站包含著電子文件?政府網(wǎng)站只是發(fā)布信息的平臺(tái)嗎?換句話說,政府網(wǎng)站本身僅僅是另一種出版物嗎?隨著網(wǎng)絡(luò)、設(shè)備、應(yīng)用的不斷變化,許多政府網(wǎng)站已經(jīng)變成了政府和公眾信息交流的平臺(tái)。由此,政府網(wǎng)站已經(jīng)具備了出版物和文件的雙重屬性。

在2014年以前,國內(nèi)很少有檔案部門考慮將網(wǎng)站內(nèi)容納入歸檔范圍。2014年,楊冬權(quán)局長表示要啟動(dòng)為各級國家政府網(wǎng)站網(wǎng)頁存檔工作,那就對檔案部門提出了一個(gè)問題:是將政府網(wǎng)站本身作為一個(gè)文件歸檔,還是將其中的某些網(wǎng)頁作為文件歸檔呢?過去檔案人員一般認(rèn)為網(wǎng)站并不是文件,而是包含有文件。根據(jù)《電子檔案術(shù)語》中對電子文件的定義:“電子文件是國家機(jī)構(gòu)、社會(huì)組織或個(gè)人在履行其法定職責(zé)或處理事務(wù)過程中,通過計(jì)算機(jī)等電子設(shè)備形成、辦理、傳輸和存儲(chǔ)的各種形式的信息記錄。”如果政府部門通過網(wǎng)站處理事務(wù),如果用戶在做決策時(shí)參考了它們,或者如果網(wǎng)站有動(dòng)態(tài)的信息交流,或者如果網(wǎng)站的內(nèi)容、功能和用戶記錄具有文件保存價(jià)值,那么,網(wǎng)站就包含著電子文件。

英國國家檔案館對網(wǎng)站文件最初管理方法是運(yùn)用風(fēng)險(xiǎn)管理方法識(shí)別網(wǎng)站中哪些內(nèi)容屬于機(jī)構(gòu)文件,然后確定保管方法,制定管理策略及程序。這種方法僅僅保存網(wǎng)站數(shù)據(jù),而不是整個(gè)網(wǎng)站,存在信息資源丟失的風(fēng)險(xiǎn)。近年來檔案界開始改變對網(wǎng)站的看法,不再將網(wǎng)站僅僅看做文件保存的地方,而將網(wǎng)站本身看做文件,認(rèn)為網(wǎng)站是政府與公眾通過網(wǎng)絡(luò)交流的證據(jù),保存政府網(wǎng)站是記錄政府如何實(shí)現(xiàn)電子政府的唯一真實(shí)方法,網(wǎng)站歸檔應(yīng)該歸檔網(wǎng)站上所有內(nèi)容。

2 鄭州市檔案局館對政府網(wǎng)站歸檔備份工作的實(shí)踐

2015年,河南省鄭州市檔案局館決定對政府網(wǎng)站歸檔工作進(jìn)行試點(diǎn)。

2.1 確定網(wǎng)站歸檔范圍。在決定收集政府網(wǎng)站之后,我們必須弄清要收集哪些網(wǎng)站。和建立紙質(zhì)文件歸檔范圍一樣,鄭州市檔案局館制定了一個(gè)收集標(biāo)準(zhǔn)來規(guī)定哪些網(wǎng)站需要永久保存。我們決定歸檔以gov.cn結(jié)尾的鄭州市所有政府部門、機(jī)關(guān)單位的網(wǎng)站。許多政府網(wǎng)站更新相對緩慢,對這些網(wǎng)站我們每6個(gè)月收集一次,對有些更新較快的網(wǎng)站我們可定為每周收集一次,在網(wǎng)站升級改版的時(shí)候必須收集。我們還可根據(jù)公眾要求收集某些網(wǎng)站,根據(jù)重大事件的發(fā)生靈活調(diào)整網(wǎng)站收集范圍。

2.2 網(wǎng)站歸檔保存方案。目前,政府所面臨的大部分問題都涉及多個(gè)部門。未來的人們?nèi)绻肓私猬F(xiàn)在的一些事情,僅僅參考某一個(gè)政府部門網(wǎng)站是遠(yuǎn)遠(yuǎn)不夠的,需要利用多個(gè)相關(guān)的政府部門、非政府組織和個(gè)人的網(wǎng)站資源。顯然,保存網(wǎng)站是一個(gè)跨部門的綜合課題,需要集思廣益。方案之一便是互聯(lián)網(wǎng)檔案館(www.archive.org)現(xiàn)在使用的模式,由某一個(gè)檔案館負(fù)責(zé)保存所有的網(wǎng)站。另一種方案是由不同的檔案館分級收集各自管理范圍內(nèi)的網(wǎng)站。最后一種方案就是按需收集。組織一些檔案館就某個(gè)專題、某重大事件進(jìn)行網(wǎng)站收集,如世博會(huì)或天津大爆炸事件。總之,保存網(wǎng)站的最終方案也許是上述幾種方案的結(jié)合。

2.3 網(wǎng)站歸檔保存技術(shù)。收集網(wǎng)站所需使用的技術(shù)也是多種多樣的。這些技術(shù)可以粗略地分為兩大類:直接轉(zhuǎn)移和遠(yuǎn)程采集。從概念上來講,收集網(wǎng)站資源最簡單的方法就是直接拷貝原數(shù)據(jù)。這種方法需要網(wǎng)站所有者的合作,允許我們直接訪問網(wǎng)站服務(wù)器,從服務(wù)器上拷貝整個(gè)網(wǎng)站的所有文件,并將這些文件轉(zhuǎn)移到網(wǎng)站保存機(jī)構(gòu)。我們可以使用可移動(dòng)存儲(chǔ)介質(zhì)轉(zhuǎn)移數(shù)據(jù),也可以在線收集。

這種方法相當(dāng)于在檔案館網(wǎng)站服務(wù)器上重新搭建并復(fù)制了一個(gè)網(wǎng)站,只是網(wǎng)站內(nèi)容被定格在某一天。這種方法最大的優(yōu)點(diǎn)是通過精確復(fù)制原網(wǎng)站的內(nèi)容保證了對原有網(wǎng)站最真實(shí)的拷貝。可這種方法仍然存在潛在的弊端。首先,這種方法非常耗費(fèi)時(shí)間,并且技術(shù)十分復(fù)雜,需要再次安裝一個(gè)完整的資源管理系統(tǒng),同時(shí)還要關(guān)閉某些網(wǎng)站內(nèi)容,如日期顯示和計(jì)數(shù)器等。顯然這種方法并不適合大規(guī)模保存網(wǎng)站。其次,還必須保持原有的技術(shù)架構(gòu)來支持網(wǎng)站,而這種技術(shù)架構(gòu)可能已經(jīng)與現(xiàn)在網(wǎng)站的架構(gòu)不同了。我們希望歸檔的目標(biāo)網(wǎng)站應(yīng)用了各種不同的網(wǎng)站服務(wù)器軟件、搜索引擎、數(shù)據(jù)庫技術(shù)和內(nèi)容管理系統(tǒng),由某一家機(jī)構(gòu)來實(shí)現(xiàn)這些技術(shù)的整合是行不通的。因此,這種方法適用于收集比較簡單、數(shù)據(jù)性的網(wǎng)站,并且是能夠跨平臺(tái)運(yùn)行的網(wǎng)站。檔案館目前僅針對這類特殊的網(wǎng)站利用這種直接轉(zhuǎn)移的方法進(jìn)行收集,尤其是對那些生命周期較短的網(wǎng)站進(jìn)行一次性復(fù)制。

當(dāng)我們要收集大量網(wǎng)站的時(shí)候,我們就會(huì)使用遠(yuǎn)程采集技術(shù)。使用網(wǎng)頁爬蟲軟件來模擬網(wǎng)絡(luò)瀏覽器,從而實(shí)現(xiàn)對網(wǎng)站的遠(yuǎn)程采集。頁面采集列表向網(wǎng)頁爬蟲傳達(dá)采集指令。首先,網(wǎng)頁爬蟲向網(wǎng)站服務(wù)器發(fā)出訪問請求,訪問列表上的第一個(gè)頁面并進(jìn)行復(fù)制保存。網(wǎng)頁爬蟲會(huì)識(shí)別該頁面所有的超鏈接并將這些鏈接加入到采集列表。網(wǎng)頁爬蟲通過循環(huán)記錄每個(gè)頁面的超鏈接,實(shí)現(xiàn)對整個(gè)網(wǎng)站所有頁面的采集。這個(gè)采集程序通常是由一些參數(shù)控制的,如網(wǎng)頁爬蟲所跟蹤超鏈接級數(shù),這個(gè)參數(shù)可以對采集的范圍進(jìn)行界定。檔案部門在操作篩選政策時(shí),可以注明要收集哪些網(wǎng)站,以多長時(shí)間為周期對網(wǎng)站進(jìn)行采集。網(wǎng)站回溯器提供了一個(gè)便捷且新穎的訪問方式,即重寫目標(biāo)網(wǎng)站所有的超文本鏈接,而非直接指向原始網(wǎng)站。通過這些重寫的鏈接地址,用戶可以在檔案館的系統(tǒng)中瀏覽當(dāng)時(shí)的網(wǎng)站內(nèi)容。

遠(yuǎn)程采集技術(shù)主要優(yōu)勢在于能夠高效率和低成本地采集大量網(wǎng)站,各網(wǎng)站數(shù)據(jù)進(jìn)入一個(gè)總后臺(tái),可以跨網(wǎng)站檢索。但也有一些缺點(diǎn)。該技術(shù)明顯局限在于網(wǎng)頁爬蟲只能采集那些被鏈接內(nèi)容,而數(shù)據(jù)庫深層數(shù)據(jù)和那些只能通過搜索才能訪問的內(nèi)容卻不能被采集。該技術(shù)不能采集微博、微信等需登錄網(wǎng)站,不能采集音、視頻。該技術(shù)不是備份,不能恢復(fù)原網(wǎng)站。

2.4 網(wǎng)站歸檔的速度和文件大小。鄭州市檔案局采用遠(yuǎn)程采集技術(shù)采集政府網(wǎng)站,數(shù)據(jù)量增長很快。因?yàn)榫W(wǎng)頁鏈接全部重寫,系統(tǒng)很難找到增量的點(diǎn),所以每次均全部采集,無法使用增量采集。舉例來說,采集鄭州市人民政府、鄭州檔案信息網(wǎng)等7家單位,耗時(shí)28小時(shí),采集網(wǎng)頁52萬頁,采集的文件大小共1.5G。鄭州市共約上百家政府網(wǎng)站,都采集下來,其存儲(chǔ)容量是驚人的。鄭州市檔案館存儲(chǔ)共60T左右,就算都存成政府網(wǎng)站,也存不了多長時(shí)間。看起來使用云存儲(chǔ)是必需的方案了。

3 網(wǎng)站保存文件格式WARC介紹

鄭州市檔案局館保存的網(wǎng)站采用的存檔格式是WARC文件格式,但一般會(huì)壓縮成gz文件,分卷壓縮。WARC (Web Archiving File Format) 網(wǎng)絡(luò)存檔文件格式,2009年5月成為正式國際標(biāo)準(zhǔn),標(biāo)準(zhǔn)號為ISO 28500:2900。此格式是唯一面向網(wǎng)絡(luò)資源長期保存的資源保存格式,WARC 格式具有軟件生態(tài)環(huán)境完善、內(nèi)容豐富、便于管理、易于擴(kuò)展、支持大容量文件保存等特點(diǎn),同時(shí)適合網(wǎng)絡(luò)資源和數(shù)字資源的長期保存使用[1]。

WARC 文件可以使用的軟件:

(1)抓取軟件:目前最常用的兩種采集軟件是Heritrix 和GNUWget,面向用戶桌面的工具中常用的是WarcCreate 軟件。

(2)文件處理軟件:指以保存、交換等應(yīng)用為目的,對WARC文件進(jìn)行處理的軟件,包括格式驗(yàn)證、切割、組合、元數(shù)據(jù)抽取等。

(3)索引、檢索與訪問軟件:可對WARC文件進(jìn)行索引,用于檢索,并提供檢索界面,響應(yīng)用戶的檢索請求,將檢索結(jié)果在瀏覽器中呈現(xiàn)給用戶。常用Nutchwax、Wayback Machine、Solr 和Momento。

(4)綜合管理軟件:集成了采集、管理、索引和發(fā)布等流程,便于保存機(jī)構(gòu)快速開展網(wǎng)絡(luò)存檔活動(dòng)。其中較知名的是新西蘭和英國圖書館開發(fā)的Web Curator Tools和荷蘭圖書館開發(fā)的NetArchiveSuite。

截至2014 年7 月,英國圖書館互聯(lián)網(wǎng)存檔項(xiàng)目已經(jīng)保存了24TB 的網(wǎng)絡(luò)資源,法國國家圖書館保存了450TB的網(wǎng)絡(luò)資源,澳大利亞圖書館的Pandora項(xiàng)目數(shù)據(jù)量也達(dá)到了12. 22TB。這些資源都以WARC格式保存。美國國家檔案館發(fā)布的文件進(jìn)館格式指南,也將WARC文件格式列為可接受格式[2]。鄭州市檔案局館進(jìn)行政府網(wǎng)站存檔工作,也采用這一格式,這是符合國際潮流的。

參考文獻(xiàn):

[1]曲云鵬.網(wǎng)絡(luò)存檔文件格式WARC研究[J].圖書館學(xué)研究,2014(24):20~28.

[2]http://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html#webrecords

(作者單位:鄭州市檔案局 來稿日期:2015-10-20)

主站蜘蛛池模板: 成人字幕网视频在线观看| 亚洲三级成人| 国产美女久久久久不卡| 农村乱人伦一区二区| 91精品国产麻豆国产自产在线| 四虎国产精品永久一区| 欧美性爱精品一区二区三区| 日本精品影院| 国产精品三级av及在线观看| 国产午夜无码片在线观看网站 | 久久综合AV免费观看| 高清无码不卡视频| 中文字幕66页| 国产一区二区网站| 国产精品毛片一区| 成年人久久黄色网站| 欧美va亚洲va香蕉在线| 天堂av综合网| a天堂视频在线| 亚洲自拍另类| 亚洲成A人V欧美综合| 亚洲色图狠狠干| 欧美精品导航| 又污又黄又无遮挡网站| 91精品久久久无码中文字幕vr| 欧美久久网| 成人av手机在线观看| 激情国产精品一区| 亚洲欧美人成人让影院| 99激情网| 国产乱论视频| 久久伊人操| 国内视频精品| 亚洲一区第一页| 日韩人妻精品一区| 国产成人欧美| 久久77777| 一区二区午夜| 在线免费亚洲无码视频| 亚洲欧美日韩动漫| 久久精品一品道久久精品| 福利视频99| 午夜高清国产拍精品| 亚洲福利片无码最新在线播放| 啪啪啪亚洲无码| 国产精品成人免费视频99| 91视频99| 亚洲婷婷在线视频| 天堂中文在线资源| 国产激情无码一区二区三区免费| 伊在人亚洲香蕉精品播放 | 亚洲第一页在线观看| 亚洲第一区精品日韩在线播放| 亚洲人成网站色7799在线播放| 白浆免费视频国产精品视频| 欧美自拍另类欧美综合图区| 欧美激情伊人| 久久 午夜福利 张柏芝| 在线日韩日本国产亚洲| 中文字幕亚洲电影| 国产日韩欧美在线视频免费观看| 国产精品无码制服丝袜| 午夜无码一区二区三区在线app| 亚洲性网站| 欧美伦理一区| 伊人网址在线| 欧美日韩中文国产| 国产午夜精品鲁丝片| 亚洲清纯自偷自拍另类专区| 三上悠亚一区二区| 91精品国产情侣高潮露脸| 午夜色综合| 国产精品片在线观看手机版 | 国产精品无码作爱| 亚洲欧美另类日本| 亚洲精品国产精品乱码不卞| 精品国产成人国产在线| 天天色天天综合| 香蕉久久国产超碰青草| 乱人伦99久久| 亚洲午夜久久久精品电影院| 久久中文字幕av不卡一区二区|