999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)資源歸檔標(biāo)準(zhǔn)WARC及其應(yīng)用研究

2020-08-06 08:29:32郭曉云
蘭臺世界 2020年7期
關(guān)鍵詞:網(wǎng)絡(luò)資源標(biāo)準(zhǔn)資源

郭曉云

摘 要 詳細闡述網(wǎng)絡(luò)資源歸檔格式標(biāo)準(zhǔn)(WARC)的制定背景、發(fā)展歷程、特點和優(yōu)勢,分析了WARC標(biāo)準(zhǔn)的應(yīng)用情況和生態(tài)圈建設(shè),探討了WARC在檔案領(lǐng)域的應(yīng)用。

關(guān)鍵詞 WARC網(wǎng)絡(luò)資源歸檔ISO標(biāo)準(zhǔn) 標(biāo)準(zhǔn)應(yīng)用

Abstract The paper elaborates the background, progress, characteristics and advantages of web resources archiving standard WARC, analyzes the application situation and ecosystem construction of WARC, and explores the application of WARC in archival field.

Keyword WARC; web resources archiving; ISO standard; standard application

WARC(Web ARChive)文件格式標(biāo)準(zhǔn)是由ISO國際標(biāo)準(zhǔn)化組織2009年發(fā)布的網(wǎng)絡(luò)信息資源存檔格式標(biāo)準(zhǔn),是面向網(wǎng)絡(luò)信息資源長期保存領(lǐng)域唯一的文件格式標(biāo)準(zhǔn)。網(wǎng)絡(luò)信息資源是指依托互聯(lián)網(wǎng)等大型網(wǎng)絡(luò),以網(wǎng)站、社交媒體等形式發(fā)布的信息資源。網(wǎng)絡(luò)信息資源存在壽命短、易丟失、不可再生的特點,這意味著如果沒有歸檔保存,這些寶貴的資源將不復(fù)存在。網(wǎng)絡(luò)資源存檔(Web Archive)的目的就是搶在這些資源消失之前將它們歸檔保存起來,WARC標(biāo)準(zhǔn)則是網(wǎng)絡(luò)資源存檔保存封裝格式,用于解決網(wǎng)絡(luò)資源格式多樣、聯(lián)系復(fù)雜等保存問題,目前已廣泛應(yīng)用在世界各國的數(shù)字圖書館、數(shù)字檔案館、數(shù)字資源倉儲機構(gòu)中。

一、WARC標(biāo)準(zhǔn)解析

GB/T 33994-2017對WARC格式的描述是:“WARC(Web ARChive)文件格式提供了一個由多個資源記錄(數(shù)據(jù)對象)連接成一個長文件的協(xié)議,其中每個資源記錄由一組簡單文本標(biāo)頭和任意數(shù)據(jù)內(nèi)容塊構(gòu)成。WARC格式將作為組織、管理和儲存采集來自網(wǎng)絡(luò)和其他數(shù)以億計的數(shù)字資源的一種標(biāo)準(zhǔn),可用于構(gòu)建收割、管理、訪問和交換內(nèi)容等各種應(yīng)用。”[1]

WARC不僅存儲資源記錄內(nèi)容本身,還可以存儲附加的元數(shù)據(jù),支持重復(fù)資源的檢測、資源格式轉(zhuǎn)換、大資源的分隔存儲等功能。WARC本身只定義了存儲格式標(biāo)準(zhǔn),WARC文件具體如何存儲、如何解析都取決于軟件的具體實現(xiàn)。

WARC文件主要構(gòu)成要素是WARC資源記錄,一個文件由若干個WARC資源記錄(warc record)構(gòu)成,WARC記錄間以兩個空行(CLR)分隔。WARC記錄有多種類型,包括warcinfo、response、resource、request、metadata、revisit、conversion、continuation八種,用于記錄軟件收割網(wǎng)頁時的所有信息,包括訪問請求、元數(shù)據(jù)等,盡可能完整地保存網(wǎng)絡(luò)資源,而不僅僅是網(wǎng)頁內(nèi)容。

WARC記錄(warc record)由記錄頭(head)和內(nèi)容塊(block)構(gòu)成,中間以空行分隔。記錄頭由版本行和若干個warc命名字段(warc-field)及字段值構(gòu)成(形式如:WARC-Type:request)。版本行說明遵循的WARC標(biāo)準(zhǔn)版本號,如WARC/1.0代表2009版標(biāo)準(zhǔn),WARC/1.1代表2017版標(biāo)準(zhǔn)。Warc命名字段值列表記錄WARC記錄各種元數(shù)據(jù),如WARC-Type:response標(biāo)識WARC記錄的類型是response,代表Http請求的返回。WARC1.1版提供了21種WARC命名字段,用于描述記錄塊內(nèi)容、獲取過程、塊間聯(lián)系等。每條WARC記錄都會包含記錄編號WARC-Record-ID、記錄類型WARC-Type、記錄日期WARC-Date、內(nèi)容類型Content-Type、內(nèi)容長度Content-Length這5個必備字段及其他相關(guān)命名字段。內(nèi)容塊記錄實際的內(nèi)容,比如response記錄會記錄服務(wù)器返回的內(nèi)容,內(nèi)容塊格式為UTF-8,如果返回的是二進制內(nèi)容,會轉(zhuǎn)換為UTF-8格式。

WARC文件首個WARC記錄的記錄類型是warcinfo,用于記錄整個WARC文件的信息。warcinfo記錄的內(nèi)容塊主要記錄收割軟件的信息,包括軟件名、收割軟件IP地址、收割軟件機器名、是否遵守機器人協(xié)議等。Warcinfo類型記錄塊如圖1所示。

WARC標(biāo)準(zhǔn)通過WARC-Concurrent-To、WARC-Refers-To、WARC-Segment-Origin-ID等特殊的命名字段實現(xiàn)不同記錄塊之間的關(guān)聯(lián)關(guān)系。

以WARC-Concurrent-To為例,如果WARC記錄的WARC-Concurrent-To值相同,則表示這幾條記錄都屬于同一個獲取過程。比如,獲取網(wǎng)頁中的某個資源,則整個過程會產(chǎn)生request請求記錄、response返回記錄、metadata元數(shù)據(jù)記錄等WARC記錄。其中,request和meatadata記錄的WARC-Concurrent-To字段的值會與response記錄的WARC-Record-ID相等,表示這兩條記錄是response記錄的附加記錄,描述了網(wǎng)絡(luò)資源的請求過程和相關(guān)元數(shù)據(jù),通過這種方式,可以完整地記錄網(wǎng)絡(luò)資源的抓取全過程,盡量多地存檔相關(guān)數(shù)據(jù)。

有時候一個抓取過程抓取到的網(wǎng)絡(luò)資源可能會分散到多個文件中,為了保持文件之間的聯(lián)系,WARC標(biāo)準(zhǔn)建議抓取軟件在除了warcinfo記錄外的所有記錄中添加WARC-Warcinfo-ID,值為抓取過程產(chǎn)生的第一個WARC文件的warcinfo記錄的WARC-Record-ID。

分段功能(segment):分段是指如果抓取的資源過大,超過了WARC文件的大小限制,WARC支持對響應(yīng)資源進行分段存儲,將內(nèi)容切分存儲在多個WARC文件中,WARC推薦的上限為1GB。以存檔一個超過1GB的大視頻文件為例,存檔的第一個WARC文件會包含一個response記錄,該記錄的WARC-Target-URI為抓取的視頻資源URL,WARC-Segment-Number字段為1,標(biāo)識這是分段的第一段。WARC-Payload-Digest為整個視頻文件的校驗摘要,WARC-Block-Digest為該段的校驗摘要。第二個WARC文件會包含后續(xù)的分段記錄,記錄的WARC-Type為continuation,表示分段的后續(xù)記錄,WARC-Target-URI仍為原視頻URL,WARC-Payload-Digest為整個視頻文件的校驗摘要,WARC-Block-Digest為本段的校驗摘要,WARC-Segment-Origin-ID為第一個分段記錄的WARC-Record-ID,WARC-Segment-Number為2,標(biāo)識是第二個分段,如果這個分段是最后一個段,則會添加WARC-Segment-Total-Length記錄,標(biāo)識整個視頻文件的大小。分段記錄示例如圖2所示,左邊為第一個分段記錄,右邊為第二個分段記錄,連線標(biāo)出了兩個記錄之間的聯(lián)系。

去冗余功能(revisit):存檔網(wǎng)絡(luò)資源時會經(jīng)常出現(xiàn)重復(fù)資源現(xiàn)象,比如兩個網(wǎng)頁都使用了同一張圖片,如果這些重復(fù)資源都存檔,會浪費存儲空間。WARC標(biāo)準(zhǔn)提供了revisit記錄,當(dāng)軟件進行網(wǎng)絡(luò)資源抓取時,通過計算校驗碼發(fā)現(xiàn)要存檔的資源是已經(jīng)存檔過的記錄,則不再重復(fù)存儲這個資源,而是新建一條revisit記錄。記錄的WARC-Target-URI為抓取的URL,WARC-Refers-To為已存檔的資源的WARC-Record-ID,WARC-Refers-To-Target-URI為已存檔記錄的WARC-Target-URI,WARC-Refers-To-Date為已存檔記錄的WARC-Date,revisit記錄不記錄內(nèi)容塊,此時Content-Length為0,也可將內(nèi)容設(shè)置為HTTP/1.x 304 Not Modified消息,Content-Length設(shè)為返回內(nèi)容長度。

轉(zhuǎn)換功能(conversion):轉(zhuǎn)換是指格式轉(zhuǎn)換,WARC存檔的目的是永久保存,在存檔網(wǎng)絡(luò)資源時,如果發(fā)現(xiàn)要存檔的資源不符合永久保存格式要求,則除了原始資源記錄外,還可以進行格式轉(zhuǎn)換,并建立conversion記錄。conversion記錄的WARC-Refers-To為原始資源記錄的WARC-Record-ID,WARC-Block-Digest為記錄的校驗碼。除了conversion記錄,還應(yīng)添加metadata記錄,記錄轉(zhuǎn)換過程的元數(shù)據(jù),包括轉(zhuǎn)換軟件、轉(zhuǎn)換時間、原格式、轉(zhuǎn)換格式等。

壓縮功能(Compression):WARC存檔產(chǎn)生的數(shù)據(jù)量是很驚人的,以存檔一個百度搜索首頁為例,這是一個包含元素很少的網(wǎng)頁,產(chǎn)生的Warc文件大約有700K左右,復(fù)雜的網(wǎng)頁存檔文件會更大。為了節(jié)省空間,WARC標(biāo)準(zhǔn)雖然沒有提供內(nèi)置的壓縮支持,但給出了外部壓縮方案。WARC推薦使用GZIP壓縮算法[RFC 1952],這是一個開源無損壓縮算法,GZIP文件可以由多個獨立壓縮的部分構(gòu)成,WARC標(biāo)準(zhǔn)建議在壓縮時對WARC文件的每個記錄分別壓縮,這樣在外部索引和訪問時不需要解壓整個WARC文件,不影響檢索效率。WARC收割軟件在生成WARC文檔時可以將WARC記錄逐條使用GZIP算法壓縮,并在索引中記錄WARC的偏移量和大小,最后形成GZIP壓縮形式的WARC文檔,要讀取某條記錄時,通過偏移量和大小直接獲取壓縮后的記錄內(nèi)容,解壓即可,不影響使用效率。WARC標(biāo)準(zhǔn)建議壓縮后的文件擴展名為“.warc.gz”。

二、WARC標(biāo)準(zhǔn)的應(yīng)用情況

優(yōu)秀的標(biāo)準(zhǔn)離不開好的應(yīng)用環(huán)境支持,WARC標(biāo)準(zhǔn)是一套成熟、優(yōu)秀的存儲格式標(biāo)準(zhǔn),可用于網(wǎng)絡(luò)信息資源的存儲、交換和利用。互聯(lián)網(wǎng)保存聯(lián)盟IIPC一直在不遺余力地推廣此項標(biāo)準(zhǔn),構(gòu)建了成熟的WARC應(yīng)用生態(tài)圈。WARC格式也在IIPC聯(lián)盟單位得到廣泛的應(yīng)用,涌現(xiàn)了許多優(yōu)秀的Web Archive項目,比較知名的有美國互聯(lián)網(wǎng)檔案館IA的Archive-it項目、澳大利亞國家圖書館的澳大利亞網(wǎng)絡(luò)文獻資源保管與利用系統(tǒng)PANDORA、日本國立圖書館NDL的長期保存系統(tǒng)WARP、荷蘭國家圖書館主持的網(wǎng)絡(luò)化歐洲存儲圖書館項目NEDLIB、英國的網(wǎng)絡(luò)信息保存聯(lián)盟計劃UKWAC等。

2013年3月,互聯(lián)網(wǎng)檔案館IA的Archive-It項目團隊發(fā)布了Web Archiving生命周期模型白皮書[2],分享了Archive-It項目及其合作伙伴在Web歸檔領(lǐng)域的實踐經(jīng)驗和理論總結(jié)。Archive-It項目團隊深入剖析總結(jié)了哥倫比亞大學(xué)圖書館、阿爾伯塔大學(xué)圖書館、蒙大拿州立圖書館、北卡州立圖書館、北卡州檔案館、克萊頓大學(xué)圖書館六家合作伙伴Web存檔項目建設(shè)中的經(jīng)驗教訓(xùn),將技術(shù)和管理相結(jié)合,提出了網(wǎng)絡(luò)資源存檔生命周期模型Web Archiving Life Cycle Model(WALCM),目的是為需要進行網(wǎng)絡(luò)資源歸檔的機構(gòu)提供通用的建設(shè)流程和建設(shè)模型,WALCM模型如圖3所示。

模型的核心是Web存檔集合,也就是WARC文件集,是Web存檔形成的結(jié)果。最外層代表政策(Policy),是指Web存檔活動相關(guān)的政策面,如存檔過程涉及的法律法規(guī)、存繳制度等,這些都會影響Web存檔的范圍和權(quán)限。政策層的下一層是從機構(gòu)角度理解的Web存檔過程,包括五個方面。一是愿景及目標(biāo)(Vision and Objectives),即機構(gòu)進行Web歸檔的目的。二是資源與流程(Resources and Workflow),即機構(gòu)建設(shè)Web歸檔項目可利用的資金、人力、智力、合作方等資源及利用這些資源的方法,其中人力資源尤其重要。三是利用(Access/Use/Reuse),即機構(gòu)是否需要將存檔資源提供給公眾,如何提供利用,如何管理公眾的利用行為;四是保存(Preservation),即機構(gòu)如何保存在Web歸檔活動中形成的數(shù)據(jù)及元數(shù)據(jù)。五是風(fēng)險控制(Risk Management),即機構(gòu)如何處理Web歸檔中存在的風(fēng)險,包括版權(quán)問題、授權(quán)問題、利用問題,如在采集過程中是否遵循robots.txt機器人協(xié)議等。第三層是元數(shù)據(jù)與描述層(Metadata/Description),Archive-It團隊將元數(shù)據(jù)與描述處理從具體環(huán)節(jié)上升到整個生命周期,目的是強調(diào)元數(shù)據(jù)處理活動是貫穿于Web存檔全過程的,Web文檔資源收集、存儲、分析、利用的全過程都會產(chǎn)生大量元數(shù)據(jù),這些元數(shù)據(jù)都應(yīng)作為Web記憶的一部分保存下來。第四層是實踐層,即Web存檔需要完成的具體工作,包括五個步驟,分別是選擇與評估、確定歸檔范圍、數(shù)據(jù)獲取、數(shù)據(jù)存儲與組織、數(shù)據(jù)質(zhì)量管理與分析利用,五個步驟形成一個流程閉環(huán),雖然有些內(nèi)容是基于Archive-It平臺的使用經(jīng)驗,但仍然有借鑒意義。

選擇與評估(appraisal and selection)主要是確定采集的網(wǎng)站列表,目前Web存檔主要有兩種策略,一種是全采集策略,即采集所有的網(wǎng)站,如互聯(lián)網(wǎng)檔案館采用的就是這種策略;一種是選擇采集策略,即只采集特定的網(wǎng)站或是特定主題和事件相關(guān)的網(wǎng)頁,如美國國會圖書館Minerva項目就只收集了2002冬奧會的專題網(wǎng)站。對大部分機構(gòu)來說,Web歸檔應(yīng)該采取的都是選擇采集策略,選擇與評估階段主要就是確定要采集的網(wǎng)站URL的列表。確定歸檔范圍(Scoping)用于確定每個網(wǎng)站采集的網(wǎng)頁范圍,是采取全部網(wǎng)頁還是部分網(wǎng)頁。比如,可以只采集網(wǎng)站某個欄目,或是僅僅采集某種類型的文件,如PDF文檔。數(shù)據(jù)獲取(Data Capture)是指使用爬蟲軟件采集需要的網(wǎng)絡(luò)資源,此階段需要考慮爬蟲軟件的具體設(shè)置,數(shù)據(jù)采集的頻率和時間等細節(jié)。Archive-It提供的開源爬蟲軟件Heritrix就提供了豐富的定制功能。從統(tǒng)計數(shù)據(jù)來看,針對不同的采集源機構(gòu)一般都會設(shè)置不同的采集策略,而且數(shù)據(jù)采集有時候會產(chǎn)生意想不到的結(jié)果,如采集的數(shù)據(jù)容量大大超出原來估計的容量等等,這些都需要在采集過程中不斷調(diào)整和干預(yù)。存儲與組織(Storage and Organization)是指制訂采集后數(shù)據(jù)的存儲和管理計劃,包括短期存儲和長期存儲計劃,存儲副本問題,如何建立數(shù)據(jù)索引等等。數(shù)據(jù)質(zhì)量分析(Quality Assurance and Analysis)是指檢查獲取的數(shù)據(jù)質(zhì)量和完整性,可以通過查看爬蟲程序生成的抓取報告或是使用Archive-It提供的Wayback回放軟件檢查數(shù)據(jù)質(zhì)量,也可以使用相關(guān)的軟件工具來進行數(shù)據(jù)質(zhì)量鑒定,如北卡州立圖書館就使用了一個開源系統(tǒng)Constraint-Analysis來檢查數(shù)據(jù)采集結(jié)果,該系統(tǒng)可以可視化地展現(xiàn)WARC文檔中的資源,用戶可據(jù)此判斷抓取的資源是否在收集范圍內(nèi)。

目前,WARC應(yīng)用的研究重點主要集中在以下幾個方面。

一是社交媒體信息的存檔問題。自誕生起,Web存檔的對象主要是各類網(wǎng)站,包括政府網(wǎng)站和商業(yè)網(wǎng)站。但隨著社交媒體的出現(xiàn)和廣泛應(yīng)用,社交媒體逐漸成為網(wǎng)絡(luò)信息資源的主要來源,如何存檔這些數(shù)字記憶也成為Web存檔領(lǐng)域的研究重點。社交媒體存檔的研究包括存檔的法律法規(guī)依據(jù)、存檔的意義、存檔的選擇范圍、采集頻率、存檔的技術(shù)等。比如Twitter、微博等形式的社交媒體如何存檔問題。微博是指140字內(nèi)的短網(wǎng)文,支持圖片、視頻,其結(jié)構(gòu)和傳統(tǒng)網(wǎng)頁完全不同,如何處理這種形式變化?最終生成的WARC文件結(jié)構(gòu)如何設(shè)計?微博采集的對象如何選擇,是按賬號采集還是按話題采集?采集時只采集微博還是包括微博后面的評論?這些都是需要研究探討和解決的問題。

二是網(wǎng)絡(luò)資源采集技術(shù)的發(fā)展。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,特別是HTML5標(biāo)準(zhǔn)的推廣,網(wǎng)頁的形式也在發(fā)生變化,Javascript腳本、Flash組件、CSS樣式表、HTML5等新的網(wǎng)頁編碼方式和交互設(shè)計,流媒體的大量使用等,這些變化導(dǎo)致很多傳統(tǒng)的網(wǎng)絡(luò)爬蟲程序失效。新的網(wǎng)絡(luò)采集解決方案也在出現(xiàn),如使用無頭模式的Chrome headless配合Selenium來歸檔Javascript腳本較多的網(wǎng)站,通過虛擬瀏覽器瀏覽行為抓取數(shù)據(jù)。使用youtube-dl腳本下載流媒體視頻等。

三是與大數(shù)據(jù)、云計算等新技術(shù)的結(jié)合。云計算與大數(shù)據(jù)已成為當(dāng)前的主流技術(shù),特別是在大規(guī)模數(shù)據(jù)的處理方面。Web歸檔會產(chǎn)生大量的WARC存檔文件,這些文件的存儲、分析、利用等都可以借助云計算和大數(shù)據(jù)的力量,提高WARC文件處理的效率、WARC數(shù)據(jù)分析的質(zhì)量、WARC數(shù)據(jù)可視化展示效果等。互聯(lián)網(wǎng)檔案館提供的WARC開源分析工具ArchiveSpark[3]就使用了大數(shù)據(jù)軟件框架Spark,可以實現(xiàn)大量WARC數(shù)據(jù)的處理、提取和分析。

三、WARC標(biāo)準(zhǔn)在我國檔案領(lǐng)域的應(yīng)用建議

WARC標(biāo)準(zhǔn)雖然在國外應(yīng)用得非常廣泛,但在國內(nèi)應(yīng)用案例并不多。目前,國內(nèi)WARC標(biāo)準(zhǔn)最大的應(yīng)用項目是中國國家圖書館的網(wǎng)絡(luò)信息資源采集與保存試驗項目(Web Information Collection and Preservation WICP)[4]。該項目2003年開始啟動,目的是對中國境內(nèi)的互聯(lián)網(wǎng)資源進行采集與保存,采用的工具是IIPC提供的Web歸檔工具包,存檔格式為WARC,從項目試驗效果看,雖然IIPC的工具包在中文處理、兼容性等方面存在一些問題,但總體效果比較滿意。2007年,國家圖書館成為IIPC聯(lián)盟成員機構(gòu)。2019年4月,國家圖書館啟動了國家互聯(lián)網(wǎng)信息戰(zhàn)略保存項目,旨在建設(shè)覆蓋全國的分級分布式中文互聯(lián)網(wǎng)信息資源采集與保存體系,仍然沿用WARC格式標(biāo)準(zhǔn)。在檔案領(lǐng)域,目前公開的應(yīng)用實踐只有2015年河南省鄭州市檔案局(館)進行的政府網(wǎng)站歸檔工作試點[5],試點工作歸檔對象是以gov.cn域名結(jié)尾的鄭州市所有政府部門、各級黨委的網(wǎng)站,使用的是互聯(lián)網(wǎng)博物館提供的工具包,存檔格式為WARC,并進行了壓縮處理。這次試點重點包括WARC軟件工具使用、網(wǎng)站采集策略制定、WARC存儲管理,試點結(jié)果特別指出網(wǎng)站歸檔的速度和存儲容量問題,雖然已經(jīng)進行了壓縮處理,但對七個政府網(wǎng)站的一次采集,采集數(shù)據(jù)就達1.5G,因此得出采用云存儲方案的必要性。

WARC標(biāo)準(zhǔn)不僅是優(yōu)秀的網(wǎng)絡(luò)資源長期保存和交換格式,也適用于其他傳統(tǒng)數(shù)字對象的長期保存,如丹麥皇家圖書館就曾使用NetArchiveSuite系統(tǒng)將圖像資源保存為WARC格式,取得了很好的效果[6]。WARC被采用為國家標(biāo)準(zhǔn),目的就是為了有效推動WARC在我國網(wǎng)站資源歸檔和數(shù)字對象長期保存領(lǐng)域的應(yīng)用。

要推動WARC標(biāo)準(zhǔn)及網(wǎng)絡(luò)資源歸檔在我國檔案領(lǐng)域的應(yīng)用,筆者認為可從兩個方面著手。

一是強化政策指引和制度支持。我國檔案領(lǐng)域?qū)τ诰W(wǎng)絡(luò)資源歸檔的研究起步較早,2006年,就有檔案學(xué)者開始研究網(wǎng)站的歸檔問題。政策層面的起步也較早,2014年底,時任國家檔案局局長楊冬權(quán)就提出要盡快啟動各級國家政府網(wǎng)站網(wǎng)頁存檔工作。2016年4月印發(fā)的《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》中明確提出“研究制定重要網(wǎng)頁資源的采集和社交媒體文件的歸檔管理辦法;加強電子檔案長期保存技術(shù)研究與應(yīng)用。”2016年11月,中辦、國辦印發(fā)的《國家電子文件管理“十三五”規(guī)劃》明確提出“推進政府網(wǎng)頁及電子郵件、音視頻等電子文件歸檔”。2017年5月,國務(wù)院下發(fā)的國辦發(fā)〔2017〕47號《國務(wù)院辦公廳關(guān)于印發(fā)政府網(wǎng)站發(fā)展指引的通知》[7]中明確提出了網(wǎng)頁歸檔的要求,“要求政府網(wǎng)站遇整合遷移、改版等情況,要對有價值的原網(wǎng)頁進行歸檔處理。歸檔后的頁面要能正常訪問。”47號文件還規(guī)定了網(wǎng)頁標(biāo)簽規(guī)范,“要求政府網(wǎng)站以meta標(biāo)簽的形式,對網(wǎng)站名稱、政府網(wǎng)站標(biāo)識碼、欄目類別等關(guān)鍵要素進行標(biāo)記,標(biāo)簽值不能為空。”這些元數(shù)據(jù)都是網(wǎng)頁存檔及后續(xù)分析利用的基礎(chǔ)。2017年7月,國家標(biāo)準(zhǔn)局將WARC引入國家標(biāo)準(zhǔn)目的就是解決存檔格式問題。對社交媒體的歸檔,2017年實施的《電子文件歸檔與電子檔案管理規(guī)范》和2018年印發(fā)的《機關(guān)檔案管理規(guī)定》也都明確提出社交媒體文件應(yīng)該歸檔。

從政策層面來看,網(wǎng)絡(luò)資源歸檔的要求是明確的,目前亟需解決的是配套的實施細則和制度安排問題。實施細則需要重點明確政府網(wǎng)站和政府社交媒體的歸檔范圍,歸檔頻率,歸檔中的元數(shù)據(jù)采集要求,WARC存檔文件的采集、封裝、元素命名、打包等使用規(guī)范,歸檔文件的保管期限、存儲要求,WARC存檔文件的索引、分析、檢索、展現(xiàn)、利用規(guī)范等等,為網(wǎng)絡(luò)資源歸檔人員提供明確、清晰的操作指導(dǎo)。制度安排方面包括探索建立政府網(wǎng)絡(luò)信息存繳制度,明確政府部門與檔案機構(gòu)在政府網(wǎng)絡(luò)信息歸檔活動中的任務(wù)分工,變檔案機構(gòu)被動采集為政府部門主動存繳。制定網(wǎng)絡(luò)資源歸檔相關(guān)的保障制度,從組織機構(gòu)、人力、物力等方面給予制度保障。結(jié)合國內(nèi)政府網(wǎng)站及社交媒體的特點,制定相關(guān)的政府網(wǎng)站網(wǎng)頁設(shè)計規(guī)范、元數(shù)據(jù)標(biāo)注規(guī)范、社交媒體采集規(guī)范等歸檔標(biāo)準(zhǔn)規(guī)范。

二是加強合作交流與技術(shù)引進。網(wǎng)絡(luò)資源歸檔工作是一項技術(shù)性很強的工作,WARC標(biāo)準(zhǔn)也是一個專業(yè)性很強的技術(shù)標(biāo)準(zhǔn)。檔案領(lǐng)域要推動網(wǎng)絡(luò)資源歸檔工作和WARC標(biāo)準(zhǔn)的應(yīng)用,應(yīng)加強國際國內(nèi)合作交流與技術(shù)引進。互聯(lián)網(wǎng)保存聯(lián)盟IIPC是Web Archiving領(lǐng)域影響最大的國際交流合作平臺,其成員除了部分國家的國家圖書館外,也包含一些檔案機構(gòu),如英國國家檔案館(The National Archives,U.K.)。我國國家圖書館已于2007年加入IIPC,檔案界可效仿加入國際檔案理事會的做法,以中國檔案學(xué)會的名義申請加入IIPC聯(lián)盟,通過IIPC這個國際平臺加強與聯(lián)盟機構(gòu)的合作交流。網(wǎng)絡(luò)信息存檔是一項巨大工程,人力、物力、財力耗費巨大。中國國家圖書館作為國內(nèi)最早使用WARC標(biāo)準(zhǔn),開展大規(guī)模網(wǎng)絡(luò)資源歸檔工作的單位,在網(wǎng)絡(luò)資源歸檔方面積累了豐富的實踐經(jīng)驗和研究成果。數(shù)字資源長期保存相關(guān)的理論與技術(shù)也一直是我國圖書館界研究的一個重點,國內(nèi)部分商業(yè)機構(gòu)也在研發(fā)推廣相關(guān)的技術(shù)產(chǎn)品。檔案界應(yīng)加強與圖書館界、商業(yè)機構(gòu)的合作和技術(shù)交流,做好協(xié)作分工。如與國家圖書館互聯(lián)網(wǎng)信息戰(zhàn)略保存項目合作,由檔案機構(gòu)負責(zé)政府網(wǎng)站及社交媒體的歸檔工作,國家圖書館及相關(guān)機構(gòu)負責(zé)其他網(wǎng)站和社交媒體的歸檔工作,通過WARC標(biāo)準(zhǔn)實行數(shù)據(jù)對接,共同完成保存中國互聯(lián)網(wǎng)數(shù)字記憶的任務(wù)。在技術(shù)上,與國家圖書館和商業(yè)機構(gòu)合作,研發(fā)適合我國檔案機構(gòu)特點的網(wǎng)絡(luò)歸檔軟件;指導(dǎo)政府網(wǎng)站發(fā)布系統(tǒng)升級改造,實現(xiàn)網(wǎng)頁發(fā)布與網(wǎng)頁存檔同步進行,定期由網(wǎng)頁發(fā)布系統(tǒng)生成WARC文件并存繳到檔案機構(gòu);探索WARC標(biāo)準(zhǔn)與檔案機構(gòu)大量采用的OAIS參考模型相結(jié)合的解決方案等。

參考文獻

[1]中國國家標(biāo)準(zhǔn)化管理委員會.網(wǎng)絡(luò)資源存檔格式標(biāo)準(zhǔn)GB/T 33994-2017信息和文獻 WARC文件格式最新發(fā)布 [EB/OL].[2017-07-22].https://www.sohu.com/a/159096915_734807.

[2]Archive-It.WAAnnouncing the Web Archiving Life Cycle Model[EB/OL].[2013-03-11].https://archive-it.org/blog/post/announcing-the-web-archiving-life-cycle-model/.

[3] helgeho.ArchiveSpark[EB/OL].[2020-03-11].https://github.com/helgeho/ArchiveSpark.

[4]張煒,張文靜.中國網(wǎng)絡(luò)信息采集工作研究現(xiàn)狀分析——以國家圖書館為例[J].圖書館建設(shè),2008(7).

[5]石華.檔案館保存政府網(wǎng)站策略研究——以鄭州市檔案局館為例[J].檔案管理,2016(1).

[6]Mikis Seth Sorensen.NetArchiveSuite[EB/OL].[2020-01-07].https://sbforge.org/display/NAS/NetarchiveSuite.

[7]國務(wù)院辦公廳.國務(wù)院辦公廳關(guān)于印發(fā)政府網(wǎng)站發(fā)展指引的通知[EB/OL].[2017-05-15].http://www.gov.cn/zhengce/content/2017-06/08/content_5200760.htm.

猜你喜歡
網(wǎng)絡(luò)資源標(biāo)準(zhǔn)資源
2022 年3 月實施的工程建設(shè)標(biāo)準(zhǔn)
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
忠誠的標(biāo)準(zhǔn)
美還是丑?
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
一家之言:新標(biāo)準(zhǔn)將解決快遞業(yè)“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
網(wǎng)絡(luò)資源在高中班級管理中的運用
談網(wǎng)絡(luò)資源在大學(xué)計算機教學(xué)中的應(yīng)用
主站蜘蛛池模板: 日韩一级毛一欧美一国产| 青青青视频91在线 | 国产一区二区三区免费观看| 成人韩免费网站| 国产在线啪| 亚洲精品麻豆| 成年人久久黄色网站| 欧美在线视频a| 欧美日韩免费观看| 一区二区在线视频免费观看| 99热国产这里只有精品9九 | 国产精品无码翘臀在线看纯欲| 国产xxxxx免费视频| 91蜜芽尤物福利在线观看| 亚洲AⅤ波多系列中文字幕 | 欧美色99| 亚洲AⅤ无码日韩AV无码网站| 午夜日韩久久影院| 国产一区二区三区免费| 亚洲免费三区| 欧美精品综合视频一区二区| 无码国内精品人妻少妇蜜桃视频| 亚洲天堂视频网| 亚洲码在线中文在线观看| 一本大道无码高清| 九九九精品成人免费视频7| 国产精品99久久久久久董美香| 成人在线不卡| 亚洲经典在线中文字幕| 欧美精品v欧洲精品| 欧美成人午夜视频免看| 中文字幕人妻无码系列第三区| 成年人久久黄色网站| 黄色国产在线| 久久亚洲黄色视频| 色亚洲激情综合精品无码视频 | 亚国产欧美在线人成| 91在线精品麻豆欧美在线| 精品夜恋影院亚洲欧洲| 日韩欧美中文在线| 欧美色综合网站| 亚洲综合激情另类专区| 久久久久久尹人网香蕉| 欧美亚洲国产日韩电影在线| 久久a毛片| 狼友视频国产精品首页| 欧洲欧美人成免费全部视频| 国产精品女人呻吟在线观看| 亚洲精品中文字幕无乱码| 538国产在线| 欧美成人综合视频| 国产另类视频| 日韩精品毛片人妻AV不卡| 亚洲av无码久久无遮挡| 亚洲国产综合自在线另类| аv天堂最新中文在线| 四虎永久在线| 一级黄色欧美| 国产精品美女自慰喷水| 欧美一级黄片一区2区| 国产精品嫩草影院av | 亚洲开心婷婷中文字幕| 久久性视频| 中文字幕亚洲综久久2021| 欧美国产菊爆免费观看| 日韩毛片在线视频| 精品人妻无码区在线视频| 亚洲成人播放| 国产理论一区| 国模私拍一区二区| 国产一区二区福利| 特级aaaaaaaaa毛片免费视频| 天堂va亚洲va欧美va国产| 四虎永久在线视频| 国产三区二区| AV在线天堂进入| 精品国产福利在线| 国产毛片基地| 久一在线视频| 欧美日韩一区二区三区四区在线观看| 婷婷综合在线观看丁香| 国产精品久久久久无码网站|