999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)建設(shè)研究與實(shí)踐

2015-07-26 02:29:50咸容禹李佳臨陶偉
微型電腦應(yīng)用 2015年8期
關(guān)鍵詞:分類信息

咸容禹,李佳臨,陶偉

網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)建設(shè)研究與實(shí)踐

咸容禹,李佳臨,陶偉

網(wǎng)頁(yè)電子文件是重要的原生網(wǎng)絡(luò)信息資源,具有很大的保存、管理和利用價(jià)值,目前關(guān)于網(wǎng)頁(yè)類電子文件歸檔管理與應(yīng)用的研究和報(bào)道仍是一個(gè)熱點(diǎn)。通過(guò)對(duì)網(wǎng)頁(yè)文件的特點(diǎn)進(jìn)行研究與分析,提出了參照紙質(zhì)檔案的管理模式,以 OFD版式文檔作為電子文件的存儲(chǔ)格式,并通過(guò)網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)的建設(shè)實(shí)踐,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)電子文件從采集、歸檔、存儲(chǔ)到利用的全生命周期管理。

網(wǎng)頁(yè);電子文件;爬蟲;OFD;分類方案;網(wǎng)頁(yè)歸檔

0 引言

網(wǎng)頁(yè)電子文件是重要的原生數(shù)字信息,具有獨(dú)特的藝術(shù)和史料價(jià)值,是信息回溯和分析的重要資源,隨著電子文件法律地位的確立,也同時(shí)具備法律憑證的作用[1]。近年來(lái)隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展和深入,網(wǎng)頁(yè)文件增長(zhǎng)量驚人,已經(jīng)大大超過(guò)了傳統(tǒng)信息媒介,但與此同時(shí),網(wǎng)頁(yè)文件由于其易更新、易發(fā)布、時(shí)效性強(qiáng),變化迅速等特點(diǎn),其流失量也非常驚人。電子文件歸檔管理系統(tǒng)建設(shè)的目的,是參照傳統(tǒng)紙檔案的管理模式,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)電子文件從收集、積累、歸檔,到保管、處置、利用、存儲(chǔ)和銷毀的全生命周期管理,對(duì)推動(dòng)網(wǎng)頁(yè)信息的長(zhǎng)期保存,使其能夠在經(jīng)濟(jì)和社會(huì)活動(dòng)中被檢索和二次利用具有重要意義。

1 網(wǎng)頁(yè)電子文件的特點(diǎn)與保存現(xiàn)狀

1.1 網(wǎng)頁(yè)電子文件的特殊性

一直以來(lái),對(duì)于原生數(shù)字信息的保存,多數(shù)局限在文書類電子文件,專業(yè)類以及業(yè)務(wù)類電子文件的范疇。但是網(wǎng)頁(yè)與傳統(tǒng)電子文件不同,具有活性、關(guān)聯(lián)性、立體性等種種特點(diǎn),傳統(tǒng)的電子文件管理系統(tǒng)無(wú)法適用于網(wǎng)頁(yè)電子文件這類特殊的歸檔管理對(duì)象。

傳統(tǒng)電子文件的內(nèi)容是固化的,而網(wǎng)頁(yè)內(nèi)容是不斷活動(dòng)變化的,同名網(wǎng)頁(yè)隨著時(shí)間流逝產(chǎn)生無(wú)數(shù)個(gè)軌跡史料,因此在網(wǎng)頁(yè)信息的采集、保存和管理過(guò)程中需要引入時(shí)間軸概念對(duì)歸檔對(duì)象進(jìn)行定位。其次,網(wǎng)頁(yè)電子文件具有內(nèi)部關(guān)聯(lián)性,在瀏覽器和服務(wù)器端應(yīng)用系統(tǒng)的支持下,通過(guò)眾多內(nèi)部元素(圖片、文字、HTML標(biāo)簽等)可以超鏈接到其它網(wǎng)頁(yè),需要考慮在歸檔后如何保持網(wǎng)頁(yè)鏈接原有的關(guān)聯(lián)性的問(wèn)題。此外,網(wǎng)頁(yè)存在立體性,一個(gè)專題乃至一個(gè)網(wǎng)站,憑借眾多網(wǎng)頁(yè)間的層級(jí)和跳轉(zhuǎn)關(guān)聯(lián)起來(lái),構(gòu)成一個(gè)整體,共同傳遞某個(gè)完整的主題和含義。如何原滋原味地保留網(wǎng)頁(yè)間的立體性和層級(jí)關(guān)系,也是網(wǎng)頁(yè)歸檔要重點(diǎn)考慮的需求。

1.2 網(wǎng)頁(yè)電子文件歸檔研究和保存現(xiàn)狀

我國(guó)在檔案管理領(lǐng)域有一系列專門的標(biāo)準(zhǔn)和規(guī)范,用于對(duì)檔案的組織、管理和分類。如DA/T 1-2000《檔案工作基本術(shù)語(yǔ)》[2]、GB/T XXXX-2008《文書檔案案卷格式》[3]等檔案管理相關(guān)標(biāo)準(zhǔn)規(guī)范、GB/T 18894—201X《電子文件歸檔與電子檔案管理規(guī)范》[4]等標(biāo)準(zhǔn)規(guī)范。

國(guó)際上對(duì)于網(wǎng)頁(yè)存檔工作的研究[5]主要包括美國(guó)國(guó)會(huì)圖書館的網(wǎng)頁(yè)信息存檔(The Library of Congress Web Archives,簡(jiǎn)稱 LCWA)項(xiàng)目[6]、IA(Internet Archive)的Archive-It服務(wù),以及澳大利亞、英國(guó)、北歐等一些國(guó)家圖書館開展的實(shí)驗(yàn)性研究;國(guó)內(nèi)相對(duì)成熟的案例包括“中國(guó)Web 信息博物館(Web InfoMall)”項(xiàng)目和中國(guó)國(guó)家圖書館的 WICP 項(xiàng)目。這些案例均是對(duì)原生態(tài)網(wǎng)頁(yè)信息進(jìn)行抓取和保存,并基于不同的專題提供分類瀏覽和查詢服務(wù)。但是對(duì)網(wǎng)頁(yè)信息的保存和分類基本都是平面化的,在網(wǎng)頁(yè)關(guān)聯(lián)的立體性、時(shí)間軸定位、獨(dú)立于系統(tǒng)的保存格式等細(xì)節(jié)問(wèn)題上還有進(jìn)一步研究和突破的空間。

2 系統(tǒng)總體框架

網(wǎng)頁(yè)電子文件的特殊性決定了在系統(tǒng)設(shè)計(jì)思路和技術(shù)框架構(gòu)建上需要具有更多的探索性和創(chuàng)新性[10-15]。目的是遵循傳統(tǒng)檔案管理標(biāo)準(zhǔn)和規(guī)范的基礎(chǔ)上,找到網(wǎng)頁(yè)電子文件保存與檔案管理標(biāo)準(zhǔn)結(jié)合的新模式,使用戶能夠像查閱普通檔案資料一樣查閱網(wǎng)頁(yè)信息,同時(shí)創(chuàng)新性地對(duì)網(wǎng)站內(nèi)容進(jìn)行以時(shí)序?yàn)榛鶞?zhǔn)的風(fēng)貌重現(xiàn)、以主題為基準(zhǔn)的內(nèi)容聚合,并立體地呈現(xiàn)網(wǎng)頁(yè)之間的關(guān)聯(lián)關(guān)系。基于上述目標(biāo),本文在文獻(xiàn)[16-20]的研究基礎(chǔ)上,提出一種具有一定通用性和靈活性的網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)原型,對(duì)現(xiàn)有的網(wǎng)頁(yè)立體性保存、檔案化分類管理、獨(dú)立于系統(tǒng)的封裝與保存格式等技術(shù)問(wèn)題進(jìn)行嘗試性研究與實(shí)踐,為實(shí)現(xiàn)網(wǎng)頁(yè)電子文件歸檔管理與應(yīng)用提供一種探索性和原創(chuàng)性的范例。

網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)總體框架如圖1所示:

圖1 網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)總體框架圖

網(wǎng)頁(yè)采集子系統(tǒng)發(fā)起采集指令,對(duì)指定網(wǎng)站的網(wǎng)頁(yè)及元數(shù)據(jù)進(jìn)行定向采集;OFD轉(zhuǎn)換子系統(tǒng)將HTML網(wǎng)頁(yè)文件轉(zhuǎn)換為OFD版式文件;電子文件管理子系統(tǒng)為網(wǎng)頁(yè)存檔信息構(gòu)建全文索引并進(jìn)行管理,同時(shí)對(duì)外提供應(yīng)用服務(wù)接口。

網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)實(shí)現(xiàn)對(duì)電子文件的全生命周期管理,數(shù)據(jù)業(yè)務(wù)流程如圖2所示:

圖2 網(wǎng)頁(yè)電子文件歸檔管理系統(tǒng)的業(yè)務(wù)實(shí)現(xiàn)流程圖

①啟動(dòng)采集任務(wù),對(duì)目標(biāo)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行爬取,通過(guò)版本識(shí)別完成網(wǎng)頁(yè)的全量與增量抓取。②對(duì)爬取到的HTML網(wǎng)頁(yè)進(jìn)行篩選和過(guò)濾處理;在全文檢索庫(kù)為網(wǎng)頁(yè)創(chuàng)建全文索引;同時(shí)將網(wǎng)頁(yè)元數(shù)據(jù)抽取到電子文件管理子系統(tǒng)中。③調(diào)用OFD轉(zhuǎn)換子系統(tǒng)完成OFD版式文件轉(zhuǎn)換。④電子文件管理子系統(tǒng)捕獲OFD文件,按照預(yù)先定義好的文件分類方案和元數(shù)據(jù)方案對(duì)網(wǎng)頁(yè)進(jìn)行登記和著錄。⑤在電子文件管理子系統(tǒng)中可實(shí)現(xiàn)對(duì)電子文件的處置、檢索、期刊制作、在線查閱、離線下載等管理和利用。

3 系統(tǒng)功能設(shè)計(jì)

3.1 網(wǎng)頁(yè)文件采集子系統(tǒng)

網(wǎng)頁(yè)文件采集子系統(tǒng)在對(duì)網(wǎng)頁(yè)文件進(jìn)行采集時(shí),不僅實(shí)現(xiàn)對(duì)目標(biāo)網(wǎng)站的定點(diǎn)定時(shí)定層抓取,同時(shí)還要完成對(duì)數(shù)據(jù)的分析和處理,為文件入庫(kù)和管理做好準(zhǔn)備,網(wǎng)頁(yè)電子文件采集子系統(tǒng)的軟件結(jié)構(gòu)設(shè)計(jì)如圖3所示:

圖3 網(wǎng)頁(yè)文件采集子系統(tǒng)的軟件結(jié)構(gòu)圖

(1)、網(wǎng)頁(yè)爬取引擎

網(wǎng)頁(yè)爬取引擎是基于 Firefox 內(nèi)核的爬取組件,采用XULRunner1.9 瀏覽器內(nèi)核作為頁(yè)面渲染的核心組件,負(fù)責(zé)對(duì)指定URL地址的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行爬取,利用JavaScript為頁(yè)面分析腳本,采用正則表達(dá)式的數(shù)據(jù)提取模型實(shí)現(xiàn)高復(fù)雜頁(yè)面的分析及內(nèi)容提取。

(2)、爬蟲控制器

爬蟲控制器是網(wǎng)頁(yè)采集器的遠(yuǎn)程控制和監(jiān)控的基本入口,支持基于HTTP模式JSON數(shù)據(jù)格式,以及基于Web Service服務(wù)XML格式的遠(yuǎn)程控制接口實(shí)現(xiàn),是實(shí)現(xiàn)爬蟲任務(wù)、爬蟲任務(wù)隊(duì)列、爬取策略等功能的控制接口。

(3)、網(wǎng)頁(yè)代理服務(wù)器

網(wǎng)頁(yè)代理服務(wù)器,是對(duì)爬取到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行“風(fēng)貌”還原的基本支撐模塊,主要負(fù)責(zé)將“原始”網(wǎng)頁(yè)信息進(jìn)行鏈接的重置及資源的去重工作。

(4)、控制臺(tái)

控制臺(tái)是業(yè)務(wù)管理人員的直接入口,通過(guò)控制臺(tái)對(duì)各個(gè)功能模塊中的參數(shù)進(jìn)行配置和管理,完成爬蟲的維護(hù)、監(jiān)控、管理等多種功能。實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)采集流程的運(yùn)行調(diào)控目的。

3.2 OFD轉(zhuǎn)換子系統(tǒng)

OFD轉(zhuǎn)換子系統(tǒng)實(shí)現(xiàn)對(duì)獲取到的原生態(tài)網(wǎng)頁(yè)文件的版式封裝與轉(zhuǎn)換。版式電子文件是一種用頁(yè)面化的形式固定呈現(xiàn)文本、圖形、圖像等信息的文件。出于交換、發(fā)布、存檔的目的,越來(lái)越多的電子文件被制作或轉(zhuǎn)換為版式文件。OFD的全稱為Open Fixed-layout Document Format,是為電子文件管理而制定的國(guó)家版式文檔格式規(guī)范。

同樣是版式文件,與PDF文件格式不同,OFD具有獨(dú)特的存儲(chǔ)格式和對(duì)文件資源的組織方式。每個(gè)OFD文件都是一個(gè)基于XML標(biāo)準(zhǔn)的獨(dú)立數(shù)據(jù)包,采用ZIP壓縮格式,將所有數(shù)據(jù)封裝在一個(gè)包內(nèi)。其中的描述文件采用XML形式,置于包內(nèi)根目錄下,描述了包內(nèi)文件的格式、名稱和具體文件地址;通過(guò)XML描述文件,還可將多個(gè)網(wǎng)頁(yè)之間的鏈接和跳轉(zhuǎn)關(guān)系封裝在一個(gè)OFD文件包內(nèi)。這也就意味著在對(duì)網(wǎng)頁(yè)文件進(jìn)行OFD轉(zhuǎn)換時(shí)是非常靈活的,一個(gè)網(wǎng)頁(yè)可以封裝為一個(gè)OFD文件,多個(gè)網(wǎng)頁(yè)也可以封裝為一個(gè)OFD文件,甚至一個(gè)網(wǎng)站也可以封裝為一個(gè)OFD文件。充分保留網(wǎng)頁(yè)原有的層級(jí)和風(fēng)貌,特別適合于網(wǎng)頁(yè)電子文件的存儲(chǔ)和歸檔。

OFD轉(zhuǎn)換子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)比較獨(dú)立,與電子文件管理子系統(tǒng)是松耦合的集成關(guān)系。OFD轉(zhuǎn)換服務(wù)采用WEB服務(wù)的方式進(jìn)行部署,通過(guò)服務(wù)接口實(shí)現(xiàn)轉(zhuǎn)換任務(wù)的觸發(fā)和任務(wù)執(zhí)行狀況的查詢,并下載轉(zhuǎn)換完成后的OFD文件。OFD轉(zhuǎn)換子系統(tǒng)的軟件結(jié)構(gòu)設(shè)計(jì)如圖4所示:

圖4 OFD轉(zhuǎn)換子系統(tǒng)軟件結(jié)構(gòu)圖

(1)、格式解析組件

獲取網(wǎng)頁(yè)數(shù)據(jù)源,并對(duì)頁(yè)面進(jìn)行拓?fù)浞治龊秃Y選清洗,同時(shí)獲取元數(shù)據(jù)。

(2)、文件排版組件

對(duì)網(wǎng)頁(yè)文件中的每一個(gè)“圖形符號(hào)單元”(可以是文字、圖形和圖像)進(jìn)行解析和精確定位,完成“版式效果”的頁(yè)面渲染和排版。

(3)、版式轉(zhuǎn)換組件

將排版結(jié)果轉(zhuǎn)化為對(duì)應(yīng)的OFD圖元,同時(shí)處理內(nèi)鏈接并對(duì)資源去重。將多個(gè)單頁(yè)OFD文件組合為一個(gè)多頁(yè)文件后,原先頁(yè)面之間基于URL的鏈接動(dòng)作,將被轉(zhuǎn)化為OFD文檔內(nèi)部的頁(yè)面跳轉(zhuǎn)動(dòng)作。合并完成后,同一個(gè)文檔不同頁(yè)面之間的跳轉(zhuǎn)在通用OFD閱讀器內(nèi)部就可以自主完成。此種OFD文件具有了完全的獨(dú)立性,因此,合并后的多頁(yè)OFD適用于作為網(wǎng)頁(yè)電子文件發(fā)布的載體,脫離電子文件系統(tǒng)而轉(zhuǎn)移到其他閱讀終端上進(jìn)行“離線”使用。

(4)、后期處理組件

對(duì)生成的OFD文件增補(bǔ)元數(shù)據(jù),同時(shí)在OFD形成的最后階段,對(duì)全文內(nèi)容進(jìn)行數(shù)字簽名,一方面可確保制作方對(duì)電子文件負(fù)責(zé)(防抵賴),另一方面是確保任何對(duì)此文件的修改能被有效檢測(cè)出來(lái)(防篡改)

3.3 網(wǎng)頁(yè)文件管理子系統(tǒng)

電子文件管理子系統(tǒng)通過(guò)如下功能模塊完成對(duì)電子文件的存儲(chǔ)、管理和利用:

(1)、電子文件捕獲登記模塊

獲取并管理網(wǎng)頁(yè)電子文件,為用戶提供風(fēng)貌類、內(nèi)容類、專題類三種維度的歸檔網(wǎng)頁(yè)在線查閱功能。

(2)、電子文件元數(shù)據(jù)管理模塊

獲取并管理時(shí)間、來(lái)源、標(biāo)題、作者等網(wǎng)頁(yè)電子文件相關(guān)元數(shù)據(jù)。

(3)、分類方案管理模塊

按照檔案領(lǐng)域標(biāo)準(zhǔn)的“宗-類-卷-件”模式,定義和管理網(wǎng)頁(yè)電子文件分類方案體系。

(4)、鑒定處置管理模塊

對(duì)網(wǎng)頁(yè)電子文件進(jìn)行銷毀、移交和續(xù)存。

(5)、檢索利用管理模塊

對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行全文檢索,并可根據(jù)個(gè)人興趣和需求,對(duì)歸檔網(wǎng)頁(yè)進(jìn)行靈活的自定義組卷封裝和打包,制作成期刊,供離線下載和閱讀。

4 系統(tǒng)技術(shù)要點(diǎn)

4.1 智能化采集與處理

原生網(wǎng)頁(yè)信息的采集和前期處理是電子文件歸檔管理的第一環(huán)節(jié),也是非常重要的環(huán)節(jié)。面對(duì)海量網(wǎng)頁(yè)信息,靠人工進(jìn)行清洗和過(guò)濾是不現(xiàn)實(shí)的。高效、智能化的前期處理技術(shù),能夠大量減少人工干預(yù)的工作量,也是對(duì)獲取到的網(wǎng)頁(yè)信息進(jìn)行精確分類、管理和封裝的基礎(chǔ)。

(1)、通過(guò)網(wǎng)站拓?fù)浣Y(jié)構(gòu)分析技術(shù),輔以部分javascript腳本規(guī)則模板,生成精確的分類導(dǎo)航樹,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)內(nèi)容的自動(dòng)分類。

(2)、通過(guò)目標(biāo)網(wǎng)頁(yè)內(nèi)容去噪和解析技術(shù),結(jié)合模板定制與匹配,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)內(nèi)容元數(shù)據(jù)的采集。

(3)、通過(guò)版本控制技術(shù),對(duì)目標(biāo)網(wǎng)頁(yè)進(jìn)行探測(cè)訪問(wèn),與已有頁(yè)面信息進(jìn)行對(duì)比,識(shí)別網(wǎng)頁(yè)的變化,并對(duì)網(wǎng)頁(yè)進(jìn)行版本唯一性控制和同網(wǎng)頁(yè)多版本的保存與記錄。

(4)、通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容、內(nèi)嵌資源和相對(duì)鏈接地址進(jìn)行歸一化處理,將網(wǎng)頁(yè)轉(zhuǎn)換為本地靜態(tài)文件,保證鏈接的有效性和活性,以及網(wǎng)頁(yè)內(nèi)容及樣式的完整性。

4.2 版式封裝與存儲(chǔ)

封裝為OFD格式的版式網(wǎng)頁(yè)電子文件具有多項(xiàng)技術(shù)優(yōu)勢(shì)。

(1)、設(shè)備無(wú)關(guān)性

版式文件的共同優(yōu)勢(shì),即顯示格式與設(shè)備無(wú)關(guān),都能夠以固定版式保存和顯示源文件樣式與風(fēng)貌,具有顯示一致性優(yōu)勢(shì),支持不變形跑版的紙質(zhì)重現(xiàn),是電子文件歸檔的理想文件格式。

(2)、格式開放和標(biāo)準(zhǔn)性

特有的存儲(chǔ)和組織格式,采用通用、標(biāo)準(zhǔn)、開放的xml格式進(jìn)行描述,資源的保存和閱讀不依賴于信息系統(tǒng)的支持,既使失去初始開發(fā)團(tuán)隊(duì)的支持,數(shù)據(jù)依然可長(zhǎng)期被理解和使用。

(3)、鏈接內(nèi)封裝

通過(guò)一系列基于XML標(biāo)準(zhǔn)的描述文件,將網(wǎng)頁(yè)文件的鏈接和跳轉(zhuǎn)關(guān)系封裝在OFD文件內(nèi)部。

(4)、可擴(kuò)展性

特殊的組織結(jié)構(gòu)使OFD格式的網(wǎng)頁(yè)電子文件具有很強(qiáng)的擴(kuò)展性,利用起來(lái)更加靈活方便,無(wú)論是一個(gè)還是一千個(gè)網(wǎng)頁(yè),都能封裝為一個(gè)獨(dú)立的OFD格式電子文件;并且同一個(gè)包內(nèi)的組件資源能夠得到復(fù)用,消除資源冗余,提升空間利用率,非常適用于網(wǎng)頁(yè)電子文件的保存。

(5)、流式閱讀

支持對(duì)版式文件的流式閱讀,大文件的打開速度更快,而且更具安全性。

4.3 多維度分類方案

參照紙質(zhì)檔案的管理模式,將網(wǎng)頁(yè)電子文件的管理與檔案管理標(biāo)準(zhǔn)進(jìn)行了有機(jī)的結(jié)合。其技術(shù)要點(diǎn)在于對(duì)歸檔網(wǎng)頁(yè)分類方案的設(shè)計(jì),清晰明確的分類方案是電子文件管理系統(tǒng)的核心和基礎(chǔ),體現(xiàn)文件的聚合層次和有機(jī)聯(lián)系。方案設(shè)計(jì)遵循傳統(tǒng)檔案管理領(lǐng)域的規(guī)范和標(biāo)準(zhǔn),按照“宗—類(目)—卷—件”序列對(duì)歸檔網(wǎng)頁(yè)進(jìn)行分類,系統(tǒng)基于預(yù)先定義好的分類方案對(duì)電子文件進(jìn)行系統(tǒng)標(biāo)識(shí)和整理,繼而實(shí)現(xiàn)對(duì)電子文件的管理和利用。但是由于網(wǎng)頁(yè)的特殊性,在分類方案設(shè)計(jì)上又與傳統(tǒng)電子文件具有的創(chuàng)新性的變化。

基于風(fēng)貌再現(xiàn)、信息留存的最初目標(biāo),同時(shí)考慮網(wǎng)頁(yè)電子文件的特殊性,在分類方案的實(shí)際應(yīng)用中,將最大組織單位“宗”定義為一個(gè)網(wǎng)站,即每個(gè)獨(dú)立的網(wǎng)站為一個(gè)全宗;將最小單位“件”定義為一個(gè)網(wǎng)頁(yè),即每個(gè)網(wǎng)頁(yè)文件為一件。結(jié)合對(duì)歸檔網(wǎng)頁(yè)的不同利用需求,在每個(gè)宗下,定義3個(gè)內(nèi)置的基礎(chǔ)類(目),既風(fēng)貌類、內(nèi)容類,以及專題類,對(duì)網(wǎng)站內(nèi)容進(jìn)行多維度的組織和分類。分類方案示意圖如圖5所示:

圖5 歸檔網(wǎng)頁(yè)分類方案示意圖

(1)、風(fēng)貌類

風(fēng)貌類定義為對(duì)網(wǎng)站結(jié)構(gòu)、層級(jí)、樣式的原型克隆,完整保存網(wǎng)站的風(fēng)貌和瀏覽體驗(yàn)。由于網(wǎng)頁(yè)是不斷變化的,以首頁(yè)index為例,文件名不變的前提下,每天的內(nèi)容都不相同。基于該特點(diǎn),風(fēng)貌類網(wǎng)頁(yè)的組織確定為以時(shí)間為軸,如以每年為一卷,每月為一子卷,之下再細(xì)分為每天一個(gè)子卷,以當(dāng)天的首頁(yè)OFD文件作為卷入口。可以按照超鏈接的層級(jí)依次點(diǎn)擊,還原一個(gè)真實(shí)完整的網(wǎng)站。

(2)、內(nèi)容類

內(nèi)容類的電子文件的保存與網(wǎng)站風(fēng)貌和層級(jí)結(jié)構(gòu)無(wú)關(guān),重在對(duì)信息內(nèi)容的全息保存和利用,因此內(nèi)容類網(wǎng)頁(yè)的組織確定為以內(nèi)容分類為軸,如新聞?lì)悺⒎ㄒ?guī)類、政務(wù)類等等。不同的內(nèi)容分類構(gòu)成卷與子卷,每個(gè)網(wǎng)頁(yè)為一件。

(3)、專題類

除風(fēng)貌及常設(shè)欄目?jī)?nèi)容,每個(gè)網(wǎng)站都會(huì)有針對(duì)熱點(diǎn)推出的臨時(shí)性專題,每個(gè)專題都相當(dāng)于一個(gè)獨(dú)立的小型子站。對(duì)于此類專題,希望能夠風(fēng)貌與內(nèi)容兼得,此類需求歸入專題類,以每個(gè)獨(dú)立的專題為單位對(duì)網(wǎng)頁(yè)電子文件進(jìn)行保留原層次結(jié)構(gòu)的內(nèi)容組織和管理。

5 總結(jié)

此次工作是對(duì)網(wǎng)頁(yè)歸檔領(lǐng)域一次探索性的研究和實(shí)踐,嘗試性地對(duì)“網(wǎng)頁(yè)的檔案式管理”、“網(wǎng)頁(yè)內(nèi)鏈接的保存”、“網(wǎng)頁(yè)之間關(guān)聯(lián)性與層級(jí)架構(gòu)的重現(xiàn)”等問(wèn)題提出了初步的解決方案,待解決的問(wèn)題還很多。網(wǎng)站建設(shè)的技術(shù)是非常復(fù)雜多樣和千差萬(wàn)別的,因此在本次系統(tǒng)設(shè)計(jì)上基于基礎(chǔ)性、先導(dǎo)性、通用化、產(chǎn)品化的原則,首先支持對(duì)絕大多數(shù)常見和通用網(wǎng)站架構(gòu)及網(wǎng)頁(yè)格式的采集和管理。對(duì)于網(wǎng)頁(yè)信息元素的采集與轉(zhuǎn)化,還需在技術(shù)上進(jìn)一步完善,并且配套制定相關(guān)標(biāo)準(zhǔn),持續(xù)推進(jìn)對(duì)網(wǎng)頁(yè)文件這類重要數(shù)字資源的保存和利用。

[1] 張欣,李哲.對(duì)數(shù)字化檔案法律地位的認(rèn)識(shí)[J].蘭臺(tái)世界.2010,4:28-30.

[2] DA/T 1-2000《檔案工作基本術(shù)語(yǔ)》[S].中華人民共和國(guó)檔案行業(yè)標(biāo)準(zhǔn).國(guó)家檔案局歸口.

[3] GB/T XXXX-2008《文書檔案案卷格式》[S].中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn).國(guó)家檔案局歸口.

[4] GB/T 18894-201X《電子文件歸檔與電子檔案管理規(guī)范》[S].中華人民共和國(guó)檔案行業(yè)標(biāo)準(zhǔn)國(guó)家檔案局歸口.

[5] 劉青,孔凡蓮.中國(guó)網(wǎng)絡(luò)信息存檔及其與國(guó)外的比較—基于國(guó)家圖書館 WICP項(xiàng)目的研究[J].圖書情報(bào)工作,2013,18:80-87.

[6] 安琳.國(guó)外網(wǎng)頁(yè)信息存檔項(xiàng)目及相關(guān)問(wèn)題研究[J].圖書館建設(shè),2009,12:107-110.

[7] 楊道玲,于施洋.國(guó)外政府網(wǎng)站保存實(shí)踐與思考[J].中國(guó)檔案,2007,07:64-65.

[8] 趙俊玲.國(guó)外關(guān)于網(wǎng)絡(luò)信息資源保存的研究[J].中國(guó)圖書館學(xué)報(bào)2004,3:80-83.

[9] 呂艷飛.中美網(wǎng)絡(luò)信息資源長(zhǎng)期保存項(xiàng)目比較研究[D].重慶:重慶西南大學(xué),2012.

[10] 鄧青.國(guó)外圖書館政府網(wǎng)站信息保存的實(shí)踐與啟示[J].圖書館建設(shè),2012,12:32-35.

[11] 劉桂玲,顧炳中.網(wǎng)站網(wǎng)頁(yè)歸檔相關(guān)問(wèn)題初步探討[J].國(guó)土資源信息化,2012,3:69-71.

[12] 魏佳.我國(guó)網(wǎng)絡(luò)信息資源永久保存策略研究[D].沈陽(yáng):遼寧師范大學(xué),2012.

[13] 張小芳.數(shù)字信息資源長(zhǎng)期保存體系研究[J].四川圖書館學(xué)報(bào),2011,05:44-45.

[14] 李丹.網(wǎng)絡(luò)信息資源長(zhǎng)期保存的采集模式和程序[J].檔案,2010,02:43-44.

[15] 付光宇,劉克偉.試論網(wǎng)絡(luò)信息資源的采集策略[J].網(wǎng)絡(luò)財(cái)富,2008,09:200-201.

V249 文獻(xiàn)標(biāo)志碼:A

2015.04.20)

1007-757X(2015)08-0071-03

咸容禹(1973-)女,漢族,長(zhǎng)春人,國(guó)土資源部信息中心,副研究員,碩士研究生,研究方向:信息技術(shù)工程,北京,100812李佳臨(1988-)男,漢族,北京人,國(guó)土資源部信息中心,助理研究員,本科、研究方向:國(guó)土資源信息技術(shù)工程,國(guó)土資源部信息中心,北京,100812陶 偉(1983-)男,漢族,貴陽(yáng)人,國(guó)土資源部信息中心,助理研究員,本科,研究方向:國(guó)土資源信息技術(shù)工程國(guó)土資源部信息中心,北京,100812

猜你喜歡
分類信息
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
給塑料分分類吧
展會(huì)信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产日韩久久久久无码精品 | 久久这里只有精品8| 在线a视频免费观看| 国产手机在线观看| 区国产精品搜索视频| 国产成人亚洲综合a∨婷婷| 亚洲中文字幕久久精品无码一区| 国产精品香蕉在线观看不卡| 一级成人欧美一区在线观看| 草草线在成年免费视频2| 亚洲一区黄色| 国产精品极品美女自在线网站| 精品撒尿视频一区二区三区| 精品国产成人av免费| 日本91视频| 在线观看精品国产入口| 久久香蕉欧美精品| 亚洲欧美在线综合图区| 亚洲日韩欧美在线观看| 日韩人妻少妇一区二区| 91国内外精品自在线播放| 成人精品午夜福利在线播放| 国产人免费人成免费视频| 成人免费一区二区三区| 伊人五月丁香综合AⅤ| 久久久噜噜噜久久中文字幕色伊伊| 久久9966精品国产免费| 色哟哟精品无码网站在线播放视频| 亚洲第一精品福利| 日韩一级毛一欧美一国产| 91久久精品日日躁夜夜躁欧美| 久久人人97超碰人人澡爱香蕉| 亚洲天堂精品在线| 好紧太爽了视频免费无码| 黄色网址免费在线| 2020国产免费久久精品99| 91久久夜色精品国产网站| 女人一级毛片| 欧美日本在线播放| 国产成人调教在线视频| 一区二区在线视频免费观看| 午夜福利在线观看入口| 国产精品尤物在线| 亚国产欧美在线人成| 99精品一区二区免费视频| 国产精品综合色区在线观看| 福利一区在线| 亚洲成人一区二区| 午夜福利在线观看成人| 国产精品午夜电影| 亚洲午夜天堂| 天天综合网站| 中文字幕在线一区二区在线| 在线看片国产| 亚洲第一在线播放| 最新国产在线| 日本精品中文字幕在线不卡| a级毛片免费网站| 国产精品成人一区二区| 久久精品视频亚洲| 国内精品视频| 亚洲精品在线91| 国产视频久久久久| 波多野结衣一区二区三区四区视频 | 99精品这里只有精品高清视频| 欧美日韩国产综合视频在线观看| 中文国产成人精品久久一| 日本一本正道综合久久dvd | 国产av一码二码三码无码 | 五月激激激综合网色播免费| 国产精品无码影视久久久久久久| 国产色婷婷| 国产精品xxx| yy6080理论大片一级久久| 午夜福利视频一区| 亚洲黄网在线| 亚洲综合激情另类专区| 欧美综合区自拍亚洲综合天堂 | 国产最新无码专区在线| 在线亚洲精品自拍| 中文字幕在线一区二区在线| 久久伊人操|