999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)站時(shí)光機(jī):美國(guó)網(wǎng)頁(yè)存檔模式探索
——以Internet Archive為例*

2021-07-21 12:00:22王運(yùn)彬
圖書館 2021年7期
關(guān)鍵詞:資源信息

吳 倩 王運(yùn)彬

(福建師范大學(xué)社會(huì)歷史學(xué)院 福州 350117)

1 引言

隨著信息化時(shí)代的到來(lái),網(wǎng)絡(luò)的高速發(fā)展為網(wǎng)頁(yè)資源提供了利用平臺(tái),承載了大量具有時(shí)代價(jià)值的網(wǎng)絡(luò)信息。然而網(wǎng)站更新快、互動(dòng)性強(qiáng)等服務(wù)特點(diǎn)使得網(wǎng)站信息逐漸碎片化與易逝化,這些消逝的信息成為了文化資源存檔的一大阻礙。作為為社會(huì)提供綜合性服務(wù)、記錄與保存社會(huì)原始記憶的檔案機(jī)構(gòu),更應(yīng)及時(shí)捕捉網(wǎng)站的每一個(gè)“鏡頭”,為網(wǎng)站的前世今生留下寶貴的記憶,網(wǎng)站檔案館應(yīng)運(yùn)而生。網(wǎng)站檔案館是指有關(guān)主體有選擇性地對(duì)具有長(zhǎng)遠(yuǎn)保存價(jià)值的網(wǎng)絡(luò)信息進(jìn)行捕獲、歸檔、存儲(chǔ)等檔案化管理的機(jī)構(gòu)[1]。

2 研究背景

2.1 研究述評(píng)

我國(guó)對(duì)網(wǎng)站檔案的研究始于2002年北京大學(xué)開設(shè)的Infomall項(xiàng)目[3],已有的研究成果主要聚集于以下幾個(gè)方面:①網(wǎng)頁(yè)歸檔現(xiàn)狀研究。畢云平等分析當(dāng)前我國(guó)對(duì)網(wǎng)頁(yè)檔案的主要研究?jī)?nèi)容,簡(jiǎn)要介紹美英中的四大網(wǎng)頁(yè)檔案項(xiàng)目[2]74-78;王芳等調(diào)查研究了國(guó)外網(wǎng)頁(yè)歸檔在采集、內(nèi)容、保存、訪問(wèn)與使用方面的現(xiàn)狀[4],對(duì)我國(guó)的網(wǎng)頁(yè)歸檔具有借鑒意義。②網(wǎng)頁(yè)歸檔項(xiàng)目研究。李子林等采用網(wǎng)絡(luò)調(diào)查和內(nèi)容分析法對(duì)歐洲代表性國(guó)家的網(wǎng)絡(luò)存檔案例進(jìn)行探索性分析[5];曹玲與顏祥林從建設(shè)模式、資源建設(shè)、開發(fā)利用三個(gè)方面對(duì)美國(guó)國(guó)會(huì)圖書館網(wǎng)頁(yè)歸檔項(xiàng)目的發(fā)展變化進(jìn)行了系統(tǒng)研究,提出值得我國(guó)網(wǎng)頁(yè)歸檔項(xiàng)目借鑒之處[6];此外還有一些學(xué)者對(duì)美英法澳等相關(guān)經(jīng)驗(yàn)較為豐富的國(guó)家進(jìn)行網(wǎng)頁(yè)歸檔項(xiàng)目研究,為國(guó)內(nèi)外網(wǎng)頁(yè)歸檔建設(shè)提供經(jīng)驗(yàn)借鑒。③網(wǎng)頁(yè)歸檔工作流程研究。吳碩娜等提出Web歸檔生命周期模型在運(yùn)用中的不足及改進(jìn)措施[7],為網(wǎng)頁(yè)歸檔提供理論支持;黃新平分析當(dāng)前國(guó)內(nèi)外在網(wǎng)頁(yè)歸檔的采集與保存等方面的技術(shù)運(yùn)用情況[8],王萍等對(duì)國(guó)外網(wǎng)頁(yè)檔案資源利用途徑與發(fā)展趨勢(shì)進(jìn)行分析[9]等,分別從網(wǎng)頁(yè)歸檔工作過(guò)程中的采集、技術(shù)、保存、利用方面開展了研究,為我國(guó)網(wǎng)頁(yè)歸檔指明了努力的方向。

2.2 實(shí)踐梳理

1996年,Internet Archive網(wǎng)頁(yè)歸檔項(xiàng)目在美國(guó)誕生,它的成功運(yùn)行拉開了全球網(wǎng)頁(yè)歸檔的序幕。自此之后,國(guó)內(nèi)外紛紛掀起了網(wǎng)頁(yè)歸檔的研究與實(shí)踐熱潮,詳見表1。

表1 國(guó)內(nèi)外網(wǎng)站檔案研究項(xiàng)目表

我國(guó)對(duì)網(wǎng)站檔案館的理論研究與開發(fā)實(shí)踐的深度與廣度與國(guó)外仍存在一定的差距。IA作為世界上保存網(wǎng)站最多最廣的檔案館,在體系構(gòu)建、技術(shù)開發(fā)、服務(wù)創(chuàng)新等方面都具有值得借鑒之處。

3 Internet Archive的實(shí)踐分析

Internet Archive自1996年問(wèn)世以來(lái),在法律建設(shè)、技術(shù)應(yīng)用、服務(wù)創(chuàng)新等領(lǐng)域都取得了顯著的成績(jī),其所歸檔的網(wǎng)站也在追溯網(wǎng)站前世、法律憑證與學(xué)術(shù)研究方面實(shí)現(xiàn)了顯著的實(shí)踐效用。

3.1 追溯網(wǎng)站前世

網(wǎng)站信息作為人類實(shí)踐的產(chǎn)物,反映了社會(huì)及個(gè)人真實(shí)的實(shí)踐活動(dòng),具有一定的原始性與真實(shí)性。1996年,Internet Archive開發(fā)了網(wǎng)頁(yè)回放器(Wayback Machine),允許用戶查看過(guò)去時(shí)間點(diǎn)的網(wǎng)站,包括已失效的網(wǎng)頁(yè)信息。大多數(shù)人到Wayback Machine是為了從中找到丟失的頁(yè)面,所訪問(wèn)的網(wǎng)頁(yè)中約65%的網(wǎng)站已在萬(wàn)維網(wǎng)上消逝[10]。人們只需在IA網(wǎng)站上輸入所需的網(wǎng)站域名,在時(shí)間條上選擇某個(gè)時(shí)間節(jié)點(diǎn),便可得到該網(wǎng)站在該時(shí)間節(jié)點(diǎn)的快照信息。如在檢索框中輸入“www.google.com”,便會(huì)出現(xiàn)谷歌網(wǎng)站的時(shí)間條,選擇2015年2月28日,即可得到當(dāng)天不同時(shí)間點(diǎn)捕捉到的谷歌網(wǎng)站。IA的網(wǎng)站回溯功能得到了廣泛的應(yīng)用,如2004年7月14日,杰弗里·塔克使用IA來(lái)說(shuō)明Mises.org網(wǎng)站八年來(lái)一直存在;人們可通過(guò)IA查詢已經(jīng)消失在萬(wàn)維網(wǎng)上的FreeMarketNews.com網(wǎng)站所記載的哈里·布朗、蒂博爾·馬漢和托馬斯·克納普等所作出的貢獻(xiàn)[11]。

3.2 法律憑證價(jià)值

網(wǎng)站信息記錄了社會(huì)與人類的實(shí)踐活動(dòng),具有一定的原始記錄性,這與檔案的基本屬性相一致,也能作為重要的法律憑證之一。自問(wèn)世以來(lái),IA被廣泛應(yīng)用于各種法律訴訟,已然成為法律訴訟中證據(jù)的重要一環(huán)。如2004年10月,訴訟方美國(guó)回聲星通信公司(EchoStar)使用Wayback Machine的快照作為Telewizja Polska網(wǎng)站過(guò)去內(nèi)容的證據(jù),這可能是第一次用IA收集的網(wǎng)頁(yè)數(shù)據(jù)作為證據(jù)[12]。除此之外,我國(guó)頒布的《最高人民法院關(guān)于互聯(lián)網(wǎng)法院審理案件若干問(wèn)題的規(guī)定》(2018)、《最高人民法院關(guān)于修改〈關(guān)于民事訴訟證據(jù)若干規(guī)定〉的決定》(2019)等法律規(guī)定也為網(wǎng)頁(yè)等電子存證平臺(tái)的法律效力提供了法律背書。

3.3 學(xué)術(shù)研究?jī)r(jià)值

網(wǎng)站承載著眾多時(shí)代的網(wǎng)絡(luò)信息,如新聞、文章報(bào)道、博客數(shù)據(jù)等分布于各領(lǐng)域的數(shù)據(jù)資源,是學(xué)術(shù)研究的重要資料來(lái)源。一旦網(wǎng)站崩潰或在萬(wàn)維網(wǎng)上下線,這些重要的資料就可能會(huì)隨著網(wǎng)站一起消失,而網(wǎng)站檔案館的出現(xiàn)拯救了這些資源,為學(xué)術(shù)研究領(lǐng)域保留了財(cái)富。2006年3月17日,杰西· 沃克使用了Wayback Machine使他唯一的作品得以問(wèn)世,這是一篇當(dāng)時(shí)已不再在網(wǎng)上提供的文章;2015年12月,喬納森·費(fèi)恩戈?duì)柕率褂肳ayback Machine找回他寫的一篇被黑客入侵的舊文章[13]。除作為學(xué)術(shù)研究的資料來(lái)源以外,網(wǎng)站檔案也可作為網(wǎng)站自身發(fā)展與創(chuàng)新的研究素材,促進(jìn)網(wǎng)站的服務(wù)優(yōu)化與技術(shù)創(chuàng)新。

通過(guò)采用裝飾者模式對(duì)采集模塊進(jìn)行設(shè)計(jì)之后,可以較靈活地對(duì)采集到的數(shù)據(jù)進(jìn)行必要的處理;同時(shí),在不改變?cè)写a結(jié)構(gòu)體系的情況下,允許今后對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的運(yùn)算處理和改變數(shù)據(jù)處理方法的調(diào)用順序,符合了面向?qū)ο蟮摹伴_閉原則”。

4 Internet Archive的開發(fā)亮點(diǎn)

IA在追溯網(wǎng)站前世、法律憑證與學(xué)術(shù)研究等方面都發(fā)揮著重要的作用,充分表明美國(guó)已具備成熟的網(wǎng)頁(yè)歸檔經(jīng)驗(yàn),主要體現(xiàn)在豐富的館藏資源、新型的技術(shù)軟件、以用戶為主的服務(wù)理念與多元的協(xié)同合作等方面。

4.1 豐富的館藏資源為基礎(chǔ)

為深入了解IA的網(wǎng)頁(yè)館藏資源,筆者統(tǒng)計(jì)了IA近五年的網(wǎng)頁(yè)歸檔數(shù)量,詳見圖1。2016—2020年,IA的網(wǎng)頁(yè)歸檔數(shù)量呈直線上升的趨勢(shì)。截至2021年2月21日,IA已采集超過(guò)5 380億的網(wǎng)頁(yè),提供超過(guò)60pb的免費(fèi)書籍、電影、軟件、音樂等資源以滿足用戶的多元化需求。其中IA的互聯(lián)網(wǎng)檔案軟件收藏是世界上最大的老式和歷史軟件庫(kù),提供對(duì)數(shù)百萬(wàn)程序、光盤圖像、文檔和多媒體的即時(shí)訪問(wèn)。除此之外,IA具有極高的數(shù)據(jù)存儲(chǔ)能力,擁有超過(guò)2 790億個(gè)網(wǎng)頁(yè)的Internet Archive也僅保存了15pb的數(shù)據(jù)[14]。由此可見,Internet Archive所存儲(chǔ)的龐大網(wǎng)頁(yè)數(shù)據(jù)庫(kù)為用戶查找與利用過(guò)時(shí)或已逝的網(wǎng)頁(yè)信息提供了豐富的館藏檔案資源。

圖1 2016—2020年IA歸檔的網(wǎng)頁(yè)數(shù)量圖

IA的豐富館藏資源自然離不開它的資源采集策略。所謂網(wǎng)頁(yè)采集就是及時(shí)獲取網(wǎng)絡(luò)上值得保存的檔案信息資源,并通過(guò)各種軟件與技術(shù)方法將其進(jìn)行收集與歸檔,從而提供給社會(huì)利用。IA是當(dāng)今世界網(wǎng)頁(yè)采集量最大的項(xiàng)目,主要采用的是多種采集策略相互結(jié)合的復(fù)合式網(wǎng)頁(yè)采集方式,包括廣泛式采集與專題采集。IA同IIPC 的圖書館成員共同負(fù)責(zé)開發(fā)了Heritrix爬蟲軟件,實(shí)現(xiàn)對(duì)國(guó)家域名范圍內(nèi)或整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁(yè)等其他在線資源的自動(dòng)化采集。此種采集方式直接對(duì)網(wǎng)頁(yè)進(jìn)行收集而不修改,對(duì)同一網(wǎng)頁(yè)的不同時(shí)間節(jié)點(diǎn)多次抓取,不遺漏任何信息,在最大程度上保證網(wǎng)頁(yè)信息的精確度與完整度。除此之外,IA還對(duì)突發(fā)事件及重要專題進(jìn)行采集,如民間音樂項(xiàng)目、社區(qū)精神與宗教、故事片、電視檔案、美國(guó)專利和商標(biāo)局文件等專題。IA收錄了豐富的館藏資源,為滿足用戶的網(wǎng)站檔案利用需求提供了資源保障。

4.2 新型的技術(shù)軟件為手段

IA的技術(shù)優(yōu)勢(shì)主要體現(xiàn)在其具備的網(wǎng)站搜集與檢索軟件方面。在網(wǎng)站搜集方面,IA主要運(yùn)用的是其與芬蘭、瑞典等國(guó)家圖書館聯(lián)合開發(fā)的Heritrix爬蟲軟件。Heritrix采取抓取網(wǎng)頁(yè)而不修改的方式,精確地捕捉每一個(gè)完整的網(wǎng)頁(yè)內(nèi)容,實(shí)現(xiàn)大規(guī)模的網(wǎng)頁(yè)信息采集。在檢索方面,IA主要采用的是Alexa搜索引擎與Archive-It檢索軟件。Alexa是互聯(lián)網(wǎng)檔案館的創(chuàng)建者布魯斯特·卡勒的著名作品之一,它通過(guò)將自己安裝為瀏覽器工具欄并收集信息,提供了網(wǎng)絡(luò)爬蟲與其他網(wǎng)站的流量信息,可索引數(shù)十億個(gè)網(wǎng)頁(yè)[15]。被廣泛使用的Archive-It不僅允許機(jī)構(gòu)收集和保存數(shù)字內(nèi)容的集合,而且會(huì)提供每一個(gè)集合中所有URI的列表、每個(gè)站點(diǎn)存檔的次數(shù)和日期以及存檔站點(diǎn)的全文檢索,允許用戶快速搜索其感興趣的主題集合,并直接將網(wǎng)頁(yè)主題集合鏈接到機(jī)構(gòu)網(wǎng)站[16],為用戶的網(wǎng)頁(yè)查詢提供了重要技術(shù)保障。總之,IA開發(fā)與采用了多種網(wǎng)頁(yè)爬蟲與檢索軟件作為網(wǎng)頁(yè)資源保存與檢索利用的核心技術(shù),為網(wǎng)頁(yè)資源進(jìn)一步的開發(fā)與利用提供了可行性。

4.3 以用戶為主的服務(wù)為核心

IA一直秉承著“以用戶為核心”的服務(wù)理念,主要體現(xiàn)在網(wǎng)頁(yè)收集、網(wǎng)頁(yè)設(shè)計(jì)與民眾參與三個(gè)方面。

網(wǎng)頁(yè)收集尊重網(wǎng)站擁有者的意愿。IA在利用網(wǎng)站上提供了申訴途徑,當(dāng)IA所采集的網(wǎng)站信息涉及個(gè)人隱私或是其他不便公開的范圍,用戶或網(wǎng)站管理者不希望這些網(wǎng)頁(yè)被存檔時(shí),便可申請(qǐng)退出收集,此時(shí)網(wǎng)頁(yè)爬蟲軟件便會(huì)繞過(guò)這些網(wǎng)站。這充分顯示IA在網(wǎng)頁(yè)收集過(guò)程中“以用戶為主”的原則,充分尊重網(wǎng)站擁有者的歸檔意愿。

網(wǎng)頁(yè)設(shè)計(jì)以服務(wù)用戶為原則。IA從最初的只是存儲(chǔ)數(shù)據(jù)來(lái)支持線下利用的服務(wù)方式逐漸轉(zhuǎn)為注重用戶的多樣化需求、提供原始頁(yè)面在線訪問(wèn)的服務(wù)模式。IA所歸檔的網(wǎng)頁(yè)資源是向全世界開放的,用戶只需要連接上網(wǎng)絡(luò),通過(guò)瀏覽工具在搜索框內(nèi)輸入網(wǎng)址,系統(tǒng)就會(huì)自動(dòng)呈現(xiàn)該網(wǎng)站的歷年歸檔結(jié)果與歸檔日歷,用戶點(diǎn)擊任何一個(gè)時(shí)間點(diǎn)便可獲得該網(wǎng)站此時(shí)的狀態(tài)。IA提供了iOS與Android兩種系統(tǒng)的手機(jī)App在線服務(wù)方式,用戶通過(guò)網(wǎng)站上開設(shè)的App下載窗口便可獲得“指尖上的網(wǎng)站檔案館”。除此之外,IA還提供多種語(yǔ)言檢索與標(biāo)題導(dǎo)航,將歸檔資源按照文件類型、網(wǎng)站與主題進(jìn)行分類,以滿足全世界不同國(guó)家的用戶要求。

帶動(dòng)民眾參與IA建設(shè)。IA的優(yōu)勢(shì)之一就是來(lái)自許多民眾上傳他們或他們社區(qū)創(chuàng)建的項(xiàng)目。民眾作為檔案館的一員,只需要注冊(cè)便可獲得一張?zhí)摂M卡,通過(guò)該卡可以建立收藏列表,為項(xiàng)目提出意見,發(fā)表評(píng)論,還可以上傳自己的項(xiàng)目到檔案館的收藏之中。民眾作為檔案館的一員也可將文件上傳到IA的書庫(kù)、文本、圖像、電影、音頻等資源庫(kù),充分實(shí)現(xiàn)了“檔案眾包”的開發(fā)模式與“民館合作”的服務(wù)理念。

4.4 多元的協(xié)同合作為發(fā)展

Internet Archive作為全球第一個(gè)互聯(lián)網(wǎng)檔案館,自1996年建成以來(lái)就一直致力于多元協(xié)同合作的發(fā)展模式,主要體現(xiàn)在資源、項(xiàng)目、技術(shù)方面的合作交流,詳見表2。IA通過(guò)與其他圖書館、博物館、企業(yè)等機(jī)構(gòu)合作,共同開發(fā)資源采集與存儲(chǔ)的新型技術(shù),也獲得了一定的資金支持。值得一提的是,IA于2003年7月與澳大利亞、加拿大、丹麥等國(guó)的國(guó)家圖書館及美國(guó)國(guó)會(huì)圖書館共12個(gè)機(jī)構(gòu)聯(lián)合組成國(guó)際互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preservation Consortium,IIPC),它采用責(zé)任平等的合作機(jī)制,鼓勵(lì)世界范圍內(nèi)的文化遺產(chǎn)保護(hù)機(jī)構(gòu)一起參與網(wǎng)絡(luò)信息資源保存的工作,目前IIPC已吸納40多個(gè)機(jī)構(gòu)成員[17]。IA與其他成員的合作往往采取一對(duì)一的模式,合作之間沒有明確的權(quán)責(zé)。這種合作模式雖具有一定的松散性,但也在一定程度上增強(qiáng)了合作的自主性。機(jī)構(gòu)成員的多元化不僅促進(jìn)了國(guó)際上網(wǎng)站歸檔的技術(shù)交流與經(jīng)驗(yàn)共享,對(duì)資源采集、永久保存、元數(shù)據(jù)等方面的規(guī)范標(biāo)準(zhǔn)及技術(shù)的形成與發(fā)展也起到了一定的推動(dòng)作用。

表2 IA部分合作項(xiàng)目表

5 我國(guó)網(wǎng)頁(yè)歸檔的建設(shè)方向

美國(guó)IA的網(wǎng)頁(yè)歸檔項(xiàng)目起步較早,其豐富的館藏資源、新型的技術(shù)軟件、以用戶為核心的服務(wù)理念與多元的協(xié)同合作等方面的開發(fā)亮點(diǎn),在體系、合作、技術(shù)、人員、開發(fā)與危機(jī)防范等方面為我國(guó)網(wǎng)頁(yè)歸檔的建設(shè)與優(yōu)化指明了方向。

5.1 體系層面:加強(qiáng)頂層設(shè)計(jì),形成以檔案館為核心的分布式網(wǎng)頁(yè)歸檔體系

2016年4 月,國(guó)家檔案局印發(fā)的《全國(guó)檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》提出要將“研究制定重要網(wǎng)頁(yè)資源的采集和社交媒體文件的歸檔管理辦法”作為提升電子檔案管理水平的任務(wù)之一。但我國(guó)仍缺乏對(duì)網(wǎng)頁(yè)歸檔的統(tǒng)一體系建設(shè),使得各網(wǎng)頁(yè)歸檔項(xiàng)目在實(shí)踐時(shí)無(wú)章可循。國(guó)內(nèi)網(wǎng)站檔案館可遵循“統(tǒng)一領(lǐng)導(dǎo),分級(jí)管理”的原則對(duì)我國(guó)網(wǎng)頁(yè)進(jìn)行歸檔。國(guó)家層面應(yīng)建設(shè)國(guó)家網(wǎng)站檔案館,負(fù)責(zé)統(tǒng)籌規(guī)劃和統(tǒng)一管理。各省市級(jí)的網(wǎng)站歸檔工作將依托于各省的市區(qū)縣級(jí)數(shù)字檔案館,利用現(xiàn)有的人力、技術(shù)、館藏等進(jìn)一步發(fā)展網(wǎng)站檔案的收集與開發(fā)利用工作,從而形成以國(guó)家檔案館為核心的分布式網(wǎng)站收集模式。

在以檔案館為核心的分布式網(wǎng)站歸檔體系建設(shè)下,我國(guó)應(yīng)實(shí)行多種上交制度相結(jié)合的綜合歸檔模式。按照網(wǎng)站歸檔的要求,可將歸檔制度分為呈繳本制度、自愿歸檔制度與自動(dòng)捕捉制度。呈繳本制度是指國(guó)家以法律或法令形式規(guī)定全國(guó)所有出版機(jī)構(gòu)或負(fù)有出版責(zé)任的單位,凡出版一種出版物必須向指定的圖書館等機(jī)構(gòu)免費(fèi)繳送一定數(shù)量的樣本[18]。呈繳本制度同樣適用于網(wǎng)站歸檔,即以國(guó)家法律或法令形式規(guī)定某些重要網(wǎng)站定期向數(shù)字檔案館呈繳網(wǎng)頁(yè)檔案,如政府網(wǎng)站、檔案館網(wǎng)站等。自愿歸檔制度是指相關(guān)部門自愿向數(shù)字檔案館定期提交網(wǎng)站或向檔案館申請(qǐng)網(wǎng)站捕捉歸檔的制度,如社交網(wǎng)站、個(gè)人網(wǎng)站等。而其他部門的網(wǎng)站則可由數(shù)字檔案館根據(jù)國(guó)家法律規(guī)定將具有歸檔價(jià)值的網(wǎng)站進(jìn)行自動(dòng)捕捉。多種制度相結(jié)合的綜合性歸檔模式能夠彌補(bǔ)各歸檔制度的不足,以實(shí)現(xiàn)網(wǎng)站歸檔效益的最大化。

5.2 合作層面:納入第三方主體,創(chuàng)建國(guó)際國(guó)內(nèi)“雙合”的運(yùn)行模式

IA自1996年創(chuàng)建以來(lái),一直秉持著多方合作的運(yùn)營(yíng)理念,從而獲得了豐富的館藏資源、高水平的技術(shù)與綜合人才等,這對(duì)于正處于網(wǎng)頁(yè)歸檔探索階段的我國(guó)具有很大的借鑒價(jià)值。我國(guó)網(wǎng)站檔案館應(yīng)積極納入如企業(yè)、高校等第三方網(wǎng)頁(yè)歸檔管理主體,采取國(guó)際國(guó)內(nèi)“雙合”的運(yùn)行模式。

國(guó)內(nèi)合作。網(wǎng)站檔案館本質(zhì)是通過(guò)爬蟲軟件對(duì)網(wǎng)頁(yè)進(jìn)行采集,將其存儲(chǔ)到數(shù)字存儲(chǔ)庫(kù),并通過(guò)檢索軟件等向用戶提供網(wǎng)頁(yè)利用。網(wǎng)站檔案館的運(yùn)行涉及多領(lǐng)域的知識(shí)背景與技術(shù)軟件,僅靠檔案部門無(wú)法達(dá)到網(wǎng)站檔案館應(yīng)有的服務(wù)效果。基于此,網(wǎng)站檔案館可聚集社會(huì)第三方力量的協(xié)同合作。如在技術(shù)方面,網(wǎng)站檔案館可同相關(guān)的數(shù)據(jù)存儲(chǔ)機(jī)構(gòu)、技術(shù)開發(fā)部門等合作,為網(wǎng)頁(yè)檔案的采集、永久保存與開發(fā)利用注入新鮮的技術(shù)血液;在資金方面,可從政府投入、社會(huì)捐贈(zèng)等多途徑入手,為網(wǎng)頁(yè)歸檔提供資金保障;在人才方面,可與高校形成合作,使高校成為網(wǎng)站檔案館的人才儲(chǔ)備中心。除與第三方機(jī)構(gòu)的合作外,各網(wǎng)站檔案館也應(yīng)加強(qiáng)館際合作,實(shí)現(xiàn)網(wǎng)站資源的共建共享。

國(guó)際合作。國(guó)外的網(wǎng)站檔案館起步較早,建設(shè)也相對(duì)較為成熟,對(duì)于我國(guó)處于剛剛起步階段的網(wǎng)站檔案館建設(shè)有值得借鑒的經(jīng)驗(yàn)與技術(shù)軟件,因此國(guó)際合作顯得尤其重要。我國(guó)可與美國(guó)、英國(guó)等網(wǎng)站歸檔經(jīng)驗(yàn)較為成熟的國(guó)家開展技術(shù)方面的合作與交流,引進(jìn)國(guó)外先進(jìn)的技術(shù)軟件等。但由于部分網(wǎng)站檔案涉及國(guó)家機(jī)密,我國(guó)應(yīng)視情況選擇網(wǎng)站檔案國(guó)際合作模式,即根據(jù)網(wǎng)站性質(zhì)與內(nèi)容的不同,有選擇性地開展網(wǎng)站歸檔的國(guó)際合作。

5.3 技術(shù)層面:引進(jìn)新技術(shù),形成覆蓋網(wǎng)站歸檔運(yùn)行周期的保護(hù)框架

隨著技術(shù)的不斷發(fā)展,檔案信息的有效載體日益增多,使得網(wǎng)站呈現(xiàn)格式多樣化的檔案信息載體,如3D展廳、H5、影像視頻等。要讓這些數(shù)字檔案保持原始性、真實(shí)性、可讀性,就必須不斷引進(jìn)與更新覆蓋網(wǎng)站歸檔的采集、永久保存、網(wǎng)頁(yè)利用等整個(gè)運(yùn)行周期的技術(shù),為網(wǎng)站檔案營(yíng)造安全的電子檔案存儲(chǔ)環(huán)境,以滿足檔案的存儲(chǔ)與利用需求,形成前瞻性的保護(hù)框架。

在網(wǎng)站檔案收集前期,網(wǎng)站檔案館必須具備多樣化檔案格式識(shí)別、網(wǎng)頁(yè)重建與深度挖掘技術(shù)。一旦發(fā)現(xiàn)采集的網(wǎng)頁(yè)受到硬件破壞、黑客入侵等造成網(wǎng)站數(shù)據(jù)丟失,網(wǎng)站檔案館必須利用網(wǎng)頁(yè)重現(xiàn)技術(shù)開展網(wǎng)站恢復(fù)工作,確保網(wǎng)站信息的可訪問(wèn)與可獲取[19]。除對(duì)網(wǎng)頁(yè)進(jìn)行抓取以外,爬蟲軟件還需完成對(duì)網(wǎng)站中鏈接的其他一級(jí)、二級(jí)、三級(jí)等網(wǎng)頁(yè)的采集,有效保證采集的網(wǎng)站與其鏈接信息之間的聯(lián)系,形成較為完整的“語(yǔ)境”與電子檔案元數(shù)據(jù)的原始環(huán)境。在網(wǎng)站檔案保存階段,網(wǎng)站檔案館應(yīng)構(gòu)建符合電子檔案長(zhǎng)期保存條件的虛擬環(huán)境,不斷更新數(shù)據(jù)庫(kù)的存儲(chǔ)能力,如美國(guó)IA采購(gòu)了Sun Modular Datacenter等一系列技術(shù),大大擴(kuò)充了自身的存儲(chǔ)能力。此外,網(wǎng)站檔案存儲(chǔ)庫(kù)還需保證網(wǎng)站檔案不受網(wǎng)絡(luò)黑客等的惡意破壞,從而維護(hù)檔案的真實(shí)性與可讀性。在檔案服務(wù)階段,網(wǎng)站檔案館必須具備檔案的鑒別技術(shù),確保輸出的網(wǎng)站檔案與采集時(shí)的電子檔案一致,維護(hù)檔案的真實(shí)性。因此,網(wǎng)站檔案館必須與時(shí)俱進(jìn)地更新分布于每一個(gè)網(wǎng)站歸檔運(yùn)行階段的管理技術(shù),形成覆蓋全周期的技術(shù)保護(hù)框架,從技術(shù)上保障網(wǎng)頁(yè)檔案的真實(shí)性與可靠性。

5.4 人員層面:提高人員素養(yǎng),實(shí)現(xiàn)網(wǎng)站歸檔的前端控制與后端檢測(cè)

2017年美國(guó)國(guó)家數(shù)字管理聯(lián)盟(NDSA)的網(wǎng)絡(luò)檔案調(diào)查報(bào)告顯示,開發(fā)成功的Web歸檔程序必須具備歸檔工具、評(píng)估和選擇、質(zhì)量保證等三大技能[20],同時(shí)具備這三大技能對(duì)于檔案工作人員而言難度較大。IA自1996年建成以來(lái)就一直秉承著協(xié)同合作的態(tài)度,與圖書館、州檔案館、學(xué)術(shù)機(jī)構(gòu)等合作獲得技術(shù)與人才方面的支持。我國(guó)網(wǎng)站檔案館也應(yīng)在提高檔案工作人員的管理技能與科技素養(yǎng)的基礎(chǔ)上,引進(jìn)各領(lǐng)域的專業(yè)人員,形成綜合性的人才隊(duì)伍。

爬蟲軟件的廣泛式無(wú)選擇性的網(wǎng)頁(yè)采集策略難以保證網(wǎng)站檔案的真實(shí)性與完整性,甚至導(dǎo)致部分“非法內(nèi)容”被采集保存,這就要求網(wǎng)站檔案管理人員必須加強(qiáng)對(duì)網(wǎng)站檔案的前端控制與后端檢測(cè)。在網(wǎng)站存檔前期,檔案管理人員必須對(duì)采集的網(wǎng)頁(yè)進(jìn)行鑒別,包括網(wǎng)頁(yè)的完整程度、密級(jí)屬性、內(nèi)容合法性等,確保網(wǎng)站檔案采集的準(zhǔn)確性與完整性,形成對(duì)網(wǎng)站檔案歸檔的前端控制。在網(wǎng)站檔案利用后期,檔案管理人員要確保用戶所需的網(wǎng)站檔案可公開且與歸檔前的網(wǎng)站檔案信息相一致,從而保障檔案利用的真實(shí)性與機(jī)密性。網(wǎng)站歸檔的前端控制與后端檢測(cè)對(duì)檔案網(wǎng)站的歸檔與利用形成前瞻性的保護(hù)體系,為實(shí)現(xiàn)網(wǎng)站檔案的管理與利用提供重要保障。

5.5 開發(fā)層面:挖掘網(wǎng)站資源,創(chuàng)新服務(wù)理念與資源利用方式

網(wǎng)頁(yè)檔案作為一種數(shù)據(jù)化信息資源,更大程度上實(shí)現(xiàn)了檔案信息的可交換性,即以數(shù)據(jù)化的形式獨(dú)立存在的網(wǎng)頁(yè)檔案資源在與普通網(wǎng)絡(luò)信息一樣實(shí)現(xiàn)無(wú)損交換的同時(shí),促進(jìn)網(wǎng)頁(yè)檔案內(nèi)容信息的價(jià)值實(shí)現(xiàn),從而激發(fā)網(wǎng)頁(yè)資源的顯性知識(shí)與隱形信息的挖掘與價(jià)值提升[21]。然而,現(xiàn)今大部分的網(wǎng)站檔案館都只提供簡(jiǎn)單的網(wǎng)站采集、永久保存、直接利用等服務(wù)內(nèi)容,缺乏深度與廣度的檔案資源整合與服務(wù)挖掘。檔案作為一種信息資源,倘若只是提供簡(jiǎn)單的歸檔、保存與利用等服務(wù),則很大程度上降低了其實(shí)際價(jià)值。基于此,IA也嘗試進(jìn)行了檔案資源集成的未來(lái)規(guī)劃。2020年7月28日,IA宣稱將與滑鐵盧大學(xué)形成合作,為研究和管理網(wǎng)絡(luò)檔案的學(xué)者、研究人員、圖書館員和檔案工作者提供易于使用、可擴(kuò)展的工具,即檔案釋放項(xiàng)目[11]。檔案釋放項(xiàng)目是為了給學(xué)者提供能將網(wǎng)絡(luò)檔案數(shù)據(jù)轉(zhuǎn)換為易于使用格式的獨(dú)立服務(wù),并通過(guò)互聯(lián)網(wǎng)檔案集成來(lái)實(shí)現(xiàn)該項(xiàng)服務(wù),從而達(dá)到學(xué)者通過(guò)一個(gè)門戶網(wǎng)站就可收集和分析網(wǎng)絡(luò)檔案內(nèi)容整個(gè)運(yùn)行周期的效果。因此,我國(guó)網(wǎng)站檔案館必須在網(wǎng)站檔案服務(wù)的利用方式、個(gè)性化服務(wù)與資源增值服務(wù)方面有所創(chuàng)新。

在檢索方式上,我國(guó)網(wǎng)站檔案館應(yīng)突破當(dāng)前以關(guān)鍵詞檢索、URL檢索等為主的單一檢索模式,引進(jìn)當(dāng)前信息檢索領(lǐng)域的熱點(diǎn)技術(shù),如智能檢索、可視化檢索、用戶畫像技術(shù)等。這些技術(shù)可以提高檢索系統(tǒng)的信息查找能力,更具針對(duì)性地幫助用戶查找到所需檔案資源。在個(gè)性化服務(wù)方面,網(wǎng)站檔案館可根據(jù)用戶注冊(cè)的職業(yè)、興趣等信息,提供個(gè)性化的服務(wù)功能,以提升用戶的體驗(yàn)效果,如針對(duì)老師的職業(yè)屬性提供“教學(xué)設(shè)計(jì)”等獨(dú)有的功能。在資源增值服務(wù)方面,網(wǎng)站檔案館可對(duì)資源的使用情況及用戶的行為進(jìn)行挖掘與分析,進(jìn)而提供資源利用情況分析、價(jià)值評(píng)估、數(shù)據(jù)可視化分析、“信息找人”等增值服務(wù)。如Netflix和Google利用消費(fèi)者的集體智慧,將觀察到的行為信息轉(zhuǎn)化為相關(guān)的搜索結(jié)果或建議。總之,網(wǎng)站檔案作為新時(shí)代的信息產(chǎn)物,仍存在著大量值得深入挖掘的價(jià)值。為實(shí)現(xiàn)網(wǎng)站檔案價(jià)值的最大化及檔案服務(wù)的最優(yōu)化,網(wǎng)站檔案館必須進(jìn)一步深化“主動(dòng)式”的服務(wù)理念,通過(guò)深入挖掘網(wǎng)站檔案的資源價(jià)值,為用戶提供個(gè)性化的增值服務(wù)。

5.6 防范層面:樹立危機(jī)意識(shí),形成以網(wǎng)站檔案館為核心的多獨(dú)立站點(diǎn)存儲(chǔ)庫(kù)

電子檔案的不穩(wěn)定性使得網(wǎng)站檔案館必須具備足夠安全的運(yùn)行系統(tǒng)。在這種情況下,網(wǎng)站檔案館有必要建立檔案副本與檔案異地備份體系,將檔案資源存儲(chǔ)分布在多個(gè)地理獨(dú)立的站點(diǎn)上,以提供故障轉(zhuǎn)移和災(zāi)難恢復(fù)。以美國(guó)IA的異地備份功能為借鑒,其于2006 年在亞歷山大圖書館設(shè)立檔案?jìng)浞荩瑸镮A存儲(chǔ)的網(wǎng)頁(yè)檔案資源提供了安全保障。因此,我國(guó)網(wǎng)站檔案館也應(yīng)在檔案的安全防控方面有所延伸拓展。

我國(guó)網(wǎng)站檔案館可建立多個(gè)獨(dú)立物理備份數(shù)據(jù)存儲(chǔ)庫(kù),以存儲(chǔ)歸檔的網(wǎng)站檔案副本,提供元數(shù)據(jù)存儲(chǔ)空間。存儲(chǔ)庫(kù)一般只作為存儲(chǔ)備份網(wǎng)站檔案的存儲(chǔ)庫(kù),不對(duì)外提供利用。各物理備份數(shù)據(jù)庫(kù)通過(guò)數(shù)據(jù)互通的運(yùn)行模式自動(dòng)更新網(wǎng)站檔案館所采集的網(wǎng)站檔案,形成信息資源共建共享。但一方存儲(chǔ)庫(kù)檢測(cè)出某網(wǎng)站檔案館或某存儲(chǔ)庫(kù)受到破壞而出現(xiàn)故障時(shí),各存儲(chǔ)庫(kù)則會(huì)自動(dòng)斷開互通的連接通道,進(jìn)入資源保護(hù)狀態(tài)。此種運(yùn)行模式通過(guò)建立以網(wǎng)站檔案館為核心的多個(gè)獨(dú)立站點(diǎn)存儲(chǔ)庫(kù),形成安全的異地備份體系,為檔案的故障轉(zhuǎn)移與災(zāi)難恢復(fù)提供重要保障。

猜你喜歡
資源信息
讓有限的“資源”更有效
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
資源回收
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
展會(huì)信息
對(duì)你有用的“錢”在資源
職場(chǎng)(2009年4期)2009-01-01 00:00:00
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产丝袜91| 日本在线国产| 亚洲最大情网站在线观看 | 99人体免费视频| 女人18毛片水真多国产| 亚洲黄色成人| 久久国语对白| 欧美日本在线| 欧美啪啪精品| www.日韩三级| 亚洲中文字幕久久无码精品A| 视频二区亚洲精品| 久久亚洲黄色视频| 91啪在线| 香蕉伊思人视频| 五月婷婷伊人网| 日韩精品久久无码中文字幕色欲| 91精品国产自产在线老师啪l| 亚洲AⅤ波多系列中文字幕| 亚洲日本中文综合在线| 99久久国产综合精品2023| 91成人在线免费视频| 亚洲一区第一页| 91精品国产自产91精品资源| 手机成人午夜在线视频| 亚洲成人精品| 久久精品人人做人人爽97| 国产精品自在自线免费观看| 婷婷午夜影院| 色综合国产| 国产亚洲成AⅤ人片在线观看| 亚洲AV无码久久精品色欲| 色综合久久无码网| 国产亚洲视频免费播放| 波多野结衣中文字幕一区二区| 亚洲AⅤ综合在线欧美一区| 亚洲中文字幕97久久精品少妇| 99人体免费视频| 亚洲免费福利视频| 四虎国产成人免费观看| a毛片基地免费大全| 国产精品三区四区| 久久这里只精品国产99热8| 亚洲天堂伊人| 欧美日韩激情在线| 综合色区亚洲熟妇在线| 国产杨幂丝袜av在线播放| 国产精品密蕾丝视频| 久久精品欧美一区二区| 99re在线免费视频| 久久精品丝袜高跟鞋| 午夜限制老子影院888| 国产乱子伦精品视频| 日本黄色a视频| 爆乳熟妇一区二区三区| 国内精品自在自线视频香蕉| 国内精品小视频在线| 国产亚洲精品91| 亚洲欧美日韩久久精品| 中文字幕有乳无码| 国产1区2区在线观看| 国产精品欧美激情| 国产高清在线观看91精品| 亚洲欧洲日韩综合| 国产91丝袜| 久久精品亚洲热综合一区二区| 日韩免费中文字幕| 国产精品区视频中文字幕 | 欧美一级片在线| 久久精品中文无码资源站| 国产激情无码一区二区APP| 国产成人亚洲无码淙合青草| 综合社区亚洲熟妇p| 人妻中文字幕无码久久一区| 国内熟女少妇一线天| 区国产精品搜索视频| 91无码视频在线观看| 日本午夜视频在线观看| 国产亚卅精品无码| 国产v欧美v日韩v综合精品| 亚洲国产中文欧美在线人成大黄瓜| 欧美日韩国产综合视频在线观看|