999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網頁長期保存的策略與方法研究

2010-01-01 00:00:00龍正義
檔案管理 2010年3期

摘要:網頁作為網絡信息的重要表現形式,承載了海量的信息資源,有著非常大的價值。但是網頁自身卻非常容易變更或者消失,給網絡信息資源的安全造成了威脅。有必要對網頁進行長期保存,以保護網絡信息資源。筆者通過對國內外眾多網頁長期保存項目的對比分析,提出了我國在網頁長期保存上的策略以及評估、選擇、收集、整理、存儲和利用的方法,以期對我國的網頁長期保存項目提供建設性意見。

關鍵詞:網頁;長期保存;策略;方法

網絡信息作為數字信息的一種,隨著互聯網技術的應用和發展而飛速地增長。網頁對于網絡信息而言,具有非常重要的作用。如何妥善地保存和維護這些網頁,使這些含有海量信息的網頁能夠長久地存在,并能被人們獲取利用,是擺在我們面前的一道難題。

1 網頁長期保存的必要性

1.1 網頁數量驟增

據中國互聯網絡信息中心(CNNIC)的統計,自2003年開始,中國的網頁規模基本保持翻番增長,2009年網頁數量達到336億個,年增長率超過100%(見圖1)。而Google在2008年宣稱,其索引的網頁數量已經突破1萬億,并且其數量還在以每天數以億計的速度在增長,“互聯網上的網頁已經多得無法計算了”。大量網頁的背后是海量的信息資源,它們不僅是人類知識的寶庫,也是人類記憶的財富。我們有必要將其妥善保存。br>

1.2 網頁信息變化快

網頁信息的變化體現在兩個方面:

一是網頁內容的變更,通常是管理員定期或不定期地更新網頁,以便增加新信息或修改之前的信息。這并不會引起網頁數量的變化,但是一定程度上更新了網頁的信息,因此原網頁的部分信息可以認為是丟失了。

二是網頁的新增或刪除,通常由網站管理者新增某些網頁或者刪除某些網頁。一旦刪除,該網頁便從互聯網上消失,其他用戶無法再訪問。網頁的增刪會引起網頁數量的變動。

相關學者研究發現,在6個月內近50%的網頁會發生變化,68%的網頁1年內將被從網上移除。

而Wallace Koehler的觀察結果更為顯著,他發現98.3%的網頁6個月內會發生變化,如觀察時間為1年,則比例上升為99.1%。此外,有20.5%的網頁6個月后不能再被訪問到,1年后上升到31.8%。

不管是網頁的更新還是網頁的增刪,都預示著網頁信息處于不斷變動的狀態中,若我們不能及時高效地將當前的網頁收集保存起來,很有可能下一秒鐘該網頁就變得面目全非甚至完全消失了。

1.3 網頁的壽命較短

相關研究提出,網絡信息資源的壽命可以用其自身的生命周期或者利用價值情況來衡量。因此我們用“半衰期”來作為網頁壽命的指標。“半衰期”源于物理學領域,原指放射性元素的原子核有半數發生衰變所需的時間,這里是指網頁的本身會發生衰變或者其價值發生衰變所需的時間。

在網頁的生命周期中,網頁的半衰期是指一定數量的網頁內有半數的網頁消失或者被刪除所需要的時間,根據Wallace Koehler通過觀察得出的結論,1年后有31.8%的網頁無法訪問到,因此他得到網頁的半衰期為1.6年。也就是說,網頁在互聯網上存活1.6年之后,其消失的幾率會大大增加。

在網頁的價值周期中,網頁的半衰期是指網頁吸引一半讀者所用的時間。一般而言,質量越高或者價值越大的網頁,其吸引的讀者會越多,其存活周期越長,半衰期也就越長。而像網絡新聞這樣具有時效性的網頁,其半衰期則非常短,通常為36個小時左右。這意味著一條新聞在互聯網上張貼36個小時之后,讀者數量就會大為減少。

2 國外關于網頁長期保存的實踐

該如何管理這些有著海量信息但隨時都會被更改或刪除的網頁,讓寶貴的知識財富世代留存,供后人研究和使用?世界上很多國家包括美國、澳大利亞、英國、法國等都進行了相關的嘗試。

2.1 澳大利亞的PANDORA項目:開始于1996年,由澳大利亞國家圖書館領導,收集并保存澳大利亞范圍內的在線出版物和網站并提供長期的利用。收集澳大利亞范圍內,具有長期保存價值的在線出版物和其他有用的網絡資源。主要方法是開發數字歸檔系統(PANDAS)來自動收集、描述、提供檔案的利用。到2003年2月,已經收集了3300個專題,144萬個文件,約405GB。

2.2 美國的MINERVA項目:始于2000年,由國會圖書館負責,其目的是評價、選擇、收集、編目以及保存數字材料,為將來的研究者提供利用。項目主要收集互聯網上重要的政治事件、重特大事件,采集工作由網絡機器人完成,并將結果分專題進行收集和存儲,目前國會圖書館已經完成13個專題的收集。

2.3 美國的IA項目:開始于1996年,由非營利組織Internet Archive發起,其目的是建成“網絡圖書館”,存儲歷史上曾經存在過的數字資源,使現在和以后的學者和研究人員能夠永久訪問。其收集的內容涉及音頻、視頻、軟件、文本以及Web等領域,采用網頁快照的方式,通過網絡機器人程序自動抓取或接收Alexa公司和其他機構的捐贈。到目前共收集了自1996年以來的1500億個網頁、470709個音頻記錄以及1859523個文本等。

2.4 英國的UKWA項目:開始于2004年,大英圖書館和其他法定送存圖書館共同合作,主要收集英國范圍內的網站。其目標是收集、保存重要的英國網站并提供長期利用,采取定期回訪網頁并保存快照的方式。自2004年以來已收集了上千個網站。

2.5 奧地利的AOLA項目:開始于1999年,由奧地利國家圖書館與維也納科技大學軟件學院合作,主要收集奧地利地域范圍內和關系到本國利益并且是公開的網站,其目標是保存奧地利本國網絡空間中的資源。使用網絡機器人自動獲取并對網站進行定期快照的方式。到2005年,共采集了來自45000個網站的280萬網頁,約488GB的數據。

2.6 芬蘭的EVA項目:開始于1997年,由芬蘭國家圖書館領導,主要采集芬蘭地域內的、當前公開的靜態網頁和在線材料。其目標是規范篩選電子文件的標準,建立一個長期可讀取的檔案館。采用地域收集的方法,定期掃描并存儲全芬蘭的網絡空間。1998年第一次怏照,從約7500個芬蘭網站上獲取約180萬個文件。

2.7 法國的BnF項目:開始于2001年,法國國家圖書館對法國范圍內的所有網站進行收集,采用自動獲取和手工方法相結合的采集策略。其目標是存儲和管理網絡文獻,為未來提供特定歷史時期具有代表性的網絡資源。到2002年,該項目收集了法國的1900個網站數據。

2.8 瑞典的Kulturarw項目:開始于1996年,由瑞典國家圖書館領導,使用非選擇性采集網站所有信息的方法,對瑞典全國的網絡信息資源進行了采集。其目的是測試瑞典在線文獻的收集、保存和提供讀取的方法。到目前共收集了34TB的數據,包括1.3億的文件。

2.9 挪威的Paradigma項目:2001年開始,挪威國家圖書館對挪威網站上所有可公開獲取的數字文件及其他網絡資源,使用軟件以半人工的方式進行采集。以便選擇、采集、描述、標志、存儲各類數字文件。預計第一輪全采集能達到1000萬的URL,達]TB的容量。

2.10 日本的WARP項目:開始于2002年,日本國立國會圖書館針對日本國內的政策信息和學術信息,開始了收集網頁快照并對該部分資源進行存儲方案的測試,其目的在于收集與歸檔網絡資源,為未來日本保存網絡文化遺產。2004年6月,該項目對600個網站和1100多個電子期刊進行了收集。

3 網頁長期保存的策略

通過借鑒國外關于網頁保存的實踐探索,筆者認為需要制定網頁長期保存的策略來合理有效地保存網頁。

3.1 多方合作共同參與實踐項目

綜觀國外的相關實踐,極少項目是由單獨主體參與并完成的,往往是在行政部門的支持下,由國家圖書館聯合國家檔案館、高校、網絡中心或者信息中心以及商業部門和公益性機構,共同參與到項目之中。如澳大利亞的PANDORA項目,就是由澳大利亞國家圖書館與其他九家澳大利亞圖書館和文化收集機構合作,奧地利的AOLA項目,是由奧地利國家圖書館與維也納科技大學軟件學院合作……多方合作的好處是可以達到強強聯合、優勢互補,提高網頁收集、保存和利用的效率。因此,在進行網頁長期保存的實踐活動中,有必要聯合各方資源,共同參與到項目之中。如可以由國家圖書館或國家檔案館進行領導協調,由院校科研機構或軟件公司提供網頁收集分析工具,由網站、網絡出版商或其他網絡服務器托管商提供資源支持,由圖書館和檔案館提供存儲場所并對外提供利用。

3.2 獲取政府支持保證項目順利實施

包括爭取政府的資金支持和政策支持。由于網頁增長的速度非常快,網頁長期保存項目也需要進行長期不懈的努力,這需要先進的網頁收集工具、完善的信息傳輸系統、海量的數字存儲空間以及便捷的檢索利用系統,因此網頁長期保存項目必須得到不間斷的資金支持。但是目前國際上很多項目都是用圖書館的預算資金,如法國的BnF項目、瑞典的Kulturarw項目等。這些資金相當有限而且無法保證其連續性,一定程度上限制了項目的開展。政府的持續投入變得相當有必要。在英國的UKWA(UK Web Archive)項目中,由于很多網站所有者并未積極響應,該項目對征求網站所有者的歸檔許可不僅花費巨大,而且困難重重。因此項目組不得不轉而游說相關的管理部門,使其能自動收集所有境內的網站。從這個案例中可以看出,在法律許可之外,政府管理部門的支持對保證項目的順利進行起著非常重要的作用。政府管理部門應該設立專項資金,并積極制定相關政策或提供授權,方便網頁長期保存項目的開展。

3.3 促進立法為項目提供法律保障

在網頁的收集與保存過程中會產生很多法律問題,最主要的便是知識產權問題,如網頁資源的下載、復制、編輯、轉換、保存、利用等活動按法律要求都應有相關著作權人的授權。但事實上,由于網頁數量多且內容復雜,在項目的進行中往往無法保證不對著作權人的權利造成損害。目前國際的通行做法是制定法律或者發布免責聲明。如丹麥Net Archive項目中,其國家法律規定允許皇家圖書館使用網絡機器人(網頁收集軟件)直接收集網頁材料,而無需征得發布人的同意。又如美國IA項目,其采集互聯網中有研究價值的全部網頁,但是嚴格遵守機器人排除協議,即網絡機器人對于被robot.txt文件保護的網頁不予采集。國外的做法給我們的啟示是,國家應該加強網絡信息資源或者是國家數字遺產以及存儲方面的立法,對于為了公共的利益,出于保護國家網絡信息資源或者是數字遺產方面的行為,應該積極鼓勵和支持,享有法定豁免權。

3.4 加深有關網頁長期保存的理論研究

國外有關網頁長期保存的理論研究和實踐研究開始得較早,實踐活動在1996年便開展起來了,而我國最早的實踐研究開始于2003年——國家圖書館的WICP和ODBN項目。而相關的理論研究起步也較晚。研究網頁長期保存,不僅需要研究網頁的生命周期、網頁的變化,還要針對網頁的價值評估、選擇范圍、收集手段、整理方法、安全存儲和高效利用方面進行深入研究。對我國學者來說,這項工作任重而道遠。可喜的是,近年越來越多的人認識到了網頁長期保存的價值,正逐漸加入到研究的隊伍中來。

4 網頁長期保存的方法

網頁的長期保存按照其過程,可分為評估、選擇、收集、整理、存儲、利用等六個步驟。

4.1 網頁評估階段

所謂“評估”,就是對網頁的價值進行評價分析,以便確認該網頁是否有價值以及價值大小,從而為長期保管提供建議。評估的標準為是否具有重大的社會經濟、歷史人文及科學研究價值。從各國的實踐來看,一般首選的是本國范圍內具有重要研究價值的網頁,包括重大的政治事件、重要的社會活動、大型網站或者一些在線出版物等網頁信息。

4.2 網頁選擇階段

網頁選擇是指確定長期保管的網頁范圍。由于大型網站或者某一事件的相關網頁數量眾多,有時可能無法全部收集,而只能選擇性收集一些有重大價值的、不可替代的網頁。一般而言,網頁的采集范圍有兩種:

4.2.1 全采集:把網站上的所有網頁信息全部收集起來。采用此方式的有瑞典的Kulturarw網絡信息資源收集項目,該項目是世界上最早的網絡信息資源收集項目之一,以瑞典全國的網絡信息資源為對象,制定了“一攬子收集”的策略,通過網絡機器人無限收集數據。還有如芬蘭的EVA計劃、奧地利的AOLA項目等。

4.2.2 選擇性采集:強調不把有限的存儲空間用來保存垃圾信息,而是有選擇性地將網頁進行歸檔保存,一般都是具有歷史文化或者社會經濟價值的網頁信息。采用此方式的有澳大利亞國家圖書館的PANDORA項目,提出了《保存網上出版物的選擇方針》并確定了15個大的歸檔主題。還有美國國會圖書館的MINERVA項目等。

4.3 網頁收集階段

網頁收集是指利用軟件工具自動獲取或者人工的方式收集網絡上的網頁信息。自動檢索和獲取網頁的軟件一般稱為“網絡爬行器”或“網絡收割機”,這種軟件功能非常強大,能在預定的時間和范圍內收集所有網頁并記錄下網頁基本信息。網頁收集一般有兩種方式:

4.3.1 保存網頁。就是將需要歸檔的網頁復制一份完全一樣的,包括文字、圖片、聲音、視頻等,這種方式花費的時間較多,用來保存網頁的存儲空間要求也很高,但無疑這是最完善的保存網頁的方法。

4.3.2 保留快照。網頁快照也是網頁的一個備份,但大多是文本形式的,或者是只保留了網頁的html部分,因此使用這種方法比較便捷,同時也很經濟。但缺點是可能無法保存網頁的全部內容。美國IA項目和英國的UKWA項目都是采用保存網頁快照的方式來收集網頁。

4.4 網頁整理階段

網頁整理就如同檔案整理歸檔一樣,需要對收集到的網頁進行分析、索引和歸檔。開發一套高效和便捷的整理系統對于網頁的保存和利用都會起到極大的促進作用。美國國會圖書館在MINERVA項目中研發了適用于網頁資源存儲與訪問的元數據描述框架MODS(Metadata Object Description Schema)。澳大利亞在PANDORA項目中,開發了PANDAS(PANDORA數字歸檔系統)用來登記所收集的網頁資料,并記錄管理元數據、劃分保管期限表以及加工、提供閱覽等,此外,該系統也管理訪問權限并提供管理報告。

4.5 網頁存儲階段

網頁存儲是指對收集整理后的網頁進行安全存儲。目前來說,網頁的安全存儲還是個難題,因為大量的網頁需要巨大的存儲空間。同時,還要保證網頁信息的安全一一存儲載體的破壞或者存取技術的落后都有可能對網頁信息造成不可挽回的損害。為了讓網頁信息得到安全存儲并長久可讀,除了采取更為先進的存儲介質和壓縮方法外,還有四種比較安全的存儲方法可供選擇。

4.5.1 遷移:將網頁信息從一種技術環境轉換到另一種技術環境,來保證存取網頁信息的技術“永不過時”。

4.5.2 仿真:制造一個能運行過時軟硬件的計算機軟件,來模仿原軟硬件運行環境來支持網頁信息的存取,以防止過時的技術導致網頁信息無法讀取的尷尬。

4.5.3 更新:是針對載體磨損或老化而采用的方法,將網頁信息轉移到新的載體上,保護網頁信息本身不受存儲載體質量惡化的影響。

4.5.4 備份:將網頁信息同時復制若干份,在不同地方進行保存。以保證信息不因載體的損壞或遺失而丟失。

4.6 網頁利用階段

對網頁進行長期保存的最終目的是為了利用,如同IA提出的“離開了利用談保存是沒有意義的”一樣,在提供網頁信息的利用上,應在法律允許的前提下,盡可能地開發系統、網站或者平臺供人們檢索使用。雖然目前有些國家的網頁長期保存項目的成果僅限內部使用,或者僅限研究者使用,但是網頁信息資源作為國家和人類的數字遺產,必將有益于大眾。美國的IA在其網站上提供了一個名叫“Mayback Machine”的“時光機器”:它可以瀏覽自1996年至今的1500億個網頁。此外,IA還建立了一個流動圖書館(Internet Archive Bookmobile),它能從網上下載公共領域的書籍,而且可以在任何地方、任何時間為人們提供印刷服務。澳大利亞的PANDORA項目提供15個專題的免費檢索與瀏覽服務,美國的MINERVA項目現在提供13個專題的瀏覽。

5 小結

為了保護這些珍貴的信息資源,我們有必要對網頁進行長期的保存,以便提供給將來利用。可喜的是,越來越多的人注意到這個事實并且參與到保護網頁的行動中。各個國家也都積極行動起來,制定策略,研究方法,并在具體的實踐項目中獲得了珍貴的經驗。

對此,我國對于網頁的長期保存的研究還處于探索階段,筆者希望在通過借鑒國外眾多項目經驗的基礎上,提出相應的網頁長期保存策略和方法,以期為我國的網絡信息資源和數字遺產的長期保存貢獻綿薄之力。

主站蜘蛛池模板: 青青草原国产免费av观看| 国产精品尤物在线| 日韩小视频在线观看| 成人国产三级在线播放| 老司机久久精品视频| 日韩欧美国产精品| 亚洲成在人线av品善网好看| 久久国产精品影院| 国产精品一区在线观看你懂的| 夜夜爽免费视频| 免费A级毛片无码无遮挡| 国产黄在线观看| 亚洲人成网18禁| 国产永久在线观看| 日本国产一区在线观看| 亚洲无码视频一区二区三区| 亚洲天堂免费观看| 国产超碰在线观看| www欧美在线观看| 麻豆国产在线观看一区二区| 亚洲国产精品成人久久综合影院| 国内精品视频区在线2021| 91久久夜色精品国产网站| 特级精品毛片免费观看| 亚洲美女一区二区三区| 四虎国产成人免费观看| www亚洲天堂| 亚洲人成网站日本片| 再看日本中文字幕在线观看| A级毛片高清免费视频就| 国产精品手机在线播放| 日韩精品亚洲精品第一页| 又黄又湿又爽的视频| 久久熟女AV| 欧美黄网在线| 亚洲婷婷丁香| 幺女国产一级毛片| 婷婷六月天激情| 1级黄色毛片| 亚洲大学生视频在线播放| 日韩AV手机在线观看蜜芽| 亚洲女同一区二区| 999国产精品| 日本精品一在线观看视频| 人妻精品久久久无码区色视| WWW丫丫国产成人精品| 无码专区在线观看| 园内精品自拍视频在线播放| 亚洲婷婷在线视频| 亚洲一级毛片免费看| 一本久道久久综合多人 | h网站在线播放| 日韩精品一区二区三区免费在线观看| 国产欧美亚洲精品第3页在线| 中文字幕亚洲综久久2021| 免费看av在线网站网址| 精品亚洲国产成人AV| 精品视频91| 欧美va亚洲va香蕉在线| 欧美色视频日本| 人妻精品久久无码区| 爱做久久久久久| 色AV色 综合网站| 国产综合日韩另类一区二区| 亚洲高清在线天堂精品| 亚洲—日韩aV在线| 国产毛片不卡| 亚洲高清在线播放| 久久青草免费91线频观看不卡| 中文无码精品a∨在线观看| 欧美天堂在线| 国产精品对白刺激| 久久一色本道亚洲| 国产微拍精品| 久久国产成人精品国产成人亚洲| 亚洲国语自产一区第二页| 久久久亚洲色| 国产成人无码AV在线播放动漫| 国产本道久久一区二区三区| 操国产美女| 免费人成网站在线高清| 国产精品大白天新婚身材|