摘 要 互聯網存檔技術可以利用采集軟件從實時網絡采集,保存和重放有價值的內容,并可以對其進行獨立管理和保存,以供科研人員研究使用。論文介紹并討論了國家圖書館網絡存檔計劃和存檔技術方法,概述了國家圖書館互聯網存檔現狀和問題,討論了網絡存檔立法情況、收集策略、程序局限性、真實性、完整性和質量保證等關鍵技術問題。國家圖書館互聯網存檔技術雖然已經成熟,但是在存檔立法、長期保存、質量保證等方面仍然面臨著許多挑戰。
關鍵詞 互聯網 圖書館 互聯網存檔 互聯網采集
分類號 G258.1;G253.1
DOI 10.16810/j.cnki.1672-514X.2021.07.011
Research and Enlightenment of the Current State of Web Archiving in the National Library of China
Yang Yunpeng
Abstract Web archiving technology can use collection software to collect, save and replay valuable content from the real-time network, and can independently manage and save it for research and use by scientific researchers. This article introduces and discusses the National Library web archiving plan and archiving technical methods. After that, this article summarizes the current status and problems of Web archiving in the National Library, discusses the legislative situation of online archiving, collection strategies, program limitations, authenticity, integrity and quality assurance and other key technical issues. Although the Web archiving technology of the National Library has matured, it still faces many challenges in archiving legislation, long-term preservation, and quality assurance.
Keywords Internet. Library. Web archive. Web collection.
0 引言
互聯網作為通過計算機通信網絡連接在一起的巨大網絡,經過許多年的發展在其網絡上廣泛分布和存在的信息是一種獨特的信息資源,其資源在當今生產和生活中起到了越來越重要的作用,同時,如今生產和生活中越來越多的資源都在網絡中發布?;ヂ摼W發展速度是空前的,截至2019年6月,我國互聯網網民規模達到8.54億,互聯網普及率達到61.2%[1]?;ヂ摼W的內容也涉及到商務交易、網絡金融、網絡娛樂和公共服務等各個方面。然而,互聯網從來不是靜止不動的,網址網頁,包括網上的照片、博客文章、視頻、新聞報道、消息、評論等內容都會消失,因此互聯網的快速發展也為互聯網采集和保存帶來了難題。
面對互聯網存檔問題,世界各地的機構,尤其是圖書館相關機構,都對開發和研究支持解決大規模存檔的相關方法進行了大量人力和物力的投資。我國圖書館也一直在積極開發新的互聯網存檔工具和技術,解決由于網絡內容的短暫性而無法訪問的問題。針對這項工作,本文概述了中國國家圖書館Web歸檔技術的最新狀況及涉及的主要問題。
1 為什么要存檔互聯網網站
互聯網存檔的主要原因之一是網站信息只有相對較短的壽命,在一定時間后內容可能或已經丟失。網絡無處不在,但網絡內容是短暫的。與傳統的信息相比,網絡資源具有數量多、更新迅速及易逝性的特點,每天都有海量有價值的信息在消亡。通過對網頁的采集使我們了解網頁的平均壽命在1年左右。頁面上的特定內容會更頻繁地消失,尤其是在新聞和社交網站上。一些網站會用最新的內容覆蓋舊內容進行更新,導致原內容無法訪問。一些網站隔一段時間會進行改版,將一部分舊內容舍棄或者將內容的網址改變,導致無法訪問的情況出現?,F今,互聯網內容無法訪問和“404找不到頁面”的錯誤可謂與圖書館丟失圖書文獻資料的性質相當,但是前者更為常見。
互聯網存檔是出于社會利益,具有歷史價值,其記錄下互聯網的演變和內容并供人們瀏覽。例如,國家圖書館的政府信息公開采集項目能將政府公開的信息集合為政府和個人提供服務?;ヂ摼W存檔具有學術意義,在線和在普通出版物框架之外出版的學術作品通常不屬于圖書館的收藏政策,但應該保留和使用,作為學術研究的一部分。大數據時代的到來,讓學術研究越來越依靠數據,網絡存檔是一段時間內的數據集合,是學術研究必不可少的一部分。
網絡存檔的用處目前看來只是冰山一角,因此無論是歷史價值還是在發揮其學術意義方面,越早進行網站存檔就能夠越好地發揮其作用。
2 國家圖書館互聯網存檔計劃
迄今為止,大多數大型互聯網存檔工作都是由世界各地國家圖書館和檔案館推動的,Internet Archive(IA)是一個例外。IA是已知最大的互聯網存檔內容集合的所在地,截至現在擁有PB級別的壓縮數據,保存了3300億個網頁和網頁快照[2]。其成立于1996年,是一個非營利性組織,標志網絡信息資源保存研究的開始。2003年IA提出全球互聯網存檔解決方案需要全球協作,其中11家與IA聯合組成了國際互聯網保存聯盟(International Internet Preservation Consortium,簡稱IIPC)。國際互聯網保存聯盟(IIPC)成立后,主要的貢獻是標準的開發,例如WARC標準,以及圍繞元數據使用,保存工作流程,訪問和質量保證的研發工作[3]。
2003年,中國國家圖書館開始開展網絡信息資源采集與保存試驗項目(Web Information Collection and Preservation,簡稱WICP),實驗性地對中國境內的互聯網資源進行采集與保存;2007年正式成為國際互聯網保存聯盟(International Internet Preservation Consortium,簡稱IIPC)成員單位,并與聯盟內其他成員交流互聯網存檔經驗;2009年成立“國家圖書館互聯網信息保存保護中心”,對國內外經濟、文化、科學、技術、政治等領域主要網站和重大事件進行收集存檔,統籌規劃國內互聯網存檔工作;2012年開通互聯網存檔網站公共服務,將存檔的互聯網資源通過國家圖書館局域網進行集中展示,供學者研究使用;2014年依托“網事典藏”項目,聯合全國公共圖書館共同開展互聯網資源的保存和服務;2018年研發并推廣部署“網絡資源保存與服務系統”,實現互聯網資源高效和規范化的采集、編目、回放、發布和服務。截至2018年底,全國各級公共圖書館累計采集網站23 000余個,實現了涵蓋政府公開信息及國內外重要網站網頁等互聯網資源的保存與保護[4-6]。
3 國家圖書館網絡歸檔的技術方法
互聯網歸檔的技術方法根據操作規模而變化。國家圖書館對于大規模歸檔,主要有三種技術方法:客戶端存檔、交互存檔、服務器端存檔。
客戶端存檔是最常使用的方法,其能根據需求靈活修改采集參數,操作少,成本低。國家圖書館通過Heritrix作為客戶端(即瀏覽器),直接使用HTTP協議來收集服務器傳遞的內容。這種方法的關鍵是盡可能提高資源發現率并更好地將原始內容保存。搜尋器遵循“種子”指令,并將與該種子相關的所有鏈接搜尋到指定的深度,從而采集所有可用文件的副本。這些都將在開始采集前提前設置成模板發送給采集工具進行相應處理。
交互存檔作為一個特別的采集方法,主要是采集客戶端訪問記錄而不是直接采集服務器上所有的內容。網絡抓取工具(例如SiteStory)根據一段時間內的實際客戶端/服務器交互記錄進行采集和保存,它支持用戶對網站訪問內容的更全面的不斷增長的網絡存檔。交互方法的存檔會采集瀏覽器正在請求的資源的每個版本,因此可以提供指定日期和時間的內容呈現給用戶。交互存檔的實現代碼需要部署在托管內容的Web服務器上,因此主要由內容所有者或托管者使用,而不是由外部收集機構使用。
服務器端存檔需要發布機構的積極參與,目前國家圖書館與新浪微博達成了合作協議,新浪微博將其服務器上內容直接提供給國家圖書館存檔。文件直接從服務器復制而無需求助于HTTP協議,但是內容回放時經常會遇到問題,特別是內容由數據庫驅動或創建與原始實時網站類似的托管環境時使用的絕對鏈接。但是,這是一種用來收集存檔程序遺漏內容的有用方法。
上述三種方法中的每種存檔的內容略有不同,并且需要不同等級的技術要求來訪問原始內容。主要采集外部內容有關的網絡存檔通常會選擇客戶端存檔,因為其提供了最廣泛的支持。服務器端存檔最常用于無法通過HTTP收集內容的地方(如數據庫或地圖服務器)。交互存檔被用于特殊的情況,如在為財務或商業交易進行存檔時,需要用戶執行操作和輸入數據。國家圖書館實際存檔主要以客戶端存檔為主,服務器端存檔為輔,國家圖書館存檔的目的是盡可能地保存所有網站資源,因此交互存檔不符合要求。
4 國家圖書館存檔現狀和問題
4.1 合法存檔
合法性通常是網絡存檔面臨的最大的非技術性問題。在所有者沒有明確許可的情況下,是否擁有復制內容和提供獨立于原始網站訪問的合法權利,還是侵犯了所有者的版權?一些網站明確地標出了版權許可或版權授權信息,例如知識共享或官方版權,可以部分解決網絡存檔合法性問題。但是,在大多數情況下很大程度上取決于有關國家規定和存檔機構的職權范圍。
在我國,電子出版物和網站的法定存檔相關法律尚未實施。這意味著在我國,沒有任何一家存檔機構能夠在不侵犯版權的情況下,對整個中國的網站進行存檔。國家圖書館正在積極準備互聯網存檔相關法律的提案,當提案被通過時,國家圖書館將能夠對互聯網信息進行復制、編輯、長期保存和公共服務。在此之前,國家圖書館一直在運行選擇性的,基于權限范圍內的互聯網絡存檔。盡管如此,仍然會出現問題,因此國家圖書館有明確的刪除侵權條目政策。
4.2 存檔收集策略
國家圖書館互聯網存檔的收集策略,主要有兩種類型的收集方法,這兩種類型都有明確的范圍[7-9]。
(1)網站域名收集:以網站的采集和存檔為重點,主要采集反映所在行政區域的政治、經濟、文化發展等信息的網站,整站采集。
(2)選擇性專題收集:以專題的采集和存檔為重點,主要采集反映所在行政區域當年政治、社會、文化、科技等領域的熱點專題,例如:省級地方兩會、洽談會、民族節日等。
互聯網存檔收集的主要問題是采集施加的人為限制,即使是網站域名收集也是如此?;ヂ摼W不受采集主題和網站的限制,這些存檔中的網站將經常鏈接到未作為搜集存檔一部分的其他網站,因此將不可避免地會遇到無法訪問的鏈接。
兩種類型的存檔各有優缺點。
(1)網站域名存檔是最全面的,但受當前網絡歸檔技術的限制導致域名集合采集的網站通常不完整:文件沒有被存檔或已經被存檔但無法重放,或者未搜尋到網站的所有鏈接。網站越大越復雜,不完整的可能性就越大。但是,域名集合由于采集范圍固定,因此相比選擇性專題歸檔與其他站點和外部鏈接內容的關系更容易維護。
(2)選擇性專題存檔的采集重點是尋找認為有價值的專題資源,并在一定的收集范圍內進行采集。這種價值衡量標準雖然有爭議,但通常要求存檔站點的質量達到服務標準。因此,網頁采集是“完整的”,即所有文件都可以正確顯示和呈現,即使指向外部站點的鏈接也能訪問。選擇性專題存檔的另一個潛在弱點是它們有可能或無意導致未經確認的選擇偏差。專題網址選擇通常是一個手動過程,反映了選擇網址收集的人的特定興趣或知識?;ヂ摼W的龐大規模、網站的數量及信息發布的速度,都使得人工選擇者很難及時了解新的來源,尤其是基于事件的存檔。因此,選擇性存檔存在無意中對網絡存檔問題及其研究價值產生偏見的風險約束。保存與選擇者相關及其感興趣的信息有助于緩解這種偏見造成的問題。
中國國內的采集機構主要有國家圖書館、北京大學、臺灣圖書館和臺灣大學圖書館。不同的機構雖然采集的策略不同但是還是有重合的地方,會形成對一個站點重復存檔的問題。這對用戶有什么好處?對網站所有者有什么影響?一個清晰的國家級別存檔策略可以控制這些問題并以一種互利的方式解決它們。
4.3 存檔程序的局限性
國家圖書館互聯網存檔主要是通過部署互聯網采集程序來抓取和保存網站內容的副本。在過去十幾年中,雖然在采集技術上取得了長足的進步,但是部分采集內容仍然存在被限制的情況。例如:(1)數據庫/動態驅動的內容(即響應用戶請求時通過數據庫生成的網頁);(2)流媒體文件;(3)只能通過本地站點搜索訪問的內容——爬蟲程序幾乎無法分析的腳本代碼;(4)受密碼保護的內容——如果提供了密碼,則抓取程序可以采集內容,但如果沒有密碼,那么內容則無法被采集;(5)一些由Javascript驅動的內容——例如由動態機制生成的網址;(6)手機移動端數據內容。
其他阻止或阻止采集程序取得進展的問題包括:采集大小的操作限制(采集發現的站點或者網址數超出了主機存儲空間范圍)和采集程序陷阱(如具有動態頁面和沒有固定結束日期的網頁)。但值得注意的是,操作限制不是對爬網程序的限制,而是限制爬網大小的實際措施。國家圖書館有關該領域的研究和開發正在進行中,以解決下一代采集程序的這些限制。
4.4 歸檔手機移動端數據
截至2019年6月,我國手機網民規模達8.47億,較2018年底增長2984萬,網民中使用手機上網的比例由2018年底的98.6%提升至99.1%。越來越多的人通過手機客戶端來上網獲取信息,同時越來越多的資源也都只是通過手機App發布而普通電腦網站上卻沒有。移動客戶端應用程序普遍具有封閉性的特征,這導致采集軟件無法快速搜尋到數據地址。同樣重要的是,移動端例如微信公眾號和抖音短視頻與傳統網站的更新方式也不同,因此也應該以不同的方式進行存檔。微信或抖音App的每篇文章或視頻都是對當前內容的一種補充,舊的內容或視頻仍然可用,而不是覆蓋。因此可以適當降低爬網頻率,每隔一段時間進行一次存檔。國家圖書館研究發現,移動端內容的特征是“流動性”,這使得存檔很難確定內容已完成的點。
另一個問題是權限問題。諸如微信、抖音、社交網站和媒體共享客戶端之類的移動App,通常包含大量的多個用戶生成的內容。對于基于權限的集合,存檔任何包含用戶生成內容的資源都會帶來挑戰,要么要求App所有者提供許可,要么從所有貢獻者那里收集權限。這是一項耗時且有時幾乎是不可能完成的任務。
盡管這些問題中有許多尚未解決,但仍然值得嘗試在丟失某些內容之前對其進行存檔。
4.5 時間連貫性
網絡存檔具有復雜的時間維度。存檔所跨的時間段越長,其時間值越大。不幸的是,存檔和其中的站點越大,其時間連貫性破裂的風險就越大。時間連貫性被描述為“一組存檔頁面的一個屬性,表明在某個時間點上所有已存檔的網頁都同時存在于網站上”。當軟件完成采集所需的時間中網站的部分內容已更新導致種子網址頂層(例如首頁)中的內容在時間上不再與下層中的內容匹配時,就會發生時間不一致。即使對于中等大小的網站(例如50MB),這也是一個潛在的問題。對于網站域名級別的集合,采集變得更加困難,受域的大小影響,完全爬網可能需要幾天或幾周才能完成。所得的集合不能視為指定日期的網站的代表性副本,而只能視為給定的一段時間的副本。但是,這對于希望了解指定時間點歷史用戶可用的信息的未來研究人員而言至關重要。盡管確保單個站點時間一致性的工具正在出現,但是對于許多用戶和收集機構而言,這仍然是一個概念上和實踐上的挑戰。
4.6 重復數據刪除
“重復數據刪除”是指消除相同內容的多個副本,以便保留較少的副本。這既包括技術上相同的內容(即位和字節)的重復數據刪除,也包括內容級別上細微的重復數據刪除。重復數據刪除對于互聯網存檔來說是一個重要的問題,因為隨著時間的流逝,相同內容的多個副本經常會在網站的不同采集中收集。
在某些情況下,可以實施重復數據刪除,直到僅保留一個文件副本為止。在其他情況下,部分減少重復數據刪除會帶來一些好處(在存檔中保留一個文件的多個副本,但仍會減少總體上保留的副本數。)這樣既可以降低存儲成本,又可以在以后出現問題或文件損壞的情況下,用重復的數據恢復損壞的文件。國家圖書館存檔的WARC存儲格式支持重復數據刪除。
在某些情況下,重復數據刪除與收集機構的保存意圖和業務案例相沖突,因此不希望重復數據刪除。例如,用于歸檔法律和政策相關記錄的Web歸檔應避免重復數據刪除,因為站點的每個版本都必須能夠獨立存在,并且所顯示的每個對象都與站點中其余對象一起采集。如果不這樣做將不被承認,因為法律和政策相關的文件不能做人為刪減,即要完整記錄,只有完整記錄才能體現其價值。
4.7 真實性、完整性和質量保證
網站的真實存檔版本應該是什么樣?它是否應該在所有方面都與原始“實時網站”相同?國家圖書館在項目成立初期,存檔及呈現的網站與實際網站一致,當時的網站更簡單,網站會顯示信息通知用戶他們的網站針對哪個瀏覽器做了優化,但是隨著項目的發展,為了獲得個性化的瀏覽體驗,識別“原始站點”的內容及其在存檔中的外觀變得越來越困難。不同的瀏覽器不僅會影響網站的整體外觀,甚至會影響呈現給訪問者的內容?!霸季W站”的概念已變得毫無意義。那么,如何將網站的存檔版本驗證為“真實”呢?“重要屬性”概念是一種驗證保存方法是否成功,確定原始網站與內容、上下文、外觀、結構和行為是否相關的方法。驗證采集的質量還必須考慮到采集的網站打算捕捉的是什么“保存意圖”。而進行這種評估并不簡單,但是能確保工作人員能夠評估和驗證所捕獲站點的真實性和完整性。
國家圖書館驗證存檔完整和真實性通常在質量保證(QA)流程中進行。手動QA可由受過訓練的專家執行,以評估爬蟲收集了什么及存檔的網站如何在標準瀏覽器中呈現。這確保不僅捕獲了目標文件,而且確保了目標文件根據國家圖書館建立的保存意圖進行了可接受的渲染。人工的視覺質量檢查非常耗時,自動化的質量檢查工具提供了一種更有效的方法來檢驗非常大規模的爬網質量,盡管它們無法達到與訓練有素的人眼相同的水平。目前,開發中的工具著眼于一些可能指示爬網問題的關鍵指標,例如明顯的爬網錯誤(在爬網日志中已指出),缺少鏈接,數據下載大小和未知的MIME類型。
5 結論和建議
在過去的十幾年中,國家圖書館Web存檔技術已經非常成熟,對所涉及問題的理解也是如此。國家圖書館通過以客戶端存檔為主,服務器端存檔為輔的方式對互聯網資源進行了大量存檔,同時開發了許多的工具和服務,使我們能夠存檔和保留在線文化記憶的各個方面,并符合獲取和保存在線記錄的法規要求。這項工作一直在進行中,只要互聯網繼續發展,互聯網歸檔技術就必須不斷發展以跟上步伐。令人鼓舞的是,國內外許多研發項目正在利用現今網絡技術開發出各種的解決方案,尤其是提高和促進存檔的采集和使用。
盡管付出了努力,但網絡檔案仍然面臨著巨大的挑戰。受存檔工具的限制流媒體文件、受密碼保護需要登錄的網站、移動端App內容和動態交互類的內容目前無法通過工具進行大量采集,只能采取具體網站具體分析,根據網站的特性用不同的方法進行探索性采集。網絡存檔還面臨著時間連貫和準確性的問題,存檔時間的準確對未來的研究和學習具有重要的價值和意義。國家圖書館目前正在通過自身研發和對外合作的方式逐步解決這些采集和存檔上的問題。
在過去十幾年中,確保網站檔案收集和存檔所有內容的質量保證是技術進步最小的領域之一。需要將更多的注意力和資金用來開發提高存檔可靠性方面,讓爬網不僅能捕獲所有必要的文件和內容,而且可以完整地呈現它們。更智能的采集工具可以通過提高爬網的可靠性并減少當前已知的“風險”來解決此問題。沒有這些,我們將面臨收集和存檔網站不完整的風險。這將導致存檔資料無法發揮出真正的價值,學者們無法從不完整的存檔中得出有關領域研究的權威性結論。
最后,互聯網存檔絕對不能忽視立法問題。立法仍然是國家圖書館網絡存檔面臨的最大問題之一,其不僅限制資源的收集而且限制存檔的公共服務。在解決這些問題之前,網絡資源將會繼續消失。由于沒有合法的存檔立法,導致國家所有大型活動事件只有很少的內容得到了保存,降低了未來互聯網存檔的研究價值。執行機構和政府是解決這些問題的關鍵,但必須以該領域機構和專家提出的實際需求和要求為基礎?;ヂ摼W資源的采集、存檔和發布都涉及許多方面的法律問題,為保證互聯網存檔工作今后的發展,可以在借鑒國外法律法規的基礎上,盡快完善有關互聯網存檔方面的法律,確定國家圖書館和其他相關領域機構從事互聯網存檔的合法權利?;ヂ摼W歸檔的立法不能也不應孤立地解決,需要相關機構、專家和政府多方合作共同解決。
參考文獻:
中國互聯網信息中心.第44次中國互聯網絡發展狀況統計報告[EB/OL].[2019-08-30].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201908/t20190830_70800.htm.
Internet Archive[EB/OL].[2020-09-07].https://archive.org/about/.
IIPC[EB/OL].[2020-09-07].https://netpreserve.org/.
國家圖書館將啟動互聯網信息戰略保存項目[EB/OL].[2019-04-12].http://www.xinhuanet.com/book/2019-04/12/c_1210106680.htm.
張煒,張文靜.中國網絡信息采集工作研究現狀分析:以國家圖書館為例[J].圖書館建設,2008(7):43-46,51.
劉青,孔凡蓮.中國網絡信息存檔及其與國外的比較:基于國家圖書館WICP項目的研究[J].圖書情報工作,2013,57(18):80-86,93.
安興茹.歐美國家圖書館網絡信息保存的收集策略研究及啟示[J].圖書館雜志,2007(9):52-55.
聶云霞.國內外數字遺產長期保存實踐與推進策略研究[J].信息資源管理學報,2013,3(1):38-45.
黃尤精.論圖書館數字資源采集與保存[J].中國管理信息化,2018,21(7):136-137.
楊云鵬 中國國家圖書館館員。 北京,100083。
(收稿日期:2020-07-26 編校:曹曉文,謝艷秋)