張莉 顏祥林
摘要:美國國家數字化管理聯盟的網頁歸檔項目調查報告已成為一些機構制定網頁歸檔政策時的重要參考之一。文章通過分析美國國家數字化管理聯盟2016和2017兩年的網頁歸檔項目調查報告,并與2011和2013年調查結果相比較,探索了美國網頁歸檔項目發展的總體特征,總結了美國網頁歸檔項目在建設主體、實施內容以及開發利用方面的發展新動向,并在此基礎上對我國網頁歸檔實踐的發展提出了一些思考與建議。
關鍵詞:NDSA;網頁歸檔;調查
分類號:G275
美國網頁歸檔實踐的領先發展一直為我國眾多學者所關注。總的來說,國內相關研究多是聚焦于一個或多個美國重點網頁歸檔項目的案例分析,鮮有文獻對美國網頁歸檔項目發展的總體進行研究。2010年,美國國會圖書館宣布成立國家數字化管理聯盟(National Digital Stewardship Alliance,NDSA)。該組織分別于2011、2013、2016和2017年共計四次開展了美國全國性的網頁歸檔項目調查,其中最新的2017年調查報告已于2018年10月對外公開。調查涉及網頁歸檔項目的建設主體、歸檔范圍、歸檔方法、版權與隱私、訪問與利用等五個不同方面。這四次調查既對美國網頁歸檔項目不同階段的總體概況進行了記錄,又追蹤了美國網頁歸檔項目在過去幾年內的變化。調查所形成的報告指明了美國網頁歸檔實踐的未來走向和發展機遇,最新的調查還發現,這些報告已被部分美國機構作為制定網頁歸檔政策時的重要參考之一。
同時NSDA的調查報告也為我國相關領域跟蹤和研究美國網頁歸檔項目的總體發展特征提供了契機。國內學者蔡舜在《美國網頁存檔調查及啟示》(以下簡稱“蔡文”)中著重對NDSA2011年和2013年的調查報告進行了介紹與分析。鑒于美國網頁歸檔實踐在不斷發展的這一事實,近年必然會出現值得我們持續關注的新動向,因此我們在蔡文研究的基礎之上,聚焦NDSA2016和2017年的調查報告,試圖揭示美國網頁歸檔項目在建設主體、實施內容以及開發利用方面的新動向,以期對我國網頁歸檔實踐的未來發展提供一定的借鑒與思考。
1建設主體的動向
NDSA的調查對象包括但不限于聯盟的成員機構,2016年和2017年NDSA分別收到104個和119個美國機構的有效調查結果。2017年參與調查的機構數較2013年增加了1/3,除開展網頁歸檔項目的機構數量在不斷增長外,美國的網頁歸檔項目在建設主體方面還出現了以下變化。
1.1高校成為發展的主力軍
美國網頁歸檔實踐已進入快速發展時期,近十年美國開展網頁歸檔項目的機構迅速增加。2017年調查報告顯示,僅2016年后啟動網頁歸檔項目的機構就占了全部調查對象的1/4。而這一趨勢的出現與高校的積極參與是密不可分的,具體表現在:與前兩次調查相比,開展網頁歸檔項目的政府部門及其他類型機構的數量變化并不大,而高校的數量則呈現出明顯增長,占全部調查對象的比例超過60%。高校已成為美國開展網頁歸檔項目的主陣地,其次是政府部門和公共圖書館。網頁歸檔項目在高校內的活躍程度,說明網頁歸檔已經成為美國高校圖書檔案機構資源建設的重要途徑。
1.2機構合作推動項目建設
網頁歸檔的挑戰不是任一機構可以獨立解決的。調查中曾有機構表示:“作為一個中小型大學……我沒有資源(或專業知識)去實現高水平的、前沿的發展。提到工作流程,我還要考慮員工時間不足的問題——雖然我希望實現更好的質量保證和元數據描述,但是這不是我們的首要任務。”NDSA也在《2014年國家數字管理議程》(National Agenda for Digital Stewardship 2014)中提出,不是每個機構都能為網頁歸檔的所有活動提供全部資金,要求每個機構在網頁歸檔的各個方面擁有專業知識也是不切實際的。但是不同的機構可以專注于不同的方面,并相互依賴某些職能,通過合作促進網頁歸檔實踐的發展。
NDSA調查發現,2013年僅有18%的機構表示自己參與過合作,這一比例在2017年則增長為57%,而機構間合作的加強與2013年以來推出的一系列網頁歸檔合作計劃緊密相關。NDSA也在報告中認可了常春藤圖書館聯合會的“網頁館藏計劃”(Web Collecting Program)、加利福尼亞數字圖書館的“Cobweb”、“聯邦網頁歸檔工作組”(Federal Web Archiving Working Group)等網頁歸檔合作計劃的積極作用。2013年常春藤圖書館聯合會開始“網頁館藏計劃”,建立了常春藤聯盟各大學圖書館間網頁館藏建設的合作關系;2016年加利福尼亞數字圖書館聯合哈佛大學圖書館、加州大學洛杉磯分校圖書館,推出網頁歸檔協作平臺“Cobweb”:2014年美國國家檔案與文件署、美國政府出版局、美國國會圖書館等以“聯邦網頁歸檔工作組”形式開始聯邦政府網頁歸檔合作。這些都是網頁資源館藏建設的不同合作形式,通過機構間的協作和資源共享,吸收了來自不同機構的不同資源,推動了網頁歸檔項目建設的快速發展。隨著現有網頁歸檔合作計劃的不斷推進及新的網頁歸檔合作計劃的推出,參與合作的機構將會越來越多,網頁歸檔合作的參與方式也會越來越豐富。
1.3公共圖書館成為新生力量
在2011、2013和2016年的調查中,公共圖書館在全部調查對象中的占比一直不足3%,2017年公共圖書館占比增長到13%,僅次于高校和政府部門。這一變化得益于2017年互聯網檔案館啟動的“社區網頁:助力公共圖書館員創建社區歷史網頁檔案”(Community Webs:Empowering Public Librarians to Create Community History Web Archives)項目。“社區網頁”項目由互聯網檔案館主導,博物館和圖書館服務研究所提供資金支持,在線計算機圖書館中心提供技術指導,皇后區公共圖書館、克利夫蘭公共圖書館和舊金山公共圖書館提供人力資源,共同為15個不同的公共圖書館提供技術培訓、人員支持和網頁歸檔服務,幫助他們提高網頁歸檔的技術與能力,以創建記錄當地記憶、有歷史意義的網頁資源庫。
公共圖書館以所在社區相關網頁為起點開始網頁歸檔實踐,通過機構間合作,匯集和利用了多個機構的資源和專業知識,不僅推動了網頁歸檔被納入館藏建設的正式活動,對社區數字記憶的長期保存也有著重要意義。不僅如此,“社區網頁”項目在保存社區歷史網頁檔案的同時,對公共圖書館的技術培訓還將產出一系列開放的網頁歸檔與數字保存相關的教育培訓資源,供其他有興趣開展網頁歸檔項目的機構及其人員參考,既有利于吸引其他機構的參與,也在一定程度上推動了美國網頁歸檔培訓的步伐,是美國網頁歸檔實踐專業化發展的重要體現。
2實施內容方面的動向
從2016年調查開始,NDSA引入了Archive-It推出的網頁歸檔生命周期模型(The Web Archiving Life Cycle Model)。該模型認為政策涉及網頁歸檔的方方面面,網頁歸檔中的高層決策可分為愿景與目標、資源與工作流程、訪問/利用/再利用、保存、風險管理,而網頁歸檔的日常任務可分為鑒定和選擇、歸檔范圍界定、數據捕獲、存儲和組織、質量保證與分析,元數據描述則是貫穿整個網頁歸檔的持續過程。它概括了通用的網頁歸檔工作流程,為機構開展和改進自己的網頁歸檔項目創造了一個可測量的模型,本文也將以此為參考,對美國網頁歸檔項目實施內容方面的動向進行分析。
2.1歸檔范圍向內部網站傾斜
機構在決定歸檔哪些網站的內容時主要有兩個選擇:一是歸檔自己或附屬網站的內容作為機構記錄的一部分;二是歸檔其他機構或個人的網站內容以便未來研究。隨著網頁歸檔作為機構信息資源管理的正式活動得到越來越多的認可,機構也愈加傾向于歸檔自己或附屬網站的內容作為機構記錄的一部分,內部網站成為網頁歸檔的主要內容。據2017年調查,對內部網站進行采集的機構較2011年增加了17%,而對外部網站進行了采集的機構則明顯減少,較2011年低了24%。不論是采集內部網站還是外部網站,機構的歸檔能力在整體上有了很大的提升。機構對采集音頻、視頻、博客、數據庫、社交媒體等類型資源的信心均有所增強,同時對采集互動式多媒體的顧慮則加深了。
2.2數據捕獲借力外部工具和服務
機構網頁歸檔能力的提升與網頁歸檔工具和服務的發展與進步息息相關,利用外部服務商實現網頁歸檔成為機構首選。2017年有87%的機構使用了網頁歸檔服務,其中Archive-It是最受歡迎的網絡資源歸檔服務,使用率從2013年的71%增長為2017年的94%。使用網頁歸檔工具進行本地網頁采集的機構數量相對穩定,占全部機構的30%左右,四次調查的結果相差不大。自2011年NDSA開始調查以來,網頁歸檔工具Heritrix和HTTrack一直深受機構歡迎,機構使用率始終排在前列。Heritrix采用廣度優先算法,可實現大規模網站網頁信息的完整采集;HTTrack有較強的鏈接分析功能,適合重要網站網頁信息的深度采集。2017年Webrecorder發布僅一年就躍居前兩者之上,成為機構使用率最高的網頁歸檔工具。Webrecorder是基于瀏覽器的網頁歸檔工具,可以捕獲傳統的基于鏈接的Heritrix和HTTrack難以采集的網頁。
2.3關注歸檔網頁的質量問題
2016年開始,NDSA以Archive-It網頁歸檔生命周期模型為參照,對機構當前在網頁歸檔項目上取得進展最多和最少的領域進行了調查。從結果上看,數據捕獲、鑒定和選擇、歸檔范圍界定在2016和2017年的調查中一直是機構取得進展最多的領域之一。相反,訪問/利用/再利用、元數據描述、質量保證與分析則是機構認為自己取得進展最少的領域。這說明當前各機構在確定捕獲什么以及如何捕獲它們方面,也就是網頁生命周期的前期取得了很大進展,但是在網頁歸檔生命周期的后期,美國網頁歸檔項目的推進較為緩慢,機構仍有很多問題需要解決。
調查結果也顯示,歸檔網頁的質量問題已經引起了機構的關注與重視。NDSA對機構在發展網頁歸檔項目時首要考慮的因素進行了調查,其中選擇數據量的機構則從2013年的53%減少到2017年的29%,而選擇質量的機構則從17%增長到51%。NDSA將“質量”定義為完整性、準確性和重現保真度,這也就意味著機構越來越關注是否將原始網頁完整、準確地進行歸檔,以及歸檔網頁能否重現網頁最原始的樣子。機構對歸檔網頁質量的關注在一定程度上印證了美國網頁歸檔項目在逐步走向成熟。機構也表示有興趣在質量保證技術和策略、捕獲配置和優化、元數據標準和應用等領域開展合作。但是質量保證在過去十年中技術進步緩慢,還需要機構投入更多的關注和資金來開發有著更高可靠性的工具。
2.4版權相關政策仍待加強
網頁歸檔項目的進行不可避免地會遇到知識產權問題,機構在制定項目計劃時,會考慮自身愿意接受的與版權相關的風險級別及如何管理這種風險,這主要體現在版權相關的政策中。2011和2013年的調查顯示,機構在開展網頁歸檔項目時缺乏從內容創造者處申請許可的明確政策。這與機構傾向于內部網頁歸檔有直接關系,但是在外部網頁歸檔時機構也缺乏相應措施。這種情況在2017年并沒有改善,71%的機構在采集時沒有申請內容創造者的許可,75%的機構在提供歸檔網頁資源的訪問時也不會告知內容創造者或尋求許可。隨著機構越來越關注內部網頁歸檔,這一趨勢可能會繼續。但樂觀的是,2017年NDSA首次調查了機構在沒有許可的情況下是否收到過內容創造者提出的停止采集或刪除內容的要求,91%的機構表示沒有收到過。正因內容創造者的不追究,放縱了機構在外部網頁歸檔時的不作為。
3開發利用方面的動向
隨著機構將目光轉向網頁歸檔生命周期后端,不僅質量問題得到機構重視,歸檔網頁資源的開發利用也受到機構越來越多的關注。
3.1開發利用意識加強
調查中,認為訪問和利用是發展網頁歸檔項目重要因素的機構比例從2013年的40%增長為2017年的70%。NDSA將“訪問和利用”定義為包括研究人員互動、網絡分析及利用案例等在內的概念。進一步的調查發現,2017年僅有18%的機構表示有研究人員活躍地使用他們項目的歸檔網頁資源,更有33%的機構明確表示沒有研究人員正在使用,大部分的機構并不知道研究人員的利用情況如何。即使部分機構肯定已歸檔網頁有研究人員正在使用,但是據調查,這些機構主要是通過谷歌分析等工具實現利用情況跟蹤的。然而這些工具只能跟蹤網頁的訪問數據,這些數據并不能直接轉換為研究人員實質性利用的數據。美國網頁歸檔項目的開發利用現狀并不樂觀,備機構在關注網頁歸檔項目發展的同時,仍需積極采取措施應對。NDSA認為隨著“Archive-It研究服務”(Archive-It Research Serv-ices.ARS)、“檔案釋放工具包”(Archives Unleashed Toolkit,AUT)、“繼續教育推動網頁歸檔”(Continuing Education to Advance Web Archiving)等有益措施的不斷推進,在未來的調查中,網頁歸檔項目的開發利用情況或許會有所不同。
3.2創新提供利用方式
機構在依賴網頁歸檔服務進行數據捕獲的同時,提供的歸檔網頁利用方式也深受其影響。被廣泛使用的Archive-It不僅提供全文搜索和瀏覽列表等多種檢索方式,還可以將托管的網頁檔案集合直接鏈接到機構本地的搜索頁面。同時Archive-It也在積極探索新的提供利用方式,并于2015年3月宣布推出Archive-It研究服務。在此之前,Archive-It提供的網頁檔案訪問方式主要是基于搜索和瀏覽的,用戶通過點擊一次只能研究一個網頁,和瀏覽實時網頁是一樣的。ARS則引入了新興的數據驅動研究方法,如網絡分析、文本與數據挖掘、縱向內容分析等。Archive-It希望通過ARS擴展研究人員、學者及用戶訪問和分析歸檔網頁資源的方式,增加網頁檔案的利用率。“檔案釋放工具包”的開發思路與ARS類似,AUT是檔案釋放項目(The Archives Unleashed Project)推出的包括網頁歸檔服務和網頁檔案分析在內的一站式平臺,不僅可以實現網頁存儲、元數據管理和知識提取,還提供了強大的數據處理和分析工具。
3.3提升服務人員技能
ARS和AUT是將網頁歸檔分析工具嵌入網頁歸檔服務平臺的有益嘗試。弗吉尼亞理工大學圖書館則認為盡管已經開發出許多開源網頁歸檔分析工具,但是很少有圖書館員和檔案人員接受過培訓以了解、使用、管理和維護這些工具,這也就導致了圖書館和檔案館難以提供滿足客戶需求的網絡歸檔與分析服務。機構也同樣認為工作人員的技能對網頁歸檔項目的成功有著重要影響,2016年調查中更有69%的機構認為網頁歸檔工具相關技能是工作人員最重要的技能之一。正因如此,弗吉尼亞理工大學圖書館聯合了阿拉莫斯實驗室、滑鐵盧大學歷史學系等機構于2018年5月啟動了“繼續教育推動網頁歸檔”項目。該項目針對圖書館員和檔案人員對網頁歸檔培訓,尤其是網頁歸檔分析技能提升的需求,組織了一系列教育課程,幫助他們有效地使用創新的網頁歸檔和網頁分析工具來解決研究問題,更好地提供網頁歸檔和網頁分析服務。
4結語
總的來說,2016和2017年NDSA的網頁歸檔調查反映了美國網頁歸檔項目的發展與成熟,也體現了美國網頁歸檔項目發展的一些新動向,這對我國網頁歸檔實踐有著重要的借鑒意義。
(1)美國網頁歸檔項目的建設主體呈現多樣化的特點,不同類型的機構由于性質的差異,項目開展的具體情況也不盡相同。NDSA是一個為不同類型機構提供協商解決網頁歸檔項目建設過程中各種問題的平臺,為各機構更好地開展網頁歸檔工作提供了便利。NDSA開展網頁歸檔調查的初衷也是為了更好地識別和傳達成員機構的需求。我們應當向NDSA學習,從整體上把握國內網頁歸檔項目發展的現狀,并持續追蹤國內網頁歸檔項目發展動向,從而實現更高效的資源配置,也能制定更有針對性的指導政策。
(2)在美國,許多機構中檔案、圖書、資料管理職能都隸屬于一個統一的管理機構即圖書館,圖書、檔案、資料一體化管理模式是美國檔案管理體制的一大重要特色。近十年美國開展網頁歸檔項目的機構迅速增加,高校圖書檔案機構的積極參與帶來了美國網頁歸檔實踐的活躍期。網頁歸檔合作計劃的出現也推動了公共圖書檔案機構網頁歸檔實踐的發展。而我國檔案工作與圖書工作各自屬于獨立的工作系統,當前我國網頁歸檔實踐尚處于起步階段,檔案機構應當意識到網頁歸檔對數字文化遺產保存的重要意義,主動承擔網頁歸檔實踐主體的職責,并積極擴展與其他機構間的合作關系,推動機構間的資源共享,吸引更多機構參與網頁歸檔實踐,這也有利于推動我國網頁歸檔項目建設的規范化和標準化。
(3)網絡資源歸檔服務和網絡信息采集工具的開發和使用,為美國網頁歸檔項目的發展提供了重要助力。我國網頁歸檔實踐尚不成熟,可適當引入國外開源網絡信息采集工具,幫助網頁歸檔項目實現在數據捕獲這一關鍵環節的重要突破。網絡資源歸檔服務的出現在很大程度上減輕了美國機構網頁歸檔的負擔,我國目前尚未出現相關服務的提供商,市場的空白也在一定程度上延緩了我國網頁歸檔項目的發展進程。
(4)網頁歸檔分析工具的開發和網頁歸檔培訓的推出是機構推動歸檔網頁資源開發利用的重要措施。網頁歸檔項目的發展不僅依賴于技術,而且也與網頁歸檔項目的團隊建設息息相關。人員數量是保證網頁歸檔項目順利開展的基礎,人員質量是保證網頁歸檔項目建設質量的重要條件。我國網頁歸檔項目的建設需要更多高質量人才的投入,優秀的團隊建設也更容易獲得其他資源的支持。因此網頁歸檔高素質人才的培養和培訓是我國網頁歸檔項目發展不可忽視的重要方面。