999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

密歇根大學網頁資源歸檔實踐研究及啟示

2020-12-10 00:41:04吳曉茹陳丹
檔案管理 2020年6期

吳曉茹 陳丹

摘? 要:本文以密歇根大學網頁歸檔項目為研究切入點,探究該大學網頁歸檔項目的建設策略及服務機制,力求為我國高校網頁歸檔實踐提供一定的參考和借鑒。

關鍵詞:網頁歸檔項目;密歇根大學;本特利歷史圖書館;Archive-It項目

Abstract: This article takes the University of Michigan Web Archive Project as the object, explores its construction strategy and service mechanism, provides reference for the practice of Web archiving in Chinese colleges.

Keywords: Web archive project; University of Michigan; Bentley historical library; Archive-It

美國國家數字化管理聯盟(National Digital Stewardship Alliance, NDSA)2016和2017年的網頁歸檔項目調查報告顯示,相較于政府部門和公共圖書館,近年來美國高校開展網頁歸檔項目的機構數量明顯增長,已超過全部調查對象的60%,網頁歸檔成為美國高校圖書檔案機構資源建設的重要途徑。[1]

本文以密歇根大學本特利歷史圖書館(Bentley Historical Library,以下簡稱本特利)的網頁歸檔項目為研究切入點,從中窺探密歇根大學網頁歸檔項目發展現狀、建設策略及服務機制,力求為我國高校網頁歸檔實踐提供一定的參考和借鑒。

1 本特利歷史圖書館及其網頁歸檔項目發展現狀

本特利歷史圖書館始建于1935年,它不僅是密歇根大學的官方檔案館,還是除位于蘭辛的密歇根州政府檔案館之外保存密歇根州史料最多的檔案館。

該館館藏檔案不僅包括學校自1817年建校至今200多年來在行政管理、科學研究、教學管理、學生活動、體育運動等方面的各種歷史記錄(如19世紀40年代的校友檔案、50年代的底特律天文臺建筑檔案、60年代的體育運動檔案以及21世紀的電子檔案等),還包括諸如密歇根歷任州長文件、騎兵服役信件、采礦伐木史料、百年密歇根旅游畫冊等反映密歇根州政治、經濟、文化、景觀及民生等史料。[2]

截至 2019年,該館已保存7萬英尺的原始史料、119.25TB的數字檔案、150萬張照片和底片、1萬張地圖、5.5萬本書籍、2.2萬條音頻以及近1.17萬件捐贈材料。[3]

這些種類豐富、形式多樣、數量龐大的館藏資源不僅服務于在校師生,而且面向世界各地人員開放,至今研究成果包括1700多部公開出版的書籍、上千篇研究論文、榮譽學位論文以及個人家族史等。

本特利網頁歸檔項目始于2010年,截至2020年5月,本特利已對近2500個網頁進行了歸檔,存檔數據高達7.5TB。[4]

根據網頁的內容、性質和來源等特點,本特利將存檔網頁劃分為大學與圖書館(Universities & Libraries)、社會與文化(Society & Culture)、藝術與人文(Arts & Humanities)、博客與社交媒體(Blogs & Social Media)、科學與健康(Science & Health)、自發事件(Spontaneous Events)、計算機與技術(Computers & Technology)、政府-美國各州(Government - US States)八大主題,形成了密歇根大學行政管理、校友粉絲、體育運動、衛生健康、新聞動態、教學研究、學生組織、MBLog以及密歇根州歷史九大網頁檔案資源庫。[5]

每個主題包含1個或多個資源庫,每個資源庫又由若干個網頁組成。例如,密歇根大學行政管理網頁檔案資源庫中有存檔網頁245個,涵蓋大學年度報告、審計、就業、校園資源、心理咨詢、餐飲服務、監督檢查及殘疾管理等內容。體育運動網頁檔案資源庫存檔網頁64個,涉及大學體育系、運動隊、教練博客及體育比賽等(統計時間截至2020年5月1日)。

這些網頁檔案不僅豐富了本特利的館藏資源,填補了學校歷史記憶的空白,更為開展網站分析、數據挖掘、自然語言處理等科學研究提供了原始材料。

2 本特利網頁歸檔項目建設策略與服務模式

2.1 明確項目主體,開展多方合作。為了做好網頁歸檔工作,本特利于2010年7月訂閱了加州大學數字圖書館的網絡存檔服務(Web Archiving Service, WAS),[6]2011年4月成立了專門負責數字檔案復用、共享和增值業務的數字策展部(Digital Curation Division , DCD)。[7]隨著項目的發展要求,2015年3月,本特利與美國互聯網檔案館合作,利用Archive-It方案開展網頁歸檔工作。[8]

本特利主要負責網頁的采集范圍、描述數據、訪問接口以及知識產權等問題;Archive-It負責網絡爬蟲程序、網頁數據存儲等技術問題;網站創建單位負責提供預歸檔的網站名單、網站開發人員聯系方式、網站最佳捕獲時間以及網站更新、改版前的特殊捕獲請求等信息。由此,形成本特利統一領導,校內部門、社會企業等多方合作的網頁歸檔工作機制,通過明確責任、協調配合的方式促進學校網頁歸檔項目的共建共享。

2.2 靈活、先進的網頁采集策略

2.2.1 確定網頁采集范圍。本特利遵循檔案管理思想,以大學檔案的價值、使命以及檔案館的收集興趣作為網頁采集的判斷標準。2019年,本特利修訂的《檔案政策與程序手冊》(Records Policy and Procedures Manual)中明確指出,凡是符合以下條件的網頁皆是本特利的采集對象。包括用于開展大學業務或活動的網頁、反映職能活動的網頁、可補充現有檔案內容或填補館藏空白的網頁、包含獨特內容且定期更新的網頁等。[9]

可以看出,本特利采用相對靈活且多樣化的網頁采集策略,采集對象多元,采集范圍廣泛,采集內容豐富。這些網頁檔案不僅超出傳統檔案的采集范圍,而且突破高校基本職能,是密歇根大學和密歇根州“數字記憶”的構建者和傳承者。

2.2.2 利用先進的網頁采集工具。本特利采用以廣泛式采集為主、選擇性采集為輔的聯合性網頁采集方式。根據網頁的價值和特點,不同網站設置不同的捕獲頻率。

如以月、季、半年、一年的頻率進行捕獲。Archive-It的網絡爬蟲程序會根據事先設定好的捕獲頻率自動運行,每次運行會持續幾天完成。若遇到網站遷移、改版、下線等重大變動或學校舉辦重大活動,本特利會在Archive-It中人工添加新的捕獲計劃。

Archive-It方案中采用的網絡爬蟲程序主要有Heritrix、Umbra和Brozzler三種。Heritrix和Umbra被稱為“標準”爬蟲程序。“標準”爬蟲程序在不影響網站正常訪問的情況下,于特定時間點以拍攝網頁快照的方式創建網頁的存檔副本。

Brozzler是Archive-It新開發的一種基于瀏覽器的分布式網絡爬蟲程序。與“標準”爬蟲的捕獲機制不同,Brozzler并不跟蹤網頁超鏈接,也不下載網頁數據,而是依賴于Web瀏覽器實現與網頁數據的交互,將交互的網頁數據編入索引并進行存儲,這種方式類似于用戶體驗Web的方式。同時,Brozzler還使用youtube-dl工具增強社交媒體的捕獲功能。[10]

2.2.3 采用國際標準的網頁編目規則。Archive-It方案采用都柏林核心元數據集對網頁的標題、內容、URL、發布者、所屬主題及數據類型等數據進行著錄描述,[11]并將數據存儲在WARC(網絡資源存檔國際標準ISO 28500:2009)文件中,[12]以供合作伙伴下載、保存、管理和分析。

本特利的網頁存檔數據除保存在Archive-It服務器外,也同時保存在大學圖書館名為“深藍”(Deep Blue)的本地服務器中,并通過數字圖書館擴展服務(Digital Library Extension Service, DLXS)為用戶提供訪問利用。[13]這種多服務器存儲方式,不僅滿足數據安全備份的要求,而且可為更多的社會群體提供多途徑服務。同時,采用國際標準的元數據方案和網頁數據存儲格式,也有利于網頁數據的長期保存、可靠讀出、更新遷移和整合共享。

2.3 高效、智能的網頁訪問利用機制。與其他檔案一樣,網頁檔案經過存儲、編目、審核、發布后,便可對外提供服務利用。為了滿足用戶便捷化、多樣化、智能化的網頁檔案檢索需求,本特利不斷完善其信息檢索服務。一是為用戶提供多種網頁檔案檢索工具。用戶可通過Archive-It官網(https://archive-it.org/)、U-M Library(密歇根大學圖書館的在線公共訪問目錄庫)和BHL Finding Aid(本特利查找工具)三個網站查找所需的網頁內容。[14]三個網站分別介紹了網站的基本概況并提供了使用指南,幫助用戶快速、全面地了解和使用網站檢索功能。此外,本特利還積極地與其他檔案機構合作分享它的檢索工具,以便公眾和遠程研究人員能夠了解本特利的館藏并加以利用。二是為用戶提供多途徑的網頁檔案檢索方式:①直接檢索,用戶通過輸入關鍵詞、集合名稱、組織機構、URL或者元數據等直接檢索所需內容,也可通過輸入網頁文本內容進行全文檢索。②以字母A-Z的索引檢索,用戶可按照查詢內容的首字母與索引進行比對,更加直觀和快速地找到所需內容。[15]③高級檢索,用戶可通過集合限定、文件類型、捕獲日期、文檔顯示數量或布爾邏輯運算對全文檢索結果進行更細粒度、更優化的檢索。④為了進一步縮小檢索范圍,提高檢索效率。用戶可通過網頁的組別、主題、創建者、發布年代、使用語言、覆蓋時間范圍等特征對檢索結果進行篩選。所有檢索結果都將以Wayback日歷頁面的形式進行展示,用戶可從中選擇網頁的存檔日期進行查看。

2.4 法規與政策支持。本特利網頁資源歸檔項目之所以順利開展,與相關法規、政策的支持密不可分。一方面,《大學標準實踐指南》(Universitys Standard Practice Guide)第601.08節和第601.08-1節對大學檔案以及本特利的職責和權利作出了相關規定,充分賦予了本特利對大學檔案(包括網頁檔案)“收、管、用”的權利。另一方面,《檔案政策和程序手冊》第2.1.7條對網頁歸檔的采集范圍、存在的挑戰以及網頁歸檔單位的職責作出了相關規定,要求網頁歸檔單位對網頁的許可、版權、訪問點作出聲明,以便本特利對其內容進行采集和使用。[16]

3 對我國高校網頁歸檔工作的啟示

3.1 加強組織領導,制定規范標準,扎實開展高校網頁歸檔項目。本特利將網頁歸檔納入學校檔案管理制度中,賦予本特利合法開展網頁采集、保存和利用的權利,明確檔案館、網站管理部門、Archive-It各方的職責分工,為項目的順利開展奠定了良好基礎。國內高校在網頁歸檔方面以理論研究為主,建設實踐的還相對較少。因此,國內高校可借鑒本特利的做法,首先從政策和制度上明確網頁歸檔的重要性,將網頁、社交媒體、電子郵件等新型電子文件納入高校檔案的歸檔范圍中;其次明確高校網頁歸檔的責任主體和職責分工。高校可建立由檔案館統一領導,網站管理部門、網絡中心及技術服務商分工協作的網頁歸檔工作機制;最后加快出臺高校網頁歸檔規范標準。一方面,國家層面上要加強檔案部門與信息部門等的合作,兼顧與國際標準和通用規范的銜接,注重前瞻性、操作性和導向性,從管理、業務和技術等層面上形成一個科學、配套、適用的網頁歸檔標準體系。[17]另一方面,高校應結合實際,制定高校網頁檔案歸檔指南,對網頁歸檔的工作流程、采集范圍、采集方法、數據存儲、“四性”保障、軟件功能、服務利用等內容作出明確要求,為高校網頁歸檔工作的有序開展提供政策依據和指導。

3.2 擴大網頁采集范圍,加強網頁資源的整合與利用。本特利網頁采集范圍寬而廣,不僅包括反映密歇根州個人、機構及志愿組織網絡社會活動的各類網站,例如:利用自身資源幫助非裔美國人的百名美國男子協會底特律分會(100BMOGD)網站、展示世界級藝術娛樂慶典的安娜堡夏季藝術節網站、宣傳中國教會文化的安娜堡中國基督教會網站等,還包括密歇根大學管理部門、教師、學生、校友、粉絲等創建、使用的各類網站,例如:幫助校友繼續教育學習、職業發展的校友會教育網站、探討健康課題和醫學院新聞的健康實驗室博客、介紹密歇根體育比賽、體育歷史文化的各類體育博客等。同時,為了便于利用者有針對性地快速查找網頁資源,本特利不僅根據網頁的內容和特點對眾多分散、雜亂的網頁進行了資源整合,建立了九個專題數據庫,內容涉及學校行政管理、教學、科研、新聞宣傳、體育運動、衛生健康、師生活動等,而且為用戶提供了多平臺、多途徑的檢索服務。國內高校在進行網頁采集時,應進一步開拓視角,從服務社會公眾的角度擴大網頁的采集范圍,不僅采集學校各部門、師生、校友創建、使用的網頁,還要廣泛采集社會上宣傳、報道學校、與學校相關的網頁,甚至學校感興趣的社會網頁。在保存形式上,不僅要保存文本、圖片等靜態數據,還應收集FLASH、音頻、視頻等動態數據以及嵌入式的用戶交互數據等,盡可能多地為后人留存學校乃至社會發展過程中的寶貴遺產。同時,高校要以用戶需求為導向,及時對采集的網頁資源進行過濾篩選、分類標識、編目存儲和整合開發,建立一系列專題數據庫,并通過網絡利用平臺,為用戶提供多層級、全方位的檢索服務。

3.3 建立合作聯盟,實現網頁資源的共建共享。本特利的網頁歸檔項目經驗告訴我們,高校在開展網頁歸檔項目時,可以根據學校不同時期的業務需求,與社會各界廣泛開展合作。在缺乏技術經驗的情況下可直接與國內外的技術服務商合作,引進專業、成熟的網頁歸檔軟件,對之調整改造,使之成為高校適用的網頁歸檔工具。除此之外,高校還應打破“孤軍奮戰”的局面,積極倡議成立國際、國內或地區的網頁歸檔高校聯盟,或加入國家網頁歸檔相關組織團體,在聯盟、團體的統籌和管理下,通過參加國際交流、舉辦學術論壇、編制研究成果、解決歸檔難題、開展教育培訓的方式促進成員單位進行有效的信息交流、合作研究和宣傳傳播。在此基礎上,選取一些起步早、經驗足、有代表性的高校啟動網頁資源歸檔試點示范工作,按照“以點帶面、重點突破、示范帶動、整體推動”的思路,實現覆蓋全國、共建共享、生態發展、協同服務的國家“大網絡檔案”。

*本文系2020年度陜西省檔案局科技項目“高校網頁資源歸檔與管理研究”(項目編號:SX-2020-X-06)的階段性研究成果。

參考文獻:

[1]張莉,顏祥林.美國網頁歸檔項目發展的新動向——基于NDSA2016年和2017年調查報告的分析[J].檔案與建設,2019(10):? 39-42.

[2]蘇玉徽,王根發.國外高校檔案館資源建設實踐及啟示——以美國密歇根大學本特利歷史圖書館為例[J].浙江檔案,2017(02):? 20-22.

[3][14]Bentley Historical Library. Preservation-friendly Websites(Best Practices and Records Management Strategies for Web Preservation.ppt)[EB/OL].[2020-03-22].https://bentley.umich.edu/records-management/guidance-for-preservation-friendly-websites/.

[4][9][13][16]Bentley Historical Library. Records Policy and Procedures Manual(Updated October 2019)[EB/OL].[2020-03-22].https://bentley.umich.edu/records-management/manual/.

[5][8]Bentley Historical Library. Web Archives[EB/OL].[2020-03-22].https://archive-it.org/organizations/934.

[6]Bentley Historical Library. Guidelines for the Bentley Historical Library Web Archives[EB/OL].[2020-03-22].https://wayback.archive-it.org/org-934/20141031140511/http://bentley.umich.edu/dchome/webArchives/guidelines.php.

[7]Bentley Historical Library. Digital Curation[EB/OL].[2020-03-22].https://wayback.archive-it.org/org-934/20141031132017/http://bentley.umich.edu/dchome/index.php.

[10]Archive-It User Guide. What is Brozzler[EB/OL].[2020-04-16]. https://support. archive-it.org/hc/en-us/articles/360000343186-What-is-Brozzler-.

[11]Archive-It User Guide. Add, edit, and manage your metadata[EB/OL].[2020-04-16]. https://support.archive-it.org/hc/en-us/articles/208332603-Add-edit-and-manage-your-metadata.

[12]Archive-It User Guide. Storage and preservation[EB/OL].[2020-04-16].https://support.archive-it.org/hc/en-us/sections/201875126-Storage-and-preservation.

[15]何玉顏.英國政府網頁歸檔與開發的新實踐及其啟示[J].檔案與建設,2018(09):22-25.

[17]孫兆偉.檔案信息資源整合策略初探[EB/OL].[2020-06-16]. http://www.Archives.sh.cn/dalt/daxjcl/201203/t20120313_9658.html.

(作者單位:西安建筑科技大學檔案館? ? 來稿日期:2020-08-13)

主站蜘蛛池模板: 97视频免费看| 一级毛片在线直接观看| 亚洲无码精品在线播放| 超碰aⅴ人人做人人爽欧美 | 久久综合色天堂av| 欧美激情第一区| 四虎影视国产精品| 中文字幕 91| 亚洲第一黄片大全| 韩日免费小视频| 成AV人片一区二区三区久久| 亚洲AV无码乱码在线观看代蜜桃| 欧美在线伊人| 少妇精品在线| 亚洲欧洲AV一区二区三区| 国产福利小视频在线播放观看| 免费观看国产小粉嫩喷水| 在线一级毛片| 久草视频中文| 婷婷色一二三区波多野衣| 成年人国产网站| 啪啪国产视频| 亚洲精品成人片在线观看| 欧美亚洲国产日韩电影在线| 国产综合无码一区二区色蜜蜜| 国产97色在线| 久久男人视频| 国产91麻豆免费观看| 成人精品免费视频| 亚洲无码高清一区二区| 亚洲人免费视频| 全部免费特黄特色大片视频| 国产超碰在线观看| 免费可以看的无遮挡av无码 | 另类欧美日韩| 极品国产在线| 日韩亚洲高清一区二区| 亚洲国产亚洲综合在线尤物| 婷婷亚洲最大| 國產尤物AV尤物在線觀看| 黄片一区二区三区| 久久人搡人人玩人妻精品一| 呦视频在线一区二区三区| 国产精品亚洲五月天高清| 亚洲IV视频免费在线光看| 另类综合视频| 成人福利在线观看| 在线精品视频成人网| 国内精品久久久久久久久久影视 | 欧美日韩精品一区二区视频| 在线观看免费人成视频色快速| 精品视频在线一区| 国产91av在线| 三上悠亚一区二区| 波多野结衣一区二区三区AV| 综合亚洲网| 精品福利一区二区免费视频| 欧洲在线免费视频| 久久精品国产91久久综合麻豆自制| 亚洲无码视频一区二区三区| 亚洲首页国产精品丝袜| 亚洲国语自产一区第二页| 国产成人精品免费视频大全五级| 国产色婷婷视频在线观看| 毛片免费在线| 成人免费黄色小视频| 91人人妻人人做人人爽男同| 亚洲一级毛片免费看| 亚洲视频黄| 伊人激情综合网| 日韩视频免费| 99久久精品免费看国产免费软件| 在线播放国产一区| 久久国语对白| 六月婷婷精品视频在线观看| 国产精品久久久久久久久久久久| 国产麻豆另类AV| 色婷婷综合激情视频免费看| 日韩高清一区 | 91欧洲国产日韩在线人成| 69精品在线观看| 国产成人调教在线视频|