999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

美國網頁存檔調查及啟示

2016-02-13 00:33:33天津科技大學圖書館
圖書館理論與實踐 2016年2期
關鍵詞:美國調查

蔡 舜(天津科技大學圖書館)

?

美國網頁存檔調查及啟示

蔡舜
(天津科技大學圖書館)

摘要:詳細介紹分析了美國國家數字化管理聯盟先后于2011年和2013年開展的針對全美網頁存檔調查的具體現狀,并通過對比兩年的調查結果,提出了把握網頁存檔的趨勢、挑戰和機會及有待進一步研究的問題。同時,提出了對于國內存檔機構需要借鑒的地方。

關鍵詞:數字化管理聯盟;網頁存檔;調查;美國

美國國會圖書館于2010年8月3日宣布國家數字化管理聯盟(National Digital Stewardship Alliance,NDSA)正式成立,各成員機構和組織負責提供可用數據庫、網頁、視頻、音頻及其他具有長期保存價值的數字化藏品的保存和訪問服務。[1]NDSA分別于2011年和2013年組織進行了針對全美的網絡存檔情況的調查,目的是通過調查實施網絡存檔程序的機構,了解網絡存檔的歷史和范圍、被保存內容的類型、存檔工具和提供服務的類型、提供的搜索和訪問服務以及關于網絡存檔的所有政策。[2]通過對比調查結果,分析網絡存檔的趨勢,了解美國網絡存檔的挑戰和機遇。

1 網頁存檔現狀

1.1機構

2011年選擇了77家機構,2013年選擇了92家機構作為調查對象,其共同的特征是,兩次調查對象中學院和大學占了總調查機構的一半左右,其次,是政府機構和檔案館。調查發現,當前已經開展網絡存檔的機構約占63%,16%的機構網絡存檔程序正在測試中,17%的機構計劃在將來開展網絡存檔,也就是說96%的機構正在或即將開展網絡內容存檔活動。而開展網絡存檔活動的機構中,又以高校為主,檔案館、公共圖書館次之,州政府、聯合政府、商業機構等也加入到網絡存檔行列中。

1.2時間及內容

早在1989~1995年間,美國就有4家機構開展了網絡存檔,其中包括3家檔案機構和1所高校。“網絡存檔(web archive)”一詞是隨著1996年“互聯網檔案館”(Internet Archive)的成立正式提出的。在互聯網檔案館成立之后的近十年,每年大約有兩三家機構啟動網絡存檔程序;2007年起,網絡存檔活動進入加速時期,開展網絡存檔的機構明顯增加,約32%的機構在2009年前后啟動網絡存檔程序。

關于存檔內容的選擇,49%的機構既保存自己內部的也保存外部的網絡內容,20%的機構只保存自己內部網絡內容,由此可見,有69%的機構保存自己內部網絡的內容,說明內部網絡的保存是網絡存檔的主要內容。關于外部網站的保存,很多機構已經開展關于某一主題或領域進行聯合存檔,存檔較多的是突發事件和國際范圍事務,如,烏克蘭戰爭、9·11恐怖襲擊、2010冬奧會、伊拉克戰爭等這些國際影響較大的事件的相關網絡資料就被完整保存下來。

1.3類型

網絡存檔內容有多種類型。社會媒體受各大存檔機構的青睞,約79%的機構表示存檔相關的網頁;數據庫和視頻也是各機構通常存檔的對象,分別有74% 和73%的機構表示會存檔;其次還有互動媒體、音頻、博客等,藝術是存檔機構涉及最少的內容類型,僅有17%的機構表示存檔藝術相關的網絡資料。這說明被采訪的機構致力于搜集網絡藝術品的比例相對較少,且越來越意識到歸檔藝術資料相對于其他形式的材料更容易。

1.4搜索方法

機構為用戶提供的搜索方式主要有以下幾種:全文搜索(60%),網址搜索(54%),主題列表(50%),地址列表(43%),選集級別描述的目錄記錄(22%),條款級別描述的目錄記錄(18%),查詢幫助(20%),其他(20%),極少數的機構提供應用程序編程接口(APIS)(5%)。[3]通過兩次網絡調查的情況來看,發現提供條款級別目錄描述和選集級別目錄描述的機構正在減少。另一個不爭的事實是所有提供網絡存檔搜索途徑的數目在下降,對于這種情況的出現,有些存檔機構解釋為查詢幫助的出現,以及應用程序編程接口的應用,使得很多用戶可以不再依賴系統所提供的檢索途徑。

1.5政策

為了更好地規范保存機構的存檔行為,避免各類知識產權糾紛,各機構制定了不同的存檔政策。這些政策包括關于存檔權限的許可,爬蟲協議(robots.txt)指令的方式,對于社會媒體存取的版權、存取政策的建立指南,為保護資源而設定的禁止訪問時間段等。

關于存檔的權限,有超過一半的機構獲取網絡內容時既沒有告知內容所有者,也沒有申請獲取存檔許可。余下不足一半的機構中,有約23%的機構向內容所有者告知其存檔意向,另外有約19%的機構向內容所有者申請存檔許可。出于簡化程序的目的,若網絡爬蟲(Crawler)協議不會對捕獲內容造成不利影響,一些向網站所有者發送通知的機構一般不會申請許可。根據2011年和2013年兩次調查的結果對比表明,向網絡內容所有者申請存檔許可的機構比例在上升,相對于2011年的13%,2013年增加了6%。從這一點可以看出存檔機構的知識產權意識在不斷增強,存檔行為在不斷規范化、合法化。另外,對于負責存檔政府網站的機構免除申請進行存檔,大學的存檔機構只有在保存自身管轄范圍內的網頁內容時不用申請許可和告知。

爬蟲協議是一種機器可讀的協議,網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取,[4]這樣某些限定內容就不會出現在搜索結果中。2013年的調查發現55%的存檔視情況遵守爬蟲協議,相比較2011年增加了21%。一直嚴格遵守爬蟲協議的機構同時從2011年的38%下降到2013年的22%。不遵守爬蟲協議的機構保持一致。不遵守爬蟲協議的存檔機構一般是一些擁有版權或者其他專門的存取權利(如機構自己的檔案或者義務保存政府記錄)的機構,或存檔機構從網站所有者處獲得了存檔許可或者發送存檔通知。近一半的存檔機構表示他們忽略爬蟲協議是為了獲得必須的關鍵內容,因為爬蟲協議的限制,檔案里將存在一些沒有意義的內容,這些內容不僅包括網站內容,還包括網站的設計和風格,如,圖片和樣式。有些存檔程序重視爬蟲協議,但是不申請許可或告知站長他們在保存網絡。

關于禁止訪問周期。為了盡量減少與活躍期網站內容的混淆和競爭,存檔內容通常需要設定一個禁止訪問周期,很多政策里都有相關的規定。而事實上多數機構(69%)表示會設定禁止訪問周期,通常是6個月(約45%),少量的機構表示禁止訪問的時長為12個月(9%),另外約45%的機構表示設定其他時長。也有機構表示具體的禁止訪問時長需要參考網站所有者的喜好。當然也有部分沒有設定禁止訪問周期,這部分機構大都采用了第三方如Archive-It(互聯網檔案館推出的定制服務)和加利福尼亞數字圖書館(CDL’s)的網絡存檔服務,其對于禁止訪問的設定默認缺失。

關于版權和存取政策建立的依據。2013年專門調查了機構版權和存取政策建立的依據,其中,約55%的機構表示是參考同行的網絡存檔政策而制定的,約40%的機構表示其參考了“美國研究圖書館協會的大學和研究型圖書館公平使用最佳實踐指南”(Associationof Research Libraries Codeof Best Practicesin Fair Usefor Academic and Research Libraries)的條款。“第108條研究小組報告”(The Section108 Study Group Report)是另一個非常受歡迎的參考對象,被1/4的機構引用,另外“奧克蘭的存檔政策”(Oakland Archive Policy)也被約5%的機構引用。

1.6工具和訪問軟件

存檔機構采用多種訪問軟件和工具,通常一個機構會采用一種或兩種存檔軟件。在存檔機構中使用較為廣范的存檔軟件有Heritrix、Adobe Web Capture、Grab-a-Site、Httrack Teleport Pro、wget,其中采用率最高的軟件是Heritrix,在2011年和2013分別占24% 和29%;其次是Httrack,2011年和2013年分別占據24%和18%。調查結果顯示,使用Heritrix作為存檔軟件的機構比例有較大幅度的上升,同時使用“其他”類型存檔軟件的機構也在增加,說明了存檔機構在不斷開發出新的更適合的存檔軟件,用于保存網絡內容。這些“其他”類別的軟件包括用戶基于內容管理系統而定制的軟件、經過修訂的Heritrix網絡搜索器、個人網頁文件的手動下載軟件、屏幕抓取軟件、KEN網絡存檔平臺、Social Feed Manager系統、UXTR以及WAIL網頁存檔集合層等。另外,在支持WARC或ARC①ARC是互聯網檔案館制定的用以存檔網絡爬行器(web craw lers)批量獲取結果的格式標準。WARC是在ARC的基礎上制定的一種管理和存儲海量網絡獲取結果的存檔格式。格式存檔軟件的使用上增長14%,建議機構注意網絡存檔的數據格式。

網頁存檔閱讀器的使用。時光機(Wayback Machine)是互聯網檔案館用于存檔網頁信息檢索中的特色技術,用戶在檢索框中只需鍵入網頁所對應的URL,系統就會自動將該網頁從1996年至今的存檔記錄按時間順序列表,并且表中的每一個日期都能鏈接到該時間點上所抓取的網頁。[5]時光機是最流行的閱讀平臺,2011年約76%的存檔機構使用,2013年大約89%,包括外部服務供應商,如,Archive-It和加利福尼亞數字圖書館的網絡存檔服務,他們自己可以通過時光機提供閱讀。在2013年的調查中,不使用時光機的11%的存檔機構中,8%的機構宣布使用其他的閱讀器,包括檔案社會存取門戶(the Archive Social accessportal)、里德檔案控制臺(theReed ArchivesConsole)和另一款內部開發的閱讀器。剩下的3%的機構表示他們的網絡存檔數據不提供閱讀服務。

1.7工時與技能

在2013年的調查中,絕大部分的存檔機構,僅投入職工的部分工作時間用于網絡存檔活動;81%的存檔機構投入半個或少于一個的相當于全職職工時間;只有約19%的機構投入至少一個全職職工時間。所有存檔機構投入的網頁存檔活動的時間中間值是四分之一個的全職職工時間。存檔機構投入的時間是否足夠滿足網頁存檔的需求,是沒有經過嚴格評估的。同樣出自NDSA的另外一份報告“有效數字保存的人員配備”(Staffing for Effective Digital Preservation: An NDSA Report),則反映數字保存領域是一直處于人員嚴重不足、投入工作時間不夠的狀態。[6]

網絡存檔是數字資源存檔的一個領域,這一活動綜合了傳統資源保存與現代數字化的最新技術,通常會涉及多種類型的技術能力,如網頁技術、存檔工具、專業知識、評價能力、元數據、合作與交流能力、軟件開發能力、質量保證等。2013年的調查發現,存檔機構表示技術能力對于網絡存檔的建立和成功至關重要,其中,有近40%的機構表示工作人員的網絡技術對于網絡存檔工作非常重要;37%的機構表示存檔工具的使用對于存檔程序非常重要;近四分之一的機構表示,專業知識、評估能力和元數據提取非常重要;還有少量的機構表示合作交流能力、軟件開發能力和質量保證能力也很重要。其他一些被存檔機構提到的能力還有注意細節、分析能力、項目和程序的管理能力、對政策的合理運用、耐心、堅持以及快速學習能力等。NDSA的“有效數字保存的人員配備”報告中顯示,對于數字保存的熱情和動力是數字保存人員最為重要的素質,[6]其次才是各類技能。

2 有待進一步研究的問題

2.1缺乏明確的政策

對很多機構而言,內部政策文件是一個亟需提高的方面。很多程序已經整合了現存網頁資料的政策和進程,其他沒有或者不清楚他們機構的網頁存檔政策的現狀。這個調查也揭示網頁存檔機構缺乏一個關于從內容創造者處申請許可的明確政策,同時,還缺乏存檔內容和訪問存檔內容兩方面政策。這無疑是網頁內容創造工作者的困難和對法律及知識產權的挑戰。這個調查之后,研究型圖書館協會(Association of Research Libraries,ARL)公布了關于學術性和研究型圖書館合理使用的最佳實踐代碼(Code of Best Practices in Fair Use for Academic and Research Libraries),伴隨著這些代碼公布的還有研究型圖書館協會之前關于網頁存檔法律問題的分析,這些分析可能會為存檔機構提供一些政策建立的指南。

2.2新興社會媒體的存檔管理

對于新興的社會媒體如Facebook, Twitter and YouTube的存檔政策,在這個調查里沒有過多的深入,只是詢問是否有興趣存檔。這類新興的社會媒體與當前的社會生活息息相關,這類媒體形式所記錄的事件及時性、互動性以及廣泛性是其他類別的社會媒體難以企及的。但幾乎沒有機構對于這類社會媒體進行網絡存檔,其具體的存檔政策更是無從談起。什么是社會媒體重點應該存檔的內容,哪些機構開展了社會媒體的網絡存檔,都沒有提起。社會媒體的存檔政策很有必要正式建立起來,調查發現約76%的被采訪保存機構當前還沒有建立這樣的政策,社會媒體的存檔指南及一些具體的衡量標準都有待進一步的研究。

3 值得借鑒的地方

3.1開展網絡存檔的機構之多

NDSA的調查發現,絕大部分的被調查機構都有網絡存檔的意識(96%),都已經或準備開展網絡存檔。相對于國內的機構,這種觀念無疑要超前許多。我國的網絡存檔整體還處于起步階段,中國業已開展的網絡存檔項目只有四項,即國家圖書館開展的“網絡信息采集與保存”試驗項目(WICP),[7]北京大學主持開發的中國Web信息博物館(Web InfoMall),臺灣大學的NTUWAS3(National TaiwanUniversity Web Archiving System)項目和臺灣當地政府組織的Web Archive Taiwan項目。[8]美國早在上個世紀80年代末,就有機構啟動了網絡存檔,而我國最早的網絡存項目2003年才開始。第一個網絡存檔項目的開展距今已經12年,但是,全國上下存檔機構并沒有迎來網絡存檔的繁榮景象,相反只有最初的機構還在以項目的形式堅持著。這一方面說明我國文化機構已經意識到網絡存檔的重要性,但另一方面卻沒有相關的政策保證項目的持續進行,使得其他機構因為短期內看不到實際效益而止步。

3.2多主體參與

從NDSA的調查結果來看,美國從事網絡存檔機構的主體是高校。其他機構還有檔案館、州政府、聯合政府、博物館、公共圖書館、商業機構、K-12學校等。相比較而言,我國相當網絡存檔主角的是國家圖書館,其次是北京大學。地方政府、商業機構等負責的項目幾乎沒有。這說明國家政府和部分研究機構已經意識到網絡保存的重要性,但基層的保存機構網絡保存的意識不強。另一方面,網絡保存需要大量的財力投入,我國目前的網絡存檔資金均來源于國家下撥的館內預算,基層的小型保存機構無疑難以獲得資助,自然也就不會開展網絡保存了。

3.3知識產權保護意識

通過NDSA的調查發現,美國的網絡存檔機構在進行網頁獲取時,有近一半的機構會通知網頁內容所有者或向內容所有者申請獲取許可,且申請許可的比例不斷在上升。美國的存檔機構較高的知識產權保護意識與其本國較完善的法律體系不無關系。相比之下,我國保存機構的版權保護意識則不盡人意,大陸本土的兩個網絡保存項目WICP和WEB INFORMALL紛紛開出免責聲明“對存檔內容質量概不負責”“具體信息的版權歸作者和發布者所有”,一副一切后果自負的姿態。事實上,我國相關法律欠缺是導致存檔機構“明哲保身”的直接原因,2011年3月,我國出版了最新修訂的《出版管理條例》[9]中關于“網絡出版物”和條款也只在送審稿全文中曇花一現,最終的正式條件中并沒有出現,使得網絡存檔相關活動的立法進程又向后推了若干年。

[參考文獻]

[1]本刊訊.美國國會圖書館成立國家數字化管理聯盟[J].現代圖書情報技術,2010(12):33.

[2]ndsa_web_archiving_survey_report_2012[EB/OL].[2014 -12-11].http://www.digitalpreservation.gov/ndsa/working _groups/documents/ndsa_web_archiving_survey_report _2012.pdf.

[3]NDSA_USWebArchivingSurvey_2013[EB/OL].[2014 -12-11].http://www.digitalpreservation.gov/ndsa/working_groups/documents/NDSA_USWebArchivingSurvey_ 2013.pdf.

[4]爬蟲協議[EB/OL].[2014-12-11].http://baike.baidu.com/view/9274458.htm?fromtitle=robots.txt&fromid=9518761&type=search.

[5]時光機[EB/OL].[2014-12-11].http://en.wikipedia.org/wiki/Wayback_Machine.

[6]Staffing for Effective Digital Preservation: An NDSA Report[EB/OL].[2014-12-11].http://lcweb2.loc.gov/master/gdc/lcpubs/2013655113.pdf.

[7]WICP[EB/OL].[2014-12-11].http://hao.cnnet360.com/wicp.php?classid=9

[8]呂艷飛.中美網絡信息資源長期保存項目比較研究[D].重慶:西南大學,2012.

[9]授權發布:國務院關于修改《出版管理條例》的決定(全文)[EB/OL].[2014-12-11].http: //news.xinhuanet.com/politics/2011-03/20/c_1212073 47_2.htm.

Survey on America Web Archive and the Enlightenment

Cai Shun

Abstract:National Digital Stewardship Alliance(NDSA)conducted a survey in 2011 and 2013 respectively about the situation of Web archive all around the whole country.The comparison of the survey results reveal the trend of Web archive development, the challenge as well as the opportunity it encounters.The survey also discovers further improvement of Web archive in America which provides reference for information organizations in China.

Keywords:NDSA;Web Archive;Survey;the U.S

[收稿日期]2015-03-25[責任編輯]劉丹

[作者簡介]蔡舜(1979-),女,天津科技大學圖書館副研究館員,已發表文章10篇。

中圖分類號:G253.1

文獻標志碼:B

文章編號:1005-8214(2016)02-0012-04

猜你喜歡
美國調查
當代美國恐怖影片中的哥特元素
電影文學(2016年16期)2016-10-22 10:19:08
高職學生志愿填報取向及滿意度調查研究
經營者(2016年12期)2016-10-21 09:49:14
小額貸款公司的簡易盡職調查方案研究
大學生消費情況調查研究
天臺縣城區有毒觀賞植物資源調查初報
現代園藝(2016年17期)2016-10-17 07:12:23
美國商業銀行衍生品業務的特點分析
商(2016年27期)2016-10-17 05:55:39
營口市典型區土壤現狀調查與污染土壤的修復
美國黑人影片中的文化認同焦慮
電影文學(2016年9期)2016-05-17 12:09:36
主站蜘蛛池模板: 67194在线午夜亚洲| 亚洲精品天堂自在久久77| 欧美日韩午夜| 在线观看欧美国产| 无码久看视频| 国产午夜精品一区二区三| 东京热高清无码精品| 亚洲91精品视频| 伊人久久精品无码麻豆精品| 伊人蕉久影院| 成人福利免费在线观看| 亚洲欧美极品| 最新日韩AV网址在线观看| 国产成人av一区二区三区| 男人的天堂久久精品激情| 亚洲日韩精品欧美中文字幕| 亚洲性视频网站| 色婷婷啪啪| 国产av剧情无码精品色午夜| 国产精品自在在线午夜| 国产精品永久在线| 国产尤物在线播放| 免费在线国产一区二区三区精品| 人妻精品全国免费视频| 国产日本欧美亚洲精品视| 婷婷色在线视频| 欧美性天天| 欧美成人免费一区在线播放| 久久大香伊蕉在人线观看热2| 日本妇乱子伦视频| 亚洲无码在线午夜电影| 嫩草影院在线观看精品视频| a级毛片网| 孕妇高潮太爽了在线观看免费| 丰满人妻久久中文字幕| 超薄丝袜足j国产在线视频| 999福利激情视频| 国产亚洲欧美在线中文bt天堂| 国产导航在线| 中国丰满人妻无码束缚啪啪| 国产微拍一区| 亚洲综合色区在线播放2019| 亚洲欧美一区在线| 久久毛片网| 99这里只有精品免费视频| 在线观看视频99| 欧美国产日产一区二区| 在线欧美日韩| 久久综合色播五月男人的天堂| 精品午夜国产福利观看| 国产日韩欧美成人| 香蕉eeww99国产在线观看| 国产制服丝袜无码视频| 欧美另类一区| 日韩在线2020专区| 99re热精品视频国产免费| 久久免费视频播放| 丁香婷婷激情网| 欧美一级高清免费a| 天堂在线视频精品| 亚洲第一极品精品无码| 久久这里只有精品国产99| 国产精品自在拍首页视频8| 亚洲一区二区三区在线视频| 一区二区偷拍美女撒尿视频| 中文无码毛片又爽又刺激| a天堂视频| 久久伊伊香蕉综合精品| 青青青伊人色综合久久| 天堂网亚洲综合在线| 精品一区二区三区水蜜桃| 米奇精品一区二区三区| 正在播放久久| 99在线视频精品| 国产一级在线播放| 欧美国产日产一区二区| 最新无码专区超级碰碰碰| 国产欧美日韩va| 久久国产拍爱| 国产亚洲精品自在久久不卡| 日韩免费成人| 国产SUV精品一区二区6|