999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

2019年國際互聯網保存聯盟年會(IIPC GA&WAC2019)綜述

2020-01-09 21:17:25季士妍國家圖書館
圖書館理論與實踐 2020年3期
關鍵詞:圖書館培訓資源

季士妍(國家圖書館)

2003年,澳大利亞、加拿大、丹麥、芬蘭、法國、冰島、意大利、挪威、瑞典、英國等國的國家圖書館以及美國國會圖書館和美國互聯網檔案館共12個機構聯合組成國際互聯網保存聯盟(International Internet Preservation Consortium,IIPC),[1]IIPC 對全球網絡信息資源保存的建設與發展起著非常重要的作用,它采用責任平等的合作機制,鼓勵世界范圍內的文化遺產保護機構一起參與網絡信息資源保存的工作。截至2018年6月,IIPC的成員已有45個國家的56個單位,[2]中國國家圖書館館于2007年7月成為IIPC會員并開展相關工作。

為促進全球網絡信息資源保存的建設與發展,為成員提供交流學習的機會,IIPC每年定期舉辦年會,2019年國際互聯網保存聯盟年會(International Internet Preservation Consortium General Assembly(GA) and Web Archiving Conference(WAC))于6月5-7日在克羅地亞首都薩格勒布市舉行,[3]會議主題為“網絡存檔社區:共同成熟的實踐”。筆者作為IIPC會員代表及論文作者參加了此次會議,下面將按主題對會議內容進行總結,以供參考。

1 會議概況

年會為期三天,分為兩個階段舉行。第一階段為6月5日,是限定IIPC會員參加的IIPC會員年會(IIPCGENERALASSEMBLY(iipcGA19))。第二階段為6月6-7日,是面向所有會議注冊人員開放的IIPC網絡保存會議(IIPCWEBARCHIVINGCONFERENCE(iipcWAC19))。

此次年會吸引了來自39個國家約150人參加,其中71%的參會代表是IIPC會員。從參會代表所屬的地區來分類,歐洲代表占78%,北美洲占12%,亞洲占4%,非洲占3%、拉丁美洲占3%。此次參會代表來自78個組織機構,其中59%的組織機構為IIPC會員。

于2019年6月5日舉行的iipcGA19約60名會員代表參會,其中,亞洲地區的代表包括中國國家圖書館(2人)、日本國立國會圖書館(2人)、韓國國家圖書館(2人)、新加坡國際圖書館管理局(2人)。

iipcGA19上午的議程包括歡迎致辭、小組討論及新會員報告。會議伊始,薩格勒布國家和大學圖書館總干事Petricé女士、Holub女士及來自瑞士國家圖書館的IIPC主席Locher先生先后致辭。隨后,與會者分為10個小組,每組5-7人不等,針對參與IIPC組織的目的、對IIPC組織起到的作用、工作內容、期待可以獲得的幫助以及可以參與的活動進行了討論。與會者對于IIPC組織在推動和促進網絡采集技術的分享、網絡信息資源存檔相關標準的發展及推廣,以及通用性、開源性軟件開發等方面發揮的重要作用給予了充分肯定,并就IIPC組織的任務和目標提出了較好的建議,包括提供項目基金以支持網絡采集事業發展、制定多種語言適用的標準規范、組織成員間開展更深入地合作及有經濟援助的培訓計劃等。此外,與會者對期待參與的IIPC組織的活動發表了自己的觀點,62.5%的與會者選擇“推廣會員網絡存檔的活動”“出版物(白皮書、報告、會議記錄)”,37.5%的與會者選擇“存檔辦法發展”“網絡存檔意識的提高”,25%的與會者選擇“網絡工作”相關活動,12.5%的與會者選擇“培訓”“社區主導式工具和方法的發展”“參與研究”。在IIPC會員新成員分享階段,比利時皇家圖書館、匈牙利國家圖書館、挪威國家圖書館的代表先后介紹了其在網絡信息資源采集方面的進展和情況。

iipcGA19下午的會議以不同的主題分為4個“工作組”同時開展,分別為:采集內容工作組、技術工作組(Heritrix3、OpenWayBackUpdate、Automatedquality assurance)、Web Curator Tool(WCT) 工作組、保存工作組。每個工作組以主講人與參與人隨時討論的模式開展,主講人講解本項工作的進展,參與人提出自己在工作中遇到的問題。工作小組的討論內容具有專業性、技術性、實踐性的特點,討論氛圍輕松友好。由于4個工作組同時開展活動,在此僅介紹筆者參與的技術工作組的互動情況。Heritrix3是Internet Archive開發的網絡采集的開源軟件,[5]目前,很多機構采用的網絡采集工具均是基于該開源軟件進行的二次開發。Heritix軟件有專門的技術團隊做程序開發和功能跟蹤,具有開放、共享的特點。2019年4月發布的Heritrix3.4.0是Heritix的最新版本,Heritrix3工作組由冰島國家和大學圖書館Kristinn Sigur sson主持,英國Andy Jackson通過網絡遠程視頻與大家分享了Heritrix3的新功能以及程序開發中遇到的問題。

為期兩天的iipcWAC19會議多達24場共計76個報告,包括特邀報告、主題報告、座談會、工作組討論等,議程安排豐富、報告內容詳實、會議時間緊湊、展示形式多樣,給了與會者充分了解行業發展、認識同業人員的良好機會。

3.1 特邀報告

iipcWAC19每日上午開場報告均為“特邀報告”。會議邀請了Europeana平臺運營商歐洲基金會執行董事Harry Verwayen做題為《我們用文化改變世界》的主題報告。[6]Europeana是目前國際上較成功的數字文化資源整合平臺,通過構建統一的平臺整合圖書館、博物館、檔案館的文化歷史資源,為用戶提供一站式瀏覽和檢索服務。[7]該平臺包括藝術、圖片、地圖、歷史、新聞以及電影等資源,資源類型包括圖片、文本、音頻、視頻和3D,并支持35種語言。Harry以Europeana平臺為例,指出網絡存檔在圖書館和檔案館保存工作中成為越來越重要的組成部分,并介紹了網絡存檔在當前和未來的可預見機會以及如何成功地抓住這些機會。以色列開放大學社會學、政治學和傳播系的高級講師、開放媒體和信息實驗室的共同創始人Anat Ben David博士做了題為《作為記憶的網絡存檔:對網絡歷史來源和方法的批判性思考》的主題報告。[8]Ben-David博士將網絡存檔視為與軟件和硬件類似的第三類記憶軟件,包括爬蟲、機器人、采集人以及特定形式的保存技術,并對Web存檔本身以及使用Web存檔構建的特定歷史類型進行批判性關注,進而對網絡存檔的研究提出新的挑戰。

3.2 快速發言

快速發言(LightningTalks以及 Drop-in Talks)環節由多位發言人在規定的時間里(5-10分鐘)介紹自己的項目進展、項目創新或技術發展等內容。每位發言人都提前準備了圖文并茂的海報并張貼于茶歇的公共區域,會議期間與會者都可以仔細閱讀這些海報,并與發言人進行深入交流和探討。筆者于6月6日作了題為“The Key Technologies of Web archiving Service Platform”的快速發言,與多位與會者就各自機構在網絡信息資源采集與保存方面的工作和方法進行了深入的交流。[9]

3.3 分會場主題報告及座談

iipcWAC19主題報告以“主題”為組織方式,以主講人發言、聽眾提問的形式開展。同一時間段內開設2-3個分會場,共有16個主題:學術環境、機器學習項目、國家保存、東南歐地區的網絡信息保存、國家級網絡信息采集、研究應用、構建(和重建)網絡信息采集項目、視頻內容保存、管理者策略、技術架構基礎、訪問政策、規劃可持續性、采集主題和格式、采集策略和工具、培訓和影響力、歐盟和《通用數據保護條例》。

3.3.1 機器學習項目

“機器學習項目”主題報告共有4位發言人,均來自于大學及大學圖書館。“機器學習”[10]在近幾年的互聯網應用中逐漸被人們熟悉和認知,它已經滲入到人們生活的方方面面,如自動駕駛、比賽結果及股票動向預測、診斷疾病以及物聯網相關服務等。相應地,利用機器學習的技術和方法可以在海量互聯網信息中進行數據挖掘、自然語言處理以及計算機視覺等方面進行應用和擴展。

北德克薩斯大學圖書館的Mark Phillips介紹了其與伊利諾伊大學芝加哥分校合作的項目“利用機器學習從網絡資源中抽取出版物”。[11]全球范圍內的研究型圖書館、博物館以及網絡資源保存機構通過網絡收集原生數字資源,這些數據量遠遠超過傳統數字圖書館收集的數字資源,而他們則通過使用機器學習、深度學習、神經網絡等方法從網絡采集到的資源中抽取出電子出版物。該項目主要從大學域(unt.edu域)的網絡檔案中提取機構存儲庫的學術出版物,從州級域采集(texas.gov域)中提取州文檔,從聯邦機構的網絡存檔(usda.gov域)中提取技術報告。目前,該項目已經對“學術出版物”有較好的識別方法,對“技術報告”類資源有較好的處理方法,今后會持續更新機器學習模型和方法。來自Internet Archive(互聯網檔案館)網絡歸檔&數據保存部的Maria Praetzellis介紹了其在2018年啟動的“從開放獲取到永久保存——網絡學術出版物的保存”項目,[11]包括網絡學術出版物的范圍、項目技術方法以及機器學習等。該項目開發了多種技術手段,包括新的爬行方法、系統和API開發,擴展了網絡開放獲取的目標范圍、識別和存檔相關的研究成果,如博客、數據集、代碼記錄和其他相關研究對象。此外,該項目開發的機器學習的訓練種子、分類和代碼將在2020年對公眾開源。來自葡萄牙Arquivo.pt的Fernando Melo介紹了他所在機構于2018年12月公開發布的實驗圖像搜索原型以及基于該原型的工作流程,詳細介紹了從網頁抽取圖像、圖像分類以及索引的實現流程和代碼。[12]目前,該項目已經實現了1,700萬個圖片的搜索,識別了1996-2017年網絡保存資源中的圖像,并且每幅圖像都有原始頁面的鏈接。同時,該機構推出了圖像搜索的移動App API應用接口,未來將繼續開發該圖像搜索的手機應用版本。來自亞歷山大圖書館的Sara Elshobaky介紹了如何使用機器學習方法在網絡采集中有效識別埃及的阿拉伯語網站。[11]許多埃及網站的域名是“.com”,而不是“.eg”,也很難從網站內容或者阿拉伯語的角度判定埃及語的網站范圍,因此,亞歷山大圖書館使用了機器學習方法,通過收集訓練數據、特征提取、模型訓練、模型評估,選擇了300個埃及網站以及300個阿拉伯語的非埃及網站作為機器學習的數據集,結果表明可以將埃及語的識別率提升至84%。Sara Elshobaky表示,他們將繼續開展機器學習,持續增加訓練數據集,改善機器學習的算法和參數,還將機器學習的應用場景擴展到埃及網站中英語、法語的識別中。

本主題的報告從不同的應用場景、技術處理方法以及發展方向為與會者展示了“機器學習”技術在網絡資源采集和保存工作中的應用,不但讓機器學習的概念和技術更加實質性地落地和應用,而且為開展網絡采集工作開拓了新思路、提供了新方法、豐富了新手段。

3.3.2 視頻內容網絡采集和保存

第43次《中國互聯網絡發展狀況統計報告》顯示,截至2018年12月,我國網絡視頻的用戶規模達6.12億,占網民整體的73.9%。[13]如何有效、合理地采集和保存網絡上的視頻資源,成為了各保存機構認真思考和研究的重要課題。

來自法國國家圖書館(Bibliothèque nationale de France,BnF) 的 Géraldine Camile介紹了 BnF在網絡資源采集工作中對視頻資源的采集和保存。BnF從2008年就開始采集和保存法國最常用的視頻平臺Dailymotion上的視頻,2017年采集YouTube網站中的28個頻道與總統大選相關的視頻,2018年對YouTube網站的42個頻道進行視頻采集。從2019年開始,每年進行2次采集,第一次采集已經完成了209個頻道、37,403個視頻的采集。[14]在采集過程中,BnF使用開源軟件Heritrix 3的架構和組件,基于OpenWayback的BnF訪問接口提供對外服務,并提供視頻的回放和訪問服務。BnF還將繼續擴展嵌入式的視頻采集以及面向Vimeo、Dailymotion等視頻網站的視頻采集工作。來自法國國家試聽研究所(InstitutNationaldel’Audiovisuel,INA)的 ThomasDrugeon介紹 INA從 2008年開始對YouTube進行視頻采集。[14]2011年開始,INA采集的視頻文件數量和采集目標網站逐年呈直線增加趨勢,截至2019年6月,該機構已經在包括YouTube、Twitter、Facebook以及主要電視/電臺廣播平臺在內的17個平臺中收集了230萬小時共計2,200萬個視頻。INA的視頻采集面向7,500個目標頻道,自動識別并抓取嵌入在存檔網頁中的視頻,平均每天可采集1TB的視頻資源,自動提取采集到的視頻資源的元數據并將其標準化,采集到的視頻文件則以原始的格式進行存檔。來自丹麥皇家圖書館的Sabine Schostag介紹,他們使用傳統檢索、研究人員定位網站、Heritrix軟件抽取等方法實現視頻資源在網絡資源中的識別,使用外部程序“youtoube-dl”獲取視頻資源的url地址并實現收割,借助如Blacklight這樣的ApacheSolr索引實現全文檢索。

本主題的3個機構都將本機構在視頻資源識別、采集、獲取以及展現等方面使用的策略、技術以及流程等進行了不同層面的介紹,為同行業人員提供了多種工作思路和方法,值得相互借鑒和學習。

3.4 工作組

iipcWAC19組織了“工作組”的模式,讓與會者可以以小組學習和討論的形式深入參與到具體的主題學習中,便于大家互相交流和學習。本次會議在同一時間開展3個“工作組”:由法國國家圖書館主持的“WARC文件格式:最新格式的更新和交換”、由大英圖書館主持的“反思我們如何在網絡存檔中培訓新的入門者”、由CameraForensics主持的“StormCrawler(以及ElasticSearch)網絡爬行/采集介紹”。

從本次iipcGA19和iipcWAC19會議的“工作組”組織內容可以看出,兩個會議都組織了“培訓新成員”主題討論,進而也能看出網絡資源采集與保存工作是一項需要不斷更新知識、擴充成員的長期工作,培訓環節在這項工作中的作用不容忽視。

在iipcGA19討論環節,很多成員都對IIPC提出了培訓需求——希望培訓的內容更加豐富、面向的人員更加廣泛、培訓的方式更加多樣等。在全體成員投票的“IIPC會員未來享有的權利”上,12.5%的與會者選擇“培訓”權利。可見培訓已經成為網絡資源采集和保存工作中較為重要的環節,很多機構都根據自己的需求制定了培訓工作,而且大家都愿意為IIPC組織的培訓工作共享自己的成果。

本次的iipcGA19和iipcWAC19都安排了主題為“培訓”的“工作組”活動。IIPC在2017年成立了培訓工作組(Training Working Group,TWG),由美國國會圖書館的Abbie Grotke、冰島國家圖書館的Maria Praetzellis以及英國國家檔案館的ClaireNewing共同主持。TWG在iipcGA19會議上組織了“工作組”形式的活動,[15]與與會者分享TWG在培訓內容規劃、培訓計劃、培訓材料推廣與分發等方面的進展。此外,TWG集中了較為豐富和完善的網絡資源采集與保存相關的培訓資料(文檔/視頻)、工具軟件以及交流社區,通過網絡向公眾免費公開。在iipcWAC2019會議中,安排了一個“有關我們在網絡采集工作中如何培訓新人”的工作組。該工作組由來自大英圖書館的Helena Byrne和Carlos Rarugal主持。主持人介紹了大英圖書館為網絡采集工作的新人制定了一套較為完整的培訓流程,包括工具使用、操作流程、培訓文檔以及技術文檔。在該工作組的討論中,多個參與人均分享了自己所在機構在培訓方面的做法以及如何評估培訓效果。

2019年國際互聯網保存聯盟年會(iipcGA19&iipcWAC19)是國際網絡信息資源保存業界較權威的學術性會議。從報告內容可以看出,各個機構的采集策略、技術架構、自動編目、質量監控、數據格式、保存策略都在持續發展,同時也關注了社交網絡、機器學習、云架構等技術的應用。IIPC聯盟倡導并鼓勵參與者重視網絡資源采集與保存,并為之做出貢獻。

猜你喜歡
圖書館培訓資源
基礎教育資源展示
培訓通知
一樣的資源,不一樣的收獲
從五方面做好引導培訓
勞動保護(2019年7期)2019-08-27 00:41:26
資源回收
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
飛躍圖書館
圖書館里的是是非非
去圖書館
主站蜘蛛池模板: 欧美另类精品一区二区三区| 国产亚洲精品yxsp| 婷婷五月在线视频| 久草中文网| 国产精品手机在线播放| 亚洲一区二区三区香蕉| 无码电影在线观看| 美女扒开下面流白浆在线试听| 青青久久91| 亚洲制服丝袜第一页| YW尤物AV无码国产在线观看| 视频二区亚洲精品| 免费在线成人网| 亚洲精品大秀视频| 免费亚洲成人| a在线观看免费| 伊人久久大香线蕉综合影视| 美女一区二区在线观看| 波多野结衣无码AV在线| 高潮毛片无遮挡高清视频播放 | 亚洲国产日韩视频观看| 曰韩免费无码AV一区二区| 蜜臀AV在线播放| 青青青国产视频手机| 在线无码av一区二区三区| 亚洲天堂网视频| 四虎成人免费毛片| 日本色综合网| 久久毛片基地| 日韩欧美国产综合| 国产成人久久综合一区| 青青青伊人色综合久久| 精品伊人久久久久7777人| 国产女人18毛片水真多1| 亚洲一级毛片免费看| 波多野结衣中文字幕一区| 亚洲综合色吧| 亚洲精品欧美日本中文字幕| 国产一区二区网站| 国产黄色视频综合| 欧美a在线视频| 毛片免费网址| 老汉色老汉首页a亚洲| 少妇被粗大的猛烈进出免费视频| av在线手机播放| 久久免费成人| 亚洲第一成网站| 国产制服丝袜无码视频| 精品91在线| 国产SUV精品一区二区6| 无码乱人伦一区二区亚洲一| 国产超碰一区二区三区| 欧美日韩北条麻妃一区二区| 亚洲精品大秀视频| 日本黄色a视频| 91精品亚洲| 亚洲国产成人综合精品2020 | 狠狠色狠狠色综合久久第一次| 伊人网址在线| 农村乱人伦一区二区| 91国内外精品自在线播放| 亚洲欧美国产高清va在线播放| 亚洲第一在线播放| 谁有在线观看日韩亚洲最新视频| 日韩在线视频网站| 成人精品免费视频| 国产办公室秘书无码精品| 国产黄网永久免费| 国产色婷婷视频在线观看| 第一区免费在线观看| 青青青国产免费线在| 国产精品偷伦在线观看| a级毛片在线免费观看| 一区二区三区四区精品视频 | 国产屁屁影院| 影音先锋丝袜制服| 亚洲精品第五页| 国产美女在线观看| 亚洲天堂久久久| vvvv98国产成人综合青青| 国产99精品久久| 亚洲无码不卡网|