999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數字人文項目中檔案數據開發工具及應用研究

2021-04-06 03:18:36龍家慶
北京檔案 2021年3期

摘要:歐洲時光機是數字人文研究的典型項目,它充分運用檔案數據來勾勒歷史場景,還原了歐洲歷史和文化源流。本研究采用案例分析法,對歐洲時光機項目展開調查,梳理其“孕育”和“成長”兩個階段的特征,揭示項目發展脈絡。按照歐洲時光機的業務步驟,對檔案數據收集、掃描識讀、內容關聯、分布存儲、開發利用等環節進行工具技術分析。在實際項目開展中,除了對工具技術關注外,還應考慮項目應用場景、檔案敘事功能和協同合作范疇,進而立體化實現檔案資源價值。

關鍵詞:歐洲時光機 檔案數據 數字人文 文本識讀

Abstract: European Time Machine (ETM) is a typi? cal project of digital humanities research. It makes full use of archival data to outline historical scenes and restore European history and culture. This study uses case analysis to carry out an investigation on the ETM, sorting out the characteristics of the two stages of“incubation”and“growth”, revealing the development context of the project. According to the business steps of ETM, it carries out tool technology analysis on archive data collection, scanning and read? ing, content association, distributed storage, develop? ment and utilization. During actual project develop? ment, in addition to paying attention to tool technolo? gy, project application scenarios, archive narrative functions, and collaboration scope should also be con? sidered to realize the value of archive resources thor? oughly.

Keywords: European Time Machine; Archival da? ta; Digital humanities; Text understanding

隨著數字轉型升級和新技術環境變遷,檔案管理對象由數字態轉向數據態,[1]管理層級由案卷文件級轉向內容語義級,資源重整由靜態展示轉向動態模擬,資源開發由檔案實體保護轉向內容挖掘。尤其在數字人文浪潮影響下,檔案數據價值逐漸被發掘。[2]當前檔案數據開發研究主要包括:第一,檔案數據概念及其生成環境。于英香等[3]立足于大數據環境歸納了檔案數據范疇,同時關注全過程形成的元數據。第二,運用數字人文技術展開檔案數據挖掘。邁克爾·莫斯(Michael Moss)等[4]認為數字化歷史檔案也可作為數據被挖掘;鄭金月[5]從數據態角度總結檔案數據關聯、挖掘和分析的價值。第三,數字人文項目中的檔案數據應用。楊茜茜[6]從“威尼斯時光機”和“協作式歐洲數字檔案研究基礎設施”案例入手,探討數字人文下歷史檔案資源整理和開發,尤其是檔案數據層的挖掘與關聯。由此可見,檔案數據價值正在被驗證和應用,具體表現在挖掘、加工、關聯、利用等環節中,直接體現在數字人文項目中。其中“威尼斯時光機”作為檔案數據發掘的代表,學界不乏介紹,[7-8]但是該項目新的動向和進展值得關注。尤其是在“泛歐洲數據庫”推動下,全新的“歐洲時光機計劃”旨在還原歐洲大陸的千年歷史鏡像,優化公民接觸歐洲歷史和文化源流的方式。筆者側重于檔案數據挖掘過程中的工具技術和場景應用,為今后開展數字人文項目提出思考。

一、歐洲時光機實踐進展

“歐洲時光機”(European Time Machine),吸納了跨專業跨領域知識、多維數字技術,構建跨越千年的歐洲歷史場景,并且經歷了兩個階段。

(一)典型孕育期——來自“威尼斯時光機”的探索

“威尼斯時光機”始于2013年,是瑞士洛桑聯邦理工學院(EPFL)和威尼斯大學的聯合項目,它使用檔案來展現這座歷史名城的演變。[9]該項目以動態數字形式捕獲1000多年的檔案,包括了歷史地圖、專題論文、手稿、病歷、法律文書和樂譜。項目負責人弗雷德里克·卡普蘭(Frédéric Kaplan)表示,利用機器學習技術,向學者開放大量隱藏歷史的檔案,使研究人員能夠搜索和交叉利用信息,[10]本質上是將海量的檔案進行數字化、轉錄、建立索引和關聯,形成了完整威尼斯文獻數據庫。在利用方面,它記錄了過去成千上萬普通公民留下的檔案,這有助于揭示威尼斯金融市場的發展規律,或推演鼠疫之類疾病的傳播方式。

(二)燎原成長期——構建“歐洲時光機”的藍圖

威尼斯時光機的成功,推動了對整個歐洲歷史的重現挖掘。“歐洲時光機”的目標在于將歐洲歷史悠久的文化和商業中心的時間機器連接起來,利用歷史檔案中的細節來揭示整個歐洲大陸數百年來社交網絡、貿易和知識的發展情況。超過14 000個機構參與該項目,它納入了10萬余名專業人員,他們包括歷史學家、建筑學家、檔案管理員、博物館和圖書館員、公民科學家、家譜學者,甚至業余愛好者。項目總部位于維也納,在洛桑、阿姆斯特丹和布達佩斯均設有辦事處,50多位宣傳大使遍布歐洲各地,使得該計劃牢固地立足于歐洲大陸。[11]截至2020年12月,歐洲時光機共有23個本地時光機處于在研狀態(見表1),它已獲得“歐盟Horizon2020研究與創新計劃”資助,保障了資金來源。

二、對檔案數據開發工具的技術分析

數字人文項目主要由資源層、平臺層和展示層構成(見圖1),而工具技術是平臺加工層的賦能點,檔案數據又是實施對象。《歐洲時光機宣言》指出,在符合歐洲價值觀的前提下,項目重點考慮將大數據、人工智能、VR/AR、3D/4D等納入平臺開發。[12]由于本文聚焦數字人文工具技術的施用,因此基于數字人文項目構建框架,按照“源頭數據收集—中端內容集成—后端場景重現”的邏輯,重點對平臺層的檔案數據加工展開層次分析。

(一)檔案文本海量化收集

構建時光機場景的基礎在于擁有海量檔案數據。據2018年威尼斯時光機項目報告顯示,當地檔案館已捕獲19萬份檔案、72萬張圖片、200萬張掃描文檔、16萬條注釋和300余本書籍等數字化檔案。[13]又如阿姆斯特丹時光機(Amsterdam Time Machine)建立在荷蘭主要學術和文化遺產機構(Adamnet)的鏈接數據基礎架構上。其中最主要的基礎數據是城市地圖檔案,僅阿姆斯特丹檔案館就提供4500余份地圖檔案。用戶最終能實現時光倒流,并在社區、街道、房屋、房間的水平上導航城市,得益于見證城市更迭變遷的地圖檔案。

(二)檔案數據透視化掃描

歷史檔案大多是紙質,需要通過數據化掃描并全文轉錄。時光機項目引入了高速掃描儀,實現數據“超速運轉”。一臺旋轉掃描儀配有一個2米寬的轉盤,每小時可生成數千張高清圖像,將海量兆字節信息提供給存儲器進行長期存儲,再利用高性能計算機將這些數字圖像進行標引著錄。[14]值得一提的是,該項目運用了“斷層掃描”,使其無須打開書本即可連接閱讀儀器。該設計基于醫學上普遍使用的計算機斷層掃描技術,從不同角度拍攝的X射線會逐層構成3D圖像,用于應對黏連成塊、無法清理的“檔案磚”。

(三)識讀內容細粒度關聯

檔案數據處理的關鍵在于全文識讀,而非簡單的數字圖像集合。歐洲時光機采用“機器學習識讀+人工輔助識讀”雙重方式,用于克服傳統OCR識別缺陷。因為歷史檔案大多是手寫謄抄,與印刷打印型檔案有較大差異。時光機借助機器學習來識別整個單詞形狀,并將其置于手稿數據庫。全文識讀之后,將每個單詞進行“本體分析”,即每個單詞都是一個核心,打破以往按照全宗或者案卷為整理單元的模式,按照語法、語義關系標記內容,隨后開展社會網絡分析。如威尼斯時光機中在里亞托(Rialto)檔案中用家族企業的名稱標記建筑物,用姓名標識人物,在人物關系網絡中描繪社交節點。同樣,杜布羅夫尼克(Dubrovnik)時光機[15]按照年份整理出大事記表(1400—1450),詳細描述日期、地點、任務、事件,然后建立人物事件關系,編制長達586頁的電子書,其中地圖元素逐漸細顆粒化,每一個單元網格清晰可見。

(四)檔案數據分布式存儲

歐洲時光機相當于建立了一個大型模擬器,映射了兩千年前的歐洲歷史,將檔案館和博物館的大量藏品存儲于數字信息系統。為解決海量數據的高速存儲運算,它創建了一個分布式數字信息系統,以映射歐洲跨時代的社會、文化和地理發展。這種大規模的數字化計算基礎設施,將歐洲的悠久歷史以及跨民族多語言知識轉化為社會文化資源。在阿姆斯特丹時光機中,將檔案數據分散存儲在多臺獨立設備上,并上傳在專題數據云ALi? Da。[16]該系統不僅存儲了阿姆斯特丹各類歷史檔案資源,還規范了檔案數據詞匯表,以配合前序環節的關聯數據。除了項目成員可上載檔案數據資源,時光機用戶也可靈活添加數據集。

(五)歷史場景可視化呈現

時光機后端呈現在于,借助可視化工具展示歐洲城市變遷與發展,還原真實歷史場景。呈現結果不僅讓用戶體驗歷史演化,還為人文社會科學領域提供了研究場景。具體包括:一是追溯了城市疆域和原始版圖。在動態化演示過程中,城市隨著河流、山脈變化而呈現散點式、條狀式、集團式不同分布,見證運河改造和人口遷徙,再現城市規劃和建筑設計。二是探索了流行病學新發現。流行病學家馬塞爾·薩拉特(Marcel Salathé)在體驗時光機時,通過查閱檔案顯示的死者姓名和位置,以及頻繁出現的死亡情況描述,總結17世紀中葉瘟疫暴發的演化特征。這種原始的“健康檔案”蘊含著大量的疫情傳播路徑數據,有助于攻克疾病治愈難題,也為當前新冠肺炎疫情防控檔案利用提供思路。三是提供了文旅融合的新途徑。在錯綜復雜的社會人物關系、角色分工網絡中,尋找名人成長蹤跡和祖先生活遺跡,以及沉浸式體驗歷史場景,如運河修建、戰爭防御、公約制定、環境保護和社區教育等。

三、應用于數字人文項目的建構啟示

數字人文項目的重要特征是將數字技術融入人文研究,將檔案文本轉化為可模擬、可關聯、可重組的檔案數據。除了施用工具技術,還應考慮其應用場景、實現功能和參與范疇,從而更好地發掘檔案資源。

(一)數字賦能,理性選擇技術工具

數字技術是整合檔案數據的有效方式,掌握數字技術能夠賦予檔案以生命力,但同時也要理性選擇技術工具,按需選取利用。關鍵工具和用途主要有:第一,檔案數據需要經過編碼轉化為機器可讀的語言。數據化后的歷史檔案大部分是非結構化狀態,例如手稿、地圖、繪圖等,需要借助一些內容管理工具進行結構化加工(見表2)。第二,檔案數據中的標記工具(Cited Tools),讓檔案數據融入計算機模型之中。歐洲時光機項目中的檔案標記工具包括了網絡工具Web tools:BatchGeo、Geo Extraction、Geo IP、Google Image Scraper、Google My Maps、Image Scraper、Open Refine、Palladio、Raw Graphs、TimeMapper、WorldMap;外掛工具Plugins:DownThemAll和軟件工具Software:Gephi。[17]第三,還原歷史場景中房屋、街道、港口等標注數據的場景重構,用3D/4D技術仿真模擬。通過定性近距離閱讀和定量遠讀識別的模式,即“遙讀+近觸”來研究檔案數據。

(二)立足場景,積極構建城市記憶

檔案數據是歐洲時光機項目的基礎,是構建城市記憶的真實素材,其首要應用場景就是檔案資源的量化積累,以及數據化的質化加工。檔案館藏資源是實施記憶工程的原料,因而時光機項目都和地方檔案館建立合作關系,大量收集不同年代的檔案資料,如雷根斯堡(Regens? burg)時光機積極尋求檔案館和歷史遺跡保護的支持,利用數字檔案實現“時光倒流”。與時光機有異曲同工之妙的還有“美國記憶工程”,該工程收藏了900多萬件記載美國歷史文化、戰爭解放、兒童婦女的館藏,包括了手稿、口述、錄音、影像、樂譜檔案,組織了115類主題集合,并且利用數字技術轉化為數字型記錄,保證數字檔案資源來源廣泛。[18]因此,海量且豐富的數字檔案是執行類似項目的必要條件,而數據態環境是執行的充分條件。

(三)挖掘數據,發揮檔案敘事功能

檔案數據是數字人文項目的研究對象,不僅需要深入挖掘、關聯和組合,還要回歸人文關懷——更好地發揮檔案敘事功能。檔案敘事契合了人們多維視聽融合的需求,超越了以往的機械化文字閱讀。歐洲時光機將海量檔案轉化為高清格式數字圖像、機器可計算的比特,把碎片化的圖片與圖庫對比,勾勒出接近真實的街區圖景,模擬穿梭千年的歷史地圖。從敘述表達角度來看,時光機在時間維度上將公眾送至千年以前的刻度上,在空間維度上模擬出各時期地理、城鄉、交通、建筑的變遷。用戶可在時光機中體驗來自千年以前生活情景,如見證運河樞紐新建、港口船舶貿易,瀏覽旅游向導記錄、城市居民水上出行等逼真生活風貌。在這場時光旅行中,敘事可按照檔案主題需求采用不同表達方式,如電影的視聽覺環繞、游戲的互動參與感、戲劇演出的觸覺感、VR的虛擬交互。

(四)項目協同,持續推進跨界合作

數字人文項目中的檔案數據研究需要跨界合作。歐洲時光機項目召集了來自45個國家/地區的600多個組織,超過14 000個行業機構和10萬多名專業人員參與。它創建了一個交流知識、構建最佳實踐和專業知識的平臺,以實現各領域知識賦能社會,如城市歷史、地理環境、信息系統、旅游策劃,尤其推動了信息通信技術(ICT)和社會科學與人文科學(SSH)科學研究的前沿,將為歐洲城市規劃,土地管理和發展智慧城市提供新視角。其中檔案館提供豐富的檔案數據是資源保障,對未來檔案機構參與數字人文項目提供啟示:一方面,要主動發掘自身檔案資源亮點、拓寬研究熱點。檔案工作者應該及時把握檔案館藏優勢,納入數字人文“傘狀帳篷式”的研究范疇。另一方面,加強與檔案系統外部環境的對接,積極參與各類數字人文項目。在保證檔案機密性基礎上,主動聯合政府、高校、圖書館、博物館、美術館和其他文化機構,共同參與文化遺產的保存和重構。

注釋及參考文獻:

[1]錢毅.新技術環境下電子文件管理縱深發展關鍵問題分析[J].檔案學通訊,2020(2):4-9.

[2]龍家慶,王玉玨,李子林,等.數字人文對我國檔案領域的影響:挑戰、機遇與對策[J].檔案學研究,2020(1):104-110.

[3]于英香.大數據視閾下檔案信息化建設新路向——基于《全國檔案事業發展“十三五”規劃綱要》的思考[J].北京檔案, 2017(2):9-12.

[4] MOSS M,THOMAS D,GOLLINS T. The Recon? figuration of the Archive as Data to Be Mined[J]. Archivaria, 2018,86(2):118-151.

[5]鄭金月.數據價值:大數據時代檔案價值的新發現[J].浙江檔案,2015(12):11-14.

[6]楊茜茜.數字人文視野下的歷史檔案資源整理與開發路徑探析——兼論檔案管理中的歷史主義與邏輯主義思想[J].檔案學通訊,2019(2):17-22.

[7]董聰穎.穿梭千年:數字人文對檔案信息資源開發利用的影響[J].檔案管理,2018(2):11-14.

[8]翟姍姍,張純,許鑫.文化遺產數字化長期保存策略研究——以“威尼斯時光機”項目為例[J].圖書情報工作,2019(11):140-148.

[9] Venice State Archives. Venice time machine proj? ect- current state of affairs [EB/OL].[2021-03-04].https:// www.timemachine.eu/venice- time- machine- projectcurrent-state-of-affairs/.

[10]Alison Abbott. The‘Time MachineReconstruct? ing Ancient Venices Social Networks[EB/OL].[2020-09-17].https://www.nature.com/news/the- time- machinereconstructing- ancient- venice- s- social- networks-1.22147.

[11]Time Machine EU. About Us : Explore the History of Time Machine [EB/OL].[2021- 03- 04].https://www. timemachine.eu/about-us/.

[12]Time Machine EU. Time Machine Manifesto: Big Data of the Past for the Future of Europe[EB/OL].[2020-09- 18].https://www.timemachine.eu/wp- content/up? loads/2019/06/Time-Machine-Manifesto.pdf.

[13]EPFL News.Time Machine in the running to be? come a FET Flagship[EB/OL].[2020-09-18]. https://actu. epfl.ch/news/time- machine- in- the- running- to- be? come-a-fet-flagsh/.

[14]Alison Abbott.The‘Time MachineReconstruct? ing Ancient Venices Social Networks[EB/OL].[2020-09-17].https://www.nature.com/news/the- time- machinereconstructing- ancient- venice- s- social- networks-1.22147.

[15] Dubrovnik Time Machine. Project [EB/OL].[ 2020-09-18 ]. https :// www.timemachine.eu/timema? chines/dubrovnik/.

[16]Amsterdam Time Machine.AboutALida[EB/OL].[2020-09-19].https://amsterdamtimemachine.nl/data/alida/.

[17]Amsterdam Time Machine. Category: Tools [EB/ OL].[2020-09-29].https://amsterdamtimemachine.nl/cate? gory/method/tools/.

[18]Mission and History.American Memory from the Library of Congress[EB/OL].[2020-08-20].http://memo? ry.loc.gov/ammem/about/index.html.

作者單位:1.中國人民大學信息資源管理學院2.中國人民大學數字人文研究中心

主站蜘蛛池模板: 国产美女自慰在线观看| 波多野结衣无码AV在线| 日本黄色a视频| 五月综合色婷婷| 亚洲成人动漫在线观看| 一级黄色片网| 日韩大片免费观看视频播放| 一级毛片高清| AV无码国产在线看岛国岛| 日韩黄色精品| 40岁成熟女人牲交片免费| 精品国产www| 欧美不卡二区| 亚洲性色永久网址| 五月激情综合网| 无码日韩视频| 欧美翘臀一区二区三区| 91成人精品视频| 亚洲女人在线| 亚洲成人免费在线| 久久综合激情网| 成年人免费国产视频| 欧美黄色a| 中国一级毛片免费观看| 婷婷综合色| 内射人妻无套中出无码| 美女啪啪无遮挡| 亚洲欧美成人影院| 四虎AV麻豆| 亚洲综合二区| 亚洲欧美成人综合| 香蕉eeww99国产在线观看| 99视频在线精品免费观看6| 国产亚洲高清视频| 青青草原国产免费av观看| 久久久精品国产SM调教网站| 日韩 欧美 国产 精品 综合| 天天综合天天综合| 色综合激情网| 欧美一级黄色影院| 九九精品在线观看| 人妻免费无码不卡视频| 久久久久久国产精品mv| 日韩毛片免费| 亚洲国产日韩视频观看| 国内视频精品| 国产精品永久免费嫩草研究院| 亚洲视频二| 国产精品私拍99pans大尺度| 日韩大片免费观看视频播放| 日a本亚洲中文在线观看| 91极品美女高潮叫床在线观看| 国产偷国产偷在线高清| 第一区免费在线观看| 中文字幕首页系列人妻| 欧美一区二区丝袜高跟鞋| 18禁不卡免费网站| 无码内射中文字幕岛国片| 久久久四虎成人永久免费网站| 正在播放久久| 国产一级裸网站| 国产成人福利在线视老湿机| 狠狠操夜夜爽| 青青操视频在线| 无码 在线 在线| 人妻中文字幕无码久久一区| 午夜在线不卡| 中文字幕乱码中文乱码51精品| 国产欧美综合在线观看第七页| 免费看av在线网站网址| 亚洲国产成人麻豆精品| 毛片在线播放网址| 亚洲乱亚洲乱妇24p| 欧美啪啪视频免码| 成人精品在线观看| 国产一区在线视频观看| 无码免费试看| 久久人搡人人玩人妻精品一| 精品国产女同疯狂摩擦2| 亚洲区一区| 九色视频线上播放| 在线观看国产黄色|