周文泓 文利君 陳淑涵
摘 要:調查梳理面向網絡空間的計算檔案學研究成果,旨在明確計算檔案學的發展場景與方向。文章對計算檔案學代表性研究成果進行梳理分析,發現目前面向網絡空間的計算檔案學研究在面向網絡空間的檔案館拓展、基于網絡技術的電子文件管理變革、融合于網絡空間的檔案理論與方法重構三方面取得較大進展。隨之,結合網絡空間及其在中國的發展實際,文章提出計算檔案學要圍繞四個方面進行拓展:網絡空間可解析為怎樣的檔案管理場景、計算檔案學面向網絡空間的擴展建設方向及其內容是什么、面向網絡空間的計算檔案學如何應用于實踐活動、立足中國本土的計算檔案學建設路徑。
關鍵詞:計算檔案學;網絡空間;檔案化;網絡檔案
分類號:G270
the Development of cyberspace-oriented computational Archival science: Progress and Prospects
Zhou Wenhong1, Wen Lijun1, Chen Shuhan2
( 1. School of Information Resource Management, Renmin University of China, Beijing 100872; 2. School of Public Administration, Sichuan University, Chengdu, Sichuan 610064 )
Abstract: Investigating into the studies of cyberspace-oriented computational archival science aims to clarify the development situation of cyberspace-oriented computational archival science and further prospects. The research results presented in the IEEE Computational Archives Working Group are sorted out, and it is clarified that the current progress of computational archival science oriented to cyberspace is manifested as: the expansion of archives oriented to cyberspace, the change of the management of digital records based on network technology, the reconstruction of archives theory and methodology in cyberspace. Then it puts forward the prospects of the future development of cyberspaceoriented computational archival science from the aspects of the analysis of cyberspace, the direction and content of the development of cyberspace-oriented computational archival science, the development of computational archival science based on China and so on.
Keywords: Computational Archival Science; Cyberspace; Archivalization; Web Archives
計算檔案學被界定為一個跨學科的研究領域,在我國被視作新文科背景下檔案學發展的新方向,用以引導建立更系統的數字文件與檔案理論、方法、實踐體系。在內容體系建設上,計算檔案學正從數字化的歷史檔案資源拓展向原生數據,尤其是日益在人類世界中扮演重要作用的網絡空間中所形成的數據。網絡空間是以信息通信設施及其使用者為基礎,以數字化信息創造、存儲、修改和流動為內容的互聯互動空間[1],在智慧社會、數字孿生、元宇宙等未來導向的戰略之下更將是建構與應用計算檔案學的重要場景。因之,面向網絡空間這一綜合社會、文化、技術、管理等復雜要素集成的情境,計算檔案學有著諸多尚待有效理解的可為之處與可拓展空間。
在研究層面,學界先是對計算檔案學進行總體探討為立足網絡空間的探索奠定認識基礎。一方面從理論層面對計算檔案學的內涵進行探索,明確計算檔案學是計算科學和檔案學的雙向融合;[2]另一方面依托關于各類實踐項目的實證分析對計算檔案學應有的內容進行探討,包括從策略層明確計算檔案學框架下檔案實踐的基本原則與方法、從更具體的方案層展現面向檔案管理需求應用數字方法與技術的實踐等。[3-4]隨著計算檔案學研究的不斷推進,網絡空間在計算檔案學的探索進程中逐步顯現。在數字轉型大背景下,建設計算檔案學的必要性與價值得到確認[5],網絡空間及其相關技術的應用要求立足新的檔案對象變革檔案思維與方法。與之相應,計算檔案學的基本內涵與內容體系同網絡空間產生一定關聯,探討議題涉及把網絡作為工具來對接從而將檔案問題轉化為計算方案的設計[6]、立足網絡空間如區塊鏈的具體情境創新管理模式[7]、將計算思維與方法應用到網絡存檔數據的開發利用中并由此拓展計算檔案學的內容體系[8-9]。研究可見,當前計算檔案學更關注檔案館或相關記憶機構中的歷史檔案資源,只有小部分包含網絡空間中所形成的原生數據,且多聚焦于檔案管理中有關數字化、數據化的場景。因而,網絡空間所構筑出的數據情境以及相應數據對象、數據現象的特質沒有得到充分關注。在各領域如計算社會科學、計算法學、計算傳播學已經意識到網絡空間的重要性與特殊性并積極投入研究力量的情況下[10],計算檔案學尚有較大的跟進空間。由此,本文立足數字轉型背景,明確計算檔案學立足網絡空間的關聯要點、相關探索進程,解析與發現未來的建構方向與內容。
1 網絡空間凸顯為計算檔案學重要發展場景
1.1 網絡空間為計算檔案學擴充建構背景
計算檔案學的提出直接關聯數字轉型背景,其中網絡空間的角色日益凸顯。
一方面,計算檔案學需要充分融入網絡空間。當前,以智慧社會、數字治理、元宇宙等為核心的數字戰略,無一不需要優化網絡空間,計算檔案學要識別與深度內化數字轉型的要義,就需要積極對接網絡空間,這也有助于計算檔案學充分拓展與數據科學、計算科學的交集。進一步來說,網絡空間的建設與運行是社會、技術、文化、管理、信息方法與實踐綜合作用的結果,可為計算檔案學提供充分的探索場景。
另一方面,網絡空間可持續發展驅動計算檔案學發展。計算檔案學作為超學科的提出也在于檔案與信息學科積極貢獻于人類世界的數字轉型發展。當前,網絡空間的有序治理已在全球得到倡導,數據維度如數據治理、數據安全、數據主權逐步顯現,計算檔案學均與此相關。因而,計算檔案學面向網絡空間的建構同樣受網絡空間長效運行需求所推動。
1.2 網絡空間為計算檔案學提供多維的數據情境
對計算檔案學而言,其與網絡空間的根本關聯在于后者被稱為流動的檔案館,數據與數據活動是網絡空間的構建載體,是極有價值也應重點關注的對象。
一是從數據對象來看。網絡空間的數據多具有原生性,由社會活動依托網絡平臺開展所形成,無論是數量還是特性,都將是檔案在未來的主要范疇。計算社會科學及其引領下的計算法學、計算傳播學、計算語言學、計算教育學等均指出,網絡空間提供的原生大數據從價值、特征、數量等方面均有別于以往可獲取的數據,也是各領域提出“計算+”的基礎支撐。[11]于計算檔案學也是如此,數據對象多是經過數字轉換的歷史檔案資源,這些數字化的歷史檔案資源,同網絡空間中的原生數據有著不同的背景、形式、內容,其體量、價值、復雜性等亦不相同。例如,網絡空間中檔案的多來源、依賴于第三方平臺、權屬難辨、需兼顧多方價值取向、場景復雜多樣等特質顯著,也就影響著對檔案與檔案屬性的界定及相應的檔案管理方法。計算檔案學在這其中有諸多深挖之處。
二是從數據活動來看。網絡空間的可持續運行依靠的是數據連續生成、累積與利用以及相應數據全生命周期的各項細節活動。因此,對計算檔案學而言,網絡空間可提供全面的數據管理行為,進而探討文件的管理工作能否從當前主要立足后端延展至前中端等問題。同時,網絡空間的數據活動同樣顯示網絡空間特質,如非線性的特征和強化即時開發利用的要求,可為計算檔案學強調以增值利用為目標再造檔案管理全流程提供參照。
三是從數據場景來看。網絡空間呈現的是源于實體世界但鑒于其虛擬性而有所變化的數據與數據活動背景。對計算檔案學而言,網絡空間有助于深化理解數字情境、數字情境對檔案而言是怎樣的背景、相應的數據與檔案形成機制等問題。這對重新認識與構建檔案理論與方法有重要參考意義。
1.3 網絡空間為計算檔案學顯示頂層的認知與方法參考
網絡空間在本質上全方面顯示了人類世界的走向,對計算檔案學意義的理解具有重要引導意義。
在認知層面,網絡空間的建構與運行顯示的是數字轉型背景下的理念與認識,這是計算檔案學建立整體框架的基礎。網絡空間的時空概念、認知要點、組織方式等,均顯示出新特征,如去中心化、弱化時空界限的非線性、自組織顯著等。于計算檔案學而言,這樣的認知基礎同樣要充分厘清并有效融合,以用于認知該環境下的檔案以及檔案活動。
在方法層面,網絡空間“如何做”的思路亦是明確檔案方法的前提。網絡空間依托技術、管理的實踐機制,適合于計算檔案學探索以問題為導向的技術應用策略。同時,網絡空間的重要支持是數字技術和管理機制的融合,是計算檔案學基于計算思維形成方法論的基礎。
2 面向網絡空間的計算檔案學探索進程
計算檔案學開始于2016年在IEEE下設的計算檔案學工作組的年度研討會,逐漸形成關注領域聚焦且頗具規模的研究力量,其研究方向與成果逐漸顯示出同網絡空間的有效關聯。[12-13]通過梳理Ieee計算檔案學工作組的研究,面向網絡空間的計算檔案學研究成果主要體現在三個方面。
2.1 面向網絡空間的檔案館拓展
對照網絡的特質與功能實現檔案空間的創新構建是計算檔案學承接檔案工作數字轉型的重要議題,其探討方向包括:
一是檔案館融入網絡空間的數字復制。一方面,匹配網絡空間要求的數字檔案資源建設,凸顯的是便于線上高效利用的可互理解互操作的檔案數字化工作。另一方面,依托網絡空間的數字檔案資源服務優化,主要體現為需求和問題導向的檔案線上服務平臺與功能性工具開發,具體表現在以網絡為工具,探討包括網絡檔案在內的資源化相關功能設計、技術開發等。[14]例如,為滿足研究人員對網絡檔案的研究需求,德國L3研究中心Helge所在的研究團隊開發了多元網絡利用平臺,建立網絡檔案動態語料庫,向用戶提供按研究目的進行網絡檔案數據提取的工具,并進一步開發出對網絡檔案數據進行遠讀的功能。[15]再如,在技術開發方面,為增加對網絡檔案的描述,UCLA的Gilliland教授帶領跨學科的研究團隊運用自然語言處理技術和人工智能,開發社交媒體相似性算法(TSMS)和數據驅動的迭代式檔案描述算法(DCAP),實現對大量且不斷生成的社交媒體檔案的深度描述,并識別其中的特殊言論進行標識,以促進后續對社交媒體檔案資源的深度利用。[16]
二是探索如何將計算思維與方法應用于網絡數據的檔案化管理,由此拓展計算檔案學的內容體系。目前研究要點為:(1)明確網絡檔案是重要資源,探討計算檔案學可應用并實現拓展的場景,推動高質量檔案資源的形成。(2)網絡存檔的基本要求,如網絡檔案整合應充分融合來源以便于用戶確認資源的適用性和局限以及對海量網絡數據集的處理,從而用于驗證計算流程的有效性和數據的充分度。(3)應借助數字技術為網絡檔案全流程管理開發工具。例如為提升網絡存檔數據處理效率而提出的面向分布式網絡存檔數據技術框架ArchiveSpark、對互聯網檔案館所保存的近兩萬網頁的存檔數據而開發的相關工具[17]、針對電子郵件開發使用自然語言處理的以背景為基礎的檢索工具[18]、以Twitter的350萬條信息為基礎來探討網絡存檔數據的文本挖掘[19]。
2.2 基于網絡技術的電子文件管理變革
針對機構應用網絡技術辦理業務所形成的電子文件,計算檔案學視角下的探索主要關注三個方面:
一是討論網絡空間及其不同工具應用的基本特征,從技術背景視角確認對電子文件及其管理的影響。例如有研究人員對關于區塊鏈所形成的電子文件的基本認知、作用與缺陷以及相應的工作變化進行了探討。[20]
二是明確網絡空間的文化內涵,討論對電子文件及其管理理念與方法的影響。例如,由社交網絡的后真相傳播延伸至對關于檔案在網絡空間中可信性、信任等相關核心概念的再界定。為應對網絡環境中大量虛假視頻的傳播,由UBC信息學院Hoda領銜的研究團隊運用古文書學理論,將可信檔案方法與計算思維融合,從來源、真實性、可靠性、完整性等特征出發對網絡視頻的真假進行判斷,進而基于機器學習,提出依據背景、元數據等信息對網絡視頻進行自動判別的方法。[21]
三是面向多元的網絡技術應用,開發相應的電子文件管理工具。例如,立足區塊鏈討論電子文件與檔案管理的模式并對后續的存取提出展望、使用拜占庭共識算法來管理網絡分布式的文件檔案等。[22-23]為促進對長期保存、銷毀等鑒定結果的高效落實,UBC信息學院的Danielle開發了智能合約的方法,對電子文件所處的現行、半現行、非現行的生命周期階段進行標識和元數據著錄,在檔案工作人員鑒定后,運用智能合約將文件變化傳輸至文件處置工具,由處置工具執行文件進行從臨時存儲庫移動到永久存儲庫、從永久存儲庫中進行銷毀等處置行動。[24]
2.3 融合于網絡空間的檔案理論與方法重構
網絡空間推進了信息情境的全面建構,對與之相適應的檔案理論與方法重構提出了一定要求。
一是計算檔案學在確認數字檔案理論與方法的建構中表現顯著。計算檔案學對歷史檔案的數據化開發已有較豐富探索,并擴展向對網絡存檔數據的管理與開發。例如,有學者認為可將網絡檔案視為大數據進行深度利用,借助網絡檔案的元數據和大數據特性開發相應工具,促進不同學科的學者跨學科進行網絡檔案的分享,并深入到數據層級的再利用。[25]
二是將檔案化的管理方法拓展至更廣闊的網絡對象中。計算檔案學將檔案思維與計算方法和思維融合,并依托這樣的融合實現對更豐富的網絡對象進行檔案化管理的可能,如將檔案思維融入對NFT(數字藏品)等數字資產管理當中。以UBC副教授Victoria展開的項目為例,針對NFT的保存和交易中存在保障真實性的巨大挑戰,其使用區塊鏈技術和分布式賬本技術融合來源管理、元數據管理、nFt之間的關聯提出對NFT真實性保障的方法。[26]
三是面向網絡空間對檔案管理的理念和方法進行適應性重構的探索。例如區塊鏈技術在為保證文件真實性提供有益方法之余,也為檔案實踐帶來了新的可能。有學者研究指出,目前區塊鏈應用于文件管理實踐可分為鏡像型、數字記錄型、代幣型。鏡像型實踐中的區塊鏈僅充當文件哈希值的存儲庫,可被單純視為促進檔案實踐發展的工具。數字記錄型實踐的區塊鏈不再只是哈希值的存儲庫,文件會通過智能合約技術在區塊鏈上自動創建,但目前的數字保存依賴于集中的可信數字倉儲庫,這就對傳統的數字保存模式提出挑戰。而代幣型的實踐中,文件不僅會在區塊鏈上創建,而且地產、黃金等物質實體將會以加密貨幣的形式在區塊鏈上存儲,這意味著在這類型的區塊鏈實踐中每個實體都有可能成為文件,這樣的特性將會對檔案實踐帶來全新的挑戰,如何保存管理這類文件將會是未來檔案管理理念和方法亟須思考的問題。[27]
3 立足網絡空間的計算檔案學發展展望
總體來看,已有探索確認了計算檔案學面向網絡空間展開擴展建設的必要性、應有的基本內容與方向。隨著我國繼續強化網絡戰略,在建設人類命運共同體的愿景下,面向網絡空間的計算檔案學在我國具有強大的生命力,也有助于檔案學自主知識體系的構建并引領全球話語。同時,現有探索在全球均處于初步階段,尚須從基本點、重要方向等擴充為更系統的內容體系,產出基礎理論與方法的創新成果:一是現有的計算檔案學主要從歷史檔案資源的數字化、數據化建設的實踐場景探討理論與方法,對已成為重要的社會活動場景的數字空間及其所形成的數字原生信息涉及較少,未充分置于計算社會科學、計算法學、計算傳播學等計算系跨學科建設所明確的網絡空間之中。二是計算檔案學同樣要立足中國本土確認建設的路徑與策略。目前我國的全球參與和本土探索均有限,且已有的數字轉型相關理論研究成果也亟待轉變為更上層的理論與方法。
在這樣的建設導向下,計算檔案學于網絡空間的發展在內容層面有如下展望:
第一,網絡空間可解析為怎樣的檔案管理場景。網絡空間的構筑與運行依賴數字基礎設施、技術、及其應用,直接的載體則是各類數據與信息。計算檔案學面向網絡空間的建構首先需要認識與理解網絡空間提供的檔案情境。具體內容涉及:網絡空間有著怎樣的司法、技術、文化、社會背景及其規則;網絡空間由誰形成哪些數據,數據的內容、形式、特征、價值如何;網絡空間從數據角度來看有哪些利益相關者,有怎樣的生成、采集、支配、收益、利用、管理權責;網絡空間對數據與檔案的認識、規則以及功能是怎樣的;網絡空間現有哪些具有檔案管理功能的機構或實體,都發揮怎樣的作用,性質如何;根據上述內容,網絡空間中的檔案與檔案管理應用怎樣界定,有哪些突破已有認知與方法的地方。
第二,計算檔案學面向網絡空間的擴展建設方向及其內容是什么?立足計算檔案學已有探索與成果,面向網絡空間呈現的檔案管理場景包括:依循歷史檔案數據化利用與現行數據檔案化管理的兩大主線,網絡空間可為計算檔案學提供哪些建構起認知、方法、內容體系的場景;網絡空間在檔案情境上具備怎樣的特質,計算檔案學現有成果可基于此有怎樣的拓展;立足網絡空間,計算檔案學還有哪些可擴充或創新的方向值得探索;中國的網絡空間中,計算檔案學可深入探索的重點場景有哪些,預期的認知與方法成果是什么;面向網絡空間,計算檔案學的核心概念、基本檔案理論與方法是什么,應呈現怎樣的基本框架,又會顯示出哪些具有中國特質的理論與方法?
第三,面向網絡空間的計算檔案學如何應用于實踐活動。計算檔案學的一大特質就是同實踐的密切關聯,面向數字孿生、元宇宙、智慧社會等前瞻戰略日益凸顯的全面網絡化的人類世界,計算檔案學立足網絡空間的構建旨在從檔案視角推進上述設想的可持續落實。相應探索內容體現為:網絡空間的檔案化管理需求是什么,有哪些值得重點關注的場景;網絡空間檔案化管理需要計算檔案學提供認知與方法支持的重要方面是什么;通用的計算檔案框架是怎樣的,面向不同場景又有哪些代表性的應用路徑;通過實踐驗證,計算檔案學又有哪些可擴充完善之處?
第四,立足中國本土的計算檔案學建設路徑。充分挖掘數字轉型背景之下我國的整體發展環境、學科建設要求、計算檔案學自身的學科特性,確認計算檔案學的本土化建設需求、方法與策略。具體內容為:我國數字轉型框架下計算檔案學的建設需求是什么;新文科與檔案學學科發展背景下的計算檔案學建設定位是什么;以網絡空間為基礎的面向科研教學融合、產學研一體化為背景的計算檔案學建設方法與策略是怎樣的?
4 結 語
本文對網絡空間與計算檔案學的關聯展開深入分析,在此框架下梳理計算檔案學面向網絡空間的建設進展。在此基礎上,提出檔案學面向未來須及時跟進人類世界數字轉型進程,面向網絡空間的計算檔案學系統建設是重要方向,并對建設的相關內容予以基本說明。同時,本文更多是以問題的方式呈現面向網絡空間的計算檔案學建設可涉及的內容,還需要深入每一方面建構出具體成果,也要對如何建設出系統的成果的策略進行探討,這些都需要后續研究的深入探索。
*本文系國家社科基金青年項目“計算檔案學視角下的網絡檔案信息資源建設研究”(項目編號:22CTQ042)階段性研究成果。
注釋與參考文獻
[1]張新寶,許可.網絡空間主權的治理模式及其制度構建[J].中國社會科學,2016(8):139-158,207-208.
[2]UNDERWOOD W. Computational Thinking in Archival Science Research and Education[EB/OL].[2022-12-15].https://ai-collaboratory.net/wp-content/uploads/2021/03/ Underwood.pdf.
[3]KIRáLY P. Measuring completeness as metadata quality metric in Europeana[EB/OL].[2022-12-15].https://aicollaboratory.net/wp-content/uploads/2020/03/7.Kiraly.pdf.
[4]UNDERWOOD W. Automatic Extraction of Dublin Core Metadata from Presidential E-records[EB/OL].[2022-12-15].https://ai-collaboratory.net/wp-content/ uploads/2020/11/Underwood.pdf.
[5]劉越男,楊建梁,何思源,等.計算檔案學:檔案學科的新發展[J].圖書情報知識,2021(3):4-13.
[6][24]BATISTA D A, WEINGAERTNER T. ArchContract: using smart contracts for disposition[C]//2019 IEEE International Conference on Big Data (Big Data). Piscataway: IEEE, 2019:3060-3065.
[7][22][27]LEMIEUX V L. A typology of blockchain recordkeeping solutions and some reflections on their implications for the future of archival preservation[C]//2017 IEEE International Conference on Big Data (Big Data). Piscataway:IEEE, 2017:2271-2278.
[8][15][25]HOLZMANN H, GOEL V, ANAND A. ArchiveSpark: Efficient Web archive access, extraction and derivation[C]//2016 IEEE/ACM Joint Conference on Digital Libraries (JCDL). Newark: IEEE, 2016: 83-92.
[9]HOLZMANN H, GOEL V, GUSTAINIS E. N. Universal distant reading through metadata proxies with archivespark[C]//2017 IEEE International Conference on Big Data (Big Data). Piscataway: IEEE, 2017:459-464.
[10]申衛星,劉云.法學研究新范式:計算法學的內涵、范疇與方法[J].法學研究,2020(5):3-23.
[11]張小勁,孟天廣.論計算社會科學的緣起、發展與創新范式[J].理論探索,2017(6):33-38.
[12]UNDERWOOD W, MARCIANO R. Computational Thinking in Archival Science Research and Education[C]//2019 IEEE International Conference on Big Data (Big Data). Piscataway:IEEE, 2019:3146-3152.
[13]AMBACHER B, CONRAD M. Computational Archival Science is a Two-Way Street[C]//2021 IEEE International Conference on Big Data (Big Data). Piscataway:IEEE, 2021:2192-2199.
[14]ANDERSON B G, et al. The cybernetics thought collective project: Using computational methods to reveal intellectual context in archival material[C]//2017 IEEE International Conference on Big Data (Big Data). Piscataway:IEEE, 2017:2213-2218.
[16][19]YIN Z, et al. Using a Three-step Social Media Similarity (TSMS) Mapping Method to Analyze Controversial Speech Relating to COVID-19 in Twitter Collections[C]//2020 IEEE International Conference on Big Data (Big Data). Piscataway: IEEE, 2020:1949-1953.
[17]JAYAWARDANA Y, et al. Modeling Updates of Scholarly Webpages Using Archived Data[C]//2020 IEEE International Conference on Big Data (Big Data). Piscataway:IEEE, 2020:1868-1877.
[18]VENKATA S K, et al. EMCODIST: A Context-based Search Tool for Email Archives[C]//2021 IEEE International Conference on Big Data (Big Data). Piscataway:IEEE, 2021:2281-2290.
[20]SMITH T D. The blockchain litmus test[C]//2017 IEEE International Conference on Big Data (Big Data). Piscataway: IEEE, 2017: 2299-2308.
[21]HAMOUDA H, et al. Extending the Scope of Computational Archival Science: A Case Study on Leveraging Archival and Engineering Approaches to Develop a Framework to Detect and Prevent “Fake Video”[C]//2019 IEEE International Conference on Big Data(Big Data). Piscataway:IEEE,2019:3087-3097.
[23]KATUU S. Managing Records in Enterprise Resource Planning Systems[C]//2021 IEEE International Conference on Big Data (Big Data). Piscataway:IEEE, 2021:2240-2245.
[26]ROSS D, CRETU E, LEMIEUX V. NFTs:Tulip Mania or Digital Renaissance [C]//2021 IEEE International Conference on Big Data (Big Data). Piscataway: IEEE,2021:2262-2272.