代林序 張玉潔


摘 要:文章解析了檔案機構主導的機器學習應用于檔案管理的實驗項目,旨在充分認識機器學習應用的可行性以及應用邏輯與方法?;趯Π拇罄麃喰履贤柺恐輽C器學習實驗的過程分析,發現充足且高質量的數據集、軟硬件等基礎設施及專業人才是機器學習技術成功應用的重要因素。因此,檔案機構應用機器學習技術可從推進檔案數據化進程、加強技術型人才儲備、立足檔案管理實踐制定應用方案等方向探索。
關鍵詞:檔案管理;檔案鑒定;機器學習
分類號:G273
Application and Challenge of Machine Learning in Archives Management
—— Based on the Investigation and Enlightenment of Machine Learning Experiment in New South Wales Archives
Dai Linxu1, Zhang Yujie2
(1.School of Public Administration, Sichuan University, Chengdu, Sichuan, 610065; 2.School of Information Resource Management, Renmin University of China, Beijing, 100872)
Abstract: The article analyzes an experimental project led by an archival institution on the application of machine learning to archival management with the aim of fully understanding the feasibility of machine learning applications and the logic and methods of application. Based on the process analysis of machine learning experiments in New South Wales, Australia, it was found that adequate and high-quality datasets, infrastructure such as hardware and software, and professional talents are important elements for the successful application of machine learning technology. Therefore, the application of machine learning technology by archival institutions can be explored in the direction of promoting the process of archival data, strengthening the reserve of technologyoriented talents, and formulating application solutions based on archival management practices.
Keywords:Archives Management; Archives Appraisal; Machine Learning
數字環境下檔案管理工作變得愈加復雜:一方面,數字化、數據化檔案資源數量龐大且增長迅速[1],為以人工為主的檔案管理工作帶來了巨大壓力,同時,類型多樣、半結構化及非結構化的檔案信息或數據也使檔案管理工作變得更加煩瑣和復雜[2];另一方面,檔案服務對象也呈現出多樣化趨勢,傳統的檢索及借閱服務已經無法滿足用戶的個性化需求,檔案館難以提供專業化、知識化的服務內容或特色服務[3]。因此,尋求新技術以提高檔案管理效率及現代化程度,促進檔案管理工作自動化、智能化已成為迫切需求[4],機器學習作為人工智能中最活躍的技術領域之一,探究機器學習在檔案管理中的應用成為實踐熱點。
在研究層面,機器學習在檔案管理中的應用主要從以下方面展開:一是機器學習應用于檔案管理的合理性。一方面,數字檔案具有直接的機器可讀性,計算機算法可以檢測、識別和捕捉包括數據結構層次、元數據層次及文件表層的數字檔案信息,有助于用戶對檔案資源進行多方面、多層次的挖掘[5]。另一方面,在數字環境下,檔案館龐大的館藏與有限的人力資源之間的矛盾愈加凸顯,計算機為輔助、人工為主導的管理模式存在效率低、成本高、難以挖掘出檔案信息中隱含價值等缺點[6]。二是機器學習應用于檔案管理的模式。研究認為,機器學習的應用邏輯是以檔案管理需求為導向,以具體應用場景為核心,即檔案管理各業務環節中面臨著投入大量人力勞動的壓力及低效率風險時,需要利用機器學習實現自動化及智能化處理[7]。大量研究已立足于檔案管理具體應用場景開展算法設計和可行性驗證,如檔案類別的重新劃分和自動分類[8]、歷史檔案信息的提取分析[9]、檔案的保存期限及密級鑒定[10]、檔案檢索[11]等。三是在檔案管理中應用機器學習的挑戰及對策。首先,機器學習的時間成本過高,在數據及信息的識別和理解方面也具有一定的局限性[12]。研究指出,人機協同和融合的檔案管理模式有助于實現機器與人兩者的優勢互補[13]。其次,機器理解具有復雜結構的檔案資源存在一定困難,同時,冗余及低質量、不相關的數據會導致誤導性偏差或運行錯誤[14]。研究認為,可以比較不同算法的訓練成果選出最優解,并通過不斷地訓練提高其精確性。最后,檔案本身具有的保密性,應用機器學習必然需要大量的檔案數據,存在數據泄露等風險[15]。因此研究認為,需要構建一個結構合理的責任體系和利用規范,避免數據的濫用和盜用[16]。
在實踐層面,一些探索性、實驗性的實踐項目陸續開展,多由檔案工作者與技術研究人員等跨界組成研究團隊展開,且以文本數據和圖像數據作為主要的實驗對象[17]。例如2018年,In Codice Ratio團隊以梵蒂岡檔案館(VSA)保存的歷史檔案為實驗對象,使用深度學習結構中的卷積神經網絡算法開發內容分析工具,識別歷史檔案中大量的手寫文字并進行單詞轉化,以期為研究人員提供更便捷、高效的檢索服務[18];2017年,澳大利亞新南威爾士州檔案館(NSWSAR)團隊以機構非結構化檔案數據作為實驗對象,借助現成的機器學習工具對數據進行分類和鑒定[19];同年,美國自然歷史博物館以其植物標本圖像作為實驗對象,使用卷積神經網絡算法分析圖像特征并按照形態相似程度進行自動分類[20]。從大多數實踐項目呈現出的實驗結果來看,經過充分的訓練,算法的準確率能達到較高水平,且在檔案管理實踐的可容錯范圍內,這也進一步驗證了機器學習應用于檔案管理領域的可行性。
綜上,現有研究對于機器學習應用于檔案管理的可行性及應用模式進行了較為充分的研究,但在實踐中,不同領域、不同管理機構、不同全宗形成或持有的檔案都有其特殊性,機器學習仍然需要人工識別和預測任務、選擇合適的算法、獲得足夠的訓練、花費大量的時間和成本[21],在應用過程中也會面臨客觀條件受限的可能。而目前缺少案例研究對實踐經驗進行充分的分析,對機器學習如何應用于檔案管理提供的參考較為有限。因而,文章以案例研究的方法對澳大利亞新南威爾士州檔案館機器學習實驗進行介紹,以期為我國檔案機構探索機器學習的具體應用提供方向。
2.1 實驗背景與目標
機器學習在文件及檔案管理領域有大量潛在的應用場景,然而在該技術被大量采用之前,需要有經過驗證的使用案例來說明這些工具的工作效果,并確定其可能帶來的風險[22]。NSWSAR機器學習實驗詳細記錄了其算法及工具選擇、數據處理、實驗方法、結果評估的全過程,充分反映了機器學習在檔案管理實踐中的應用效果,且語料庫為行政文書類檔案數據,相較于其他案例與我國應用現實更相關,實驗經驗具有很強的可移植性和可操作性;同時,該實驗在缺少技術成員支撐與經費支持的情況下采用了低成本及使用現成技術的解決方案,也為檔案館解決應用機器學習的技術障礙提供了新思路。NSWSAR數字檔案團隊于2017年計劃開展內部和外部實驗,探索機器學習在檔案管理中的應用。首先,該團隊于2017年11月至12月完成了一次內部實驗。該實驗采用現成的機器學習軟件,對照該機構檔案鑒定的標準與規定對非結構化檔案數據的語料庫進行分類。這一檔案語料庫已經過前期的人工鑒定,通過對比機器學習算法的分類結果與人工鑒定結果,測試機器學習算法的準確度。其次,數字檔案團隊和澳大利亞總理與內閣部(DPC)在2018年6月至7月合作開展了一次外部實驗,主要目標是驗證內部實驗形成的算法模型與DPC提供的電子文件語料庫的匹配程度。
2.2 內部實驗
在前期準備階段,一方面,由于資源、預算有限,實驗選擇針對Python編程語言的免費、開源的機器學習庫Scikit-Learn作為技術工具,該工具是為用戶提供可進行模型擬合、數據預處理、模型選擇和評估的高質量、有據可查的規范化工具集,其優勢在于簡單有效、支持監督和無監督學習[23];另一方面,項目團隊選擇用于內部實驗的語料庫是2016年由州政府某部門遷移至數字檔案館系統中的檔案集合,其特殊之處在于它包含了完整的機構文件夾結構。在遷移時,由檔案館與該部門合作,根據分類和處置機構行政文件的一般性標準(GA28)進行了人工鑒定,鑒定結果為:共計12369份檔案需要作為國家檔案被保存,而完整的檔案集合由30GB的數據組成,分為7561個文件夾,包含42653個文件[24]。
在實驗測試階段,項目使用機器學習算法進行自動化分類的具體步驟如下:
(1)文本提取。為確保項目后期的順利開展和進一步的文本處理,項目選擇了容易被提取文本的文件類型如PDF、DOCX、DOC格式的文件,因此在被列為國家檔案的12369份文件中,只有8784份文件被選中使用。首先在對樣本集進行簡單排序后,使用Python算法從文件中提取文本,并列出作為唯一標識符的文件名、所屬分類和文本提取內容。
(2)數據清理。項目團隊采取了一種非?;镜臄祿謇矸椒?,即刪除文件格式、刪除休止符、刪除不需要的文件以及將所有字母轉換為小寫。
(3)文本向量化。機器學習和深度學習算法不能直接對文本進行處理,必須將文本轉化為機器學習算法能夠理解和處理的數值,因此實驗需要將文本轉化為數字特征向量,使用詞袋模型構建“文檔—詞項”矩陣,該矩陣描述了文件中主要詞項的出現頻率。
(4)詞頻—逆向文件頻率加權計算(TF-IDF)。在文本向量化過程中容易將出現頻率較高的無意義詞條或與文件主要內容相關度較低的詞條填充至矩陣中,如“Are”“The”“It”等,但這些詞條對于“文檔—詞項”矩陣表示沒有意義。因此項目團隊使用TF-IDF權重計算方法判斷該詞條是否是文件的關鍵詞;之后訓練數據和測試數據分組開展實驗。實驗采用了標準比例,即75%的訓練數據和25%的測試數據。項目團隊從語料庫抽取了預分類“需要作為國家檔案”數據集中的75%,并利用這些數據來訓練建立模型的算法,項目使用了樸素貝葉斯模型和多層感知模型兩種廣泛應用的機器學習算法來建立模型。訓練完成后,同樣的算法和模型被用來處理納入測試數據集的其他25%的數據?;诖耍椖靠梢栽u估模型的準確度并確定、比較兩種算法準確分類的百分比。
在結果分析階段,如表2所示,使用多層感知器算法的分類匹配率最高達到84%;同時綜合表1及表2,比較兩種算法的測試結果以及兩種算法在未清理數據和已清理數據中運行的表現,項目團隊認為,機器學習技術能夠協助對未分類的非結構化數據進行分類處置[25]。另外,項目團隊根據實驗經驗總結了應用機器學習技術的局限性,如算法分類過程中所犯的錯誤只會隨著時間的推移在模型中累積,且不會得到糾正,這將會導致最終測試結果產生偏差。
2.3 外部實驗
外部實驗的開展主要是為了驗證前期內部實驗的結果,兩者相比,外部實驗在參與主體方面涉及一個外部機構合作伙伴;在檔案數據方面使用的語料庫為數據量更大、涉及更多樣處置結果和類別并且帶有標簽的語料庫,這種大規模且更為復雜的檔案數據集也非常適用于驗證前期內部實驗結果;在技術使用方面選擇與內部實驗相同的多層感知器算法,并將Scikit-Learn恢復為內部實驗的初始設置,同時增加使用了Aspose文件格式API工具從電子文件中提取文本,減少數據浪費,為算法模型提供了更多數據。

在前期準備階段,項目團隊首先從DPC提供的語料庫中提取出用于本次實驗的電子文件共108064個,其次于2018年6月27日至7月5日進行文本提取工作,為算法模型準備測試數據,由于部分文件中包含數字圖像或圖表數據不適合應用算法模型進行分類測試,未能成功提取文本,最終篩選得到86453個可用的文件,最后團隊將電子文件轉換為CSV文件格式以便在模型中運行[26]。
在實驗測試階段,算法模型第一次運行后分類預測成功率高達91%和97%(試驗1、試驗2),項目團隊判斷該語料庫存在數據權重失衡的問題,其中大概三分之二的數據(62988個文件)都屬于FA254-02.02.02這個類別,因此該試驗的預測結果不具有可信度。為使數據集更具代表性,從而使預測結果更加真實,項目團隊決定排除該類別的文件運行測試(測試1),同時使用根據不同類別和保管期限表分類的部分語料進行了一系列測試,以了解預測準確性如何根據語料庫包含的處置類別變化而變化(測試2—測試6)。另外,項目團隊以21805個物理文件(即沒有成功提取文本進行分類的電子文件)的XML元數據作為測試數據集進行最后測試(測試7)。
在結果分析階段,外部實驗測試結果[27](如表 3所示)與內部實驗的結果大體相當,驗證了機器學習算法的可用性,但為保證分類結果的正確性,仍然離不開人工的檢查和微調;同時,本次實驗說明了語料庫的特征如數據類別覆蓋范圍的大小以及復雜性對機器學習算法的運行結果有一定的影響。
2.4 實驗經驗與不足
NSWSAR的實驗表明,檔案機構可以通過機器學習來實現數字檔案的自動化分類以及完成識別具備長久保存價值的數字檔案的決策過程,實驗數據也反映出使用機器學習具有相當高的準確性,并且原則上,這種算法模型可以很容易地集成到檔案館的數字檔案館系統中,以提高檔案分類、鑒定的效率與質量。文章根據NSWSAR實驗進行過程中面臨的障礙及解決方案總結經驗:
首先,充足且高質量的數據集是機器學習實驗的關鍵。正如前文所強調的,數據是機器學習的核心,一方面,機器學習需要大量的數據開展訓練,另一方面數據集的規模、質量和特征等要素對機器學習算法模型的學習效果和預測效果都有極大的影響。理論上說,數據量越大,所訓練出的機器學習算法模型也就越逼近真實情況;數據集的質量越好,所訓練出的算法模型準確率就越高,因此實驗前期準備階段的基礎工作如數據清理、數據提取等就顯得尤為重要,例如NSWSAR數字檔案團隊在內部實驗中首先在語料庫中進行了篩選,其次通過文本提取的方式剔除機器無法讀取的信息,最后通過刪除休止符、刪除文件格式等基礎的操作進行數據清理,在外部實驗中進一步利用Aspose文件格式API集提升文本提取的質量和效果,有效避免了數據浪費。
其次,軟硬件等基礎設施及專業人才是機器學習實驗的基礎。在基礎設施上,機器學習實驗不僅要有大量的訓練數據集,而且還要在本地計算機上擁有足夠的計算能力來處理模型,同時在開發內部軟件項目時應編寫文檔齊全、測試良好的代碼。在專業人才支持上,實驗既需要專門的信息與通信技術或者數據科學方面的知識,也需要了解數據內容和檔案管理知識及標準規范的專家。NSWSAR提供的資源有限,數字檔案團隊僅擁有一臺性能強大、具備充足內存和固態硬盤的機器來運行模型,因此在內部實驗期間團隊接收了一位具有機器學習算法運行經驗的計算機專業研究生為實驗提供技術支持,利用Scikit-Learn提供的預構建分類器算法減少算法設計開發的成本和時間。
然而NSWSAR開展的實驗僅說明了機器學習用于檔案管理的可行性,但該實驗尚未立足于新南威爾士州檔案管理的實踐環境進行測試,如要將機器學習具體應用于檔案管理實踐,還有更多亟需解決的問題,例如引入機器學習技術后如何相應地調整檔案管理方法與流程?機器學習算法的偏差如何進行檢測?應用機器學習進行檔案的分類、鑒定等工作后如何建立問責機制[28]?

把握人工智能發展的戰略機遇已成為中國檔案事業建設的關注重點,但實踐仍處于探索階段:一方面,人工智能技術應用于檔案領域已獲得國家層面的鼓勵與推動。2017年國務院發布《新一代人工智能發展規劃》并提出,在人工智能發展的新階段把握人工智能技術屬性與社會屬性高度融合的特征,加大人工智能的研發和應用力度,推進社會治理現代化[29];2018年國家檔案局檔案科學技術研究所與科大訊飛簽署合作協議,共同推動人工智能技術在檔案管理中的應用,以實現檔案智慧化轉型升級[30]。另一方面,整體實踐呈現出應用場景集中、應用范圍待拓展的狀況。目前我國實踐項目多采用檔案機構與企業、科研機構合作的模式,技術應用場景集中于檔案數據化、影像修復、檔案分類鑒定等領域[31],如浙江省檔案館與科大訊飛合作并基于人工智能技術實現音視頻檔案的全文數據化,建立人物人臉數據庫[32];但相較而言,檔案分類鑒定場景下存在技術應用難度大、風險度高的問題。因此,借鑒NSWSAR機器學習實驗的經驗,可為我國開展類似實驗項目提供探索方向:
第一,推動檔案數據化進程。(1)為機器學習的應用提供數據基礎。數字檔案是文字、圖像、視頻、音頻等多種形式組合的復雜信息,為機器學習提取、理解、分析信息帶來挑戰,目前的實驗項目僅能對檔案的文本或圖像信息進行識別和處理,應用于檔案管理實踐則會造成檔案信息的損失,同時傳統的紙質檔案數字化、數據化程度不足,其數字化版本與原生數字檔案相比元數據等背景信息不夠豐富和完整[33]。因此,推進檔案數據化進程,將數字態檔案轉化為數據態,對檔案信息進行拆分、提取、組合和結構化,實現機器的可理解、可分析[34],為機器學習應用于檔案管理并實現檔案管理智能化奠定基礎。(2)設計并建立配套的數據管理制度,實現管理技術工具、政策標準、流程步驟等的內在統一。將機器學習應用于檔案管理的具體業務環節,需要檔案機構調整原有的檔案管理方法或流程,明確融入機器學習且適用于檔案數據特征及要求的數據管理具體實踐內容,包括數據收集、創建、處理、分析與存儲等環節,保障數據管理政策與程序、規則與模型的完整性和長期可持續性。
第二,加強技術型人才儲備。機器學習技術的快速更新與發展要求具有相關技能的人才和專家來支持、促進機器學習在檔案管理中的應用。因此,當前檔案機構機器學習技術型人才和專家的缺乏,阻礙了技術的實施與推廣,以至于成為檔案機構應用機器學習的一大挑戰,也給文件、檔案管理人員的專業能力提出了更高要求。為應對此挑戰,檔案機構需要培養機器學習相關的專業知識和技術運用能力,加強對技術本身的理解,以確保滿足未來的文件及檔案管理需求。同時,應提高檔案人才隊伍中高層次、高技能人才的比重,尤其需要補充計算機等專業背景的技術型人才。檔案工作者應利用機器學習技術的出現所帶來的機會,探索技術潛力以及更廣泛的應用場景,并且鼓勵跨機構、跨國界交流和展示學習成果,以減輕行業內部的知識和技能差距[35]。
第三,立足檔案管理實踐制定應用方案。(1)檔案機構需要根據其實際情況選擇合理可行的技術路線。一方面,檔案機構可通過實驗對比、評估多種技術路線的實驗測試結果,選擇最優的算法模型,同時,明確檔案數據類型及特征等因素對算法模型預測準確性的影響,調整適應機器學習技術的檔案管理方法與流程,促進機器學習技術優勢發揮程度的最大化;另一方面,檔案機構應判斷軟硬件條件、項目資金、項目團隊是否滿足將機器學習應用于檔案管理實踐的基本條件,機器學習的成本、時間以及算法模型的耐久性、可擴展性、可重復使用性等因素也應納入參考范圍[36]。(2)針對應用機器學習技術可能產生的技術、法律等方面的問題制定保障措施。在技術問題上,檔案機構應明確算法模型的評估檢測機制,如在機器學習算法運行結果出現異?;蛘吲c預期差異較大時,機構可以通過確定問題、系統地測試以隔離錯誤的來源以及重現問題,形成解決方案以保障算法順利運行等方式進行故障排除[37]。在法律問題上,檔案數據安全的保障及隱私保護應成為檔案機構關注的重點。檔案機構需要增強機器學習算法識別敏感數據的能力[38],并在分類、鑒定等管理過程中通過標記禁止開放、限制訪問權限等方式隔離敏感內容,避免檔案數據的泄露。
文章梳理了新南威爾士州檔案館探索機器學習應用的實驗項目,分析了該項目的成功經驗與不足,據此提出我國檔案機構應用機器學習的探索方向。但隨著機器學習的可用性和適配性得到實踐的驗證,并逐步成為推進檔案管理智能化、智慧化發展的重要技術工具,大數據時代檔案管理的優化與機器學習的應用如何相互支持并形成完整的技術應用方案與策略,還需要持續探索。
注釋與參考文獻
[1]周楓,呂東偉.基于“智能+”檔案管理初探[J].北京檔案,2019(9): 39-41.
[2]陳慧,羅慧玉,張凱等.AI賦能檔案:AI技術在檔案管理中的賦能模式探究[J].山西檔案, 2020(4): 76-83+131.
[3][13]陳會明,史愛麗,王寧等.人工智能在檔案工作中的應用實踐與挑戰——以北京市市場監督管理局為例[J]. 檔案與建設, 2019(7): 53-56.
[4]趙躍,段先娥.國外公共檔案館發展趨勢及啟示[J].浙江檔案, 2020(10): 26-28.
[5]C. A. LEE. Computer-Assisted Appraisal and Selection of Archival Materials[C].2018 IEEE International Conference on Big Data. Seattle. WA, USA: Curran Associates, 2018: 2721-2724.
[6][8]霍光煜,張勇,孫艷豐,尹寶才.基于語義的檔案數據智能分類方法研究[J].計算機工程與應用, 2021(6): 247-253.
[7][15][17][25][33]楊建梁,劉越男.機器學習在檔案管理中的應用:進展與挑戰[J].檔案學通訊,2019(6): 48-56.
[9]F. ESPOSITO,D. MALERBA,G. SEMERARO,etc.Machine learning methods for automatically processing historical documents: from paper acquisition to XML transformation[C/ OL].First International Workshop on Document Image Analysis for Libraries. Palo Alto, CA, USA: Curran Associates, 2004. https://ieeexplore.ieee.org/ document/1263262/.
[10]HUTCHINSON TIM. Natural language processing and machine learning as practical toolsets for archival processing[J].Records Management Journal, 2020(2):155-174.
[11]YASSER.A.M,CLAWSON K,BOWERMAN.C.Saving Cultural Heritage with Digital Make-Believe: Machine Learning and Digital Techniques to the Rescue[C/OL].Proceedings of the 31st British Computer Society Human Computer Interaction Conference. Swindon, GBR: BCS Learning &; Development Ltd., 2017. https://doi. org/10.14236/ewic/HCI2017.97.
[12]李子林,熊文景.人工智能對檔案管理的影響及發展建議[J].檔案與建設,2019(6): 10-13+9.
[14]N. PAYNE, J. R. BARON. Auto-categorization methods for digital archives[C].2017 IEEE International Conference on Big Data. Boston, MA: Curran Associates, 2017: 2288-2298.
[16]隋永.人工智能技術在高校檔案管理的應用研究[J]. 電腦知識與技術, 2020(22): 171-172+175.
[18] FIRMANI D, MAIORINO M,MERIALDO P,etc. Towards Knowledge Discovery from the Vatican Secret Archives. In Codice Ratio - Episode 1: Machine Transcription of the Manuscripts[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, NY, USA: Association for Computing Machinery, 2018: 263-272.
[19][22]GLEN HUMPHRIES. Machine Learning and Records Management[EB/OL].[2021–01–04]. http://machine-learning-and-recordsmanagement/.
[20]SCHUETTPELZ.E, FRANDSEN. P.B, DIKOW.R.B,etc. Applications of deep convolutional neural networks to digitized natural history collections[J]. Biodiversity Data Journal, 2017: e21139.
[21][35]ROLAN G,HUMPHRIES G,JEFFREY L,etc.More human than human Artificial intelligence in the archive[J]. Archives and Manuscripts, 2019 (2): 179-203.
[23]SCIKIT-LEARN.scikitlearn: machine learning in Python- scikitlearn 0.24.1 documentation[EB/OL].[2021–02–27].https://scikit-learn. org/stable/.
[24]GLEN HUMPHRIES. Case Study – Internal Pilot – Machine Learning and Records Management[EB/ OL].[2021–01–04].https:// futureproof.records.nsw.gov.au/casestudy-internal-pilot-machine-learningand-records-management/.
[26][27][28]GLEN HUMPHRIES. Case Study – External Pilot – Machine Learning and Records Management[EB/OL].[2021–01–04].https://futureproof.records.nsw. gov.au/case-study-external- pilot-machinelearning-and-records-management/.
[29]國務院.國務院關于印發新一代人工智能發展規劃的通知[EB/ OL].[2020–11–30]. http://www. gov.cn/zhengce/zhengceku/2017-07/20/ content_5211996.htm.
[30]馮麗偉. 國家檔案局科研所聯手科大訊飛簽署全面戰略合作協議[J]. 中國檔案, 2018(5): 10.
[31]祝成. 加快人工智能技術在檔案管理工作中的應用[EB/OL].[2021–01–15]. http://www.zgdazxw.com.cn/ news/2021-01/15/content_316467.htm.
[32]浙江省檔案館電子檔案管理處. 省檔案館承擔的科技項目通過國家檔案局驗收[EB/OL].[2021–05–26]. http://www.zjda.gov.cn/art/2021/3/12/ art_1229005493_58922762.html.
[34]趙躍.大數據時代檔案數據化的前景展望:意義與困境[J]. 檔案學研究, 2019(5): 52-60.
[36][37]R.MARCIANO,S. AGARRAT,H.FRISCH,etc. Reframing Digital Curation Practices through a Computational Thinking Framework[C].2019 IEEE International Conference on Big Data. Los Angeles, CA, USA: Curran Associates, 2019: 3126-3135.
[38]J. R. BARON, N. PAYNE. Dark Archives and Edemocracy: Strategies for Overcoming Access Barriers to the Public Record Archives of the Future[C].2017 Conference for E-Democracy and Open Government. Krems: Curran Associates, 2017:3-11.