機器學習在檔案管理中的應用與挑戰(zhàn)

2021-07-14 02:17:12代林序張玉潔

檔案與建設 2021年5期

代林序張玉潔

摘要：文章解析了檔案機構主導的機器學習應用于檔案管理的實驗項目，旨在充分認識機器學習應用的可行性以及應用邏輯與方法。基于對澳大利亞新南威爾士州機器學習實驗的過程分析，發(fā)現(xiàn)充足且高質(zhì)量的數(shù)據(jù)集、軟硬件等基礎設施及專業(yè)人才是機器學習技術成功應用的重要因素。因此，檔案機構應用機器學習技術可從推進檔案數(shù)據(jù)化進程、加強技術型人才儲備、立足檔案管理實踐制定應用方案等方向探索。

關鍵詞：檔案管理；檔案鑒定；機器學習

分類號：G273

Application and Challenge of Machine Learning in Archives Management

—— Based on the Investigation and Enlightenment of Machine Learning Experiment in New South Wales Archives

Dai Linxu1， Zhang Yujie2

（1.School of Public Administration， Sichuan University， Chengdu， Sichuan， 610065； 2.School of Information Resource Management， Renmin University of China， Beijing， 100872）

Abstract： The article analyzes an experimental project led by an archival institution on the application of machine learning to archival management with the aim of fully understanding the feasibility of machine learning applications and the logic and methods of application. Based on the process analysis of machine learning experiments in New South Wales， Australia， it was found that adequate and high-quality datasets， infrastructure such as hardware and software， and professional talents are important elements for the successful application of machine learning technology. Therefore， the application of machine learning technology by archival institutions can be explored in the direction of promoting the process of archival data， strengthening the reserve of technologyoriented talents， and formulating application solutions based on archival management practices.

Keywords：Archives Management； Archives Appraisal； Machine Learning

1 引言

數(shù)字環(huán)境下檔案管理工作變得愈加復雜：一方面，數(shù)字化、數(shù)據(jù)化檔案資源數(shù)量龐大且增長迅速[1]，為以人工為主的檔案管理工作帶來了巨大壓力，同時，類型多樣、半結構化及非結構化的檔案信息或數(shù)據(jù)也使檔案管理工作變得更加煩瑣和復雜[2]；另一方面，檔案服務對象也呈現(xiàn)出多樣化趨勢，傳統(tǒng)的檢索及借閱服務已經(jīng)無法滿足用戶的個性化需求，檔案館難以提供專業(yè)化、知識化的服務內(nèi)容或特色服務[3]。因此，尋求新技術以提高檔案管理效率及現(xiàn)代化程度，促進檔案管理工作自動化、智能化已成為迫切需求[4]，機器學習作為人工智能中最活躍的技術領域之一，探究機器學習在檔案管理中的應用成為實踐熱點。

在研究層面，機器學習在檔案管理中的應用主要從以下方面展開：一是機器學習應用于檔案管理的合理性。一方面，數(shù)字檔案具有直接的機器可讀性，計算機算法可以檢測、識別和捕捉包括數(shù)據(jù)結構層次、元數(shù)據(jù)層次及文件表層的數(shù)字檔案信息，有助于用戶對檔案資源進行多方面、多層次的挖掘[5]。另一方面，在數(shù)字環(huán)境下，檔案館龐大的館藏與有限的人力資源之間的矛盾愈加凸顯，計算機為輔助、人工為主導的管理模式存在效率低、成本高、難以挖掘出檔案信息中隱含價值等缺點[6]。二是機器學習應用于檔案管理的模式。研究認為，機器學習的應用邏輯是以檔案管理需求為導向，以具體應用場景為核心，即檔案管理各業(yè)務環(huán)節(jié)中面臨著投入大量人力勞動的壓力及低效率風險時，需要利用機器學習實現(xiàn)自動化及智能化處理[7]。大量研究已立足于檔案管理具體應用場景開展算法設計和可行性驗證，如檔案類別的重新劃分和自動分類[8]、歷史檔案信息的提取分析[9]、檔案的保存期限及密級鑒定[10]、檔案檢索[11]等。三是在檔案管理中應用機器學習的挑戰(zhàn)及對策。首先，機器學習的時間成本過高，在數(shù)據(jù)及信息的識別和理解方面也具有一定的局限性[12]。研究指出，人機協(xié)同和融合的檔案管理模式有助于實現(xiàn)機器與人兩者的優(yōu)勢互補[13]。其次，機器理解具有復雜結構的檔案資源存在一定困難，同時，冗余及低質(zhì)量、不相關的數(shù)據(jù)會導致誤導性偏差或運行錯誤[14]。研究認為，可以比較不同算法的訓練成果選出最優(yōu)解，并通過不斷地訓練提高其精確性。最后，檔案本身具有的保密性，應用機器學習必然需要大量的檔案數(shù)據(jù)，存在數(shù)據(jù)泄露等風險[15]。因此研究認為，需要構建一個結構合理的責任體系和利用規(guī)范，避免數(shù)據(jù)的濫用和盜用[16]。

在實踐層面，一些探索性、實驗性的實踐項目陸續(xù)開展，多由檔案工作者與技術研究人員等跨界組成研究團隊展開，且以文本數(shù)據(jù)和圖像數(shù)據(jù)作為主要的實驗對象[17]。例如2018年，In Codice Ratio團隊以梵蒂岡檔案館（VSA）保存的歷史檔案為實驗對象，使用深度學習結構中的卷積神經(jīng)網(wǎng)絡算法開發(fā)內(nèi)容分析工具，識別歷史檔案中大量的手寫文字并進行單詞轉(zhuǎn)化，以期為研究人員提供更便捷、高效的檢索服務[18]；2017年，澳大利亞新南威爾士州檔案館（NSWSAR）團隊以機構非結構化檔案數(shù)據(jù)作為實驗對象，借助現(xiàn)成的機器學習工具對數(shù)據(jù)進行分類和鑒定[19]；同年，美國自然歷史博物館以其植物標本圖像作為實驗對象，使用卷積神經(jīng)網(wǎng)絡算法分析圖像特征并按照形態(tài)相似程度進行自動分類[20]。從大多數(shù)實踐項目呈現(xiàn)出的實驗結果來看，經(jīng)過充分的訓練，算法的準確率能達到較高水平，且在檔案管理實踐的可容錯范圍內(nèi)，這也進一步驗證了機器學習應用于檔案管理領域的可行性。

綜上，現(xiàn)有研究對于機器學習應用于檔案管理的可行性及應用模式進行了較為充分的研究，但在實踐中，不同領域、不同管理機構、不同全宗形成或持有的檔案都有其特殊性，機器學習仍然需要人工識別和預測任務、選擇合適的算法、獲得足夠的訓練、花費大量的時間和成本[21]，在應用過程中也會面臨客觀條件受限的可能。而目前缺少案例研究對實踐經(jīng)驗進行充分的分析，對機器學習如何應用于檔案管理提供的參考較為有限。因而，文章以案例研究的方法對澳大利亞新南威爾士州檔案館機器學習實驗進行介紹，以期為我國檔案機構探索機器學習的具體應用提供方向。

2新南威爾士州檔案館機器學習實驗

2.1 實驗背景與目標

機器學習在文件及檔案管理領域有大量潛在的應用場景，然而在該技術被大量采用之前，需要有經(jīng)過驗證的使用案例來說明這些工具的工作效果，并確定其可能帶來的風險[22]。NSWSAR機器學習實驗詳細記錄了其算法及工具選擇、數(shù)據(jù)處理、實驗方法、結果評估的全過程，充分反映了機器學習在檔案管理實踐中的應用效果，且語料庫為行政文書類檔案數(shù)據(jù)，相較于其他案例與我國應用現(xiàn)實更相關，實驗經(jīng)驗具有很強的可移植性和可操作性；同時，該實驗在缺少技術成員支撐與經(jīng)費支持的情況下采用了低成本及使用現(xiàn)成技術的解決方案，也為檔案館解決應用機器學習的技術障礙提供了新思路。NSWSAR數(shù)字檔案團隊于2017年計劃開展內(nèi)部和外部實驗，探索機器學習在檔案管理中的應用。首先，該團隊于2017年11月至12月完成了一次內(nèi)部實驗。該實驗采用現(xiàn)成的機器學習軟件，對照該機構檔案鑒定的標準與規(guī)定對非結構化檔案數(shù)據(jù)的語料庫進行分類。這一檔案語料庫已經(jīng)過前期的人工鑒定，通過對比機器學習算法的分類結果與人工鑒定結果，測試機器學習算法的準確度。其次，數(shù)字檔案團隊和澳大利亞總理與內(nèi)閣部（DPC）在2018年6月至7月合作開展了一次外部實驗，主要目標是驗證內(nèi)部實驗形成的算法模型與DPC提供的電子文件語料庫的匹配程度。

2.2 內(nèi)部實驗

在前期準備階段，一方面，由于資源、預算有限，實驗選擇針對Python編程語言的免費、開源的機器學習庫Scikit-Learn作為技術工具，該工具是為用戶提供可進行模型擬合、數(shù)據(jù)預處理、模型選擇和評估的高質(zhì)量、有據(jù)可查的規(guī)范化工具集，其優(yōu)勢在于簡單有效、支持監(jiān)督和無監(jiān)督學習[23]；另一方面，項目團隊選擇用于內(nèi)部實驗的語料庫是2016年由州政府某部門遷移至數(shù)字檔案館系統(tǒng)中的檔案集合，其特殊之處在于它包含了完整的機構文件夾結構。在遷移時，由檔案館與該部門合作，根據(jù)分類和處置機構行政文件的一般性標準（GA28）進行了人工鑒定，鑒定結果為：共計12369份檔案需要作為國家檔案被保存，而完整的檔案集合由30GB的數(shù)據(jù)組成，分為7561個文件夾，包含42653個文件[24]。

在實驗測試階段，項目使用機器學習算法進行自動化分類的具體步驟如下：

（1）文本提取。為確保項目后期的順利開展和進一步的文本處理，項目選擇了容易被提取文本的文件類型如PDF、DOCX、DOC格式的文件，因此在被列為國家檔案的12369份文件中，只有8784份文件被選中使用。首先在對樣本集進行簡單排序后，使用Python算法從文件中提取文本，并列出作為唯一標識符的文件名、所屬分類和文本提取內(nèi)容。

（2）數(shù)據(jù)清理。項目團隊采取了一種非常基本的數(shù)據(jù)清理方法，即刪除文件格式、刪除休止符、刪除不需要的文件以及將所有字母轉(zhuǎn)換為小寫。

（3）文本向量化。機器學習和深度學習算法不能直接對文本進行處理，必須將文本轉(zhuǎn)化為機器學習算法能夠理解和處理的數(shù)值，因此實驗需要將文本轉(zhuǎn)化為數(shù)字特征向量，使用詞袋模型構建“文檔—詞項”矩陣，該矩陣描述了文件中主要詞項的出現(xiàn)頻率。

（4）詞頻—逆向文件頻率加權計算（TF-IDF）。在文本向量化過程中容易將出現(xiàn)頻率較高的無意義詞條或與文件主要內(nèi)容相關度較低的詞條填充至矩陣中，如“Are”“The”“It”等，但這些詞條對于“文檔—詞項”矩陣表示沒有意義。因此項目團隊使用TF-IDF權重計算方法判斷該詞條是否是文件的關鍵詞；之后訓練數(shù)據(jù)和測試數(shù)據(jù)分組開展實驗。實驗采用了標準比例，即75%的訓練數(shù)據(jù)和25%的測試數(shù)據(jù)。項目團隊從語料庫抽取了預分類“需要作為國家檔案”數(shù)據(jù)集中的75%，并利用這些數(shù)據(jù)來訓練建立模型的算法，項目使用了樸素貝葉斯模型和多層感知模型兩種廣泛應用的機器學習算法來建立模型。訓練完成后，同樣的算法和模型被用來處理納入測試數(shù)據(jù)集的其他25%的數(shù)據(jù)。基于此，項目可以評估模型的準確度并確定、比較兩種算法準確分類的百分比。

在結果分析階段，如表2所示，使用多層感知器算法的分類匹配率最高達到84%；同時綜合表1及表2，比較兩種算法的測試結果以及兩種算法在未清理數(shù)據(jù)和已清理數(shù)據(jù)中運行的表現(xiàn)，項目團隊認為，機器學習技術能夠協(xié)助對未分類的非結構化數(shù)據(jù)進行分類處置[25]。另外，項目團隊根據(jù)實驗經(jīng)驗總結了應用機器學習技術的局限性，如算法分類過程中所犯的錯誤只會隨著時間的推移在模型中累積，且不會得到糾正，這將會導致最終測試結果產(chǎn)生偏差。

2.3 外部實驗

外部實驗的開展主要是為了驗證前期內(nèi)部實驗的結果，兩者相比，外部實驗在參與主體方面涉及一個外部機構合作伙伴；在檔案數(shù)據(jù)方面使用的語料庫為數(shù)據(jù)量更大、涉及更多樣處置結果和類別并且?guī)в袠撕灥恼Z料庫，這種大規(guī)模且更為復雜的檔案數(shù)據(jù)集也非常適用于驗證前期內(nèi)部實驗結果；在技術使用方面選擇與內(nèi)部實驗相同的多層感知器算法，并將Scikit-Learn恢復為內(nèi)部實驗的初始設置，同時增加使用了Aspose文件格式API工具從電子文件中提取文本，減少數(shù)據(jù)浪費，為算法模型提供了更多數(shù)據(jù)。

在前期準備階段，項目團隊首先從DPC提供的語料庫中提取出用于本次實驗的電子文件共108064個，其次于2018年6月27日至7月5日進行文本提取工作，為算法模型準備測試數(shù)據(jù)，由于部分文件中包含數(shù)字圖像或圖表數(shù)據(jù)不適合應用算法模型進行分類測試，未能成功提取文本，最終篩選得到86453個可用的文件，最后團隊將電子文件轉(zhuǎn)換為CSV文件格式以便在模型中運行[26]。

在實驗測試階段，算法模型第一次運行后分類預測成功率高達91%和97%（試驗1、試驗2），項目團隊判斷該語料庫存在數(shù)據(jù)權重失衡的問題，其中大概三分之二的數(shù)據(jù)（62988個文件）都屬于FA254-02.02.02這個類別，因此該試驗的預測結果不具有可信度。為使數(shù)據(jù)集更具代表性，從而使預測結果更加真實，項目團隊決定排除該類別的文件運行測試（測試1），同時使用根據(jù)不同類別和保管期限表分類的部分語料進行了一系列測試，以了解預測準確性如何根據(jù)語料庫包含的處置類別變化而變化（測試2—測試6）。另外，項目團隊以21805個物理文件（即沒有成功提取文本進行分類的電子文件）的XML元數(shù)據(jù)作為測試數(shù)據(jù)集進行最后測試（測試7）。

在結果分析階段，外部實驗測試結果[27]（如表 3所示）與內(nèi)部實驗的結果大體相當，驗證了機器學習算法的可用性，但為保證分類結果的正確性，仍然離不開人工的檢查和微調(diào)；同時，本次實驗說明了語料庫的特征如數(shù)據(jù)類別覆蓋范圍的大小以及復雜性對機器學習算法的運行結果有一定的影響。

2.4 實驗經(jīng)驗與不足

NSWSAR的實驗表明，檔案機構可以通過機器學習來實現(xiàn)數(shù)字檔案的自動化分類以及完成識別具備長久保存價值的數(shù)字檔案的決策過程，實驗數(shù)據(jù)也反映出使用機器學習具有相當高的準確性，并且原則上，這種算法模型可以很容易地集成到檔案館的數(shù)字檔案館系統(tǒng)中，以提高檔案分類、鑒定的效率與質(zhì)量。文章根據(jù)NSWSAR實驗進行過程中面臨的障礙及解決方案總結經(jīng)驗：

首先，充足且高質(zhì)量的數(shù)據(jù)集是機器學習實驗的關鍵。正如前文所強調(diào)的，數(shù)據(jù)是機器學習的核心，一方面，機器學習需要大量的數(shù)據(jù)開展訓練，另一方面數(shù)據(jù)集的規(guī)模、質(zhì)量和特征等要素對機器學習算法模型的學習效果和預測效果都有極大的影響。理論上說，數(shù)據(jù)量越大，所訓練出的機器學習算法模型也就越逼近真實情況；數(shù)據(jù)集的質(zhì)量越好，所訓練出的算法模型準確率就越高，因此實驗前期準備階段的基礎工作如數(shù)據(jù)清理、數(shù)據(jù)提取等就顯得尤為重要，例如NSWSAR數(shù)字檔案團隊在內(nèi)部實驗中首先在語料庫中進行了篩選，其次通過文本提取的方式剔除機器無法讀取的信息，最后通過刪除休止符、刪除文件格式等基礎的操作進行數(shù)據(jù)清理，在外部實驗中進一步利用Aspose文件格式API集提升文本提取的質(zhì)量和效果，有效避免了數(shù)據(jù)浪費。

其次，軟硬件等基礎設施及專業(yè)人才是機器學習實驗的基礎。在基礎設施上，機器學習實驗不僅要有大量的訓練數(shù)據(jù)集，而且還要在本地計算機上擁有足夠的計算能力來處理模型，同時在開發(fā)內(nèi)部軟件項目時應編寫文檔齊全、測試良好的代碼。在專業(yè)人才支持上，實驗既需要專門的信息與通信技術或者數(shù)據(jù)科學方面的知識，也需要了解數(shù)據(jù)內(nèi)容和檔案管理知識及標準規(guī)范的專家。NSWSAR提供的資源有限，數(shù)字檔案團隊僅擁有一臺性能強大、具備充足內(nèi)存和固態(tài)硬盤的機器來運行模型，因此在內(nèi)部實驗期間團隊接收了一位具有機器學習算法運行經(jīng)驗的計算機專業(yè)研究生為實驗提供技術支持，利用Scikit-Learn提供的預構建分類器算法減少算法設計開發(fā)的成本和時間。

然而NSWSAR開展的實驗僅說明了機器學習用于檔案管理的可行性，但該實驗尚未立足于新南威爾士州檔案管理的實踐環(huán)境進行測試，如要將機器學習具體應用于檔案管理實踐，還有更多亟需解決的問題，例如引入機器學習技術后如何相應地調(diào)整檔案管理方法與流程？機器學習算法的偏差如何進行檢測？應用機器學習進行檔案的分類、鑒定等工作后如何建立問責機制[28]？

3 檔案機構應用機器學習的探索方向

把握人工智能發(fā)展的戰(zhàn)略機遇已成為中國檔案事業(yè)建設的關注重點，但實踐仍處于探索階段：一方面，人工智能技術應用于檔案領域已獲得國家層面的鼓勵與推動。2017年國務院發(fā)布《新一代人工智能發(fā)展規(guī)劃》并提出，在人工智能發(fā)展的新階段把握人工智能技術屬性與社會屬性高度融合的特征，加大人工智能的研發(fā)和應用力度，推進社會治理現(xiàn)代化[29]；2018年國家檔案局檔案科學技術研究所與科大訊飛簽署合作協(xié)議，共同推動人工智能技術在檔案管理中的應用，以實現(xiàn)檔案智慧化轉(zhuǎn)型升級[30]。另一方面，整體實踐呈現(xiàn)出應用場景集中、應用范圍待拓展的狀況。目前我國實踐項目多采用檔案機構與企業(yè)、科研機構合作的模式，技術應用場景集中于檔案數(shù)據(jù)化、影像修復、檔案分類鑒定等領域[31]，如浙江省檔案館與科大訊飛合作并基于人工智能技術實現(xiàn)音視頻檔案的全文數(shù)據(jù)化，建立人物人臉數(shù)據(jù)庫[32]；但相較而言，檔案分類鑒定場景下存在技術應用難度大、風險度高的問題。因此，借鑒NSWSAR機器學習實驗的經(jīng)驗，可為我國開展類似實驗項目提供探索方向：

第一，推動檔案數(shù)據(jù)化進程。（1）為機器學習的應用提供數(shù)據(jù)基礎。數(shù)字檔案是文字、圖像、視頻、音頻等多種形式組合的復雜信息，為機器學習提取、理解、分析信息帶來挑戰(zhàn)，目前的實驗項目僅能對檔案的文本或圖像信息進行識別和處理，應用于檔案管理實踐則會造成檔案信息的損失，同時傳統(tǒng)的紙質(zhì)檔案數(shù)字化、數(shù)據(jù)化程度不足，其數(shù)字化版本與原生數(shù)字檔案相比元數(shù)據(jù)等背景信息不夠豐富和完整[33]。因此，推進檔案數(shù)據(jù)化進程，將數(shù)字態(tài)檔案轉(zhuǎn)化為數(shù)據(jù)態(tài)，對檔案信息進行拆分、提取、組合和結構化，實現(xiàn)機器的可理解、可分析[34]，為機器學習應用于檔案管理并實現(xiàn)檔案管理智能化奠定基礎。（2）設計并建立配套的數(shù)據(jù)管理制度，實現(xiàn)管理技術工具、政策標準、流程步驟等的內(nèi)在統(tǒng)一。將機器學習應用于檔案管理的具體業(yè)務環(huán)節(jié)，需要檔案機構調(diào)整原有的檔案管理方法或流程，明確融入機器學習且適用于檔案數(shù)據(jù)特征及要求的數(shù)據(jù)管理具體實踐內(nèi)容，包括數(shù)據(jù)收集、創(chuàng)建、處理、分析與存儲等環(huán)節(jié)，保障數(shù)據(jù)管理政策與程序、規(guī)則與模型的完整性和長期可持續(xù)性。

第二，加強技術型人才儲備。機器學習技術的快速更新與發(fā)展要求具有相關技能的人才和專家來支持、促進機器學習在檔案管理中的應用。因此，當前檔案機構機器學習技術型人才和專家的缺乏，阻礙了技術的實施與推廣，以至于成為檔案機構應用機器學習的一大挑戰(zhàn)，也給文件、檔案管理人員的專業(yè)能力提出了更高要求。為應對此挑戰(zhàn)，檔案機構需要培養(yǎng)機器學習相關的專業(yè)知識和技術運用能力，加強對技術本身的理解，以確保滿足未來的文件及檔案管理需求。同時，應提高檔案人才隊伍中高層次、高技能人才的比重，尤其需要補充計算機等專業(yè)背景的技術型人才。檔案工作者應利用機器學習技術的出現(xiàn)所帶來的機會，探索技術潛力以及更廣泛的應用場景，并且鼓勵跨機構、跨國界交流和展示學習成果，以減輕行業(yè)內(nèi)部的知識和技能差距[35]。

第三，立足檔案管理實踐制定應用方案。（1）檔案機構需要根據(jù)其實際情況選擇合理可行的技術路線。一方面，檔案機構可通過實驗對比、評估多種技術路線的實驗測試結果，選擇最優(yōu)的算法模型，同時，明確檔案數(shù)據(jù)類型及特征等因素對算法模型預測準確性的影響，調(diào)整適應機器學習技術的檔案管理方法與流程，促進機器學習技術優(yōu)勢發(fā)揮程度的最大化；另一方面，檔案機構應判斷軟硬件條件、項目資金、項目團隊是否滿足將機器學習應用于檔案管理實踐的基本條件，機器學習的成本、時間以及算法模型的耐久性、可擴展性、可重復使用性等因素也應納入?yún)⒖挤秶鶾36]。（2）針對應用機器學習技術可能產(chǎn)生的技術、法律等方面的問題制定保障措施。在技術問題上，檔案機構應明確算法模型的評估檢測機制，如在機器學習算法運行結果出現(xiàn)異常或者與預期差異較大時，機構可以通過確定問題、系統(tǒng)地測試以隔離錯誤的來源以及重現(xiàn)問題，形成解決方案以保障算法順利運行等方式進行故障排除[37]。在法律問題上，檔案數(shù)據(jù)安全的保障及隱私保護應成為檔案機構關注的重點。檔案機構需要增強機器學習算法識別敏感數(shù)據(jù)的能力[38]，并在分類、鑒定等管理過程中通過標記禁止開放、限制訪問權限等方式隔離敏感內(nèi)容，避免檔案數(shù)據(jù)的泄露。

4 結語

文章梳理了新南威爾士州檔案館探索機器學習應用的實驗項目，分析了該項目的成功經(jīng)驗與不足，據(jù)此提出我國檔案機構應用機器學習的探索方向。但隨著機器學習的可用性和適配性得到實踐的驗證，并逐步成為推進檔案管理智能化、智慧化發(fā)展的重要技術工具，大數(shù)據(jù)時代檔案管理的優(yōu)化與機器學習的應用如何相互支持并形成完整的技術應用方案與策略，還需要持續(xù)探索。

注釋與參考文獻

[1]周楓，呂東偉.基于“智能+”檔案管理初探[J].北京檔案，2019（9）： 39-41.

[2]陳慧，羅慧玉，張凱等.AI賦能檔案：AI技術在檔案管理中的賦能模式探究[J].山西檔案， 2020（4）： 76-83+131.

[3][13]陳會明，史愛麗，王寧等.人工智能在檔案工作中的應用實踐與挑戰(zhàn)——以北京市市場監(jiān)督管理局為例[J]. 檔案與建設， 2019（7）： 53-56.

[4]趙躍，段先娥.國外公共檔案館發(fā)展趨勢及啟示[J].浙江檔案， 2020（10）： 26-28.

[5]C. A. LEE. Computer-Assisted Appraisal and Selection of Archival Materials[C].2018 IEEE International Conference on Big Data. Seattle. WA， USA： Curran Associates， 2018： 2721-2724.

[6][8]霍光煜，張勇，孫艷豐，尹寶才.基于語義的檔案數(shù)據(jù)智能分類方法研究[J].計算機工程與應用， 2021（6）： 247-253.

[7][15][17][25][33]楊建梁，劉越男.機器學習在檔案管理中的應用：進展與挑戰(zhàn)[J].檔案學通訊，2019（6）： 48-56.

[9]F. ESPOSITO，D. MALERBA，G. SEMERARO，etc.Machine learning methods for automatically processing historical documents： from paper acquisition to XML transformation[C/ OL].First International Workshop on Document Image Analysis for Libraries. Palo Alto， CA， USA： Curran Associates， 2004. https：//ieeexplore.ieee.org/ document/1263262/.

[10]HUTCHINSON TIM. Natural language processing and machine learning as practical toolsets for archival processing[J].Records Management Journal， 2020（2）：155-174.

[11]YASSER.A.M，CLAWSON K，BOWERMAN.C.Saving Cultural Heritage with Digital Make-Believe： Machine Learning and Digital Techniques to the Rescue[C/OL].Proceedings of the 31st British Computer Society Human Computer Interaction Conference. Swindon， GBR： BCS Learning &； Development Ltd.， 2017. https：//doi. org/10.14236/ewic/HCI2017.97.

[12]李子林，熊文景.人工智能對檔案管理的影響及發(fā)展建議[J].檔案與建設，2019（6）： 10-13+9.

[14]N. PAYNE， J. R. BARON. Auto-categorization methods for digital archives[C].2017 IEEE International Conference on Big Data. Boston， MA： Curran Associates， 2017： 2288-2298.

[16]隋永.人工智能技術在高校檔案管理的應用研究[J]. 電腦知識與技術， 2020（22）： 171-172+175.

[18] FIRMANI D， MAIORINO M，MERIALDO P，etc. Towards Knowledge Discovery from the Vatican Secret Archives. In Codice Ratio - Episode 1： Machine Transcription of the Manuscripts[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York， NY， USA： Association for Computing Machinery， 2018： 263-272.

[19][22]GLEN HUMPHRIES. Machine Learning and Records Management[EB/OL].[2021–01–04]. http：//machine-learning-and-recordsmanagement/.

[20]SCHUETTPELZ.E， FRANDSEN. P.B， DIKOW.R.B，etc. Applications of deep convolutional neural networks to digitized natural history collections[J]. Biodiversity Data Journal， 2017： e21139.

[21][35]ROLAN G，HUMPHRIES G，JEFFREY L，etc.More human than human Artificial intelligence in the archive[J]. Archives and Manuscripts， 2019 （2）： 179-203.

[23]SCIKIT-LEARN.scikitlearn： machine learning in Python- scikitlearn 0.24.1 documentation[EB/OL].[2021–02–27].https：//scikit-learn. org/stable/.

[24]GLEN HUMPHRIES. Case Study – Internal Pilot – Machine Learning and Records Management[EB/ OL].[2021–01–04].https：// futureproof.records.nsw.gov.au/casestudy-internal-pilot-machine-learningand-records-management/.

[26][27][28]GLEN HUMPHRIES. Case Study – External Pilot – Machine Learning and Records Management[EB/OL].[2021–01–04].https：//futureproof.records.nsw. gov.au/case-study-external- pilot-machinelearning-and-records-management/.

[29]國務院.國務院關于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[EB/ OL].[2020–11–30]. http：//www. gov.cn/zhengce/zhengceku/2017-07/20/ content_5211996.htm.

[30]馮麗偉. 國家檔案局科研所聯(lián)手科大訊飛簽署全面戰(zhàn)略合作協(xié)議[J]. 中國檔案， 2018（5）： 10.

[31]祝成. 加快人工智能技術在檔案管理工作中的應用[EB/OL].[2021–01–15]. http：//www.zgdazxw.com.cn/ news/2021-01/15/content_316467.htm.

[32]浙江省檔案館電子檔案管理處. 省檔案館承擔的科技項目通過國家檔案局驗收[EB/OL].[2021–05–26]. http：//www.zjda.gov.cn/art/2021/3/12/ art_1229005493_58922762.html.

[34]趙躍.大數(shù)據(jù)時代檔案數(shù)據(jù)化的前景展望：意義與困境[J]. 檔案學研究， 2019（5）： 52-60.

[36][37]R.MARCIANO，S. AGARRAT，H.FRISCH，etc. Reframing Digital Curation Practices through a Computational Thinking Framework[C].2019 IEEE International Conference on Big Data. Los Angeles， CA， USA： Curran Associates， 2019： 3126-3135.

[38]J. R. BARON， N. PAYNE. Dark Archives and Edemocracy： Strategies for Overcoming Access Barriers to the Public Record Archives of the Future[C].2017 Conference for E-Democracy and Open Government. Krems： Curran Associates， 2017：3-11.

機器學習在檔案管理中的應用與挑戰(zhàn)

1 引言

2新南威爾士州檔案館機器學習實 驗

3 檔案機構應用機器學習的探索方向

4 結語

2新南威爾士州檔案館機器學習實驗