AI 在檔案鑒定中的應用研究與啟示
——以英國國家檔案館AI for selection 項目為例

2024-06-10 13:51:35葛澤鈺上海大學文化遺產與信息管理學院

浙江檔案 2024年3期

葛澤鈺／上海大學文化遺產與信息管理學院

隨著Al技術迎來新一輪發展熱潮，AI賦能各行各業被提升到新的戰略高度，檔案領域不可避免地卷入其中。目前，AI技術在我國檔案工作中的應用尚處于嘗試和探索階段，主要用于取代部分程序化、機械化、模式化的檔案業務[1]，避開了開放性、解釋性和自主化的任務，例如人工智能在檔案鑒定中的應用實踐仍然較為缺乏。檔案鑒定是檔案管理的核心環節，是對歸檔文件去粗取精，優先保管具有保存價值的文件并使其發揮更大作用，以滿足社會需要的過程[2]。數字環境下，傳統的人工鑒定模式難以應對海量結構化與非結構化的數字信息鑒定，與Al技術融合發展成為檔案鑒定的應然選擇。目前感知智能技術應用正向認知智能技術應用演進，在認知智能層面，機器具備理解、解釋、推理及規劃等能力[3]，為檔案價值鑒定這一更深層次的業務場景落地提供了技術支持。通過認知智能技術賦能檔案鑒定，能夠為既繁瑣又困難重重的檔案鑒定工作提供有效解決方案，有力推動智能化、智慧化檔案管理實踐取得實質性進展。

英國國家檔案館主導的AI for selection項目（以下簡稱AI項目）通過研究和測試證明AI可以用于電子文件鑒定工作，并探究了AI如何支持和優化電子文件揀選過程[4]。本文以英國國家檔案館該項目為例，描繪人工智能技術在檔案歸檔鑒定中的應用圖景，總結其經驗，審視其中存在的風險，以期為我國檔案領域更廣泛和深入應用人工智能技術提供理論參考。

1 AI for selection項目檔案智能鑒定的應用圖景

早在2018年，英國政府數字化轉型導致電子文件的數量和種類急劇增加，海量電子文件的鑒定和保存工作幾乎不可能完全依靠人工手段。于是，英國國家檔案館數字保存部門成立研究小組，探究應用人工智能工具進行電子文件鑒定的過程，其主導了 AI for selection項目，該項目的主要內容包括：一是掌握利用AI技術進行電子文件鑒定的技術原理，熟悉AI技術應用于電子文件鑒定的操作流程；二是研究和測試不同供應商的AI工具，評估AI如何支持和優化電子文件鑒定工作；三是設計選擇AI工具供應商的評估指標，為對接外包市場提供參考等。

AI for selection項目通過探究一系列機器學習方法，自主研發了AI技術應用的基準工具，并最終形成了一份面向各文件管理部門的指導手冊《在政府中使用AI進行電子文件鑒定》[5]，為人工智能技術在電子文件鑒定中的應用提供了一個可行方案。英國國家檔案館的有益探索為我國依托人工智能技術實現檔案智能鑒定提供了借鑒和參考，下面以AI for selection項目為例從決策依據、功能實現及效能呈現方面描繪人工智能應用于檔案鑒定的圖景。

1.1 決策依據：人類經驗和AI技術相結合

英國國家檔案館使用來自其文件管理系統的“代表性數據”，包括110882個文件與12462個文件夾，在研究和測試AI工具的過程中，使用80%經過標記的訓練數據來訓練模型，由機器對訓練數據集中“選中的”文件的特征與“未選中的”文件的非特征進行識別和學習，之后使用剩余20%數據進行測試，通過不斷完善模型以優化鑒定的準確度。

AI for selection項目發現檔案工作者擁有的關于檔案價值判定的主觀經驗和知識對于AI工具的有效運作至關重要。此外，數字檔案自身特性所引發的鑒定問題有必要交由數字技術本身來處理，這既是一種技術邏輯，即尊重機器的運行方式，也是一種技術思維，即將現實問題放置在其產生的源環境中去理解。因此，人工智能技術賦能的內在本質是通過將人類經驗與AI技術結合實現檔案鑒定。在收集、分析和推理大量數據的基礎上，人工智能可以挖掘隱藏在檔案數據中的潛在規律，客觀現實狀況及不同現象之間的關聯得以充分反映。

1.2 功能實現：檔案鑒定指標與數據的比對

AI for selection項目智能鑒定功能的實現是通過將檔案鑒定指標與檔案數據挖掘結果進行比對，判定文件的價值類型。首先，上傳電子文件，將檔案鑒定方法、原則、標準、影響因素等轉化為算法表達，借助自然語言處理、數據挖掘等技術促進對文件內容特征、元數據特征的理解與提取。其次，使用算法依據鑒定規則和流程判定文件是否需要歸檔，并做出文件保管期限的判定，識別出需要永久保存的電子文件。第三，在機器完成鑒定后由人工進行結果審查，反饋情況以調整或重新設計流程。

AI for selection項目基于文件元數據和文件內容分別開發了兩種鑒定模型，其中基于文件元數據的鑒定模型主要是根據文件的元數據特征判別是否需要歸檔及其保管期限；基于文件內容的鑒定模型主要是根據文件的內容特征判斷文件的價值，將具有相同特征的文件聚類到一起，做出文件保管期限的判定。經測試，英國國家檔案館指出電子文件智能鑒定的實現應當既考慮文件的元數據特征，還應根據文件的具體內容來決定[6]，以得到較為良好的鑒定結果。

1.3 效能呈現：自動化智能化助力質效提升

目前檔案鑒定工作繁瑣且困難重重，存在鑒定標準缺乏且難以把握、專業鑒定人員不足等問題。自動化、智能化的鑒定在結果呈現上以高效、簡潔為特征，AI憑借其自身優勢成為檔案鑒定工作高質量高效率發展的助推器。AI for selection項目基于文件元數據和文件內容兩種模型最終研發了兩類揀選器，即樸素貝葉斯分類器和邏輯回歸分類器，為電子文件鑒定提供了AI工具。通過智能化的產品輔助人工管理，極大地提高了檔案鑒定工作質效，為檔案鑒定工作從“純人工模式”轉變為“半自動模式”提供了可行方案。

2 AI for selection項目檔案智能鑒定的風險審視

隨著數字轉型深入推進，英國國家檔案館AI for selection項目將人工智能技術應用于電子文件鑒定能夠解決當前鑒定工作所面臨的部分難題，為我國檔案領域與人工智能深入融合提供了參考。但由于檔案鑒定工作本身具有很強的嚴謹性，我國檔案領域在借鑒AI for selection項目經驗的同時應當理性審視其中存在的諸多風險：一是鑒定主體權責亟需明確；二是人類認知偏差導致人工智能偏見；三是鑒定模型建構中存在“質”與“量”的鴻溝等。

2.1 鑒定主體權責亟需明確

人工智能應用于檔案歸檔鑒定，意味著在檔案機構和檔案管理人員之外，機器也作為檔案管理主體參與其中。目前AI for selection項目通過人工智能實現輔助人工鑒定，而隨著人工智能由感知智能技術應用轉向認知智能技術應用，其自主學習能力正不斷增強，自主意識也在不斷形成，這樣的事實是我們無法回避的。人工智能形態的不斷變革，當前關于人工智能體的屬性和地位該如何明確存在很大爭論[7]，未來，人工智能是人還是機器的爭論也許還將持續很久。倘若今后檔案鑒定工作逐步實現“智能化模式”，當利用算法判定文件是否需要歸檔，是否讓它留存下去成為檔案時，對于機器提供的結果是否可以完全信任難以下定論，歸責問題需要明確，這需要依托檔案學者們的共同努力以及相應的法律法規提供支持。

2.2 人類認知偏差導致人工智能偏見

人工智能本身并不具備鑒定經驗，其鑒定經驗是由人類所賦予它的，AI for selection項目將保存著復雜類經驗的檔案轉化為算法表達，也可以窮盡的規則實現檔案鑒定。人腦不可否認地存在認知偏差，而一旦人類給予AI的鑒定經驗本身存在偏差，這種偏差會持續重復下去，最終將導致AI在實際上的偏見[8]。檔案價值鑒定理論從“年齡鑒定論”“行政官員決定論”“職能鑒定論”等發展到目前被廣泛接受和認可的“宏觀鑒定論”，宏觀鑒定論的實質是片面的“實體價值論”，即其認為檔案價值是獨立于主體之外而存在的，它隨檔案的產生而產生，不論人們利用與否都是客觀存在的，顯然存在著重大的理論缺陷[9]?；诖嬖谄姷娜斯ぶ悄軐n案進行鑒定，其結果會對歷史的真實和完整造成嚴重傷害。

2.3 鑒定模型建構存在“質”“量”鴻溝

對于人工智能而言，算法、算力、數據是其核心三要素，其中最基礎最核心的是數據。任何算法都需經過大量數據的洗禮，數據的質量、精確度、完善度等直接決定了AI在實際應用中的表現[10]。以英國國家檔案館開發的基于文件元數據和文件內容的兩種模型來看，檔案智能鑒定需要數據與知識雙核驅動，其能否得以實現的前提是擁有足夠量的檔案數據及龐大的鑒定知識為基礎開展機器學習的應用，研究人員需要準備大量訓練數據集對系統進行訓練。數據規模越大，學習效果更佳，準備機器學習的大規模數據和知識需要耗費大量資源對其進行預處理。然而，現階段我國檔案數據化程度較低，來源復雜、內容廣泛、標準不一，尤其元數據稀缺，無法提供足夠優質的數據作為智能鑒定的訓練數據集，將影響機器學習應用的效果。

3 AI for selection項目對我國檔案智能鑒定的啟示

通過上述分析可知，人工智能應用于檔案鑒定工作存在著一些風險，為此，我國檔案界應當理性看待并采取手段防范AI技術可能帶來的隱患，可以在借鑒參考AI for selection項目做法的基礎之上，從制度、意識、資源和業務等層面進行風險防范，以保持我國檔案工作良性運行，維持檔案業務與技術之間平衡協調發展。

3.1 制度層面：制定規范標準，明確主體權責

為加快推動我國檔案領域深入應用人工智能技術，防范人工智能應用于檔案鑒定帶來的風險，還需以法律和行業標準來引導和規范人工智能技術在檔案領域的應用行為。首先，制定檔案智能鑒定系統開發和應用的規范標準。英國國家檔案館在研究和探索人工智能支持和優化檔案鑒定的過程中，形成了一份面向各文件管理部門的指導手冊《在政府中使用AI進行電子文件鑒定》，為希望在電子文件鑒定工作中應用人工智能的政府部門提供技術、市場、管理等方面的建議。當前，我國檔案智能鑒定系統的建立過程中許多量化指標還難以確定，可以參考該項目的經驗，對電子文件鑒定應用的AI技術、評估指標設計等方面加以明確，為檔案智能鑒定的落地提供指導。其次，界定檔案管理主體權責。建立法律法規是以普遍存在的社會事實為約束對象，對潛在風險尚無力防范[11]。然而一旦機器鑒定結果有誤，又會因法律法規的不完善導致檔案機構和人員承受巨大損失，法律法規應起作用和實起作用之間的差距使得檔案領域深入應用AI技術存在猶豫和遲疑。為此，需要明確檔案主管部門領導、機器學習模型設計者、檔案工作者等主體的責任劃分，從而在法律保障層面推動人工智能在檔案鑒定工作中的深化應用。

3.2 意識層面：回歸價值理性，重構鑒定理論

“智慧”的根源在于人，而非智能技術。在意識層面，我國檔案界應回歸價值理性，重構和完善檔案鑒定理論體系，讓檔案鑒定理論與技術深度融合，以紓解偏差偏見風險。首先，秉持價值理性。檔案鑒定不應完全由人工智能的技術理性所牽制[12]，AI for selection項目也指出檔案工作者所具備的關于檔案鑒定的知識對于有效運作AI工具至關重要。在探索檔案鑒定智能化過程中，如何實現檔案工作價值理性地發揮是不可規避的問題。為此，需要在智能鑒定工作中考量情感需求、聚焦人文關懷，將真實、客觀、公平、向善等原則嵌入鑒定標準中。從整體層面思考檔案鑒定與文化、記憶之間的關系，檔案鑒定需具備更多的包容性，以呈現豐富多樣和與社會真相對稱的立體結構[13]。其次，重構檔案鑒定理論體系。一是要充分吸收既有經典理論的有益成分。宏觀鑒定法雖獲得較為廣泛的認可，但因其中的職能分析模塊難于把握，在應用當中仍然面臨一些困難。數字環境下，將抽象的宏觀鑒定論細化為具體指南不可避免。二是基于檔案屬性、內容與來源背景、價值實現方式鑒定[14]，構建與完善檔案鑒定理論體系。通過將更為完備的檔案鑒定理論與Al技術深度融合，以減少AI技術造成的偏差、偏見。

3.3 資源層面：夯實數據基礎，優化鑒定模型

《在政府中使用AI進行電子文件鑒定》中提出不同的文件類型如文本、媒體和圖像等可能需要不同的模型。在資源層面，需要依托足夠的檔案數據及專家知識，通過大量訓練數據集檢驗和優化鑒定模型及規則，以獲得更為準確的鑒定結果。首先，夯實數據基礎，為人工智能深度分析提供支撐。AI for selection項目建議在選擇訓練數據時檔案工作者需要重點考慮數據的質量和數量。一是需要打好檔案數據資源基礎，檔案工作者應意識到重復文件的普遍性，確保訓練數據的多樣性，準備初始數據以及設定用于價值判定的關鍵詞、密級判定的敏感詞等。二是需要大規模的訓練數據集對機器進行訓練，隨著訓練集數量越大，學習結果的準確率將越高。其次，優化鑒定指標、模型和規則。一是基于檔案鑒定理論，以及檔案的真實、完整、可靠等屬性，構建檔案鑒定理論框架模型，設定鑒定標準、指標、原則等，并將其轉化為算法表達?？梢詫覫SO 15489檔案管理標準，設定多維度多變量的衡量標準[15]，以此搭建檔案鑒定理論框架。二是在遵循既定規則的基礎上，充分利用人工智能技術從訓練和測試中歸納總結電子文件共性，并以此來反哺既定規則，通過不斷完善和發展檔案鑒定規則以更準確高效地完成檔案鑒定。

3.4 業務層面：人機協同共生，吸納公眾參與

AI for selection項目指出AI無法取代檔案工作者的專長，檔案工作未來在很長一段時間將會是人機共存、人機互補的模式。為此，從業務層面看，可以通過積極探索人機協同共生，以及廣泛吸納社會公眾參與兩條路徑有效防范運用AI技術進行檔案歸檔鑒定的風險。首先，檔案工作者應樹立人機共存的思維，積極探索與人工智能協同共生。一是積極應對人工智能時代帶來的挑戰，不斷提高自身創新能力，發展與人工智能技術融合能力。二是由于目前認知智能的發展仍不夠成熟完備，檔案人員應避免過于依賴技術，將檔案價值判定工作脫離人類經驗和認知而完全交由機器，應當探索人機互補的模式以提升檔案鑒定質效。其次，吸納社會公眾參與檔案鑒定。2020年修訂的《中華人民共和國檔案法》中指出“國家鼓勵社會力量參與和支持檔案事業的發展”，為社會公眾參與檔案鑒定提供了法律依據。在以往的檔案鑒定模式中，不論是由立檔單位鑒定、檔案工作者鑒定，還是由學科專家、政治家等合作鑒定，決定權始終把握在少部分人手中。顯然，同任何決策過程一樣，試圖將所有社會相關群體納入決策圈并不現實。但在網絡空間中，隨著人工智能技術的發展，檔案價值鑒定可以吸納公眾參與其中，社會公眾的智慧與力量將逐漸得以凸顯。

AI 在檔案鑒定中的應用研究與啟示——以英國國家檔案館AI for selection 項目為例