1研究背景
檔案編目是檔案管理過程中形成檢索體系的核心環(huán)節(jié),通過對檔案內(nèi)容的分類著錄構(gòu)建規(guī)范目錄;檔案校對則是保障數(shù)據(jù)準確性的關(guān)鍵工序,通過核驗確保目錄與實體檔案一致。檔案編目與校對是檔案管理部門和檔案利用者管理、檢索和利用檔案資源的重要手段,能夠保持檔案的完整性和連續(xù)性,促進檔案工作標準化,助推檔案信息化建設(shè),進一步提升檔案治理能力與水平。《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》明確“加強檔案資源質(zhì)量管控”的重要任務(wù),對編目與校對的協(xié)同效能提出要求,深化檔案檢索工具,提升內(nèi)容管理水平。[1]
隨著各單位檔案意識增強和檔案業(yè)務(wù)水平整體提升,綜合檔案館及檔案室檔案數(shù)量和質(zhì)量躍升,在從以實體為中心向信息化管理的跨越過程中,[2]檔案數(shù)字資產(chǎn)面臨著“數(shù)據(jù)量激增”與“管理效能滯后”的矛盾。面對海量數(shù)字化檔案,傳統(tǒng)人工編目及校對模式效率低下,同時使檔案數(shù)據(jù)不可避免地存在目錄字段不規(guī)范導致的查全率、查準率不足等問題,直接影響檔案檢索的準確性與利用效率。通過科技賦能,實現(xiàn)智能編目校對,成為推動“數(shù)據(jù)資源優(yōu)勢轉(zhuǎn)化為服務(wù)效能”的必然選擇。
2案例概述
2023年7月,昆山市檔案館檔案智能編目校對系統(tǒng)一期開發(fā)完成。該系統(tǒng)能夠在線或離線批量導人電子檔案或數(shù)字化副本,并可自動進行OCR識讀歸檔章、全文檔案信息,同時自動采集分類、保管期限、文件標題等檔案目錄項,實現(xiàn)了檔案編目及校對自動化,替代人工著錄。2024年進行二期開發(fā),與市公共智慧底座人工智能服務(wù)臺對接,依托后臺智能計算資源加大圖形識別、大數(shù)據(jù)分析等智能算力投入,不斷試錯糾正,提升識別正確率。通過該系統(tǒng),將大量的檔案數(shù)據(jù)機器學習與人工智能服務(wù)中臺的文字識別(OCR)服務(wù)、自然語言處理(NLP)服務(wù)進行對接,通過預(yù)處理模塊、文本檢測模塊、文字識別模塊、語義分析預(yù)處理模塊、對比分析模塊等后臺功能把檔案目錄和全文進行智能編目索引,并與原目錄內(nèi)容進行比對,進而實現(xiàn)檔案數(shù)據(jù)智能校對。將人工編目校對的“經(jīng)驗驅(qū)動”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動”,形成“機器初校一人工核驗—數(shù)據(jù)優(yōu)化”的高效協(xié)同模式[]。
3創(chuàng)新點
3.1機器學習技術(shù)與檔案數(shù)據(jù)校核結(jié)合應(yīng)用目前大多數(shù)檔案館普遍采用人工校核的方式,費時費力且效率不高。昆山市檔案館率先將機器學習技術(shù)應(yīng)用于校核工作,重點加大圖形識別、大數(shù)據(jù)分析等智能算力,大大提升檔案校核的準確率。
3.2應(yīng)用人工智能技術(shù)實現(xiàn)檔案自動編目
以O(shè)CR和自然語言分析為技術(shù)突破核心,依托公共智慧底座算力,能夠在線或離線批量導入電子檔案或數(shù)字化副本,并可自動進行OCR識讀歸檔、全文檔案信息,自動采集分類、保管期限、文件標題等檔案目錄項,實現(xiàn)了檔案編目自動化,替代人工著錄。
3.3系統(tǒng)應(yīng)用架構(gòu)采用算力分離
基于“云原生”理念,實踐中采取“算力一應(yīng)用一數(shù)據(jù)”解耦模式。將OCR識別、NLP語義分析等任務(wù)拆解,減少任務(wù)的平均等待時間,提高算力。將算法模塊封裝為容器,支持“熱部署”迭代,減少迭代周期,提高資源利用效率。掛接公共智慧底座的數(shù)據(jù)存儲空間,計算節(jié)點僅負責任務(wù)處理,存儲空間不足時動態(tài)掛載新存儲卷,通過算力與應(yīng)用的解耦,使得算力資源按需分配,為應(yīng)用創(chuàng)新提供了更多可能性。
3.4研究成果實現(xiàn)產(chǎn)品化
推出AI智能校對單機版,通過優(yōu)化硬件配置,采用先進處理器、內(nèi)存架構(gòu)及大容量存儲設(shè)備,可以保障系統(tǒng)高效自運行。借助優(yōu)化的OCR和NLP服務(wù)精準提取文本,融合圖像識別與自然語言處理技術(shù),實現(xiàn)文字深度處理,生成關(guān)鍵事件[4],完成智能編目索引與校對。大幅提升檔案管理效率,顯著降低運營成本,推動檔案管理向智能化方向快速發(fā)展。
4具體做法
4.1聚焦檔案識別全流程,推行效率與精準雙優(yōu)處理機制
為保障檔案數(shù)據(jù)一致性與完整性,采用文件鎖機制,避免多進程同時操作同一文件造成數(shù)據(jù)丟失或損壞,借助公共智慧底座的彈性計算資源,結(jié)合分布式架構(gòu)與緩存技術(shù),確保系統(tǒng)在高并發(fā)壓力下依然能夠穩(wěn)定運行,及時處理突發(fā)的大量識別請求。
圖1多模智能處理流程圖

在提升識別效率方面,通過分布式集群部署并結(jié)合負載均衡技術(shù),將OCR任務(wù)均勻分配至多個服務(wù)器節(jié)點,引入緩存機制存儲常用數(shù)據(jù),借助多核處理器與GPU集群計算,將復(fù)雜任務(wù)分解為多個子任務(wù)并行處理,顯著提升處理速度。采用消息隊列技術(shù)分離任務(wù)處理與響應(yīng)流程,實現(xiàn)異步處理。依據(jù)實時任務(wù)量動態(tài)調(diào)整資源配置,對識別算法進行輕量化應(yīng)用,降低算法復(fù)雜度,減少計算資源消耗。在提高識別準確率方面,利用圖像預(yù)處理技術(shù)對輸入圖像進行灰度化、降噪、傾斜校正處理,優(yōu)化圖像特征,并結(jié)合深度學習算法,有效提升識別準確率。
4.2預(yù)先建立印章模板庫,提升OCR去章識別準確率
檔案中的印章(包括公章、簽名章等)對OCR識別準確性產(chǎn)生了不可忽略的干擾,成為影響檔案數(shù)字化質(zhì)量的關(guān)鍵因素之一。「5]印章的圖案、顏色與文字內(nèi)容交織,使得OCR軟件在識別過程中容易出現(xiàn)誤判,將印章部分誤識別為文字,或因印章遮擋導致文字識別錯誤、信息丟失,嚴重影響檔案信息的準確性與完整性。
為排除干擾并實現(xiàn)信息精準提取,將檔案圖像輸入OCR系統(tǒng)后,先進行去噪處理,通過濾波算法去除圖像中的噪聲干擾,同時將彩色圖像轉(zhuǎn)換為二值圖像,簡化圖像信息,突出文字特征。基于構(gòu)建的印章模板庫,對圖像中的印章區(qū)域進行檢測。通過提取印章的形狀、顏色、紋理等特征,與模板進行比對匹配,精準定位印章位置。在確定印章區(qū)域后,根據(jù)實際需求選擇去除印章或?qū)ζ溥M行模糊處理,以消除印章對文字識別的干擾。最后,對經(jīng)過處理的剩余文字區(qū)域進行字符分割,將連續(xù)的文本分割為單個字符或單詞,再通過OCR識別模型進行識別,并對識別結(jié)果進行校正和優(yōu)化,最終將其轉(zhuǎn)換為可編輯的文本信息,有效提高了帶章檔案的識別準確率。
4.3構(gòu)建目標檢測模型,提高文本標題識別著錄人名提取能力
在檔案智能編目校對工作中,準確提取檔案標題對于檔案分類、檢索和管理至關(guān)重要。在實際查檔利用過程中,“人名”等字段的利用需求明顯增多。在格式多樣的檔案文本圖像中,為快速識別、精準定位文本標題和提取著錄人名,專門搭建目標檢測模型,基于一張圖片只會存在一個標題的項目需求,設(shè)定標題預(yù)測框,采取加權(quán)圖像策略,動態(tài)選擇適合的置信度閾值,通過實驗在標題提取的準確率和查全率之間找到最佳平衡,提高模型對各類標題的識別能力。同時,檢測模型進行數(shù)據(jù)預(yù)處理,去除文本中的無關(guān)字符、標點等噪聲信息,并將文本拆分為獨立的詞語,使用NLP工具庫進行文本詞性標注,結(jié)合詞性特征和命名實體識別技術(shù),提取出人名候選詞及人名、地名等各類實體,與人名庫進行匹配,篩選出可能的真實人名。利用上下文語境信息對人名進一步驗證,分析人名在句子中的語法位置、與其他詞匯的語義關(guān)聯(lián)等,判斷其是否符合人名的語義邏輯,從而提高人名識別的準確性。對識別及驗證過的人名進行整理、排序、去重,將結(jié)果整理為規(guī)范的可編輯電子格式,并通過可視化工具展示,方便查看和使用。
4.4實施“四維防護”策略,打造全鏈路數(shù)據(jù)安全保障防線
在檔案智能編目校對系統(tǒng)運行過程中,數(shù)據(jù)安全與操作可信可追溯至關(guān)重要。[6]為確保系統(tǒng)的安全性與穩(wěn)定性,構(gòu)建全鏈路檔案安全保障體系。在網(wǎng)絡(luò)安全層面,部署VPN專用通道,采用組合加密算法,用于數(shù)據(jù)加密,確保數(shù)據(jù)在傳輸過程中的保密性及完整性校驗,防止數(shù)據(jù)被篡改。在訪問控制層面,設(shè)計系統(tǒng)管理員、部門管理員、普通用戶和訪客四級權(quán)限體系。不同角色被賦予不同的操作權(quán)限和數(shù)據(jù)訪問范圍,嚴格實現(xiàn)功能與數(shù)據(jù)的隔離,防止越權(quán)訪問帶來的安全風險。在數(shù)據(jù)安全層面,對用戶密碼采用哈希加鹽處理,增加密碼破解難度,保障用戶登錄安全。對于核心業(yè)務(wù)數(shù)據(jù)進行加密存儲,密鑰通過硬件安全模塊管理,實現(xiàn)數(shù)據(jù)從落地存儲到傳輸過程的全程加密,并在訪問時進行嚴格的權(quán)限鑒權(quán),全方位保障數(shù)據(jù)安全。在審計追蹤層面,部署日志分析平臺,實時采集用戶操作日志,包括登錄時間、數(shù)據(jù)修改記錄、異常訪問等關(guān)鍵信息。將關(guān)鍵審計日志通過區(qū)塊鏈技術(shù)上鏈存證,利用區(qū)塊鏈的不可篡改特性,實現(xiàn)操作過程的可信追溯,確保系統(tǒng)操作的合規(guī)性與可審計性。
5實踐成效
5.1圖像檢測與智能編目
利用目標檢測算法,進行多維圖像質(zhì)量檢測,有效保障了檔案圖像數(shù)據(jù)的質(zhì)量,為檔案編目和利用提供了高質(zhì)量的數(shù)據(jù)支持。基于NLP深度學習算法,自動構(gòu)建邏輯清晰、準確的目錄結(jié)構(gòu),完成從原始檔案數(shù)據(jù)到結(jié)構(gòu)化目錄的智能轉(zhuǎn)換
5.2對比分析與目錄矯正
通過將原文件圖片與識別后的文字在同一界面進行直觀對比展示,利用圖像匹配算法和文本相似度計算方法,快速準確地進行差異性校對和修正,確保檔案信息的一致性,有效減少人工校對的工作量和錯誤率。利用智能算法,對原人工著錄的多個關(guān)鍵字段,如檔號、頁數(shù)、全文頁數(shù)、題名、著錄人名、文號、成文日期、責任者、機構(gòu)或問題、件號、年度、保管期限、密級等進行自動識別和分析。通過建立字段識別模型和規(guī)則庫,對不準確或不規(guī)范的字段進行自動替換更正,實現(xiàn)了目錄數(shù)據(jù)的優(yōu)化和標準化,為檔案管理信息化和智能化發(fā)展提供支撐。
5.3實踐成本降低與管理效能提升
2023年,檔案智能編目校驗系統(tǒng)對昆山市超過27萬件PDF文書檔案進行校驗,涉及32家不同單位、部門的文檔,總頁數(shù)近290萬頁,平均識準率近81% ;2024年,校驗PDF文書檔案29萬余件,總頁數(shù)近300萬頁,平均識準率近 85% ,隨著系統(tǒng)的不斷優(yōu)化和應(yīng)用經(jīng)驗的積累,識準率呈逐年上升趨勢,大大減少了校對所需投人的人工成本。通過智能化的處理流程,檔案管理效率顯著提升,從傳統(tǒng)的人力密集型工作模式向智能化、高效化轉(zhuǎn)變。
6展望
6.1檔案生成與編目同步,開啟檔案管理新變革
將檔案智能編目前置到檔案生成階段,從源頭環(huán)節(jié)實現(xiàn)檔案生成與編目同步,將是檔案管理領(lǐng)域一次新的突破。借助OCR文字識別、自然語言處理等AI技術(shù),可對電子文體、圖像、音視頻等各類檔案載體進行自動識別,精準提取題名、文號、形成時間、責任者等著錄項,并按照《檔案著錄規(guī)則》自動完成編目數(shù)據(jù)生成。通過預(yù)設(shè)校驗規(guī)則對數(shù)據(jù)邏輯性、格式規(guī)范性進行智能校對,如自動識別重復(fù)文號、異常日期格式等,大幅降低人工干預(yù)成本。
當然,受限于檔案形成場景的復(fù)雜性,如手寫文件字跡模糊、特殊格式文件解析困難等問題,仍需人工著錄或?qū)χ悄芫幠拷Y(jié)果進行復(fù)核。但隨著深度學習模型的迭代,未來可將智能編自模塊嵌入OA系統(tǒng)、業(yè)務(wù)系統(tǒng)等檔案生成的源頭環(huán)節(jié),同步進行檔案編目并自動校核,從根本上提升檔案著錄效率與數(shù)據(jù)質(zhì)量。
6.2驅(qū)動AI技術(shù)深度融合,釋放檔案數(shù)據(jù)新潛能
借助自然語言處理和知識圖譜技術(shù),智能構(gòu)建檔案主題知識庫,從檔案中提取關(guān)鍵信息并構(gòu)建語義關(guān)聯(lián)網(wǎng)絡(luò),清晰呈現(xiàn)特定時期的人物關(guān)系、事件脈絡(luò)和政策演變,為歷史研究、文化傳承提供有力支撐。利用物聯(lián)網(wǎng)采集檔案庫房環(huán)境、設(shè)備狀態(tài)及檔案流轉(zhuǎn)數(shù)據(jù),構(gòu)建數(shù)字孿生模型,模擬管理策略和業(yè)務(wù)流程,預(yù)測潛在問題,優(yōu)化管理決策。加強檔案數(shù)據(jù)分析,運用數(shù)據(jù)挖掘算法分析檔案數(shù)據(jù)規(guī)律和趨勢,優(yōu)化檔案資源配置,提升檔案管理的科學性與合理性,充分釋放檔案數(shù)據(jù)價值。
6.3賦能檔案全生命周期,拓展主動服務(wù)新篇章
將AI技術(shù)應(yīng)用于檔案業(yè)務(wù)全鏈條,不斷拓展檔案接收、管理、存儲、利用方面應(yīng)用場景,構(gòu)建覆蓋全生命周期的智能管理體系,釋放檔案資源的多元價值。接收環(huán)節(jié)通過“三合一”智能分類算法自動識別檔案類型并匹配保管期限,結(jié)合區(qū)塊鏈技術(shù)實現(xiàn)接收過程的可信存證;管理階段運用智能檢索引擎,支持語義聯(lián)想、跨庫關(guān)聯(lián)等高級查詢,同時通過圖像識別技術(shù)實現(xiàn)破損檔案的自動修復(fù)建議;存儲層面借助智能監(jiān)控系統(tǒng),實時調(diào)節(jié)庫房溫濕度并預(yù)警安全隱患;利用環(huán)節(jié)通過知識圖譜技術(shù)挖掘檔案間隱含關(guān)聯(lián),為決策提供數(shù)據(jù)支撐,在政務(wù)服務(wù)、企業(yè)管理、歷史研究等領(lǐng)域發(fā)揮重要作用,推動檔案工作從“存進來”向“走出去”主動服務(wù)轉(zhuǎn)型。
總之,科技賦能應(yīng)用帶來的檔案業(yè)務(wù)效率提升與數(shù)據(jù)質(zhì)量優(yōu)化,證明機器學習算法與檔案業(yè)務(wù)的深度耦合能夠釋放巨大價值,持續(xù)推動AI與物聯(lián)網(wǎng)、區(qū)塊鏈、數(shù)字孿生等技術(shù)融合創(chuàng)新,讓科技賦能檔案治理各環(huán)節(jié),實現(xiàn)“為黨管檔更科學、為國守史更可靠、為民服務(wù)更高效”的目標。
注釋與參考文獻
[1]中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展 規(guī)劃》[EB/OL].[2025-07-20].https://www.saac. gov.cn/daj/yaow/202106/899650c1b1ec4c0e9ad3c2ca73 10eca4.shtml.
[2]紙質(zhì)檔案數(shù)字化規(guī)范[EB/OL].[2025-07- 20l.https://www.saac.gov.cn/daj/hybz/201806/496cc2b 091344843b5b388b744818c65/files/fa10b12908dc47c3b7 ccc3aaab746625.pdf.
[3]王平,李夢垚,侯景瑞.人工智能賦能檔案工作的進展報告[J].檔案與建設(shè),2025(4):15-28.
[4]張笑瑋,吳建華.生成式人工智能賦能檔案館服務(wù)質(zhì)量的優(yōu)化路徑研究[J].檔案與建設(shè),2025(2):62-70.
[5]邢變變,劉陽.生成式人工智能背景下檔案館智慧編研的應(yīng)然態(tài)勢、實然困境和使然策略[J].檔案與建設(shè),2025(2):71-76.
[6」朱建忠.在依法治檔中推動實現(xiàn)檔案治理能力現(xiàn)代化[J」.檔案與建設(shè),2024(4):8-9.
(責任編輯:邵澍)