




摘要:隨著社會信息化程度不斷提高,檔案管理數字化智能化是檔案領域建設的重點方向之一。針對傳統檔案管理模式存在數據采集困難、統計和利用不便等問題,文章設計了一種國產智能檔案管理系統架構并基于該架構建設了一個國產智能檔案管理系統。系統的應用結果表明,該系統能夠適應新時期檔案數字化發展,打破了檔案管理工作發展瓶頸,更好地滿足社會各界的需求。
關鍵詞:國產智能檔案管理系統;架構設計;檔案數字化;應用實踐
中圖分類號:TP315
文獻標志碼:A
0 引言
長期以來,經濟相對落后地區電子檔案全面推行存在諸多困難,電子檔案管理工作基礎較差,原有系統難以適應時代發展,現使用的檔案管理軟件存在無法按照最新標準升級、國產化替代工作難以開展[1]等諸多問題。此外,檔案工作效率整體偏低,數字化工作大部分由人工操作完成,實體檔案存儲管理、盤點、查找、借閱等耗費過多人員精力。同時,國產化替代迫在眉睫,自主可控成為政務信息系統建設的首要原則[2],原有的電子檔案管理系統及其運行硬件須要迭代升級以滿足自主可控要求。
隨著檔案管理從紙質化向電子化轉型,電子檔案的出現徹底革新了傳統管理模式,其應用也成為電子政務建設中的關鍵環節[3]。然而,當前的非自主可控電子檔案管理系統已無法滿足數字化、智能化治理的新需求。與此同時,社會各界將AI、大數據等技術相互融合,解決了各領域的痛點問題,推動各領域的數字化、智能化,促進了社會發展[4]。在AI等信息技術基礎上建設的新興電子檔案逐漸替代了紙質檔案且憑借其智能化優勢彌補了紙質檔案的短板[5]。檔案領域亟須引入人工智能等新技術,提升管理效率與安全性。為此,本文設計了一種基于AI的國產智能檔案管理系統架構,旨在通過技術創新,實現檔案管理的自主可控和智能化發展,以滿足未來電子檔案管理的更高要求。
1 系統架構方案
1.1 總體架構
國產智能檔案管理系統總體業務架構由智能檔案管理系統、檔案數字化服務及標準規范體系3大部分組成。基于自主可控的原則,利用云計算、大數據、人工智能等先進技術,在充分保障檔案信息安全保密的前提下,構建功能齊全的文件收集、高效管理、安全存儲、協同利用的智能檔案管理系統,實現檔案資源數字化、檔案管理信息化、檔案服務知識化、檔案業務規范化,全面推進數字檔案資源建設,提升檔案業務信息化水平,實現檔案工作集約、高效、可持續發展。國產智能檔案管理系統的總體架構如圖1所示。
1.1.1 智能檔案管理系統
建立1套基于自主可控技術、符合國家最新檔案標準、結合地區實際應用情況的智能檔案管理系統,為檔案室/館提供“收、管、存、用”全生命周期的“無紙化”“智能化”管理的檔案管理標準化產品能力;提供標準統一接口,對接不同類型的辦公、應用系統,實現電子文件在線一鍵歸檔;應用 AI 技術實現檔案智能化管理,全面提升檔案管理工作效率,降低人力成本。
1.1.2 檔案數字化服務
為檔案室/館提供專業的檔案數字化服務能力,包括檔案接收、拆、裝、檔案掃描、掛接等符合國家、省、市檔案管理要求的檔案數字化服務[6]。檔案數字化過程包括檔案整理、掃描、圖像處理、圖像質檢、OCR識別全文、音視頻轉換、著錄索引、文件格式轉換、大數據檢索等全過程。通過引入新技術,包括OCR識別、NLP自然語言處理、機器學習、知識圖譜等AI技術以及大數據檢索、分析、建模、挖掘等技術,盡可能保存傳統紙質或實體檔案的完整性,同時可提高傳統紙質或實體檔案數字副本的識別率、檢索率以及利用率。
1.1.3 標準規范體系
制定智能檔案管理系統相關技術標準、運行管理和服務規范[7],包括系統標準規范體系、安全保障體系以及運維保障體系。
1.2 主體IT架構方案
系統主體IT架構方案是基于自主可控原則進行設計。方案在統一的界面生成框架、業務規則引擎、業務流程引擎和公共基礎組件服務基礎上[8],在整體上采用了基于J2EE技術架構和基于分布式架構的多層模型,如圖2所示。
總體上系統劃分為5大層面:基礎設施層、存儲層、服務實現層、數據交換層與表現層。在這樣的多層模型中,每一層都可視作一個虛擬機,是一個抽象的功能模塊集合,可以提供一類專門的功能和服務。通常而言,各層只與相鄰層發生交互行為,不允許越層訪問其他層的服務。同時,此方案通過統一的接入框架,面向不同應用系統的不同技術實現形式,提供相應的接口適配方式,使系統與外部系統對接時,能夠將對外部系統的影響降到最低。
1.3 AI應用整體架構
AI云平臺基于基礎設施云平臺構建,提供OCR識別、圖像處理、自然語言處理等AI能力,助力檔案管理工作智能化。AI應用整體架構如圖3所示。
通過AI應用,國產智能檔案管理系統能夠滿足當前電子檔案領域檔案數字化、智能化與檔案智能檢索的迫切需求。
1.3.1 實現檔案數字化、智能化
檔案數字化、智能化流程如圖4所示。首先,通過選定掃描儀終端品牌、型號,實現設備與智能檔案管理系統聯動并完成國產化適配工作。其次,采用圖像處理算法,對文書檔案掃描圖像進行糾偏切邊、去污降噪、對比度增強等處理,采用圖像超分辨率算法增強文字清晰度,提升檔案質量,確保檔案的規范性;采用OCR文字識別算法對增強后的圖像進行文本檢測與文本識別,提取檔案題名、文號、年度等元數據以及全文文字,根據檔案規范要求形成標準檔案數據。最后,設備與系統實現互聯,自動將識別的檔案元數據自動上傳至系統并將處理好的圖片對應元數據自動掛接至系統。
為保證數字化環節流暢開展,系統具備快速的圖片處理能力,單張A4文檔大小圖片處理速度小于1 s;OCR文字識別方面,支持對多種字體進行識別,包括印刷體、手寫體等,印刷體識別率不低于99%,支持快速解析輸出檔案元數據。
1.3.2 實現檔案智能檢索
檔案智能檢索流程如圖5所示。系統采用OCR文字識別算法對文本圖像進行文本檢測與識別,提取文本內容;采用語音識別算法對音頻數據進行語音轉寫,將語音轉換為文字;采用圖像識別、視頻識別算法對圖像、視頻數據內容進行人物識別、場景分析等,轉換為文本數據;采用自然語言處理算法對文本數據進行文本分類、信息抽取、摘要生成、情感分析等處理,生成結構化數據,構建知識圖譜,精準檢索所需檔案,大幅提升檢索效率,同時可進一步獲取檔案之間的相關性,便于深入分析,充分挖掘數據價值。
系統支持將視頻信息、圖像信息和文字信息準確轉化為文本全文、摘要、主題、關鍵字、時間、來源、類型等結構化的數據,轉換準確率不低于98%;支持進行符合業務場景的準確分詞處理,分詞準確率達90%以上;支持根據提取出的實體和全文建立實體之間的關系。檢索速度方面,檢索結果響應時間不超過3 s。
2 應用實踐
通過調研廣西電子檔案管理業務需求、管理機制、信息化應用等情況,本文基于該系統架構建設了一個國產智能檔案管理系統。系統融入AI識別技術、智能翻譯等智能新技術,從硬件、基礎軟件到AI算法模型與框架完全國產自主可控并依托廣西適配認證中心開展系統與國內主流技術路線的適配測試,進行3種服務器×6種終端(含Windows)共18個組合路線測試。目前已完成鯤鵬920、飛騰2000、騰銳D2000、龍心3A4000芯片以及銀河麒麟、統信UOS操作系統5個組合共5615項測試用例。
國產智能檔案管理系統已在廣西8家政府單位和1家企業部署應用,共存儲4.5 T電子檔案數據。通過引入AI技術實現檔案數字化智能化,檔案整理工作效率提升60%,檔案智能檢索查詢響應時間縮短70%以上,檢索準確率提升至95%以上。
3 結語
本文將AI等新一代信息技術融合到檔案領域的實際工作中,構建的國產智能檔案管理系統能夠優化檔案管理工作流程。國產智能檔案管理系統的應用結果表明,在實際中能夠解決數字化工作大部分由人工操作完成,多模態文檔的檢索效率低下或只能采用人工檢索,實體檔案存儲管理、盤點、查找、借閱等耗費過多人員精力等檔案行業痛點問題。
參考文獻
[1]王紅,侯雯.大數據背景下電子檔案數字化轉型的優化策略分析[J].辦公室業務,2024(23):36-38.
[2]劉紅.基于自主可控的電子文件歸檔和電子檔案管理研究[J].蘭臺內外,2022(29):40-42.
[3]鮑玉靜,周瓊,牛俊芳.基于自主可控的電子檔案管理系統構建研究[J].辦公室業務,2024(12):54-56.
[4]李浩,周媛媛.人工智能、大數據和云計算的融合發展及應用[J].無線互聯科技,2023(10):114-116.
[5]蹇嵐.計算機技術在現代電子檔案管理中的應用[J].無線互聯科技,2021(23):74-75.
[6]楊林.數字化戰略轉型期檔案服務業發展取向與演進路徑分析[J].檔案管理,2023(4):111-114.
[7]王慕蘊.數字政府環境下電子檔案管理的法律規制與技術標準體系[J].山西檔案,2025(1):67-70.
[8]梁明君,張莉莉.電子政務系統自主可控的研究與實踐[J].信息網絡安全,2010(5):37-39.
(編輯 王雪芬)
Architectural design and application practice of the new generation of domestic intelligent archival management system
HUANG Yan, LIANG Dequan*
(Guangxi Beitou It Innovation Technology Investment Group Co., Ltd., Nanning 530200, China)
Abstract:With the continuous improvement of social informatization, the digital and intelligent management of archives has become one of the key directions in the construction of the archival field. To address the challenges associated with traditional archival management, such as difficulties in data collection, inconvenient statistics, and limited usability, this paper proposes a novel architecture for a domestic intelligent archival management system and develops a system based on this architecture. The application of the system demonstrates its ability to adapt to the digitization trends of archival management in the new era. It effectively addresses the bottlenecks in archival management, thereby better serving the needs of various sectors of society.
Key words:domestic intelligent archival management system; architectural design; archival digitization; applied practice