中圖分類號:G271 文獻標識碼:A
企業電子檔案管理系統是以文件生命周期理論為基礎,以企業檔案信息資源建設為核心,以文檔一體化為抓手,緊抓檔案的“收、管、存、用”基本環節,將檔案工作前移,最大限度地簡化企業檔案管理工作,實現企業檔案工作信息化管理。其最終的建設目標就是在企業實現真正意義的主動式檔案服務和數據共享,以最方便、最快速的方式向利用者提供檔案信息資源,更好地服務企業生產、經營。因而如何利用現代計算機及網絡技術實現從傳統企業檔案查詢利用向現代企業檔案查詢利用轉變,為利用者提供方便、快捷的檔案服務,實現資源共享,提高工作效率,是企業檔案管理當前需要探索和解決的主要問題。本文探討了企業檔案查詢利用的現狀及其存在的問題,借助現代計算機網絡技術,探索企業檔案查詢利用的新途徑和新方法,最大限度地實現檔案價值,并提出對現代企業檔案查詢利用的一些想法。隨著國產DeepSeek等大模型的應用為企業檔案信息化查詢利用帶來新的機遇和挑戰,企業需統籌規劃新技術與檔案業務深入融合的應用,充分釋放大模型在檔案利用中的創新能力。
一、檔案查詢利用的現狀
檔案工作的最終目標就是檔案的利用。由于檔案數字化進程的加快,傳統的檔案檢索方式已無法滿足用戶對高效、精準信息獲取的需求,檔案管理與服務領域正經歷著深刻的變革。國內一些學者開始探索如何利用人工智能技術,特別是利用多模態融合技術 + 大語言模型相結合技術,提高檔案查詢利用的智能化水平。因而當今檔案查詢利用大致可分為傳統檔案查詢利用、計算機目錄信息輔助查詢利用以及現代檔案查詢利用。
1.傳統查詢利用
傳統的檔案查詢工具的種類很多,按編制方法、信息處理手段、收錄材料范圍及作用等不同的標準分類,可分為目錄、索引和指南,其中檔案目錄是由許多條目組成的有機體,也是檔案館(室)檢索體系的主要部分,常用的有分類目錄、專題目錄、全宗文件目錄、案卷目錄、全引目錄和卡片等。采用傳統查詢利用檔案,主要是由于該企業檔案管理信息化水平較低,未建立目錄數據庫及全文檢索數據庫,主要是通過分析利用要求,選定檢索工具,確定檢索途徑和方法,如按分類途徑、主題途徑或全宗構成者、責任者、年代以及其他途徑檢索,按照選定的檢索途徑及其檢索標識,如分類號、主題詞等查取檔案,利用者翻閱目標文檔,找到有效內容后展開閱覽、復制和摘錄檔案。傳統檔案查詢利用全過程均為手工操作,因而利用者有時雖然找到相關的檔案,但該檔案無利用者需要的有效信息,從而造成利用失敗。傳統檔案查詢利用相對現代檔案查詢利用的主要弊端是:通過手工翻找書本式目錄、檢索卡以及簡單的檔案系統查詢功能檢索檔案,因受條件限制,檢索步驟煩瑣,檢索方法刻板單一,常常需要通過多種檢索工具翻閱多篇文檔才找到有效的檔案信息。特別是遇到文檔內容龐雜,極不易定位到有效的內容,也就是說檔案查詢的查準率、查全率極低,導致查詢利用耗時多,工作效率低下,未能滿足利用者對檔案信息資源的利用需求,未能充分發揮檔案信息資源作用,不利于形成支持檔案、利用檔案的良好氛圍,最終影響到檔案工作的有效開展,造成惡性循環。
利用現代計算機及網絡技術探索和創新現代企業檔案查詢利用的新方法、新路子,實現從傳統企業檔案查詢利用向現代企業檔案查詢利用轉變,為利用者提供方便、快捷的檔案服務,實現資源共享,提高工作效率,最大限度地實現檔案價值。
2.計算機目錄信息輔助查詢利用
計算機目錄信息查詢利用,是人工智能未出現前或檔案管理現代化水平較低的企業采用的查詢利用方式,是人工智能未發展成熟的必然之路。其主要利用計算機及數據庫,將館藏檔案的查詢信息著錄到檔案管理系統中,通過計算機輔助開展檔案的查詢利用,解決了手工查詢利用檔案的弊端、難點和痛點,提高了查詢效率。但其僅能實現對檔案案卷或卷內文件的條目錄信息檢索,不能對文件內容檢索,檔案的查準率和查全率受著錄員著錄結果影響較大。
3.人工智能查詢利用
隨著計算機、網絡技術進一步發展和人工智能的興起,在數字化轉型背景下,以手工為主的傳統檔案查詢利用及計算機目錄信息輔助查詢利用方式正悄然發生改變,為開發新檔案查詢利用方法提供了無限空間和可能,全文件檢索、人工智能查詢等檔案查詢利用方法已經成為現代檔案查詢利用的前沿方向和發展趨勢。例如,國內一些研究開始探索嘗試利用機器學習算法,通過分析用戶的檢索歷史和行為模式、興趣建模及工作崗位等,構建個性化的知識圖譜及管理系統,主動為其推薦需要的檔案信息及知識。
但是,人工智能檔案查詢利用仍處于起步階段,成熟度不高,研究也存在諸多不足。當前的研究關注點仍以宏觀為主,多數研究僅為宏觀探討技術的可行性,對象較為籠統和寬泛,針對性與指向性嚴重不足,且多數研究并未深入挖掘技術細節,未對檔案人工智能查詢利用展開更深入的研究,導致研究的深度不足。
二、提高檔案查詢利用效率的思路
相對于各級檔案館,企業檔案數量較少,種類單一,業務流程規范,更容易通過建設企業電子檔案系統創新企業檔案查詢利用的方法和模式。通過實踐與探索,發現除了傳統電子目錄檢索、跨庫檢索等傳統計算機檢索外,全文檢索、知識查詢和多模態智能檢索比較適合企業電子檔案室系統平臺。
1.全文檢索
全文檢索作為現代檔案查詢利用的一個重要手段,利用者在搜索引擎輸入文中關鍵字(詞),系統即可全文檢索到的關鍵詞并在正文中反白顯示,快速定位查詢利用的有效內容以提供利用,從而提高檔案查全率和查準率。全文檢索的基本原理主要是通過對檔案元數據和電子文件的正文、附件的內容自動建立索引,形成全文檢索索引庫,為用戶提供全文檢索服務。對于工程圖紙、照片和音像等檔案,只需建立元數據的索引庫,電子文件無需參與索引的建立。對于紙質檔案則需對其展開數字化,通過OCR技術識別圖像文件,形成TXT文本或雙層PDF,再通過全文檢索系統對圖像文件自動建立全文檢索的索引庫,達到全文檢索的目標。
為此,企業在建設電子檔案室時,要做好電子檔案室與業務系統的有效對接,實現文檔一體化,保證電子檔案符合來源可靠、程序規范和要素合規的要求,進而確保電子檔案的真實性、完整性、可用性和安全性。同時,還要做好館藏紙質檔案的數字化,通過OCR技術識別數字化成果,形成全文件檢索數據庫,發揮全文檢索的效能。
2.知識查詢
知識管理是在組織內識別、組織、存儲和傳播信息的過程,文檔一體化管理模式的發展趨勢就是融信息處理、業務流程和知識管理于一體的應用模式,即知識管理模式,它是以知識管理為核心,提供豐富的學習功能與知識共享機制,確保使用者隨時隨地根據需要向專家學習,從機構信息庫中掘取知識,就是知識查詢。知識查詢使電子檔案管理系統從被動向主動轉變,提高檔案信息的利用率。利用者可以通過搜索引擎輸入知識要素關鍵詞或輸入提問問句的方法,立即從電子檔案管理系統獲得有效的答案。這種檢索方式的優點:一是精準查詢。利用者可深入文檔的內容層級,知識獲取更直接;二是高效查詢。利用者無須翻閱文檔,直接獲取答案;三是智能查詢。利用者可直接提出問題,獲得文檔中的對應答案。
企業應通過電子檔案管理系統做好知識管理基礎工作,強化知識工程建設,建設“知識圖譜”或“向量知識庫”,實現文件、檔案信息資源及知識的有機聯系。通過“知識圖譜”使一個主題與其他主題之間產生關聯,讓每個利用者可以準確、快捷地找到所需要的檔案信息,并針對相關問題和專家展開交流,了解哪些檔案信息內容使用率高以及知識之間的連接關系等,進而形成完整、有條理和相互聯系的知識體系結構,最終實現知識的查詢與獲取。
3.多模態融合與大語言模型集成的檔案智能查詢利用
檔案多模態融合指通過整合文本、圖像、音頻、視頻、3D掃描和傳感器數據等多種信息載體,建立多模態檔案數據之間的關聯關系,構建多模態融合檢索模型。大語言模型是基于海量數據訓練的深度學習系統,理解、生成和推理、揣摩人類語言、語義及多模態信息,如文本、代碼、圖像,從而突破純文本局限,支持圖文生成、音視頻交互和上下文感知。目前,多模態融合技術已經取得了較大的進展,如基于注意力機制的多模態融合模型、基于圖神經網絡的多模態融合模型等,可以有效地實現不同模態數據之間的信息互補和協同。大語言模型擁有強大的自然語言理解和生成能力,能夠根據用戶語言表達和行為深刻感知其檔案信息需求,從不同模態且海量的檔案中檢索用戶需要的檔案信息,或根據用戶利用歷史、工作崗位和興趣愛好等,主動推送各種模態的檔案信息或形成個性化知識庫。
根據以上原理,多模態融合技術與大語言模型集成應用到檔案智能查詢利用的基本方法及步驟如下:
(1)多模態檔案數據處理
首先,確定多模態數據的統一表示方法。例如,利用聯合嵌入空間,設計多模態數據的存儲結構,實現跨模態關聯。其次,利用深度學習模型(如DeepSeek)自動提取多模態數據的特征,構建多模態數據的索引結構(如倒排索引、圖索引)。
(2)大語言模型驅動的自然語言交互
利用大語言模型實現自然語言問答功能,設計查詢意圖理解與語義擴展算法,提升檢索準確性。首先,選擇適合的大語言模型,如DeepSeek、文心一言、通義千問等,根據檔案業務要求微調,提升模型在檔案領域的適應性。其次,設計查詢意圖分類模型,識別用戶的查詢類型,如事實查詢、推薦查詢,并結合上下文信息,提升查詢意圖理解的準確性。最后,設計語義擴展算法,自動補充相關查詢詞,結合拼寫糾錯和語義糾錯技術,優化用戶查詢輸入。
(3)多模態融合檢索技術
根據多模態數據之間的關聯關系,構建多模態融合檢索模型,實現跨模態檢索。首先,采用多模態預訓練模型,如CLIP、UNITER,構建多模態數據之間的關聯關系,設計多模態融合檢索模型,支持跨模態檢索,如用文本查詢圖像或視頻。然后,設計基于用戶自然語言查詢的多模態檢索算法,結合大語言模型的語義理解能力,提升檢索結果的準確性和相關性。
總之,DeepSeek、通義千問等大語言模型在各自領域已展現出卓越的人工智能能力,將其與多模態融合技術相結合,取長補短,語言模型提供了強大的文本解釋和理解能力,而多模態融合則完善了其在視覺、聽覺等外部感官源信息上的不足,為人工智能查詢利用提供了有效的解決方案。通過整合多模態融合及大語言模型海量數據訓練,形成跨模態檔案智能檢索系統,作為電子檔案管理系統的子系統,可以為用戶提供更加便捷、精準的跨模態檔案檢索服務,幫助用戶快速找到所需信息,深度挖掘檔案價值,提供智能問答、個性化推薦等服務,創新了檔案服務方式,提升用戶體驗,具有廣闊的應用前景。
三、結束語
綜上所述,多模態融合和大語言模型技術相結合,可以構建更加精準、高效的檔案檢索系統,如基于語義理解的檔案檢索以及基于圖像和語音內容的檔案檢索等技術已趨成熟,為實現從傳統企業檔案查詢利用向現代企業檔案查詢利用轉變提供了無限空間和可能。因而應積極探索將新一代信息技術應用到知識管理、檔案人工智能和數字人文方面,賦能檔案信息查詢利用,讓檔案“走出來”“活起來”“亮起來”,為檔案插上數字化、智能化、網絡化、遠程化、知識化和可視化的“翅膀”,讓檔案信息資源在數字時代煥發新的生命力,更好地為企業生產經營和改革發展服務。
參考文獻:
[1]中華人民共和國檔案法實施條例[S]國令第772號,2024-01-25.https://www.gov.cn/zhengce/zhengceku/202401/content_6928164.htm
[2]劉洋.“大模型 + RAG”技術在檔案工作中的應用探析[J].中國檔案,2025(03):64-65.
[3]李金訊,馮永青,郭瑋,等.基于多模態關鍵校驗算法的檔案歸檔完整性研究及應用[J].電力大數據,2023,26(07):76-83.
[4]袁博.企業BOM數據歸檔工作研究[J].中國檔案,2025(01):44-45.
作者單位:中國能源建設集團廣西電力設計研究院有限公司