當今時代,人工智能作為炙手可熱的前沿技術,其演進軌跡與檔案管理領域“收、管、存、用”的核心業務形成了復雜的互動關系。本文根據近25年人工智能發展的關鍵節點,結合檔案收集、整理、著錄、檢索利用的實際需求,通過回顧和展望相結合的形式,系統梳理人工智能技術在檔案管理領域的發展脈絡,為檔案事業的優化發展提供有益參考。
一、第一階段:初步應用與基礎技術的發展(2000-2010年)
千禧年以來,計算機技術的廣泛應用推動了各行各業的信息化進程。然而,檔案領域的信息化與其他行業相比,具有其特殊性。由于檔案涉及歷史資料的完整保管和利用,無法簡單構造新的管理模式,即數據無法直接以新的形態進行供給和利用。這一階段的主要任務是解決檔案文檔的數字化問題,以實現高效檢索、保存、備份和利用。與此同時,人工智能技術進入穩步發展階段,但大眾對其認知尚淺,人工智能技術對檔案領域的貢獻主要包括以下幾個方面:
(一)檔案數字化
這一階段,人工智能開始在電子化檔案的管理中發揮作用,部分檔案的數字化與分類開始依賴人工智能技術,OCR(光學字符識別)技術的引人,極大提高了紙質檔案數字化的效率。這一時期機器學習中支持向量機(SVM)技術的興起,提升了字符識別的能力,然而SVM最適用的是二分類問題,對上萬的中文檔案的字符識別,需要復雜的設計和訓練。同時,作為機器學習最依賴的訓練數據,這個時期也還非常缺乏。所以,這個時期的檔案數字化主要將OCR技術應用到較為規范的打印字體中,并且需要大量的人工校對工作。盡管如此,OCR技術仍有效提升了檔案的數字化速度,但識別精度尚有很大提升空間,尤其是在處理復雜布局或殘損檔案時效果較差。
(二)檔案分類與檢索
基于文本內容的檔案分類,首先需要解決文檔的分詞、命名實體識別等問題。這時期的分詞技術和命名實體識別技術,已經從早期的詞典知識和人工規則方法,發展到基于詞頻的統計、基于統計的自然語言處理模型(n-gram)和隱馬爾科夫模型。條件隨機場也開始用于中文分詞任務,這種方法在處理序列標注問題時表現出色,提高了分詞的準確性。然而,對長序列文本包含的語義信息,其處理能力仍顯不足。
在智能文檔分類方面,開始使用詞袋模型(BOW)和基于單詞在單篇文檔中出現的頻數和在訓練樣本中出現的頻率進行對比的詞頻-逆文檔頻率(TF-IDF)方法。這一方法能夠較好地利用詞語詞頻所攜帶的信息量來預測文檔的類型。其缺點在于未對語言文字本身的語義進行理解,僅是一種能夠高概率正確工作的方法。
在檢索領域,谷歌推出的倒排索引、頁面排名算法,在互聯網的網頁檢索中已經非常成熟,但應用到檔案領域有幾方面難點:首先,檔案文檔不是已經數字化的互聯網網頁,大量內容還未被識別,所以無法基于文本分詞和檢索技術進行高性能檢索。其次谷歌等的檢索方案是為了滿足對海量資源的實時檢索需求,對存儲和計算資源需求非常巨大,其開銷也非中小型部門所能夠負擔。此外,從檔案利用需求端來說,此時《關于加強和改進新形勢下檔案工作的意見》還未印發和執行,包括高校檔案館等在內的網上查詢利用檔案的業務需求還不突顯,導致這一時期的人工智能搜索技術也未在檔案領域獲得推廣。
二、第二階段:深度學習與大數據時代的到來(2010-2021年)
2010年后,隨著深度學習技術的突破,尤其是卷積神經網絡(CNN)和循環神經網絡(RNN)在圖像和文本處理領域的應用取得了顯著進展。檔案的數字化和檢索利用上了一個新臺階。同時,谷歌工程師提出的Transformer模型基礎算法,為當前最強大的人工智能模型——大語言模型的發展奠定了基礎。
(一)采用深度學習的檔案數字化(2012-2018年)
計算機視覺領域的突破為檔案數字化帶來了革命性的變化。2012年AlexNet對卷積神經網的合理利用,在ImageNet競賽中,以遠超使用傳統方法的第二名的成績奪冠,引發了深度學習的持續火熱。此后,殘差網絡ResNet、VGG等模型的相繼問世對手寫字體的檔案文字0CR識別產生極大的幫助。如2013年的ICDAR手寫漢字比賽中,富士通公司團隊采用改進的CNN網絡,獲得了脫機手寫漢字識別的第一名,識別率達到 94.77% 。又如安徽省檔案館和訊飛智元信息科技有限公司共同研發了歷史檔案OCR識別引擎,采用基于深度神經網絡模型的端到端文字識別技術,實現了對不同時期、不同內容、不同版本的歷史檔案內容的高效識別。
(二)采用深度學習的檔案修復和增強
深度學習技術不但能夠識別自然圖像和掃描的檔案圖像,也能對老舊檔案圖像進行修復,此外,還能生成基于樣本學習的高清檔案圖像。如2020年,上海互聯網軟件集團有限公司開發了一項基于AI多特征融合的超分辨率重建影像檔案修復系統。該系統利用AI技術實現了損毀影像檔案的智能補幀、超分辨率重建和上色。又如湖北省檔案服務行業協會開展了關于基于人工智能的超分辨率SR技術在照片檔案修復中的應用研究。該技術能夠快速大批量處理照片,降低修復成本,為照片檔案的修復和利用提供新的技術路線。
(三)采用深度學習的偽造檔案鑒別
抗生成網絡GAN的設計思想為偽造檔案的鑒別提供了新的思路,GAN由一個生成器模仿偽造者和一個判別器模仿鑒別者組成,相互對抗、相互提升。如湖北檔案館參與的國家檔案局科技計劃項目,采用了基于級聯深度卷積神經網絡的檔案圖像真偽鑒別算法,能夠檢測檔案圖像中的復制粘貼、扭曲變形的修改痕跡,有效提高了偽造檔案的鑒別能力[3]。
(四)采用知識圖譜技術的檔案檢索利用
知識圖譜技術最早由谷歌公司在2012年提出,旨在提升搜索引擎的性能和用戶體驗。知識圖譜通過結構化數據的形式,將實體、關系及其屬性相互關聯,形成一個全局的數據庫。這一技術不僅應用于互聯網搜索引擎,也被應用于檔案領域。如西北民族大學的研究團隊提出了一種基于知識圖譜的自動問答系統,利用自然語義處理技術對文書檔案數據進行實體識別和關系抽取,從而提高了檔案數據的利用率和用戶的檢索效率。又如Neo4j等圖數據庫的普及,結合BiLSTM-CRF模型,實現檔案實體關系抽取(如人物-事件-地點關聯),推動了《中國抗日戰爭檔案目錄》等專題知識庫構建。
然而,本階段也存在一些不足:一是深度學習模型的訓練需要大量的標注數據,不同領域的檔案需專門設計訓練集,這增加了模型應用的難度和成本。二是隱私與安全問題開始凸顯。隨著電子檔案數據量的增加,同時大眾對檔案網絡查詢檢索的便捷需求性提高,如何確保檔案信息的隱私和安全成為新的挑戰。
三、第三階段:大語言模型與集成化應用(2022年至今)
2022年,OpenAI公司的生成式ChatGPT-3.5在繼AlphaGo之后,再度引發了全世界對人工智能的關注。其強大的文本數據學習、理解和表達能力,遠遠超越了上一個階段,對檔案領域也產生了更大的震動。
(一)基于語言和語音理解的高效檔案交互
由于大模型超強的語言理解能力,能夠接受人類語言的各種表達形式,不再要求必須按照某種固定格式的查詢語言,如SQL語言、正則表達式、檔案查詢系統的查詢條件組合框,就能實現語音、語言的交互。并且在這一階段,人工智能具備了連續和長上下文的交流能力,無須重復輸人查詢表達語言,就能對已有的不完整表達進行反復補充修正,以獲取檔案查詢結果。這些特性都能極大地提升檔案查詢利用的效率和準確度。
(二)基于生成式AI的內容生成服務
AI技術不僅提高了檔案的數字化處理效率,還在檔案的利用階段提供了智能檢索、報告生成等支持,極大提高了檔案數據的價值。比如,某檔案館通過集成AI與大數據技術,建立智能檔案管理平臺,實現自動化檔案整理與智能檢索;同時,利用生成式AI(如LLaMa、千問、DeepSeek等開源大模型)對檔案進行自動摘要和報告生成,使得檔案利用效率得到大幅提升。
但是,本階段依舊存在不足之處:一是缺乏復合型人才。雖然人工智能技術的使用門檻越來越低,但專門的檔案管理人員中,具備人工智能技術背景的復合型人才仍然匱乏,沒有專業的檔案收集、管理、利用人才對人工智能技術的深刻把握,就無法保證檔案工作的可靠開展。二是大語言模型因其基于概率推導和吸納廣泛的世界知識的原因,對具體的領域,容易產生知識幻覺,這導致檔案的分類、摘要、推薦等任務中可能出現一些看似言之鑿鑿,實則查無此據的內容。這個問題,無論是對于國外率先領跑的OpenAI,還是對于國內有超越之勢的后起之秀DeepSeek,都大量存在,廣被病。三是大模型因為訓練和推理需要巨大的算力和能源,而檔案數據又不能輕易存儲于云端,各地各級中小型檔案館部署、訓練、運維本地化大模型就會面臨高昂的成本投人。如何在所有檔案館中普及和實現高效應用仍面臨成本和技術適配的問題。
四、未來展望:人工智能與檔案管理的深度融合
未來,隨著生成式AI、量子計算、區塊鏈等新興技術的加入,人工智能與檔案管理的融合將進一步深化,檔案專業人才對人工智能技術的更多學習掌握,將會推動檔案管理進人更加智能化和自適應的時代。具體來看,將呈現六大趨勢。
(一)檔案管理系統的自學習與自優化
隨著大語言模型的幻覺問題被定位和徹底解決。檔案管理對AI技術的利用將會更加全面深人,檔案管理系統將具備自學習與自優化能力,能夠根據用戶的行為和反饋不斷優化模型參數和算法,提高檔案管理的智能化水平。這將推動文檔管理的完全智能化,實現檔案的自動分類、自動摘要、自動推薦等功能。
(二)本地化大語言模型的定制與優化
針對大語言模型在檔案領域應用的算力與成本問題,未來將有更多針對檔案領域的本地化大語言模型被定制和優化。這些模型將結合檔案數據的特殊性,進行輕量化設計,以降低對算力和存儲資源的需求。同時,通過持續學習和更新,本地化模型將更好地適應檔案管理的實際需求,提高處理效率和準確性。
(三)跨模態檔案信息的智能融合
隨著多媒體技術的快速發展,檔案形式不再局限于傳統的紙質文檔,而是涵蓋了圖像、音頻、視頻等多種模態。未來,人工智能技術將實現跨模態檔案信息的智能融合,通過多模態學習技術,將不同形式的檔案信息進行有效整合和關聯,為用戶提供更加全面、豐富的檔案檢索和利用體驗。
(四)檔案智能安全與隱私保護
隨著檔案信息化程度的提高,檔案安全和隱私保護問題日益凸顯。未來,人工智能技術將在檔案智能安全與隱私保護方面發揮重要作用。通過深度學習和機器學習技術,可以實現對檔案數據的實時監測和預警,及時發現并防范應對潛在的安全風險。同時,結合區塊鏈等分布式賬本技術,可以確保檔案數據的不可篡改性和可追溯性,進一步保障檔案的安全和隱私。
(五)智能檔案服務與創新應用
人工智能技術將推動檔案服務模式的創新和發展。未來,智能檔案服務將更加注重用戶體驗和個性化需求,通過智能推薦、智能問答等技術,為用戶提供更加便捷、高效的檔案檢索和利用服務。同時,結合虛擬現實、增強現實等新技術,可以打造沉浸式的檔案體驗環境,讓用戶身臨其境地感受歷史文化的魅力。
此外,人工智能技術還將在檔案編研、檔案展覽、檔案教育等方面發揮重要作用。通過智能編研技術,可以實現對檔案數據的深度挖掘和分析,為歷史研究提供有力支持。通過智能展覽技術,可以打造數字化的檔案展覽平臺,讓更多人了解檔案文化的價值。通過智能教育技術,可以將檔案知識融入課堂教學,培養學生的歷史素養和文化自信。
(六)檔案人才與智能技術的融合培養
未來,檔案領域將更加注重人才與智能技術的融合培養。一方面,將加強對檔案管理人員的智能技術培訓,提高他們的技術素養和創新能力。另一方面,將鼓勵檔案專業人才與人工智能技術專家進行跨領域合作,共同推動檔案管理與人工智能技術的深度融合和發展。
近二十五年來,人工智能技術在檔案領域的應用取得了顯著成效,推動了檔案管理的自動化、智能化變革。從初步應用與基礎技術的發展,到深度學習與大數據時代的到來,再到如今大語言模型與集成化應用的興起,人工智能技術不斷為檔案管理帶來新的機遇和挑戰。未來,隨著生成式AI、量子計算、區塊鏈等新興技術的加入,人工智能與檔案管理的融合將進一步深化,并推動檔案管理進入更加智能化、自適應的時代。同時,我們也需要關注人工智能技術在檔案領域應用中的倫理、法律和安全等問題,確保檔案事業的健康、可持續發展。
參考文獻:
[1]劉云霞.淺談檔案管理的數字化]科技情報開發與經濟,2011(2):140-141.
[2]楊巍.基于人工智能的超分辨率SR技術在照片檔案修復中的應用探究[].中國檔案,2023(9):60-62.
[3]陳佳,史愛武,姬鳳英.基于級聯深度卷積神經網絡的檔案圖像真偽鑒別算法.蘭臺世界,2018(6):46-48.
[4]王建林,陳萌萌,冶存花,等.基于知識圖譜的檔案領域問答系統研究與應用.軟件工程與應用,2024(2):190-198.
[5]房開乾,王鑫鑫,歐葉玉.基于深度學習的檔案輔助分類應用研究機電兵船檔案,2024(3):86-90.
[6]岳蓓.大數據時代背景下高校檔案管理模式的變革和優化].中國新通信,2022(14):37-39.
基金項目:中國高等教育學會檔案工作分會2020年基金項目“數字生態視聞下的高校檔案制度建設研究—以西南地區為例”(項目編號:ZGD-ZC-2020-08)階段性研究成果之一