檔案部門一直積極推進(jìn)從封閉性管理向開放性服務(wù)、從傳統(tǒng)保管職能向現(xiàn)代服務(wù)職能的優(yōu)化轉(zhuǎn)型,以提升檔案資源的社會(huì)化利用價(jià)值。檔案開放利用是檔案工作至關(guān)重要的環(huán)節(jié),而檔案開放審核是檔案開放利用的前提和基礎(chǔ),其工作質(zhì)量直接影響到檔案開放利用的水平和效果。《中華人民共和國檔案法》《“十四五\"全國檔案事業(yè)發(fā)展規(guī)劃》等明確要求檔案開放審核工作法治化、規(guī)范化、常態(tài)化。
一、智能檔案開放審核系統(tǒng)構(gòu)建背景
在應(yīng)審盡審、應(yīng)開盡開原則下,因檔案開放審核的協(xié)同機(jī)制落實(shí)不夠理想、執(zhí)行標(biāo)準(zhǔn)不夠具體,綜合檔案館普遍面臨審核人才匱乏、審核任務(wù)繁重、審核意見分歧多發(fā)等問題,無法有效應(yīng)對(duì)檔案封閉期縮短、審核量驟增帶來的現(xiàn)實(shí)壓力。在科技賦能的當(dāng)下,智能技術(shù)在檔案開放審核業(yè)務(wù)中的創(chuàng)新應(yīng)用正逐步深化,呈現(xiàn)出明顯的發(fā)展趨勢(shì)。國內(nèi)多家綜合檔案館積極開展相關(guān)實(shí)踐探索,如江西省檔案館構(gòu)建了輔助檔案開放鑒定模型、福建省檔案館開發(fā)了智能開放審核輔助系統(tǒng)、江蘇省檔案館研制了基于語義層次網(wǎng)絡(luò)的智能開放審核系統(tǒng)。上述系統(tǒng)在實(shí)際應(yīng)用中均表現(xiàn)出較高的準(zhǔn)確率,顯著提升了檔案開放審核的效率。這些實(shí)踐探索表明智能技術(shù)可以有效應(yīng)用于檔案開放審核,有助于緩解檔案館在開放審核工作中的現(xiàn)實(shí)壓力。
作為檔案業(yè)務(wù)體量較大、數(shù)字化轉(zhuǎn)型起步較早的區(qū)級(jí)綜合檔案館,其館藏檔案數(shù)量龐大、開放壓力集中,具備開展智能技術(shù)輔助檔案開放審核實(shí)證研究的特點(diǎn)。本研究聚焦朝陽區(qū)檔案館開放審核的現(xiàn)實(shí)需求,探索智能技術(shù)輔助檔案開放審核實(shí)現(xiàn)路徑,開發(fā)建設(shè)了一套集成高精度智能OCR識(shí)別、智能算法模型與專家規(guī)則庫的智能檔案開放審核系統(tǒng)。系統(tǒng)構(gòu)建過程中注重開放審核制度規(guī)范、技術(shù)能力與業(yè)務(wù)流程的深度融合,突出“規(guī)則驅(qū)動(dòng)、模型賦能、多元協(xié)同\"的整體構(gòu)建邏輯。規(guī)則驅(qū)動(dòng)強(qiáng)調(diào)數(shù)字技術(shù)與開放審核制度的雙向嵌入,以實(shí)現(xiàn)制度的技術(shù)化轉(zhuǎn)變、技術(shù)的制度化賦能;模型賦能即開發(fā)基于智能算法模型的AI自學(xué)習(xí)平臺(tái),實(shí)現(xiàn)智能算法自動(dòng)審核、在線算法自主優(yōu)化;多元協(xié)同則設(shè)計(jì)基于優(yōu)先級(jí)決策機(jī)制的多重審核機(jī)制,并構(gòu)建智能審核與人工支持的協(xié)同架構(gòu)。
朝陽區(qū)檔案館智能檔案開放審核系統(tǒng)自2024年3月上線以來,已完成超19萬件檔案的審核任務(wù)。本研究從審核效率與審核準(zhǔn)確性兩個(gè)維度評(píng)估了該系統(tǒng)中智能技術(shù)輔助檔案開放審核的性能。在審核效率方面,智能技術(shù)輔助檔案開放審核效率達(dá)到了人工審核的4.6倍。在審核準(zhǔn)確性方面,智能技術(shù)輔助檔案開放審核結(jié)果的綜合準(zhǔn)確率為91.40% 。智能檔案開放審核系統(tǒng)的上線應(yīng)用有力推動(dòng)了朝陽區(qū)檔案館的檔案開放審核工作。
二、智能檔案開放審核系統(tǒng)整體架構(gòu)
智能檔案開放審核系統(tǒng)的總體架構(gòu)分為六層,涉及三大標(biāo)準(zhǔn)規(guī)范體系及三大系統(tǒng)保障機(jī)制,如圖1所示。
該系統(tǒng)的六大層次分別是基礎(chǔ)設(shè)施層、數(shù)據(jù)資源層、服務(wù)中臺(tái)層、服務(wù)開放平臺(tái)層、應(yīng)用中心層及服務(wù)對(duì)象層。基礎(chǔ)設(shè)施層是系統(tǒng)運(yùn)行的物理場(chǎng)所及資源建設(shè)的工作環(huán)境,主要包括軟件平臺(tái)、硬件平臺(tái)、網(wǎng)絡(luò)平臺(tái)等;數(shù)據(jù)資源層負(fù)責(zé)為上層服務(wù)提供數(shù)據(jù)支持,主要包括目錄數(shù)據(jù)庫、全文數(shù)據(jù)庫、系統(tǒng)運(yùn)行數(shù)據(jù)庫、業(yè)務(wù)工作數(shù)據(jù)庫等,覆蓋結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù);服務(wù)中臺(tái)層承載業(yè)務(wù)核心邏輯,并以微服務(wù)方式供其他模塊調(diào)用,為應(yīng)用系統(tǒng)提供支撐,其核心涉及業(yè)務(wù)服務(wù)、工具服務(wù)、數(shù)據(jù)服務(wù)三大板塊;服務(wù)開放平臺(tái)層基于服務(wù)聚合網(wǎng)關(guān),提供標(biāo)準(zhǔn)化的接口和服務(wù)目錄,包括開發(fā)接入中心、服務(wù)注冊(cè)、調(diào)用鑒權(quán)、負(fù)載均衡及運(yùn)維監(jiān)控中心;應(yīng)用中心層提供面向開放審核工作的功能矩陣,覆蓋開放審核、檔案管理、檔案設(shè)置、應(yīng)用管理、系統(tǒng)管理五大功能模塊,支撐用戶執(zhí)行具體的業(yè)務(wù)操作;服務(wù)對(duì)象層明確了系統(tǒng)的主要使用群體,包括館領(lǐng)導(dǎo)、移交單位鑒定人員、檔案館鑒定人員、系統(tǒng)管理員。

系統(tǒng)的三大標(biāo)準(zhǔn)規(guī)范體系包括服務(wù)標(biāo)準(zhǔn)、技術(shù)標(biāo)準(zhǔn)及數(shù)據(jù)標(biāo)準(zhǔn)。服務(wù)標(biāo)準(zhǔn)規(guī)范化涉及服務(wù)內(nèi)容、接口協(xié)議、權(quán)限控制,確保業(yè)務(wù)服務(wù)有序?qū)印⒎€(wěn)定運(yùn)行,提升系統(tǒng)整體服務(wù)能力;技術(shù)標(biāo)準(zhǔn)聚焦平臺(tái)技術(shù)架構(gòu)、API接口規(guī)范、數(shù)據(jù)模型統(tǒng)一等關(guān)鍵技術(shù)規(guī)范,保障系統(tǒng)在多模塊融合及擴(kuò)展性方面的通用性與兼容性;數(shù)據(jù)標(biāo)準(zhǔn)針對(duì)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)制定統(tǒng)一的數(shù)據(jù)分類、標(biāo)簽體系等,為智能審核提供可靠依據(jù)。
系統(tǒng)的三大保障機(jī)制包括運(yùn)維機(jī)制、調(diào)度機(jī)制及安全機(jī)制。運(yùn)維機(jī)制實(shí)現(xiàn)系統(tǒng)的高可用性與穩(wěn)定運(yùn)行;調(diào)度機(jī)制確保系統(tǒng)各模塊協(xié)調(diào)運(yùn)行,保障系統(tǒng)操作過程中的安全性、可控性與合規(guī)性;安全機(jī)制確保開放審核過程中數(shù)據(jù)的安全性。
三、智能檔案開放審核系統(tǒng)所采用的關(guān)鍵技術(shù)
智能檔案開放審核系統(tǒng)中應(yīng)用的關(guān)鍵技術(shù)主要包括智能OCR文字識(shí)別、智能算法模型及專家規(guī)則庫等。
(一)數(shù)據(jù)支持:智能OCR文字識(shí)別系統(tǒng)
OCR文字識(shí)別結(jié)果直接影響后續(xù)專家規(guī)則庫與智能算法模型審核的準(zhǔn)確性與有效性。因此,選用一套性能可靠、環(huán)境適配性強(qiáng)的OCR文字識(shí)別系統(tǒng)至關(guān)重要。
鑒于當(dāng)前多數(shù)檔案館的基礎(chǔ)設(shè)施普遍缺乏GPU算力資源,難以支撐高精度智能OCR系統(tǒng)的穩(wěn)定運(yùn)行,本研究在系統(tǒng)選型過程中重點(diǎn)關(guān)注智能OCR算力適配性問題。試驗(yàn)結(jié)果表明,當(dāng)嘗試在機(jī)器上加裝NVIDIA等品牌的GPU卡來提升算力時(shí),通常會(huì)遇到與自主可控技術(shù)路線不兼容的問題。此外,當(dāng)前檔案館普遍需要對(duì)檔案掃描件進(jìn)行批量文字識(shí)別。因此,智能OCR文字識(shí)別系統(tǒng)不僅需要保持高精度的文字識(shí)別效果,還必須具備良好的并發(fā)處理能力,以滿足高并發(fā)、高吞吐量的業(yè)務(wù)場(chǎng)景需求。
經(jīng)過綜合考量與深入分析,本研究最終選定了一款基于計(jì)算機(jī)視覺和自然語言處理(NLP)技術(shù)的國產(chǎn)智能OCR文字處理系統(tǒng)。該系統(tǒng)集成高精度OCR文字識(shí)別引擎,能夠有效支持印刷體和部分手寫體文字的精準(zhǔn)識(shí)別。在硬件適配方面,本研究引入國產(chǎn)GPU算力卡,并開展自主可控技術(shù)路線兼容性適配與并發(fā)處理能力改進(jìn)工作,成功解決了系統(tǒng)在國產(chǎn)環(huán)境下的部署與運(yùn)行能力瓶頸問題。實(shí)踐表明,智能OCR文字處理系統(tǒng)在國產(chǎn)化軟硬件環(huán)境中運(yùn)行穩(wěn)定,識(shí)別準(zhǔn)確率顯著提升,能夠高效提取任意制式文檔中的關(guān)鍵信息,滿足檔案開放審核場(chǎng)景下的實(shí)際應(yīng)用需求。
(二)智能審核:智能算法模型及專家規(guī)則庫
智能審核以智能算法模型和專家規(guī)則庫為核心,待審核檔案需要接受兩種審核規(guī)則的檢驗(yàn)。在判定邏輯上,系統(tǒng)遵循從嚴(yán)劃控的原則:只要其中任一審核規(guī)則給出“控制\"的推薦意見,那么該檔案就會(huì)被標(biāo)記為“控制\"狀態(tài);若智能算法模型推薦檔案為“開放”,而專家規(guī)則庫無法推薦,則將綜合考慮所有規(guī)則的審核結(jié)果,并依據(jù)預(yù)先設(shè)定的邏輯算法,判定該檔案為“開放”或“無法推薦”。所有的智能審核結(jié)果均需人工復(fù)審,以確保最終結(jié)果的準(zhǔn)確性和可靠性。
1.智能算法模型設(shè)計(jì)及構(gòu)建。智能算法模型是智能審核的核心部分,直接影響著智能審核推薦結(jié)果的準(zhǔn)確率和效率。智能算法模型依托大語言模型構(gòu)建,以計(jì)算機(jī)可讀、可處理的結(jié)構(gòu)化檔案數(shù)據(jù)資源庫為支撐,通過機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的AI自學(xué)習(xí)平臺(tái),融合完成識(shí)別、分析和運(yùn)算任務(wù),給出開放或控制的結(jié)果“預(yù)推薦”。在人工復(fù)審后,模型將審核依據(jù)與結(jié)果轉(zhuǎn)化為審核訓(xùn)練數(shù)據(jù),并自動(dòng)轉(zhuǎn)化為訓(xùn)練樣本供智能算法模型持續(xù)學(xué)習(xí),不斷提升審核準(zhǔn)確率。
智能算法模型構(gòu)建包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型驗(yàn)證、模型調(diào)優(yōu)迭代等環(huán)節(jié)。
數(shù)據(jù)準(zhǔn)備階段:選取朝陽區(qū)檔案館1992一1993年包含手寫體和印刷體檔案等多種類型的21萬條歷史案例數(shù)據(jù)樣本,用于訓(xùn)練支持基于OCR文字識(shí)別技術(shù)的深度學(xué)習(xí)模型。
模型訓(xùn)練階段:按照9:1的比例將可用數(shù)據(jù)進(jìn)行數(shù)據(jù)分割,訓(xùn)練集占原始數(shù)據(jù)的 90% 。
模型驗(yàn)證階段:可將數(shù)據(jù)集其余 10% 的數(shù)據(jù)樣本用作測(cè)試集,對(duì)智能算法模型的性能進(jìn)行驗(yàn)證。
為評(píng)估其性能表現(xiàn),本研究采用綜合準(zhǔn)確率作為評(píng)價(jià)指標(biāo),其計(jì)算方式為智能算法推薦結(jié)果與人工審核結(jié)果一致的樣本數(shù)量與全部樣本數(shù)量的比值。結(jié)果顯示,智能算法達(dá)到了 96.65% 的綜合準(zhǔn)確率,在測(cè)試集上表現(xiàn)出色。需要注意的是,智能算法在測(cè)試集上呈現(xiàn)較高的準(zhǔn)確率,并不意味著所有情況下都能達(dá)到該準(zhǔn)確率水平。
模型調(diào)優(yōu)迭代階段:采用數(shù)據(jù)迭代的方式對(duì)模型進(jìn)行調(diào)優(yōu)迭代,通過不斷監(jiān)控模型的性能評(píng)估結(jié)果,定期收集新完成審核的檔案數(shù)據(jù)形成訓(xùn)練集,對(duì)模型進(jìn)行再訓(xùn)練,完成多輪功能升級(jí)和性能提升。
2.專家規(guī)則庫設(shè)計(jì)及構(gòu)建。專家規(guī)則庫由敏感詞庫和鑒定規(guī)則庫兩部分組成。敏感詞庫預(yù)置高敏感關(guān)鍵詞,用于初步篩選和標(biāo)記可能的敏感內(nèi)容。鑒定規(guī)則庫用于進(jìn)一步分析和判斷內(nèi)容是否符合特定的審核標(biāo)準(zhǔn),分為人名類與非人名類規(guī)則。
專家規(guī)則庫的判定邏輯為:系統(tǒng)讀取待審核檔案的OCR全文或者抽取的目錄信息后,將著錄信息或者原文段落句子拆解,與敏感詞庫、鑒定規(guī)則庫進(jìn)行智能匹配與交叉驗(yàn)證。若未命中任何敏感詞或者鑒定規(guī)則,則輸出結(jié)果為“無法推薦”。若命中了某個(gè)敏感詞或者鑒定規(guī)則,再看命中的鑒定規(guī)則是否為人名類規(guī)則。若命中非人名類規(guī)則,則輸出審核結(jié)果為“控制”。若命中人名類規(guī)則,根據(jù)規(guī)則中特定的位置查找人名,如包含人名,則輸出審核結(jié)果為“控制”;如不包含人名,則輸出審核結(jié)果為“無法推薦”,以避免僅憑關(guān)鍵詞產(chǎn)生的錯(cuò)判問題。
當(dāng)前專家規(guī)則庫的構(gòu)建主要依賴人工采集,已建成的專家規(guī)則庫在覆蓋面、完整性和準(zhǔn)確性方面均存在不足。4本研究基于數(shù)字技術(shù)與開放審核制度雙向嵌入機(jī)制來構(gòu)建專家規(guī)則庫。具體來講,一方面將開放審核制度體系嵌入專家規(guī)則庫技術(shù)中,實(shí)現(xiàn)技術(shù)的制度化轉(zhuǎn)化,即通過詳細(xì)梳理國家及地方出臺(tái)的檔案開放審核相關(guān)政策法規(guī),提取信息形成開放控制表,并編制《朝陽區(qū)檔案館檔案開放劃控指南》,將制度安排精準(zhǔn)嵌入技術(shù)框架,形成規(guī)則與工具深度融合的專家規(guī)則庫;另一方面將專家規(guī)則庫技術(shù)嵌入開放審核制度中,實(shí)現(xiàn)制度的技術(shù)化升級(jí)。本研究以朝陽區(qū)檔案館1992—1993年的21萬條具有人工審核結(jié)果的數(shù)據(jù)樣本為基礎(chǔ),結(jié)合朝陽區(qū)機(jī)關(guān)檔案的內(nèi)容特點(diǎn),提取高頻受控詞及規(guī)則,細(xì)化、補(bǔ)充和完善《朝陽區(qū)檔案館檔案開放劃控指南》。
截至目前,專家規(guī)則庫中已收入敏感詞和鑒定規(guī)則共1300多個(gè)。系統(tǒng)設(shè)置敏感詞和鑒定規(guī)則的動(dòng)態(tài)更新機(jī)制,支持收錄各個(gè)領(lǐng)域的敏感詞和鑒定規(guī)則,并根據(jù)實(shí)際情況不斷完善和擴(kuò)充。
四、結(jié)語
智能檔案開放審核系統(tǒng)的實(shí)踐應(yīng)用,有效緩解了朝陽區(qū)檔案館的人工審核壓力,展現(xiàn)出較強(qiáng)的現(xiàn)實(shí)適用性與推廣潛力。未來,隨著智能技術(shù)的發(fā)展升級(jí)、檔案數(shù)據(jù)的不斷累積,相似場(chǎng)景間的協(xié)同、共享或不同場(chǎng)景的適用、兼容等需求亦將逐步顯現(xiàn),智能技術(shù)將與檔案開放審核實(shí)現(xiàn)更多場(chǎng)景下的深度融合。面對(duì)多樣化的檔案類型和不斷演變的審核需求,智能技術(shù)如何進(jìn)一步推動(dòng)檔案開放審核工作效率提升仍是值得探討的問題。
*本文系2023年度北京市檔案局科研項(xiàng)目“智能技術(shù)輔助檔案開放審核實(shí)現(xiàn)路徑研究”(項(xiàng)目編號(hào):2023-09)的研究成果之一。
注釋及參考文獻(xiàn):
[1]卞咸杰,黃楊.“檔案開放審核”與“檔案開放鑒定\"概念辨析J].檔案管理,2023(5):36-39.
[2]周書生,林紅,劉金霞.檔案開放審核標(biāo)準(zhǔn)化體系研究[J].中國檔案,2024(9):66-67.
[3]閆靜,謝鵬鑫,張臻.新《檔案法》背景下國家綜合檔案館檔案開放審核的挑戰(zhàn)及對(duì)策[J].北京檔案,2022(7):7-10.
[4]孟蘇.檔案開放審核協(xié)同機(jī)制:理論闡釋、制度困境與構(gòu)建路徑[J].檔案學(xué)通訊,2025(2):39-45.
[5]劉力超,陳曉瓏.面向檔案開放審核的檔案敏感詞庫眾包構(gòu)建模式研究[J].山西檔案,2024(12):24-31.
作者單位:1.光典信息發(fā)展有限公司2.