人工智能賦能檔案數據化開發利用的功能模型與實施路徑

2025-05-29 00:00:00郭佳肖榮華

北京檔案 2025年4期

檔案數據作為信息資源的新形態和檔案管理的新場域，正日益成為釋放數據要素潛能與激發數字治理活力的重要支點。借助具備滲透性、高效性、自主性、適應性及“奇點\"特征的人工智能技術，對檔案數據進行挖掘、計算與可視化，已成為激活其隱性價值、打破開發壁壘、彌合利用鴻溝的關鍵路徑，也是在新質生產力語境下搶占信息“藍海”高地的必然選擇。本文以（以下簡稱“新疆能源”）紙質檔案數據化項目為例，運用扎根理論的編碼方法，構建人工智能技術驅動下的檔案數據化開發利用功能模型，并據此提出發揮人工智能驅動效能的實施路徑，以期為企業檔案數據智能化開發利用提供理論支撐與實踐借鑒。

一、研究設計與數據分析

隨著人工智能技術持續發展，紙質檔案的數據化轉型具備了更堅實的技術支撐與現實可行性。新疆能源積極響應智能化變革，在紙質檔案數據化項目中深度融合人工智能技術，推動檔案開發利用方式系統重構，檔案管理體系加速向“數據態\"轉型。本文以新疆能源為典型案例，剖析其在技術選擇、功能開發與應用路徑中的具體實踐，揭示人工智能賦能檔案數據化的功能機制與實踐模式。選取新疆能源，主要基于其在能源行業中較早部署并積極推進檔案智能化轉型，其紙質檔案數據化開發項目具有代表性、復雜性與前瞻性，且具備良好的可進入性與調研合作基礎，可以為案例研究提供豐富的第一手資料。

為深入了解人工智能賦能檔案數據化開發利用的實踐路徑，筆者于2024年3月至5月開展實地調研，采用現場觀察與深度訪談相結合的方法，走訪公司本部10個職能部門，訪談36名員工，累計錄音超6000分鐘，轉化為約7萬字文本資料。隨后，借助NVivo12.0軟件，結合“三角互證法\"對觀察與訪談資料進行整理和初步編碼，形成86份原始材料，提煉出487條現象定義，并合并為130條編碼。在此基礎上，按照“范疇一概念一標簽\"的邏輯路徑，對重復頻次較高的編碼進行抽象歸類與范疇化處理，最終形成130個標簽、52個概念和19個一級范疇。經系統整合，提煉出4個主范疇：技術選擇維、技術應用維、風險管控維與社會倫理維，分別對應中介功能、驅動功能、保障功能與調節功能（詳見表1）。

二、人工智能技術賦能的檔案數據化開發利用功能模型

在上述分析的基礎上，本文構建了一個人工智能驅動檔案數據化開發利用的功能模型。該模型呈“功能一行為\"雙層嵌套結構，四類功能對應四類行為，二者在動態耦合中體現人工智能的深度賦能。各功能與行為相互支撐，構成邏輯閉環，為檔案數據化開發利用提供了系統化的路徑與理論指導。

（一）中介功能：以技術選擇對接檔案數據化在技術選擇層面，新疆能源構建了豐富、多元且流暢的人工智能技術遴選機制，以充分發揮技術選擇在檔案數據化開發利用中的中介功能。具體而言，一是在選擇方式上，新疆能源從《紙質檔案數字化規范》（DA/T31一2017）、《通用數據保護條例》等法律法規、政策規范中分析不同人工智能技術應用于檔案數據化開發利用工作的適用方式、場景和注意事項，并對標《企業檔案工作規范》（DA/T42—2009）等標準文件，確保人工智能技術的選擇符合檔案專業領域標準。同時，借鑒中國石化、中國石油等大型企業的檔案數據化實踐，開展橫向比較，總結人工智能技術選擇中的典型經驗與啟發路徑。二是在選擇內容上，綜合考慮自然語言處理、文本挖掘、機器學習、關系數據庫與NoSQL數據庫等多類人工智能技術的特性，在“降本增效、安全可靠、易于擴展與維護\"的原則指導下，遴選適用于檔案數據化開發利用的核心技術，并明確關鍵技術指標以評估其應用績效。例如，印刷體橫排文檔OCR識別準確率應不低于 9 8 % ，橫排非連筆手寫體文檔識別準確率不低于 9 5 % 等。總體上，新疆能源通過構建科學、系統的人工智能技術選擇機制，有效實現了技術屬性與檔案數據化需求之間的精準匹配。該機制不僅在多元技術方案中完成了可行性評估與優選，也在技術集成前置階段發揮了關鍵的中介功能，為檔案數據化開發利用提供了方法論支撐與制度性保障，從而為后續功能模型的構建與路徑實施夯實了技術基礎。

（二）驅動功能：以技術應用驅動檔案數據化

在技術應用層面，新疆能源圍繞檔案數據化開發利用的核心需求，集成多項人工智能關鍵技術，構建“識別一理解一訓練一挖掘\"相貫通的智能化處理流程，系統發揮人工智能的驅動功能。具體來說，一是OCR識別技術的深度融合應用。在傳統OCR基礎上引入卷積神經網絡（CNN）與循環神經網絡（RNN）等深度學習模型，實現圖像特征自動提取與文字結構規律學習，顯著提升識別準確率與魯棒性，突破復雜文檔識別的技術瓶頸。二是自然語言處理技術的多維嵌入。在文本理解環節，采用分詞、詞性標注、句法分析、文本分類與命名實體識別等自然語言處理手段，實現關鍵信息的精準提取與語義解析，為數據重組與知識關聯提供基礎支撐。三是模型訓練與預測技術的嵌入式應用。通過結合監督學習、無監督學習、半監督學習、強化學習與深度學習等方法，開展數據預處理、特征提取、模型構建與參數調優，形成服務于檔案業務的智能模型體系，提升數據挖掘深度與預測能力。四是知識圖譜構建技術的情境化拓展。針對干部人事檔案，通過知識圖譜技術識別并關聯人名、職位與機構等實體，利用關系抽取構建干部任免網絡，實現復雜人事信息的結構化表達與可視化呈現，服務企業治理與決策。這些技術的系統部署實現了從信息采集到知識生成的閉環集成，顯著提升了處理效率與智能化水平，為人工智能深度驅動檔案開發利用提供了堅實的支撐與路徑示范。

（三）保障功能：以風險管控保障檔案數據化開發

新疆能源以風險管理理論為指導，系統識別和評估檔案數據化過程中影響開發目標實現的關鍵不確定性因素，并將風險管理嵌入日常治理體系，實現過程的程序化、系統化和科學化防控。具體來說，一是提升早期文檔的識別準確率，降低信息轉化風險。針對20世紀五六十年代油印、鉛印文檔中繁體、二簡字及手寫體識別難題，新疆能源制定了相應標準，訓練專門的識別模型，有效提升了OCR的識別準確率與穩定性，確保歷史信息在數據化過程中的完整保留與有效轉化。二是保障數據集的規模與質量，控制數據輸入風險。針對數據噪聲、缺失與覆蓋不足問題，新疆能源采用數據清洗、特征工程與數據增強技術，結合專家校驗機制與質量評估體系，全面提升訓練數據的有效性與代表性，為算法運行提供可靠的基礎。三是應對模型“過擬合\"與“欠擬合\"問題，降低泛化風險。通過擴展訓練數據的多樣性，結合模型參數調優與結構優化，增強模型對不同數據場景的適應性，確保檔案數據特征的精準提取與穩定預測。四是優化算法與模型選擇機制，規避技術適配性風險。基于“有限理性\"選擇策略，建立廣維度算法評估機制，根據具體任務和數據特征精準匹配模型與算法，提升適配性與效率。綜上，新疆能源以風險治理為導向，圍繞關鍵技術環節構建起覆蓋識別、控制與調整的閉環管理體系，切實發揮了風險管控在檔案數據化開發利用中的保障功能。

（四）調節功能：以路徑規劃調節檔案數據化利用

檔案數據化并非僅是紙質信息向電子格式的轉換，更關涉個人隱私保護、倫理規范約束與社會責任履行等多重維度。在檔案數據化利用過程中，新疆能源堅持前瞻性視角與系統性路徑規劃，構建多層次、可調節的機制體系，充分發揮調節功能在技術實施與社會價值之間的橋梁作用。一方面，通過精細化的路徑規劃調節利用渠道，在項目初期即將技術規范性與社會倫理、法律法規等軟性約束同步納入考量，制定數據脫敏標準，并設立由多方專家組成的倫理審查委員會，實現對敏感問題的前置評估與動態反饋；另一方面，注重公平利用與社會影響評估，強化對個人隱私、知情權和選擇權的尊重，確保檔案數據使用過程公開、公正、透明。同時，新疆能源建立常態化監測機制，動態評估潛在風險，防范技術濫用與價值偏差。總而言之，新疆能源通過將倫理規范、數據權利與社會責任嵌入檔案數據化路徑規劃中，構建了技術可控、價值導向、穩健運行的調節體系，體現出檔案治理的制度韌性與適應能力。

三、人工智能技術驅動檔案數據化開發利用的實施路徑

在前述功能模型的基礎上，結合新疆能源檔案數據化實踐，本部分將探討人工智能驅動檔案數據化開發利用的實施路徑，旨在提升利用效率與質量，為智能化、規范化的檔案治理體系建設提供路徑參考與方法支持。

（一）在多維場景下靈活選擇人工智能技術

應用場景不僅是檔案數據化開發利用的空間載體，更是實現“數據向價值\"轉化的關鍵通道。推動檔案數據化利用的核心在于精準識別場景需求，依據其特征選擇靈活適配、動態優化的技術策略，構建“場景一技術\"映射關系，實現場景牽引、技術響應與能力融合的系統路徑。具體而言，應針對不同檔案數據利用場景，靈活選取與之適配的人工智能技術組合：在紙質檔案數字化場景中，宜優先部署OCR與文檔結構解析等基礎識別類技術；在語義挖掘與信息抽取場景中，可結合自然語言處理與知識圖譜構建技術，實現深層次文本語義理解與實體關聯；在風險預警與安全控制場景中，時序預測模型與異常檢測算法則具備更強的適應性與預警價值。在上述基礎上，還需關注跨場景的技術協同效應與系統彈性構建。隨著檔案開發利用向縱深推進，單一場景往往逐漸演化為復合型、多階段場景，從而帶來多層次、動態化的技術需求。這要求技術選擇不僅要適應當前場景，還應具備良好的可選代性與可擴展性。例如，在檔案編研場景中，初期可通過文本檢索技術滿足基本需求；而在深入挖掘與知識生產階段，則需引入實體識別、關系抽取、語義聚類、時空可視化等多種技術協同支持，以適應更高層次的智能分析與內容生成。

（二）在整體流程中深度應用人工智能技術

在檔案數據化開發利用過程中，人工智能技術在提升數據處理效率、精度與價值挖掘方面發揮著關鍵作用。其深度驅動能力體現在全流程嵌入方面，從數據采集、整理、分析到利用，構建智能化、系統化的業務架構，推動檔案管理由“自動化\"向“智慧化\"轉型。具體來看，人工智能技術在檔案數據化開發利用的各環節中展現出多元嵌入的方式：在數據采集環節，借助計算機視覺與邊緣計算，可實現紙質圖像、手寫文本等非結構化數據的自動采集與預處理，降低人工成本、提升數據質量；在數據整理環節，通過改進的BiLSTM-CRF模型識別文本實體，結合層次聚類算法完成自動分類與分級，增強數據結構化能力；在數據分析環節，利用圖神經網絡（GNN）構建事件的時間鏈與空間鏈圖譜，結合聯邦學習框架，實現跨機構數據的隱私保護與融合分析；在數據利用環節，通過大數據平臺與云治理架構，實現檔案數據的遠程質檢、并行處理與動態更新，提升服務的智能化與實時化水平。當然，人工智能技術體系本身具有高度可塑性，伴隨技術迭代與算法更新，其在檔案數據化過程中的應用模式亦將不斷調整與升級。

（三）在風險管控中穩固保障人工智能技術

作為引領新一輪科技革命和產業變革的戰略性技術，人工智能通過模擬與擴展人類智能，為社會現代化提供了強有力的技術支撐。4然而，其“黑箱\"特性也引發隱私泄露、算法歧視、模型幻覺等技術異化問題，形成“技術賦能\"與“風險生成\"并存的復雜格局。為確保人工智能在檔案數據化過程中的安全、合法與合規應用，有必要引入“敏捷治理”理念，將動態調節、快速響應與多元協同融入風險管控，構建“前置預警一全程監控一標準約束”相結合的綜合防控體系，使其驅動能力在可控邊界內穩定釋放。具體來說，一是將風險意識前置嵌入技術開發初期，在人工智能技術引入階段即開展全面的風險識別與評估，確保安全性與先進性并重。如通過發展對抗性算法和“技術制約技術\"的架構設計，從根源上降低系統性風險，提升技術架構的可控性與韌性。二是構建覆蓋全流程的制度化風險管控體系，形成從風險預警、動態調整到持續評估的閉環機制。可借助PDCA（計劃一執行一檢查一處理）循環，構建包含識別、評估、控制與監測四個環節的動態管理框架，并參照《信息技術安全技術信息安全風險管理》（ISO/IEC27005—2008）等國際標準，建立適配檔案場景的風險評估指標體系，確保人工智能應用在受控、安全的環境中穩定運行。

（四）在雙贏共生中持續使用人工智能技術

在數智化背景下，推動人工智能技術應用的同時，守住倫理底線、強化社會責任，已成為檔案數據化利用過程中的核心命題。檔案數據的開發利用更需在效率提升與倫理守護之間尋求動態平衡，確保人工智能賦能過程中“工具理性”與“價值理性\"協同共生。為此，必須將“科技向善\"理念納入制度化治理路徑，構建以倫理審查為核心的風險規避與價值引導機制。一是應全面貫徹《關于加強互聯網信息服務算法綜合治理的指導意見》（2021年）、《關于加強科技倫理治理的意見》（2022年）、《科技倫理審查辦法（試行）》（2023年）等政策要求，在檔案數據化開發利用過程中建立健全人工智能技術應用的倫理審查制度，覆蓋算法開發、數據處理、模型訓練、結果輸出等關鍵環節，重點審查數據隱私保護、算法公平性、技術透明度等核心議題；二是應結合檔案行業的實踐特征，構建多方參與、動態更新的倫理治理體系，可通過設立專門的倫理評估小組，吸納法律、技術、檔案與社會倫理等多學科專家參與評估流程，確保檔案數據化開發利用在促進公共服務與文化記憶延續的同時，守住技術安全使用的邊界。

本文基于新疆能源檔案數據化項目實踐，構建了人工智能驅動檔案數據化開發利用的“功能一行為\"模型，系統揭示其在技術選擇、應用驅動、風險管控與倫理調節中的作用機制，并提出四條實施路徑。研究表明，人工智能技術的有效嵌入不僅推動了檔案管理模式的轉型，也為檔案價值的深度開發提供了可行路徑。未來，我們需持續關注人工智能技術的發展演進，強化場景適配與倫理治理，實現技術適配性、風險可控性和倫理合規性的多維平衡。

注釋及參考文獻：

[1]馮惠玲.面向數字中國戰略的檔案數據產教融合[J].檔案與建設，2023（10）：4-6.

[2]加小雙，姚靜，韋雪茹.人工智能在檔案事業中的倫理審視[J].北京檔案，2005（3）：4-10.

[3]周海.生成式人工智能輔助檔案編研工作的實現路徑構建[J].北京檔案，2024（6）：45-48.

[4]容志，任晨宇.人工智能的社會安全風險及其治理路徑[J].廣州大學學報（社會科學版），2023，22（6）：93-104.

[5]熊文景，蔣愉晴.人工智能賦能檔案事業創新發展的技術異化風險及其防控——基于馬克思主義異化理論的分析[J].北京檔案，2025（3）：11-16.

[6]商洛學院.人工智能安全風險評估優化[EB/OL].（2019-12-19）[2024-07-24].http：//szb.slxy.cn/info/1095/1904.htm.

[7]光明日報.倫理學視域下的人工智能發展[EB/OL].（2024-02-19）[2024-07-24].https：//baijiahao.baidu.com/s？id=1791331177813130987amp;wfr spideramp;for=pc.

作者單位：1.2.北京清大思創科技發展有限公司