關鍵詞:檔案;數智庫;紀檢監察;檔案管理;數字化;智囊;信息平臺
2023年2月發布的《數字中國建設整體布局規劃》指明了我國中長期數字化建設方向,確立了數字中國“2522”整體建設框架,明確了我國經濟活動、社會活動、公共事業的發展方向是數字化、智慧化[1],為檔案工作的數智化轉型提供了機遇。面對數字化和智慧化的強烈需求,如何在保障檔案資源安全的前提下更深入、更全面、更可行、更系統化地做好檔案事業數智管理和服務,是當下檔案事業發展應該思考的問題之一。
信息時代檔案事業發展正處于數字化轉型的重要時期,諸多學者針對相關核心問題開展了研究工作,如數智背景下檔案工作發展[2-4]、檔案數字化轉型工作治理服務和創新[5-7]、智慧檔案館建設[8-10]、檔案知識庫構建[11 ]、檔案知識服務[12]等近年有關檔案數字化轉型和信息化建設的重點方向。但基于安全可信前提開展檔案管理全流程的數智化研究較為罕見,更未見到對底層邏輯和構建路徑的闡述和案例。本文在數字中國建設大背景下,探索檔案事業數字化、智慧化發展的理論基石和實踐路徑,提出檔案數智庫概念和構建機理,并以紀檢監察檔案工作為例探討如何開展檔案數智庫建設,做到紀檢監察檔案信息化建設為紀檢監察工作提質賦能。
1 檔案數智庫的概念提出
1.1 概念辨析。檔案數智庫研究和上述檔案數字化轉型和信息化建設的相關研究一樣,都是在信息時代背景下開展檔案研究工作。故在提出檔案數智庫概念前,應對相關理論、概念、框架展開辨析,明晰各研究方向的重點。
檔案知識庫和檔案知識服務的概念提出較早,起初孟歆[13]從知識管理角度提出了開發和分類檢索的檔案知識庫的概念,后隨著信息技術的發展此概念略有調整,當前認為檔案知識庫是一個檔案資料的知識系統,檔案資料按照一定規則排列并以知識單元的形式展現,能夠提供查找的功能[14];而檔案知識服務認為是基于高新技術手段對多介質檔案資源進行深度整合和信息挖掘,從檔案服務的角度出發提供檔案信息的服務手段。檔案數字化轉型的概念是隨著2015年發布的《國務院關于積極推進“互聯網+”行動的指導意見》將數字化轉型作為七個重點任務之一后開始提出,現普遍觀點認為數字化轉型是利用高新數字技術對傳統檔案管理進行改進升級。同時,作為近年檔案數字化轉型的重要抓手,智慧檔案館建設研究也備受關注[15]。不同于上述已有研究,檔案數智庫不僅從實體檔案庫房的智慧化建設出發,更立足檔案管理全流程,重點關注檔案信息資源智慧重組下安全可靠智慧化服務的檔案管理模式。
1.2 概念界定。檔案數智庫是基于數字中國建設的時代背景提出的,在安全可信的前提下開展檔案數字化和智慧化的體系性建設,目的是從管理、硬件、技術、服務層面做好檔案管理的數字化、智慧化轉型,在檔案管理全流程中體系化地做到數智化服務。本文認為檔案數智庫是以檔案數據安全為基礎保障,以全類型檔案資源智慧重組為支柱,以檔案管理全流程為抓手,貫穿數字化和智慧化的建設理念,以智慧服務為目的,構建可信、可靠、可用的智慧檔案綜合管理模式。構建檔案數智庫應首要保障整體數智建設的安全可靠,做好檔案信息資源的數字化管理和智慧化服務,同時使用相關硬件設備為智慧服務提供保障,將智慧化理念貫穿整個檔案管理流程中。
2 檔案數智庫的構建機理
實現檔案資源的智慧化管理是檔案數智庫主要作用對象和建設目的之一,因此檔案數智庫的構建內核是檔案管理流程。本節基于傳統檔案管理流程闡述檔案數智庫的構建機理。
傳統的檔案管理工作包含檔案收集、檔案整理、檔案鑒定、檔案保管、檔案檢索、檔案利用、檔案編研、檔案統計等八個環節。在檔案數智庫構建中,根據文本處理方式的不同將此八個檔案管理節點進行二次分類,抽象為四個動作節點:收集—整理—重組—服務,形成檔案數智資源鏈。其中整理節點包含傳統檔案管理流程中的整理和鑒定兩個環節;重組節點是新增節點,在傳統檔案管理整理環節之后開展,能處理檔案文本、提取關聯信息為后續智慧服務提供支持;服務節點包含傳統檔案管理流程中的檢索、利用、編研、統計四個環節。因此,檔案數智庫理論的邏輯理路可以用公式“檔案管理八環節+數智賦能理念+突出服務能力=檔案數智庫構建機理”來表達。
2.1 收集節點。此節點以“廣收集、多介質、跨區域、重共享”為原則開展工作。在硬件設備層面,提供高速掃描儀、高拍儀、書刊掃描儀、手持設備、眼動儀、可穿戴設備、實物立體掃描儀等;為遠程電子文件歸檔提供網絡支持的設備,包括專用網絡線路、支持千兆網卡等。在技術保障層面,重點處理在網絡完好支持的前提下全類型電子檔案的遠程移交問題,由于數字檔案館(室)的資源類型和數量日益豐富,在數據類型方面包括文檔數據、圖形數據、音頻數據、視頻數據、結構化數據、半結構化數據、日志數據等在內的數據類型呈多樣化態勢,應針對每種數據特點對其傳輸、移交、存儲選擇不同方案進行優化。
2.2 整理節點。此節點主要任務是將紙質檔案、音視頻檔案、圖片檔案、實物檔案等非電子文本類檔案資源進行數字化轉換、加工處理后,統一形成電子檔案文本,通過自然語言處理技術進行分詞、統計、詞庫對比等操作,完成對無關詞匯、無意義噪音數據的剔除,然后形成檔案信息資源大池,以供重組階段開展關鍵詞的學習、關聯度計算、圖譜構建等工作。此節點是基于文本挖掘技術獲取檔案卷宗內文本信息,即將掃描、識別等數字化手段處理后的卷宗內自然語言提取出來,并通過歸一化、數據清洗等預處理手段得到特征詞的過程。在建立基于語義分析和智能決策的檔案數智庫過程中,檔案數據前后需歷經文本挖掘、語義分析、智能決策三個階段,分別是整理、重組、服務節點。
2.3 重組節點。重組是對檔案資源在知識和數據層面的再組織,是將電子檔案資源轉換為帶有數智屬性的檔案資源的關鍵階段。根據知識工程的研究體系理論可知[16],該過程至少包含表示和推理兩個步驟。從數據處理到關鍵詞抽取,從文本表示到本體構建,從關聯識別到邏輯推理,最終得到檔案數智粒子,做好數智庫資源鏈末端的服務節點的智囊團。
隨著檔案服務需求提高,檔案利用對檔案資源依賴程度也在日益加劇,迫切需要在檔案查詢、人工編研、檔案統計等常規服務之上,提供顆粒度更細、層次更深的檔案信息分析服務以及范圍更廣、智能手段更強的基于檔案數智粒子級別的檔案智能決策服務。例如蘊含在人物、時間、事件中的由不同部門歸檔的檔案信息間的網絡關系的發現以及與人物檔案相關的人、事、物關系分析、背景描述和智能決策輔助。這類智能服務能否實現的關鍵,在于底層檔案數據庫中有無含義和關系都定義明確的高質量機讀數據。語義分析技術是人工智能與計算語言學的融合學科,基于文本挖掘和信息檢索之上的消息傳輸分析問題,同時也是后續服務節點知識推理和智能決策的前期工作。語義分析需將上一階段得到的特征詞庫經NLP技術處理后發展到理解文本含義的階段。
2.4 服務節點。傳統意義上的檔案服務至少包含檢索、利用、編研、統計四個方面。作為檔案數智庫的主要目的之一,此節點是數智手段的重要體現。本節點向前需獲取利用者的檔案服務申請并轉變為檔案數智庫可理解的服務需求,向內需從重組節點得到的智囊團中匹配到利用者的服務需求,向后需將匹配的檔案資源以合適的檔案服務方式呈現給利用者。
2.4.1 服務需求的申請和結果呈現。檔案數智庫中的服務申請并非全部提供于利用者,更應根據利用者的基本信息、歷史需求進行分析和預測,通過信息分析和大數據分析來構建包括檢索行為、信息偏好、研究內容等在內的利用者畫像。同樣地,檔案數智服務的呈現也應利用好傳感設備,變傳統被動式服務為主動推送、個性化推薦等服務方式,為利用者提供精準、高效、主動的數智服務。
在檔案數智庫中考慮使用擴展現實技術打造服務節點的沉浸式交互體驗,結合虛擬現實、增強現實、混合現實等多種手段將實體檔案服務進行虛擬化展示,同時增加互動功能,讓利用者更有“話語權”。根據擴展現實技術可為利用者提供AR、VR、XR、MR相關四種交互方式:以眼球追蹤為主的眼控交互、以自然語言為主的語音交互、以肢體為主的手勢交互和以神經元為主的腦機接口交互,以此打造一個人機交互的沉浸式體驗。
2.4.2 智囊團匹配。檔案數智庫中的服務節點需從重組節點的智囊團尋找和利用者需求匹配的檔案資源,這個過程稱為智囊團匹配。前述重組節點內已完成文本挖掘、語義分析、智能決策三步驟的前兩步。智能決策是在理解檔案文本信息的基礎上進行知識推理,使用AI技術來解決復雜決策問題的方法,集信息聚合、知識管理、態勢感知及協同決策功能于一體的決策工具,為高水平智慧服務文本和關聯度提供支持。
3 檔案數智庫建構路徑實證分析
在闡述檔案數智庫構建機理的基礎上,本節結合紀檢監察檔案管理案例進一步給出檔案數智庫的實現路徑。
3.1 紀檢監察檔案信息化建設背景。作為數字時代科技反腐、科學黨風廉政建設重要途徑之一,紀檢監察工作的數智化建設可為紀檢監察開拓工作思路,為紀檢監察工作“精準化”提供重要支撐。精準是新時代紀檢監察工作高質量發展的鮮明特征。習近平總書記在二十屆中央紀委二次全會上指出:要精準運用“四種形態”,讓黨員、干部切身感受到黨的嚴管和厚愛。紀檢監察監督、執紀、問責和監督、調查、處置六項職能,最根本的要求就是精準,精準要求貫穿紀檢監察工作的全過程、全周期。其中線索處置是紀檢監察工作的基礎,檔案利用則是線索處置的基礎,起到了把脈定調的作用。由于行業特殊性,紀檢監察檔案在檔案信息安全方面具有極高要求,這是紀檢監察檔案工作行業特殊性的重要體現。因此,如何在保證安全可信的前提下,通過紀檢監察檔案數字化、數智化建設來解決業務數據“孤島化”、信息資源“沉默化”、數據鏈條“碎片化”問題,將信息手段深度融入紀檢監察檔案管理全流程,利用精準高效的數字手段賦能紀檢監察工作,借助檔案事業的高質量發展助推紀檢監察事業提質增效是本節研究的主要內容。
紀檢監察檔案數智化賦能研究旨在安全可靠前提下提高紀檢監察檔案縱深利用水平,優化紀檢監察檔案管理手段,將高新技術手段全方位、全流程、全覆蓋地嵌入紀檢監察檔案管理流程中,積極探索知識管理、人工智能、數字人文等技術在紀檢監察檔案利用中的應用,打造信息技術下的紀檢監察數智庫,為深入推進反腐敗斗爭,在一體推進不敢腐、不能腐、不想腐上持續發力,在助推紀檢監察工作高質量發展上發揮檔案作用、貢獻檔案力量、展示檔案智慧。
3.2 紀檢監察檔案數智建設現狀。自《中央紀委國家監委信息化工作規劃(2018—2022年)》實施以來,全國各級紀檢監察機關在數字化轉型戰略背景下,主動適應新時代科技反腐、科學黨風廉政建設要求,能夠充分運用大數據、人工智能等信息科技手段,積極探索“數字化信息化”與紀檢監察工作的深度融合。但縱觀已有理論研究與工作實踐,當前各領域的紀檢監察檔案工作研究仍存在如下幾點問題和亟待彌補的“空白”地帶,需要進一步補充和完善。
一是從研究內容分析看。第一,當前各領域的紀檢監察檔案工作研究點主要在于問題分析及解決措施討論,基本集中在意識提升、規章制度建設、人員隊伍建設、信息化建設等幾個方面。第二,已有研究存在研究數量少、研究內容不深入、重理論輕實踐、缺乏高新技術助力等諸多問題,尤其缺乏針對紀檢監察工作特點研究以及解決紀檢監察檔案管理難點問題的研究。第三,現階段檔案管理系統安全性防護整體水平參差不齊,且傳統網絡安全架構默認賦予了內網用戶是“可信”的,這就使得內部紀檢監察工作人員非法進行檔案數據訪問或攻擊行為從內網鏈路發起時,無法及時被發現,進而造成數據泄露或系統攻擊產生。
二是從數字檔案館(室)實踐發展現狀來看。第一,從“網絡化”向“智能化”躍遷的過程中,檔案信息服務實踐主要是基于資源、手段和過程等信息技術來實現局域網或互聯網的檔案信息查詢、檢索和利用。第二,當前數字中國大背景下,數字檔案館(室)用戶需求的特點也從先前做好基礎性檔案信息服務開始升級和轉型,對智慧服務和數據安全的要求愈來愈高,而紀檢監察工作更甚。但針對數字檔案館(室)數據安全保障以及智慧服務研究并不多見,更無見到紀檢監察數字檔案館(室)數據安全和智慧服務方面的研究工作。因此,有必要立足紀檢監察檔案流程,使用零信任機制下的檔案數據防護策略開展可信環境下的紀檢監察檔案數字化、智慧化研究工作。
三是從數字化信息化與紀檢監察檔案契合度研究來看。第一,缺乏數字化轉型推動區域紀檢監察檔案管理的實踐性研究。兩者融合的內部機理、融合規律等需要在實踐中進一步驗證和展示。第二,研究缺乏整體性和系統性,研究不夠系統宏觀,多為零碎化、小型化。
3.3 紀檢監察檔案數智庫的實現路徑。紀檢監察檔案數智庫是檔案數智庫管理模式在紀檢監察檔案工作中的具體應用。立足于紀檢監察檔案管理全流程,貫徹數智管理理念,以智慧化紀檢監察檔案資源為支柱,以精準高效智慧服務為目的,以為紀檢監察工作提質賦能為目標,在夯實數智安全的基礎上從數智硬件、數智資源、信息平臺三個層面開展建設,做到安全、硬件、軟件、資源、管理、服務融為一體的可信、可靠、可用的智慧檔案綜合管理體系。
紀檢監察檔案數智庫在紀檢監察處理各種違法違紀案件中擔任“數字大腦”的角色,為紀檢監察工作提供數據支持和決策提醒,從檔案資源出發助推紀檢監察工作高質量發展。本節從基礎設施、資源建設、信息系統三方面闡述紀檢監察檔案數智庫的實現路徑。
3.3.1 數智安全層建設。數據安全防護策略中的“零信任”機制的核心思想是“永不信任,始終驗證”,這與紀檢監察檔案在數據安全性要求上高度契合。紀檢監察檔案數智庫在數據安全防護上力求構建零信任機制的紀檢監察檔案數據安全防御層級,選擇使用零信任架構,從數據訪問主體到客體進行全面縱深防御。數智安全層主要包括零信任訪問控制模型、安全縱深防御策略執行點及零信任安全管理中心建設三個方面。
(1)紀檢監察檔案數據零信任訪問控制模型建設。零信任解決的主要問題是消釋、排斥對數據和服務的非授權訪問,本節立足已有紀檢監察檔案系統管理實踐與經驗,為消除精準訪問中存在的不確定性提供判定法則和依據。由“主體區域”“訪問控制區域”“客體區域”三模塊組成的紀檢監察檔案數據零信任訪問控制模型,主體區域包括訪問用戶、系統設備、應用軟件及網絡環境;訪問控制區域包括訪問申請、訪問評估、訪問代理及傳輸加密等功能;客體區域包括紀檢監察檔案數據資源、應用資源及服務資源等,有關資源按照資源屬性細粒度劃分。
(2)紀檢監察檔案安全縱深防御策略執行點建設。安全防護架構的關鍵在于保證策略下發和執行的安全,對物理環境、計算環境、區域邊界、通信網絡等方面有效控制訪問,對所有對象進行驗證并授予其最小訪問權限,同時對所有訪問紀檢監察檔案數據的行為進行持續、動態的評估決策,優化數據安全縱深防御體系“數據分級、數據流轉、風險評估、數據庫加密”等防御策略執行點布局,做到紀檢監察檔案數據安全的全方位態勢感知與動態防護,極大地保護紀檢監察檔案數據的真實性、完整性、可用性、安全性,多角度、全流程樹立紀檢監察檔案工作的安全意識,確保紀檢監察檔案信息數據安全。建立完善的紀檢監察檔案數據安全防護手段,為紀檢監察檔案數智庫的建設做好底層安全盾牌,助力紀檢監察工作有序、安全、智慧化發展。
(3)紀檢監察檔案數據零信任安全管理中心建設。零信任安全管理的中心是基于紀檢監察檔案行業特殊性、服務精準化、發展數智化的要求,在網絡安全等級保護中需關注兩方面:一是對紀檢監察檔案管理主體、權限管控等加強管理,對紀檢監察檔案訪問主體進行身份識別、身份驗證,并對有關“命令”進行審計鑒別,紀檢監察檔案平臺系統管理員做好資源配置管理、審計管理員加強審計記錄分析、安全管理員執行安全策略配置;二是對紀檢監察檔案的審計數據進行匯總和集中分析,并對紀檢監察檔案管理全流程各類安全風險點進行識別、報警和研判。
3.3.2 數智硬件層建設。紀檢監察檔案數智庫是在紀檢監察數字檔案室基礎上展開建設,主要搭建有高速掃描儀、高拍儀、書刊掃描儀、實物立體掃描儀等數字化轉換設備;RFID標簽及手持盤點機、感知庫房基礎設施等物聯網設備;基礎網絡設施(包含無線傳感網絡、政務網、檔案內網、互聯網等專用網絡線路)、千兆網卡等支持遠程電子文件歸檔和更快速、更高載荷、更包容的需求輸入的網絡設備;追蹤眼球信息的眼動儀、以自然語言為主的語音交互設備、以肢體為主的手勢交互和以神經元為主的腦機等可穿戴設備,主要利用全息顯示、數據可視化技術3D顯示有關檔案資源,并且根據腦機接口、可穿戴設備、8K超高清視頻等方式利用智能化硬件設備傳輸給利用者。
3.3.3 數智資源層建設。“數智信息資源”是紀檢監察在技術層面實現創新突破的核心支撐,亦是建立紀檢監察決策的“檔案數智庫”的基礎。紀檢監察檔案信息資源的收集和整理是實現檔案數字化轉型和信息化提質賦能的基礎和核心;檔案信息的再組織和開發是檔案數智化建設取得成功的關鍵;紀檢監察檔案信息資源服務是實現紀檢監察檔案賦能、助力紀檢監察工作高質量發展的重要途徑。
紀檢監察檔案數智信息資源的建設是立足于前文提出的四個節點開展建設。在數智信息資源收集節點以“廣收集、多介質、跨區域、重共享”為原則,主要對象包括紀檢監察紙質檔案和實物檔案等數字化加工后電子文件(其任務是將紙質檔案、音視頻檔案、圖片檔案、實物檔案等非電子文本類檔案資源進行數字化轉換)的采集和接收,紀檢監察電子檔案的采集、鑒定和接收,其中對于電子檔案應嚴格按照四性要求進行鑒定。整理節點是后續開展資源建設的重要基礎,首先完成檔案信息提取文本,然后剔除無關數據和無意義的噪聲數據,形成檔案文本大池。重組節點是對檔案文本大池中的文本數據構建本體、知識圖譜、文本挖掘、語義分析、智能決策,此節點中的檔案資源已從文本大池轉變為基于檔案數智粒子級數據。服務節點是檔案文本到智能決策、信息查詢、檔案編研的最后一道橋梁,先將提交的利用需求轉換為機器可識別的數據格式,再從檔案數智庫智囊團中找到匹配的數據。
3.3.4 信息平臺建設。“數據”是實現預警分析的重要根基,而“數智”是實現精準決策的有力手段。在完成紀檢監察檔案數智庫建設的部分工作后,需要完成現有檔案業務管理系統的智慧升級,穩扎數智提質賦能紀檢監察最后一步。紀檢監察機關應履行“監督、執紀、問責”“監督、調查、處置”六種職能,其中監督處于基礎性地位,并且監督職能的充分發揮與紀檢監察檔案卷宗的利用程度具有很強關聯性。因此,紀檢監察檔案數智庫管理系統不同于傳統的檔案管理系統,后者以實現檔案資源管理為主要目的,而數智庫管理系統是對檔案數智庫中硬件設備、軟件系統、檔案資源統一安全可靠開展數字化和智慧化管理的綜合平臺,兼具硬件管理、資源組織、信息查詢、庫房管理、信息安全預警等功能。
一是目標層面。通過“大數據+風險監測”實現智能預警,實現風險點的預見性、全面性,充分發揮紀檢監察檔案的服務功能,通過檔案數據的讀取、分析和運用,實現廉政風險點動態監督和實時預警,為監督監察工作賦能。為紀檢監察檔案數據化開發和知識化決策提供支撐,進而建立輔助紀檢監察決策的“檔案數智庫”。二是操作層面。通過高性能分布式數據采集、高可靠式的集群計算、高智能的數據比對,把日常行為、工作動態納入監督范疇,運用數字化手段分析預警各類風險點,如異常的行為作風、工作動態等信息,最終形成橫向分布、縱向統計、深度預警的動態監督預警體系,為紀檢監察工作提供精準的廉政風險判斷依據。運用人工智能方法實現檔案智能利用,做好紀檢監察檔案的信息提取和數據挖掘工作,利用語義關聯、大數據分析技術對紀檢監察檔案信息進行語義級、細粒度、深層次地組織、關聯、分析、反饋。
(作者單位:1.鄭州大學檔案與校史館 陳茜月,博士,館員;2.鄭州航空工業管理學院黨委學工部 王強,碩士,講師 來稿日期:2023-08-27)