曾博文 / 中核核電運行管理有限公司
企業檔案是企業經營過程中員工在設計、生產、經營、管理工作中的真實歷史記錄,是企業重要的知識資產[1-2]。中核核電運行管理有限公司(下文簡稱秦山核電)歷經30多年的發展,積累了豐富的核電工程建設、生產運行、設備維修、技術改造等方面的檔案資源共24萬卷222萬件。進入新時代,信息技術發展突飛猛進,新一輪科技革命和產業變革帶動數字技術、數字經濟正深刻改變著傳統的經濟發展模式,企業檔案工作也正在從手工操作接收管理紙質檔案進入到接收管理電子檔案信息化,從管理檔案實體過渡到管理檔案數據,檔案信息資源開發利用方式也在發生根本性的變革。在慶祝中國共產黨成立100周年的重大歷史時刻,習近平總書記高瞻遠矚對檔案工作作出了“四個好”“兩個服務”的重要批示,為做好新時代企業檔案工作指明了方向。秦山核電檔案室借助數字化改革,全力推進檔案資源數字化、檔案服務智能化和檔案利用知識化,構建檔案數字化應用場景,撬動檔案治理、資源、服務體系全方位、系統性的變革,推動企業檔案工作整體智治、高效協同和智慧應用。通過引入知識管理新技術、新方法,以用戶為中心,在內網建設核電檔案知識管理平臺,提升了檔案利用效率,為企業檔案工作創新發展注入了新活力。
秦山核電為夯實基礎,打造數字檔案資源的外部環境,編制了《電子文件四性檢測方案》《電子簽名與時間戳工作規范》《電子文件封裝工作規范》《電子文件歸檔接口技術規范》《電子文件備份規范》《電子檔案長期保存規范》等技術規范,為檔案工作數字化改革創造了良好的外部環境。在嚴格遵循各項規范的前提下,秦山核電穩步開展了檔案“存量數字化”和“增量電子化”等一系列工作。
作為我國核電事業的先行者,“數字核電”建設的倡導者,“智慧核電”檔案管理領域建設的探索者。秦山核電以電子檔案管理系統(ECM)為核心的業務系統建設運行長達10年,沉淀了非常寶貴的檔案,包括核電工程建設全過程、核電廠運營全周期內各階段所產生的工程項目檔案、生產運行檔案及其他各種經營管理檔案,除文書文件、財務文件、合同文件等內部敏感文檔外,共約426萬件已同步映射到檔案知識管理平臺,并實現和電子檔案管理系統(ECM)同權管控,及時更新。系統內涵蓋了生產、經營等多領域的檔案,以及支撐核電廠從設計、建造、調試、運行、維修、退役全周期的檔案資源,實現了檔案知識的分享與利用。秦山核電采用ETL數據抽取、自然語言處理(NLP)、AI大語言模型、自動聚類、動態標簽索引、自然語言智能檢索等先進技術,在企業內網部署了核電檔案知識管理平臺,全面提升檔案利用服務“智能化”水平,為一線人員提供了便捷的查閱和利用途徑。
本文將從四個層面深入剖析秦山核電在檔案利用方面探索的新模式,旨在為讀者提供借鑒與思考。
核工業語義庫從檔案中來,應用到檔案中去。該語義庫由詞庫、對象庫、知識庫三部分組成。通過命名實體識別優化、基于TF-IDF與Bi-LSTM+CRF的新詞發現模型、語義標簽標注等方式在秦山核電現有的檔案庫中抽取概念關系詞,進行語義網絡、上下位詞構建,不斷豐富核工業語義庫,目前語義庫已經收錄詞條6946393條,涵蓋核電領域絕大多數的詞語,并建立了詞語之間的關聯關系,作為底層支撐為核電檔案知識管理平臺的智能檢索、智能問答、智能推送等功能提供語義識別支持,讓檢索和問答更具有核電特質。
通過動態標簽和自動聚類實現了檔案信息與設備的有機關聯,將搜索內容溯源。在查找某件檔案的時候,通過圖譜關聯(見圖1),可以直接找到該件檔案的附件文檔、依據文件、參考文件、被引關系、下游文件等內容,極大地提升了檔案查詢效率。

圖1 檔案關聯圖譜
檔案知識化,不光要著眼于自身檔案的管理和利用,也需要引入外部支持,秦山核電與“中國知網”“萬方”等國內知名廠商合作引入知識鏡像庫不斷完善內部知識資產,以便員工能及時了解企業外部動態。同時開發基于“RPA+AI”技術的檔案機器人智能挖掘核電情報、核電前沿信息,主動收集整理來自合作伙伴和競爭對手的動態,將獲取的信息通過郵件的形式進行外網到內網的穿透,然后通過內網機器人對郵件進行解析后錄入檔案知識管理平臺數據庫,利用內外部檔案資源不斷豐富秦山核電知識數據庫,使外部信息獲取更高效,激發企業員工技術創新活力,服務領導智慧決策,提升企業市場競爭能力。
檔案知識管理平臺全面繼承了電子檔案管理系統(ECM)的權限,這一特點在提高檔案應用效率的同時,更重要的是確保了檔案的安全性。為進一步便捷用戶使用,平臺設有借閱功能,對于用戶無權查閱的檔案,在經過借閱審批后,可賦予閱讀或下載權限。這一舉措既保證了檔案的保密性,又滿足了用戶在學術、工作等方面的需求。
通過對搜索引擎進行優化,以及對檔案檢索模式的重塑,本系統借助語義庫專業詞匯與高效搜索算法為用戶呈現最優檢索結果,提升了檢索精確度。檔案知識管理平臺具備標題、主題詞、作者、年份、圖譜等基礎檢索功能,同時支持將重要屬性與全文進行組合提取生成主題字段,進行權重分配后應用于檢索。根據用戶輸入情況,系統可動態智能提示可能的檢索詞,在426萬份電子文件和檔案中,單份檔案的檢索時間由過去的10秒縮短至1秒以內。此外,系統實現了“單點登錄、智慧查詢、一站辦理”的全場景服務。
通過知識管理的用戶畫像功能,為不同崗位建立360度畫像,接入到智慧文檔檢索平臺(iDoc)中,一方面結合核工業語義庫600萬余條詞典和知識圖譜功能將知識文檔精準推送給公司員工。另一方面在公司核心業務流程中嵌入知識推薦功能,如在數字運行規程系統(iDom)中,現場人員在執行某一份操作規程時,系統會自動推薦該項操作對應的歷史經驗反饋、良好實踐等,有效規范了現場操作,減少了人員失誤。將傳統的被動式的檔案服務逐步過渡到主動的、智能化的知識服務。
依托知識管理先進技術手段創建門類齊全、內容豐富的核電專題檔案庫。像管理知識一樣管理檔案,秦山核電通過檔案工作與業務工作的深度融合,結合各類智能技術,建立專題檔案庫,精準服務于生產。基于人工智能技術,根據業務需求,開展面向文檔知識服務的數據治理,分析文檔著錄項和電子文件內容實現自動聚類,建立各類專題檔案庫,在不改變原檔案分類的基礎上,擴展檔案關聯維度,利用檔案標題、元數據信息及電子標簽等進行數據分析、加工與處理,將文檔自動掛接到相應的專題樹中,通過信息化手段實現虛擬組卷,目前形成八個體系化、專業化的專題檔案庫,如內部的OLE(秦山核電320Mwe機組運行許可證延續項目)項目專題、數據中心專題、管理創新專題等。這些文檔專題能夠幫助用戶快速、全面地了解某一個重大項目或者專題,實現了數字文檔資源的快速傳播和利用,使檔案“活起來,動起來”。
采用智能化方法開展檔案編研,省時省力省心。我們大膽探索辦公自動化在文檔領域的應用,創新性地分析各類用戶對檔案利用的需求,自動搜集與編研主題相關的檔案。通過解析后創建編研文件清單,到各業務系統抓取清單文檔,并進行整理、排版等操作生成編研文件,待專業人員審核后納入秦山核電知識數據庫供用戶查閱,此舉將檔案編研效率提升了一倍。目前已成功編制了秦山核電大事記、秦山核電十大技術問題匯編、秦山核電文件匯編三期文件,并獲得用戶好評。“秦小智”正是利用知識管理技術整合關聯各種編研資源,實現檔案信息、技術信息等資源的共享,減少重復勞動,避免人力資源的浪費[3]。“秦小智”的上崗是秦山核電在檔案管理工作中開展的一次有益探索,也是本公司文檔管理數字化轉型的典型應用案例。
在秦山核電內部部署AI大語言模型,借助該模型的人工智能技術,主動挖掘與提取檔案中的設備編碼等關鍵信息,替代人工整理和提煉知識,實現實體抽取、知識更新、關系抽取及知識補全,高效繪制核電設備知識圖譜(見圖2),實現知識的可視化展示,同時建立實體與檔案內容之間的關聯,并借助大語言模型卓越的語義理解功能,實現智能知識問答,為用戶提供更為精準的問答服務。
在核電企業中,標準文件和管理程序(核電內部操作手冊和規范)是應用非常頻繁的檔案類型,我們將這些常用檔案進行XML碎片化處理,分解為多個獨立的XML片段,每個片段都包含一個特定的主題或知識點,利用這些片段構建一個問答系統,以實現對核電企業內部信息的快速檢索和理解。問答系統可以根據不同類型的問題,如是非類、陳述類、求值類、范圍類、時間類和統計類問題,直接在片段中尋找答案。例如,當員工需要了解出差某地的住宿費報銷標準時,問答系統可以根據操作手冊中的XML片段,直接給出答案,大大減少了翻閱文檔的時間。
讓檔案數據“活”起來。為便于管理,開發檔案系統數據駕駛艙,直觀展示檔案數量、年份、種類、分布以及利用情況等各項數據,提升了檔案信息資源管理效率,增強了檔案信息資源可用性,挖掘了檔案信息資源利用深度[4]。通過檔案駕駛艙,公司領導和檔案管理部門可以實時了解企業檔案的運行現狀,同時借助底層應用數據分析,為檔案知識管理平臺的后續優化提供指導,從而更好地服務用戶。