沈禎杰
核電文檔是核電文件和核電檔案的統稱,是核電建設、運營以及管理活動中形成的對國家、社會、企業具有保存價值,并經過整理、歸檔的文件。核電企業有著復雜的結構化數據、半結構化數據以及非結構化數據,檔案的利用方面長期存在以下問題:
文檔數據檢索速度慢、全文檢索效率低、文件自動標簽缺乏,用戶在調閱文檔過程中要花費大量的時間和精力,與大數據、智能化時代的發展不相適應。
基于文件內容的目錄數據或全文數據關聯管理無力、針對用戶檢索習慣分析全無、通過查閱頻率對人員和崗位效用分析全無,更談不上有針對性地將文件進行關聯以及可視化管理。
不夠便利的使用體驗導致用戶對文檔知識學習動力不足,更無法實現知識的有效利用和傳遞。
為了解決業務痛點,滿足用戶對于文檔知識傳遞和利用需求,在此以現階段文檔管理和知識管理探索取得的成果為基礎,開展了核電文檔大數據智能應用實踐。
該平臺以企業多個文檔內容庫為基礎,構建文件內容管理和數據分析模型,以管理程序和技術文件為主體,采用ETL數據抽取、自然語言處理(NLP)、OCR識別、動態標簽索引、全文檢索技術、機器學習等技術手段,研究和挖掘文件的正文、附件以及元數據之間的關系。梳理并展現文件間的依據文件、參考文件等上游文件關系,直觀顯示文件的生效、升版、作廢狀態,自動繪制文件關系圖,探索建成文件的可視化知識圖譜,為核電廠建造、運營、應急等各階段的文檔管理和利用提供支撐。
利用文檔內容識別、文檔信息提取、全文檢索等技術,實現文檔便捷、高效的檢索服務,目前在本平臺中的文件,已實現在1 s之內檢索出用戶需要的結果,極大提升了文檔利用效率。
基于當前互聯網主流技術,本項目采用了ElasticSearch搜索引擎技術。在文檔同步入庫時,對正文、附件、元數據等信息建立索引。其原理是利用分詞庫,對所有文檔內容進行查詢,將用戶可能搜索條件的結果提前寫入數據庫,真正搜索時只需要在索引庫進行查詢,大大縮短了查詢速度。

此環節的一個關鍵在于分詞庫的構建與利用。在公司已有的專業核電語義庫基礎上,通過AI學習逐步完善和構建核電文檔大數據詞庫,詞庫包括了核電行業相關的各類詞性詞語100余萬條,同時還建立了幾萬條近義詞、同義詞等。利用核電語義庫,可大大提高搜索的準確性。
基于對非結構化文檔的解析,獲取文檔目錄、依據文件、參考文件等文檔關聯關系的結構化信息。建立上游文件、依據文件、參考文件、歷史文件、文件主體之間的知識圖譜,實現關聯文件變動、相關文件關聯更新提醒功能,以便文檔編制者及時獲取關聯文件變動信息,評估對當前文檔的影響。系統以圖形化方式展現文件,滿足所見即所得應用場景,極大提升了文檔的利用價值。
圖示化關聯信息主要包括了與當前文檔相關聯的文檔,如參考文件、依據文件、歷史版本等。此功能體現了本項目的核心思想———系統化文檔利用。對于一份核電文檔的編制,通常涉及到多份關聯文件。關聯關系的展現,有助于文檔用戶進一步了解該文檔編制的背景信息,理解編制目的以及正文中涉及到引用內容。
引入機器學習,在公司已有的專業核電語義庫基礎上,通過對大量的歷史文檔、數據的AI自學習和用戶最常用的關鍵詞語逐步完善和填充核電文檔大數據詞庫內容,使核電文檔達到精準檢索和精準推送的目標,同時核電文檔大數據詞庫也可作為基礎語義庫供其他信息系統利用。
系統采用Java語言開發,使用SSM框架、MVC模式。消息隊列采用ActiveMQ,數據同步采用接口形式,使用Http/Https形式,傳輸的數據采用json格式,OCR識別采用Tesseract,為Google的開源項目,NLP采用HanLp,搜索引擎采用ElasticSearch,分布式文件系統采用FastDFS,關系型數據庫使用Mysql,非關系型數據庫使用MongoDB,日志引擎采用Spring AOP與Log4j結合的形式,權限引擎采用shiro,高效緩存采用Redis;接口數據交互符合RESTful標準。
此種核電文檔大數據智能應用實踐,在研究業務痛點的基礎上,實現了一站式文檔快速查詢、文檔關聯關系展示、一體化學習中心、文檔智能利用的技術突破,大大提升了公司用戶對文檔知識利用的效率。9DFD329F-1745-4B52-A7FF-7E21086F462B