黃 健 劉敬儀 李 喆/福建福清核電有限公司
在當前的企業中,針對文檔的知識化建設和智能化建設已逐步開展,但其建設方向往往只針對知識化或智能化某一個單一方向,或者其中一方建設完成后才開始建設另一方,這樣的建設方式缺乏融合共建的思想,無法發揮出“數據+技術”的最大價值。而本文即在此背景下進行研究,將AI能力進行集中管理和利用,進行企業文檔知識庫與AI資源池融合建設,深度挖掘和利用文檔中的知識碎片,為企業決策提供有力支撐,從而提升企業核心競爭力。
目前國內在企業知識庫建設的理論方面和應用實踐方面的研究已有較多成果。董軍等對企業文檔知識庫進行構建,實現了知識分類、檢索、發布、獲取與處理能力,進而實現了顯性知識的搜集利用、隱性知識的提取轉化、企業知識的查詢檢索以及知識在企業內部的共享[1];譚政等提出在SaaS平臺環境下進行知識庫建設研究,實現文檔多人協同編輯與多版本管理,提升了企業內部在文檔編輯方面的效率和進行知識共享的積極性[2];張斌等對海量數字檔案資源進行知識的提取、整合、管理,構建面向決策的檔案知識庫,充分發揮檔案的內在價值,實現檔案數據深層次開發利用,從而為檔案用戶提供個性化的決策服務[3]。
近年來,文檔領域的信息化建設越來越注重人工智能新興技術對電子文檔管理的智能化提升與優化,取得了很多研究成果。邢高生利用命名實體識別、實體關系抽取、知識表示方法等AI技術對HKBZ領域的文檔數據進行處理,提升文檔數據檢索的效率和質量;構建完整的領域知識體系,提升文檔數據利用率;完成專屬領域知識庫建設,實現知識關聯和共享[4]。楊強等基于圖像識別技術實現對電子文檔的清晰度檢測和文字識別,從而輔助文檔管理人員的日常工作,通過圖像識別技術拆分文檔中的原始信息,與文檔錄入信息進行自動對比,保障文檔數據的準確性,同時提高員工的工作效率[5]。
當前研究多集中在某些具體的應用點上,技術力量分散,AI能力沒有得到有效整合,無法真正發揮出文檔的價值;且可復用性較差,容易造成能力重復建設。所以需要開展統一的AI資源池建設研究,實現AI能力集中管理與利用。
隨著知識庫建設和人工智能的不斷發展,人們開始在知識庫與人工智能的融合建設方面開展探索與研究。吳慶海提到人工智能時代下的知識管理將進入新階段,在包括知識標引、知識搜索、知識創造、知識推送、智能決策支持等應用場景中,知識庫建設與AI建設將不斷融合,產生極大應用價值,同時提出AI賦能知識管理技術架構[6];董小英等提出在數字經濟時代,知識管理對數據的提取和梳理、數據轉變為知識的準確性和實時性有了更高要求,這樣使得數據的深度挖掘和異構整合成為知識管理建設的重要內容,而在這其中人工智能技術將發揮重要作用[7]。
知識庫與人工智能的融合建設已經越來越受到重視。本文將結合最新的知識庫與AI技術,對兩者的融合共建模式進行探討,通過對文檔知識庫的AI賦能研究,進一步提高企業文檔管理智能化水平,發揮企業文檔潛在價值。
企業文檔知識庫的目標是將用戶所輸入的文檔數據信息,經過分析判斷后輸出給用戶更高層次、更高質量的知識。因此,文檔知識庫最關鍵的功能是實現知識表示、知識獲取和知識利用,這與人工智能的研究范疇具有一致性。由此可見,人工智能的相關技術可應用于文檔知識庫中[8]。
AI資源池各個算法之間成模塊化構成,松耦合,可拓展,系統內集成算法可根據文檔治理場景下的需要進行可持續性開發和集成,在兼顧經濟性、安全性、實用性的前提下,能夠進一步提升知識庫對文檔數據解析、知識挖掘的能力與效率。
AI技術的發展,需要學習大量知識和經驗,這些知識和經驗需要海量的數據作為支持,海量的數據能夠作為AI發展的數據積累和訓練資源。
企業文檔知識庫除了包含大量原始文檔資源(目錄數據庫、全文數據庫、多媒體數據庫、元數據數據庫等)之外,還通過分類、提煉、存儲、呈現等流程[9]對文檔資源進行異構資源整合,抽取知識并進行知識組織,并通過關聯規則等發現文檔之間的多維網狀知識關聯,從而通過智能化手段發現其中的隱性知識。企業文檔知識庫作為具備多種描述維度的知識模型體系,相比普通文檔庫,具備大量的規則與分類信息,能更加清晰地闡明數據間的關系,為AI資源池的各項技術提供了關聯化、智能化的數據基礎。
簡單來說,企業文檔知識庫的建設需要AI資源池的技術支持,以文檔知識庫為數據基礎的智能文檔應用也依賴AI技術來實現,在文檔知識庫不斷建設完善的過程中,其知識內容可作為AI資源池的訓練數據來源,從而促進AI資源池技術能力不斷升級。
隨著知識庫建設領域的不斷發展,主流文檔知識庫的實現大部分依賴于人工智能提供的先進方法和技術支撐,企業建設AI資源庫的同時,諸如規則、框架、語義網絡或本體等一系列形式化知識表示(知識描述)方法和技術都可直接運用到文檔知識庫的構建中,為其構建提供方法和技術上的支撐[10]。因此,AI資源池和文檔知識庫建設運用的技術是可以相互借鑒和融合的。在此基礎上,雙方借鑒融合過程中需要執行相應的國際和國家標準規范,從而增強后續以AI和文檔知識庫融合共建所衍生應用的兼容性和魯棒性。
由企業文檔知識庫與AI資源池融合共建的關系說明內容可知,企業文檔知識庫與AI資源池的融合共建模式構建,主要圍繞數據、技術、標準三個角度進行,具體工作從技術實現層面主要可以分為數據融合、標準融合、技術融合,從管理機制層面主要是解決主體共建、數據共建、技術共建等問題,下面將以核電行業為例進行闡述。
3.1.1 數據融合
企業文檔知識庫和AI資源池都是以文檔部門所藏的豐富文檔資源為處理對象,其本質為文檔中的多源異構數據。可借助AI資源池的算法技術提取文檔數據,并處理、匯總、整理為滿足文檔知識庫管理使用要求的結構化知識數據,該數據既可保存在文檔知識庫形成基礎設施,也可以作為訓練數據集,再次輸入AI資源池,促進AI資源池算法不斷升級。
以核電企業為例,由文檔管理部門提供的合同、圖紙、生產記錄文件/音像等數據,可由核電AI資源池通過語義分析、關系抽取等,建立知識圖譜,圖譜中的三元組數據既可輸入到AI資源池中作為數據集參與訓練,也可以保存在核電文檔知識庫中作為基礎設施,為核電知識查詢、知識推薦等其他智能應用的開發奠定基礎。
3.1.2 標準融合
在企業建設文檔智能化應用的時候,分別作為數據來源和技術來源的文檔知識庫和AI資源池應確保技術標準、傳輸標準、存儲、數據結構等的標準保持一致、相互支撐,避免出現多源異構數據,以及傳輸標準不一致導致人力物力浪費等。這需要文檔人員和信息技術人員在針對項目具體需要多少標準的支撐才最為合適、這些標準分別是什么、現有的標準可以直接使用還是再改進、可以直接借鑒或間接借鑒的標準有哪些、有哪些標準急需開發、哪些標準可以稍緩等一系列問題中,確認AI資源池與文檔知識庫融合過程中標準的數量、質量、內容、適用性等有待繼續深化的合并要求[11]。
以核電維修領域為例,維修規程作為核電文檔一部分,在建立知識庫過程中,需要根據維修規程的電子格式、頁面格式建立信息系統文件存儲標準以及文檔解析標準,從而正確實現數據的結構化提取。與此同時,AI資源池需根據同樣的標準建立知識模型,從而正確將知識庫的文檔數據輸入AI資源池進行關系提取、知識圖譜建立等相關操作。
3.1.3 技術融合
企業檔案管理者與信息工作者在建設文檔知識庫和AI資源池時,應關注知識庫業務層技術與AI資源池基礎技術上的協同點,實現兩者技術相輔相成。文檔知識庫建設中運用到的大數據存儲傳輸技術、私有云技術,可快速為AI資源池提供基礎性的圖紙、設備參數、合同文本、實體數據供給,AI資源池可為文檔知識庫提供知識抽取、自然語言處理、知識圖譜構建、文檔智能批分等數據加工必備的智能算法,通過兩者技術融合,企業可實現基于文檔數據建立知識圖譜、自動問答等智能化應用。
3.2.1 主體共建
企業知識庫與AI資源池的主體共建過程,作為跨學科合作項目,需要參考系統工程的相關標準,建立項目全生命周期模型及相關工作流程[12],建立遵循文檔生命周期的全部業務主體共建體系。通常企業的檔案管理部門與AI建設部門是相互獨立的,一般來說,文檔部門管理公司內部每個階段不同業務類別的文檔,并牽頭負責文檔知識庫的建設、管理、運作;信息部門負責公司信息化項目開發、管理、推進,負責企業AI資源池的開發、建設、運維,并配合業務部門提供AI技術服務。文檔部門牽頭推進文檔知識庫建設的時候,需協調信息部門提供技術支持,在AI資源池中提供知識抽取、自然語言處理、知識圖譜構建、文檔智能批分等文檔業務所需的技術服務接口,接口設計需由文檔部門參與并提供業務指導。融合進AI技術的文檔知識庫及其衍生的文檔智能化應用在運作過程中,由檔案人員對AI處理結果進行業務正確性審核,并將修正意見閉環反饋至AI資源池后臺,起到循環加強作用。
3.2.2 數據共建
在文檔管理業務領域,文檔部門在開展文檔知識庫及衍生文檔智能化應用建設規劃時,可通過設計周密的問卷對關鍵用戶進行調研,通過問卷獲得第一手資料,掌握關鍵用戶的檔案利用需求特點、所需的檔案知識類型、對檔案知識庫的功能和性能方面的要求,以此作為參考,細化或完善現有檔案知識庫的建設需求分析。以核電行業為例,核電企業的生產數據以SSC結構(Structure System Component)為數據標準架構,SSC為核電廠的構筑物、系統和設備的總稱,主要用于描述在電廠的設計、采購、安裝、調試和運營等階段中涉及的物理實體。
在核電文檔知識庫建設過程中,文檔部門根據建設需求與信息部門人員開展有效溝通,明確合作協議前提及相關管理規范,實現建成的文檔知識庫中各子公司、各部門間依據限定規程進行數據共享、交互、下載、上傳。為了實現這一目標,企業管理層根據SSC數據結構、各部門職能、文檔編制情況牽頭制定文件查閱、上傳、下載權限范圍,并通過公司管理程序固化,由文檔管理部門牽頭、公司信息部門支持,在智能文檔知識庫中設置用戶權限標準。
除了文檔領域自身的控制以外,文檔部門可進一步參與企業業務流程中數據流的模式構建與規劃,提高前端控制的能力,確保公司業務數據與文檔部門的管理策略相兼容。
3.2.3 技術共建
文檔知識庫建設需要文檔部門掌握成熟的業務管理技術,同時還需要信息部門提供高效的信息技術,滿足大數據時代對提高數據挖掘、信息組織等現有業務能力的要求。這就要求文檔部門與信息部門在文檔知識庫及文檔智能化應用建設規劃過程中充分溝通、明確需求。具體體現在文檔部門建設文檔知識庫前期需提供必要的技術需求,信息部門則提供有效的技術保障。
對于企業來說,企業文檔知識庫與AI資源池融合共建可以為企業帶來新型企業知識管理形態,為企業轉型、提高應變能力和創新能力奠定基礎,具體實現上可以從AI賦能知識、智能知識服務、數智轉型升級三個角度來進行闡述。
目前已有的企業文檔知識庫在建設過程中著重對已有知識進行關系梳理,然后基于文檔數據形成知識圖譜,知識圖譜只是一種知識表達的方式,僅僅從關系的角度展示知識。而將企業文檔知識庫與AI資源池融合共建,在服務建設上用AI賦能知識,可以更好地運用企業已有的文檔數據建設新型文檔知識庫,這樣的文檔知識庫不僅滿足基于文檔數據形成知識圖譜,而是基于形成的知識圖譜進行預測與推理,即通過AI技術賦能知識,使之從知識成為智慧,從而更好地提高企業決策水平,促進企業決策科學高效。
企業文檔知識庫與AI資源池融合共建,拓寬了知識庫與智能技術的服務形式,企業文檔知識庫從此前的靜態、被動的知識服務轉向動態、主動的知識服務,以決策需求為中心,從需求倒推,通過決策偏好分析和用戶建模等方式主動挖掘和預測決策需求。從內容角度而言,要求按照特定的決策領域來組織和實施服務,如在核電主業務、行政人事、外部事物等多維場景下,都能保證知識服務的內容滿足決策需要,避免“南轅北轍”的問題出現;從用戶角度而言,可針對用戶的角色、職能的不同提供特定的知識服務及決策方向,在企業整個動態組織架構下維持動態的、個性化的決策體系,從而滿足不同層級人員的工作需要;從過程角度而言,則需要針對特定的企業決策過程提供知識服務,保障在整個決策流程中不斷發掘需求,提供全程可靠的全流程知識服務。
企業數智化轉型是近年來熱門話題,企業成功的數智化轉型將引導企業走向更高層次的智慧化賦能,為企業帶來巨大收益,而企業文檔知識庫與AI資源池的融合共建能夠更好地推動企業數智轉型升級。對企業來說,數智化轉型即企業數字化、智慧化,傳統知識庫的建立,將企業的紙質文檔或電子文檔中的內容數據由整體轉化為零散信息,并經過加工形成信息知識庫,這實現的是企業數智化轉型的第一步即數字化轉型,而要實現接下來的智慧化,必須要引導企業在長時間中處于一個認知、學習、適應、接受的過程,而這個過程恰恰需要企業通過AI技術建立高效能的文檔知識庫,運用知識庫的信息結合AI技術進行學習、抽象、提取,通過各業務場景決策的推導、預測,不斷將傳統業務智能化,實現戰略轉型和業績增長。