施千里 劉雨欣 王可欣
(1.福建福清核電有限公司信息文檔處 福清 350300;2.中國人民大學信息資源管理學院 北京 100872)
在數據時代,企業文檔是企業中重要的數據,在企業運行發展中具有重要作用。當下,隨著人工智能技術的快速發展,其應用領域逐漸擴展到各行各業。其中,在企業文檔服務方面,文字識別、語義解析、實體識別等人工智能(Artificial Intelligence,簡稱AI)技術也發揮著越來越重要的作用。2018年12月,中央經濟工作會議做出要加快包括AI在內的新型基礎設施建設的部署,AI正日益成為助力社會經濟的發展重要應用基礎設施。“AI新基建”強調普惠性和低成本,其技術服務應更加注意各種軟件技術的開源開放,鼓勵以模型庫、算法包、開放接口等方式向公眾提供各種服務,降低技術門檻,提高開發效率。基于人工智能技術的企業文檔新基建,是企業文檔智能服務的基礎,提供智能服務是未來的發展趨勢。但目前AI技術的應用開發成本高,且具有較高的門檻。若企業根據每個業務需求都進行一次AI技術研發,那將消耗大量的人力物力資源,同時,由于每個系統互不關聯,隨著建設的規模越來越大,越來越復雜,維護成本也會呈直線增加,在新基建的背景下,如何將AI技術以更低的成本,更迅捷的方式應用于文檔管理,是目前文檔智能服務急需解決的問題。
為了更好的支撐企業文檔智能服務,本文提出構建面向企業文檔智能服務的AI中臺,來解決目前企業文檔在AI技術構建與應用方面的問題。AI中臺可以實現各種AI算法的集成和自由組合,以幫助企業更迅速的對前臺業務的變化做出反應。但目前國內外學界關于面向企業文檔智能服務的AI中臺的研究還較為少見,因此本文重點研究在于對面向企業文檔智能服務的AI中臺進行構建研究,旨在為AI中臺的建設提供理論依據。
通過對知網全文數據庫進行遍歷,以“ (文檔管理 + 檔案管理 + 文件管理) * 人工智能、(文檔管理 + 檔案管理 + 文件管理) * 人工智能 * 企業、人工智能 * 中臺”這些檢索式在知網的全文數據庫中進行檢索,篩選收集到相關的目標文獻。在對文獻進行篩選和梳理后,發現目前國內關于AI技術在企業文檔智能服務中的應用、AI技術的模塊化應用以及AI中臺的發展的研究情況如下。
AI技術在文檔智能服務中的應用主要有智能化鑒定、智能化檢索、智能化解讀、智能化利用等。[1][2]在“互聯網+”的背景下,網絡中存在大量的檔案信息資源,為了更好的利用這些資源,在對文檔進行鑒定和解讀的基礎上可以利用AI技術以智能化的手段,如智能Agent技術、專家系統、知識圖譜等,來提供面向企業文檔的智能服務,如智能檢索,智能解析等。
目前,AI技術在國內外企業文檔智能服務中均已取得了一定的成果。在國內應用中,科大訊飛股份有限公司將語音AI 技術應用到音視頻檔案開發和利用中,實現口述檔案智能化征集;[3]東軟集團利用人工智能技術在檔案管理系統中添加相關的業務規則,針對不同類型的檔案提供相應的質量校驗模型,并進行自動化檢查。[4]國泰君安證券股份有限公司采用人臉識別技術,對企業工作人員的照片或身份證信息進行采集以及特征化處理,并提取相關片段,應用于公司人物、專題等檔案編研,同時進行身份核對,保證企業信息安全。[5]江蘇核電采用圖像識別技術,對文檔進行自動化識別,可自動發現海量掃描數據中的異常圖像并輔助文檔管理人員快速處理。[6]而在國外,微軟亞洲研究院提出了結合文檔結構信息和視覺信息的通用文檔預訓練模型 layoutLM,在表單理解、票據理解、文檔圖像分類等任務的測試中均取得了目前的最佳成績;[7]意大利羅馬特雷大學的學者將機器視覺技術運用于梵蒂岡秘密檔案的轉錄工作,以解決傳統OCR識別技術對中世紀檔案文本識別誤差大、效率低的問題,從而提升檔案轉錄工作的精準度和效率;比爾肯特大學研究人員提出建立一個基于場景的視頻監控檔案查詢系統。該視頻監控檔案查詢系統通過引入倒置追蹤方案,可以實現對以場景為單位移動對象的查詢和搜索,同時,該系統配置了視覺查詢專屬界面,用以提升圖像檢索的精確度。[8]
AI技術的開發具有成本高,周期長,門檻高的特點。為了使AI技術能夠快速的在各種應場景中進行應用,很多企業開發了AI平臺,以此提供各種AI技術的接口,以供用戶快速使用。如百度的AI開放平臺,騰訊AI開放平臺,阿里智能應用平臺,京東AI開放平臺等,都可根據用戶提出的需求,直接調用組合平臺中的各種AI技術,幫助用戶快速使用AI技術來面對各種業務場景。2020年10月12日,李彥宏在第三屆數字中國建設峰會上提出了“樂高模式”[9],指將各種技術能力模塊化,使用者根據具體的業務場景,可以對這些模塊化技術能力進行自由組合,迅速搭建能夠應對該需求的技術體系,AI技術的樂高模式可以幫助每一個企業以較低的門檻較為迅速的向智能化轉型。模塊化的人工智能技術體系調用也可被稱“U盤式創新”[10],即面對不同的業務場景,企業可以使用不同的人工智能“U盤”,即插即用,這種U盤式思想極大提升了人工智能的利用效率。
在基礎設施智能化層面,AI技術應用的樂高模式已成為未來的發展趨勢。而中臺的建設為AI技術“樂高模式”的發展提供了平臺。國內最早建設中臺的公司是阿里巴巴,自從阿里巴巴集團宣布啟動“中臺戰略”以來,中臺技術也受到了越來越多企業的關注。其中,AI中臺是對企業需要的算法模型提供了分步構建和全生命周期管理的服務,讓企業可以將自己的業務不斷以“模塊化”的形式下沉為一個個算法模型,以達到復用、組合創新、規模化構建智能服務的目的及業務賦能的作用[11]。AI中臺可以作為“樂高模式”的具體實現方式,各種模塊化的AI技術能力集中在企業內部的AI中臺中,基于AI中臺企業可以對內部的AI技術及算法進行集成化管理,并根據不同的業務需求對AI基礎算法進行快速組合開發,通過AI中臺的建設與使用,可以實現“AI樂高模式”從理論到實踐的轉化,AI中臺的構建為“樂高模式”的實現提供了解決方案。目前,基于AI技術在文檔智能服務中的重要作用,若將AI中臺也應用于文檔智能服務中,那對企業文檔智能服務發展也會有極大的提升。
從以上相關研究中可以看出,AI技術的模塊化應用已逐漸成為一種趨勢,同時AI技術在企業文檔智能服務中也有著重要的應用,各大企業也正增加AI技術在其中的比重,但很少對相應的AI技術進行集中的訓練與管理,更多的是根據不同的業務場景中進行即時的選擇與開發,造成了一定的資源冗余與浪費,且無法快速響應業務需求的變化。在當前的研究中,對面向企業文檔智能服務的AI中臺的構建關注相對較少,這也為本文提供了研究空間。
根據文獻調研和企業在生產活動中的實踐,本文對面向企業文檔智能服務的AI中臺的建設需求進行了分析,主要從文檔數字化、知識化和AI技術優化兩方面進行了梳理。
目前企業普遍對文檔的利用不夠充分且效率低下。文檔大部分以紙質版的形式進行存儲,利用效率較低,無法在數據層面對企業各文檔中蘊含的知識進行挖掘與深化,這樣企業難以從以往大量的文檔數據中獲取更多新的知識;同時在企業的各項信息化建設中,數據孤島的現象比較嚴重,文檔之間沒有建立完整的關系網絡,各個項目之間的文檔信息之間沒有實現互通,無法形成共享數據池,為企業之后的各項任務提供接口和數據服務;并且文檔中的各項知識元也缺少知識關聯,在搜索某一關鍵詞時,無法提供與之相關的完整的知識網絡,現有系統難以回答有關機組的發散性、綜合性、開放性的問題。
而AI技術的應用可以為以上提到的企業文檔智能服務中存在的問題提供解決方法,企業文檔數字化、數據化、知識化已成為一種新的趨勢。其中OCR文字識別技術可幫助企業對紙質檔案數字圖像文件中的各種字符進行識別,實現文字轉換,是文檔從數字化向數據化轉化的重要步驟。這對推動紙質檔案管理具有重要的意義;圖像識別技術可以幫助企業對圖像文檔中的各類特征進行識別,如人、物、地點等,實現圖像文檔的智能管理;自然語言處理技術可對企業中不同類型的文檔進行處理,以實現文檔的統一管理,消除信息孤島,同時,自然語言處理技術可以將文檔中的非結構化數據變為結構化數據,并按照相應類別進行存儲,利于后續企業文檔的圖譜化組織與構建,形成企業文檔知識庫,構建基于知識庫的智能問答應用,提升文檔利用效率,以實現企業文檔表示結構化、組織知識化、利用智能化,更好更快的面向各種個性化業務。
隨著AI技術在企業文檔智能服務中的應用,如何優化AI技術的開發及利用,也成為了企業急需解決的問題。若每出現一個業務需求,都需要根據該業務場景進行一輪分析、數據收集、數據整理,模型建立、模型訓練,最后構建系統進行應用,那將耗費大量的時間和物力成本,AI技術開發周期長,成本高的特點,將導致系統無法快速響應快速變化的業務需求;同時,AI技術的開發流程以及某些算法高度類似,通用化程度很高,如果缺乏規劃,對于每個業務需求,系統的開發都會經歷完整的流程,會造成大量的重復建設,在這樣不斷重復的過程中,建設的系統會越來越多,即意味著矗立的煙囪越來越多,長此以往,整個系統的規模越來越大,系統越來越復雜,維護人力和成本直線增加,但效果卻不盡人意。并且各系統之間互不相通,各部門的文檔數據缺乏連貫性,信息無法共享。AI系統也無法從這些大量的文檔數據中更快更準確的挖掘出其中蘊含的信息,為業務決策提供更精準的支撐。由此可見,企業在實現文檔數字化、化知識化之后,需要進一步實現AI技術系統敏捷開發,降低系統耦合度,和信息互通。
針對以上需求,面向企業文檔智能服務的AI中臺的建立能幫助企業在實現文檔數字化、知識化之余,把各種通用AI技術能力算法、標準下沉,形成通用的算法池,這樣在面對新的業務需求時,可對算法池的各項算法能力進行靈活組配,調取即用,以此來減輕后臺系統的運算負擔,快速響應前臺業務變化。同時算法池的實現易于AI技術能力的擴展和自我學習,在需要更新和維護時,只需維護更新AI中臺算法能力,即可實現對所有應用系統的技術升級,這樣的快速迭代,可極大降低人力物力成本。
本文以中臺思想為基礎,對面向企業文檔智能服務的AI中臺模型進行初步的構建,包括數據層、AI基礎設施層、文檔AI能力層。并根據AI技術在文檔管理中的應用,對中臺中進行應用的AI技術進行優選。
百度作為中國AI的先行者,在AI技術領域有著較為明顯的優勢,目前,百度智能云已為國家電網、央視等客戶提供了產品與方案,效果良好,架構通用性和適用性較強。因此,本文參考百度智能云的AI中臺架構[12],在此基礎上構建面向企業文檔智能服務的AI中臺架構。百度智能云的AI中臺主要包括開發中心和資產中心,開發中心主要包括數據處理、資源調度和模型生產三個部分,數據處理、資源調度主要是為上層模型構建提供底層資源,以便其進行模型構建和訓練;資產中心主要包括模型中心、能力中心和資產共享中心,主要是根據下層的模型訓練進行算法集成,形成各種可調用的AI能力。考慮到該AI中臺主要是將其內部的各種技術及算法提供給其他的公司使用,且面向企業文檔智能服務的AI中臺主要是以文檔為主要數據源,采用的AI技術服務于文檔管理,與百度的AI中臺有較大的差異,因此本文在此基礎上,結合AI技術在檔案管理中的實際應用情況,將文檔AI中臺分為了數據層、AI基礎設施層、AI集成算法層。企業文檔AI中臺構架如圖1所示。

圖1 面向企業文檔智能服務的AI中臺架構圖
3.1.1 數據層
數據層的數據存儲于數據庫,是數據庫中被指定用于上層算法模型訓練的數據,主要是企業中各個業務所產生的文檔數據,包括各種文件數據如公文、信函、生產文件;信息系統數據如技術文件;檔案如工作記錄等,同時數據層具備對文檔數據中數據的獲取、聚合能力,如從文檔數據中獲取各種三元組,形成“知識庫”,這些基于文檔的關聯數據,可以作為構建語義檢索模型數據集,訓練語義檢索模型,并且用于文檔類別模型的自動聚類與分類。數據層對數據庫中的數據進行清洗,篩選,標注,提供跨域數據的治理能力,并將可用數據抽象封裝成服務,作為AI中臺模型訓練的數據基礎。同時,數據層可以規定企業文檔數據的固定格式,以避免各種不規范的文檔后續難以利用的問題,方便計算機的統一識別、整理與提取。
3.1.2 AI基礎設施層
AI新基建強調各類通用技術的開源開放,以開放接口、模型庫、算法包等形式向公眾提供開放共享式的服務,AI基礎設施層作為中臺的底層通用算法訓練層,是將各項最基本AI算法能力池化,以便上層進行調用組裝。本文擬構建多個AI算法池,包括文字識別、圖像識別、自然語言處理這些與文檔管理緊密相關的算法,同時提供外部算法的接入接口。AI基礎設施層將構建成為各項算法的底層“基板”,利用數據層提供的數據,對其進行進一步的提取與解析,以此為基礎進行AI學習、預測、分析,形成可復用的模型庫。AI基礎設施層是在滿足技術算法集成化和文檔數據進一步處理要求的同時,將各個算法進行模塊化解耦,滿足外部算法的快速集成與未來新算法的持續擴展。
3.1.3 文檔 AI能力層
文檔AI能力層是根據不同的文檔智能服務需求,對AI基礎設施層中各項基本算法進行拼接整合后,形成面向不同智能服務的AI技術能力,即形成各種AI“工具包”,以解決不同業務場景的需要,例如面向文檔領域的專有命名實體識別能力,可以對其直接調用以識別紙質文檔中不同文本類型中包含的實體:首先通過OCR技術對文本進行掃描,對于表格文本和圖像還需使用表格識別和圖像識別技術,再通過自然語言處理技術中的專有名詞識別技術進行實體識別,以到達預期效果。類似的AI技術能力還有面向知識圖譜構建的文本關系抽取、面向智能問答的自然語言語義解析、面向圖片分類的對象檢測場景識別、面向人物照片分類的人臉識別等,這些AI技術能力提供可統一調用的接口,如HTTP RESTful API、應用程序SDK等,以便滿足系統AI能力調用和集成需求,從而能更加敏捷的對各種智能服務做出反應。
依據層次模型的架構,AI中臺得以更好支持前臺創新的關鍵在于AI應用能力的建設。一方面,需要技術基礎設施的構建;另一方面,AI中臺還需實現能高效迭代、敏捷響應的一系列AI應用開發流程。基于企業文檔數據的管理閉環,AI中臺需要提供統一的數據存儲、模型訓練以及模塊部署與接口調用等,因而優選人工智能技術和搭建AI應用敏捷化開發通用流程是技術實現路徑的重點。
3.2.1 人工智能技術的優選
作為支撐AI基礎設施層的重要組成部分,人工智能技術需要基于細分技術或算法來集成AI中臺三大算法池。而針對文檔管理方面尤其是文檔對象識別、語義分析、關系抽取等方面的應用,需要優選相關技術并形成一定的AI體系。
基于企業文檔智能服務的業務場景需求,技術優選的原則如下。除了必須包含機器學習、深度學習作為核心基礎,大多數AI技術也往往與其他人工智能組合使用或者作為輔助為需求決策服務;原則上選取的技術應當在文檔智能管理方面已有廣泛的應用場景和可行性,能夠完成對文檔的識別、知識提取和關聯乃至進一步分析挖掘及可視化,以支撐企業智能服務的具體功能應用。另外,AI中臺系統優化和數據存儲維護勢必還依賴于基于云平臺或邊緣計算平臺的底層數據管理技術,才能保證自下而上的正常運行。
據此,自然語言處理、OCR識別、計算機視覺、機器學習、深度學習、智能查詢、用戶畫像技術、數據可視化和數據存儲等底層數據管理技術成為企業文檔智能管理中更為適用、常見的技術。而在體系架構層面,人工智能技術體系的分類研究尚未形成統一的觀點,但由于人工智能作為多學科交叉結果和通用型技術,在企業文檔智能管理方面的應用處于更為更新快速、變化劇烈的動態發展狀態,它同上下游的相關技術和應用一起形成錯綜復雜的技術體系網絡。為求全面,本文參考沈應龍的研究[13],遵循根技術、核心共性技術、智能應用技術的層次分類提出AI中臺的人工智能技術體系(見圖2),作為AI中臺架構過程中應用AI技術賦能、開發應用的參考和基礎。

圖2 面向企業文檔智能管理的人工智能技術體系
3.2.2 面向智能服務的AI應用敏捷化開發
AI中臺的核心是將算法模型融入進來構建上層智慧服務,通過不同能力的組配和功能邏輯實現、構筑多種不同的應用,從而實現面向智能服務需求的快速迭代、有效復用。因此其減少重復建設的點就在于,將每一個業務所拆解的AI應用開發任務都需經過的通用開發流程步驟集成為算法設施,實現敏捷化開發。
從開發生命周期來看(見圖3),每個AI應用的開發大體都經過業務需求理解、模型能力學習、模塊集成處理三大層面的流程步驟[14][15],并加以迭代更新。

圖3 面向智能服務的AI應用敏捷化開發流程
(1)業務需求理解
根據業務需求設計實施開發方案、服務編排、服務共享。分析技術需求,明確數據獲取要求、模型訓練任務和應用開發的部署封裝指導。
(2)模型能力學習
包括數據獲取、數據清洗、數據標注特征工程和模型訓練等。
獲取數據(可能包括文檔“知識庫”數據、業務數據、用戶交互數據等),對數據進行標注和重新加工,最終輸出模型訓練數據和生產數據。隨后依據模型服務任務、訓練數據和其他相關信息進行模型能力學習。實施過程中首先進行特征處理,再將特征輸入模型進行編碼和訓練;將模型訓練結果輸入模型追蹤的功能組件進行模型評估;最終經過迭代獲得最優訓練模型輸出。
(3)模塊集成處理
將訓練的模型能力進行模塊化組裝構建,以“樂高模式”進行AI應用能力管理。對業務和技術需求調整具體參數配置,通過接口調用的形式完成能力組配和功能邏輯實現,構筑面向企業文檔智能服務多態化需求的不同應用系統。
面向智能服務的AI應用敏捷化開發流程整體呈現半閉環狀態,基于業務場景、技術需求進行模型學習和能力構建,經過評估和部署的模型完成開發并進入性能監控階段,從而進一步實現模型的應用、完成文檔數據的分析與展示,實現AI能力開發后的模塊化功能集成與接口調用。
企業文檔工作主要包括收集、管理和利用三個環節,在收集文檔數據的基礎上,面向智能服務的文檔管理是手段、文檔利用是最終目的[16],AI中臺的構建應用大幅提升了企業在文檔業務不同階段的潛力。
一方面,AI中臺通過對基于文檔知識數據的算法能力復用,更方便從大量文檔中快速準確地挖掘信息,充分利用企業隱性知識,從知識層面加強文檔管理[17]。AI中臺建立通用算法池,避免了算法能力的重復建設,所有算法只需要開發一遍再進行實時調用即可;通用算法池作為中間調度板塊,加強了文檔管理系統與其它管理平臺的集成與關聯程度,促進企業內部的信息互通、知識共享。在文檔管理粒度精細化的基礎上,中臺的應用從分發、檢索、存儲管理等方面提升了對文檔全流程聯動管理的效率,進而能夠靈活響應業務需求變化。
另一方面,AI中臺對企業文檔信息的利用模式,是將數據模型服務與業務解決方案之間進行連接,使每個層級都有用以提供文檔挖掘能力的可復用機制。集成AI算法能力的技術池,能避免所需應用能力的重復建設,在不同場景需求的功能要求下直接調用、集成其中相關的AI算法能力,再進一步對文檔內容進行提煉、加工,更便捷高效地完成信息編研和知識服務,從而達到直接面向企業文檔智能服務應用、提高文檔挖掘開發程度與信息利用率的效果。
(1)技術優化效益
AI中臺在企業文檔智能服務中的應用將實現一種全局化管理的技術優化,它通過人工智能的模塊化集成調用組合形成創新的技術產品的模式,搭建出可以實時調用技術能力的中間層平臺。通過實現技術優化,更方便根據業務需求所屬場景和領域進行高效組配、敏捷開發,從而達到快速響應;也使得底層算法與面向需求的技術能力相對獨立分離,能對文檔非結構化數據快速結構化、語義化,提升數據價值和文檔利用率,以增強中臺效益的可持續性。
(2)人員組織增益
面向企業文檔智能服務的AI中臺在一定程度上能有效解決“重復造輪子”問題,進而降低開發成本,在一定程度上減少技術人員消耗。中臺理論本就是為打破煙囪式開發弊端而興起的算法能力模塊化調用思想,其本身即為多個系統建設應用打造一般化的“中央調度中心”,大大較少了項目建設的人力物力消耗;而AI中臺則更進一步充分利用人工智能技術算法為中臺的敏捷化開發賦能。AI中臺的有效復用性得以加速文檔利用周期、有效提升業務人員和文檔管理者的工作效率;同時,企業從低產能階段得到改善文檔工作流程、優化企業業務流程的創新機會,從而能進一步優化組織結構。
(3)制度創新成果
在信息化智慧化需求越發普遍的企業環境中,AI中臺對于以文檔智能管理為核心業務的大中小型企業都將實現制度化模式轉型。人工操作到算法智能的進步,使得基于文檔智能服務的建設成果完成從傳統文檔管理模式到數字文檔管理模式再向文檔智能管理模式的有效轉型。而得益于文檔工作模式的轉變,AI中臺能進一步實現文檔的知識化活化,在完善企業化建設的基礎上,向業務驅動、AI加持、知識服務的3.0時代邁進。
隨著 AI 的深度發展與應用,檔案領域不可避免卷入AI浪潮中,為突破企業文檔管理工作中的棘手問題,提供新的機遇,中臺的建設引起了眾多企業的關注。本文借助中臺思想,構建了面向企業文檔智能服務的AI中臺整體框架,并對AI中臺的構建流程進行了簡單的介紹,同時對AI中臺應用的效益進行了分析介紹。一方面,當前國內對于中臺結合人工智能技術應用相關的文獻極少,對企業文檔智能管理的研究也尚處于起步階段,本文從理論層面貢獻了此類問題的創新研究角度與突破點;另一方面,文章針對新時代企業文檔智能管理的需求提出了AI中臺的層次模型架構與技術實現路徑,對企業具有一定的實踐指導意義。但整體而言,面向企業文檔智能服務的AI中臺在企業工作中的應用還處于嘗試和探索階段,需要經過實踐來不斷完善,這也是下一步研究的重點。