邵甜甜 霍義方
摘 要:飛速發展的信息技術對檔案管理工作帶來了前所未有的挑戰和機遇。本文理論結合實際,從“前端”、“自動”、“校驗”以及“服務”四個方面構建人工智能技術為檔案工作提供的應用策略,最終實現文檔全過程控制和檔案自動歸檔服務。
關鍵詞:人工智能;全過程控制;自動分類;主動服務
1 引言
隨著信息化與數字化的快速發展,人工智能技術已經應用在各個行業領域,其應用也為檔案管理工作帶來了一系列歷史性變革與發展的機遇。通過人工技能技術改變傳統檔案管理模式與方法,提升檔案管理生產力,為提升企業核心競爭力提供信息服務顯得尤為重要。
2 文檔全過程控制與檔案自動歸檔服務
1)文檔全過程控制。文檔全過程控制區別于傳統的檔案管理,是指根據文件的全生命周期,采用科學的方法和手段對文檔各個階段的真實性、準確性、規范性、同步性、完整性、系統性、高效性、安全性進行管控,使文檔始終處于有序合理的狀態,有效積累企業知識資產。
2)檔案自動歸檔服務。檔案自動歸檔服務區別于傳統的檔案整理、歸檔與利用,是指將檔案分類、檔案鑒定、檔案著錄、檔案編目、檔案歸檔、檔案利用等流程節點線上化、自動化、前端化、主動化。傳統的檔案整理、歸檔與利用是一項繁瑣、重復、枯燥、耗時、易錯的工作,通過對人工智能技術的引入,實現檔案智能分類、智能鑒定、智能編目、智能歸檔、主動服務等。
3 可行性分析
1)理論基礎。(1)文件連續體理論。20世紀90年代,澳大利亞檔案學者阿普奧德創建并完善了文件連續體理論。文件連續體理論將文件的運動過程看作為一個連續統一體,并通過多維坐標體系(文件保管形式軸、價值表現軸、業務活動軸和形成者軸)來描述文件的運動過程。它更加靈活的闡釋了文件運動的規律以及主客體之間的聯系,更加強調文件運動的多維性、整體性與連續性。(2)新來源觀?!靶聛碓从^”的倡導者特里·庫克從新的視角賦予了來源概念新的涵義,使來源更加抽象化和概念化,即“來源不僅指文件的形成機關,而且包括其形成目的、形成活動、過程、處理程序和職能范圍等”。新來源觀為電子文件智能捕獲與分類奠定了理論基礎。(3)宏觀鑒定。從年齡鑒定論、行政官員決定論、職能鑒定論、文件雙重價值論發展到宏觀鑒定理論,視野不斷的擴大,關注點逐漸從“重視案卷的年齡以及肯定來源原則——形成機關的地位與職能——文件屬性與利用者需求——文件的職能背景”進行演變,檔案價值從第一價值發展到了雙重價值,最后上升到社會價值,視野逐漸廣泛化,為智能鑒定提供了理論基礎。
2)信息技術。自然語言處理技術(NLP)是人工智能的一個子領域,通過對已有標準庫進行深度學習與訓練,將卷積神經網絡(CNN)應用到文本分類任務。使用Python作為分類技術引擎的開發語言,更便于接入TensorFlow或Keras等深度學習框架,用Text-CNN或RNN作為分類模型,將Word2vec訓練好的詞向量初始化,訓練過程中再對詞向量進行微調,完成對檔案自動分類與自動歸檔。
搜索引擎的技術可用于推薦系統完成檔案主動推薦與服務,搜索引擎解決運算性能的一個重要的數據結構是倒排索引技術(Inverted Index),而在推薦系統中,一類重要算法是基于內容的推薦(Content-based Recommendation),這其中大量運用了倒排索引、查詢、結果歸并等方法,另外點擊反饋(Click Feedback)算法等也都在兩者中大量運用以提升主動提供推薦服務的效果。
4 人工智能技術應用策略
1)前端捕獲。將檔案管理的理念、方法提前融入到文件過程中去,在電子文件產生階段,通過語音識別、機器學習、神經網絡算法等相關信息技術讓計算機智能分析,通過模仿人腦的機制來解釋和處理數據,建立大腦神經網絡系統傳遞信息,分析圖像、聲音和文本。從而實現在電子文件產生階段,前端自動捕獲業務系統中的元數據,為檔案整理提供接口,根據分析結果自動鑒定檔案價值,推送保管期限建議值,將檔案屬性和管理方法納入文件產生階段,為全過程控制和自動分類奠定基礎。
2)自動分類。實現檔案的自動歸檔其中一個重要步驟是檔案自動分類,通過自然語言處理技術來實現。自動分類的標準化模型建立的過程,需要對大量的已完成分類的檔案數據進行訓練,訓練的文本數據可在檔案文件題目或文件中文中提取,識別準確率和識別效率隨著訓練量級的增多和模型算法的優化而提升。在電子文件產生階段,通過自然語言處理技術,基于行業檔案標準分類與前端捕獲的元數據,便可匹配合適的檔案類別,分類過程包括數據訓練、特征抽取、訓練模型、分類預測等幾個主要環節。通過業務接口將前端捕獲和自動分類的電子文件歸檔到檔案系統之后,可采用可視化的電子檔號章和自動編頁等技術,實現檔案著錄的自動處理。
3)規范校驗。規范校驗包含校驗文檔的完整性、規范性,完整性校驗針對項目檔案尤為重要,項目文檔過程的完整性和及時性更是衡量項目文檔全過程控制結果的最佳衡量標準之一。在文檔的任何階段,均可將現有文檔與模板進行比對,通過可視化數據分析,呈現出文檔完整率以及缺失的文檔類別。規范性校驗將通過設定的合規程度,由系統輔助人工進行二次判斷和處理。主要針對文檔的簽署常見問題:簽章手續不完備、代簽、漏簽、無簽署日期等,利用計算機學習相關技術,將文本進行OCR處理后再進行特征分析,對于空白率高的文檔,以及確實簽字的進行篩選,并使用Open-cv的圖像識別算法,對簽章進行圖像識別,最終反饋不規范文檔序列。
4)自主服務。檔案利用是整個檔案管理工作的出發點和終極目的,搜索是利用者獲取檔案信息的主要手段。目前無論是電子檔案系統和智慧庫房管理系統都提供了較為豐富的檔案搜索功能,但均處于被動等待的角色。通過人工技能技術,根據用戶的崗位角色及其歷史搜索的內容,完成檔案信息的推薦,變主動為被動,讓用戶獲取推薦結果的過程可以是持續的、長期的,增加用戶的對于檔案利用的“粘性”。
5 風險分析與對策
1)安全風險。檔案自動分類模型需要對大量的、異構的、多元的真實檔案數據進行模型訓練,建模過程將會需要采集大量檔案數據做整合訓練,相關合作技術團隊可直接或間接接觸到檔案數據,在內容防擴散方面和數據安全管理方面帶來了挑戰。針對數據安全風險,可形成固定的研究團隊,對數據進行嚴格保密,并組織專業技術人員形成監管小組,建立電子檔案安全保密制度,簽訂安全保密協議,并對研究團隊人員進行安全保密教育。建立監管機制,對技術研究服務機構的保密、安全措施落實情況進行監督、檢查,杜絕研究服務機構擅自復制、留存、使用檔案數據的行為。
2)技術風險。人工智能技術的開發對比目前的檔案管理系統而言,對檔案管理軟件供應商需要有較高的技術要求,對提供人工智能服務的科技公司又有一定的業務門檻,如何基于檔案業務結合人工智能技術需要選擇合適供應商,具有持續的技術開發能力,最大限度的滿足企業對系統的開發需求。針對技術風險,可選取技術能力較強,穩定的檔案管理軟件供應商進行長期合作。加強溝通與協商,從規劃制訂到項目實施,請供應商全程參與,以充分了解需求,將可能的技術難點考慮全面。
6 結束語
互聯網+時代,人工智能對各行各業都造成了深遠的影響,檔案行業也不例外,將人工智能技術與檔案工作緊密結合,充分挖掘先進的信息技術,業務引領技術,終將迎來檔案工作的自動化與智能化。