許健 耿海波 陳生 楊璇

習近平總書記在黨的十八屆三中全會第二次全體會議上提出:“推進國家治理體系和治理能力現代化,就是要適應時代變化,既改革不適應實踐發展要求的體制機制、法律法規,又不斷構建新的體制機制、法律法規,使各方面制度更加科學、更加完善,實現黨、國家、社會各項事務治理制度化、規范化、程序化。”
近年來,制度建設和制度執行力的提升已成為國家和各行業高度關注的焦點。特別是隨著人工智能領域的快速發展,自然語言處理(Natural Language Processing,NLP)技術取得了突破性進展,大規模預訓練模型將NLP技術能力帶上了新的高度。數字化轉型背景下,銀行制度作為一種典型且重要的文本數據,亟須通過NLP新興技術對其進行智能化分析及應用。本文立足金融機構和監管機構視角,創新運用一系列NLP新興技術解決銀行制度管理的實際需求,以期為數字化轉型視角下的銀行制度管理提供新思路。
NLP領域技術發展趨勢
作為人工智能的一個核心技術,NLP通過訓練讓計算機了解如何運用人類處理方式解讀問題并給出恰當反饋。當前的人工智能產業結構已經日趨成熟,主要包括三個層面:一是涵蓋軟硬件設施和數據服務的基礎層;二是囊括了基礎框架、算法模型以及通用技術的技術層;三是覆蓋各個行業中的產品、服務及解決方案的應用層。NLP定位于技術層,是從感知智能向認知智能應用升級的核心技術。NLP技術的實用價值在于海量非結構化文本數據處理,并將數據挖掘和機器學習在結構化數據上的智能化能力帶入非結構化文本數據領域,從而創造更高的社會實用價值。典型的NLP技術包括分詞、關鍵詞識別、詞性識別、相似詞識別、短語識別、主題提取、摘要提取、文本聚類、文本分類等。
自2001年至今,NLP技術經歷了從神經語言模型到神經網絡,再到大規模預訓練模型的過程。2001年,圖靈獎獲得者Yoshua Bengio等人提出了第一個神經語言模型,即前饋神經網絡。語言建模的主要任務是給出文本中前部分詞語去預測下一個詞語,可用于智能輸入法、電子郵件響應建議、拼寫自動更正等多個場景。2008年,NLP神經網絡訓練中首次引入多任務學習方法,即在多個任務上訓練的模型之間共享參數。該方法對于模型訓練數據有限的情況實用性較高。2014年前后,NLP技術開始廣泛引入循環、卷積和遞歸等神經網絡模型。2018年至今,NLP主要應用基于深度學習的大規模預訓練模型。
目前,NLP技術已逐步在助力銀行數字化轉型升級、醫療行業智能化發展等領域發揮出關鍵作用。作為重要的大數據處理技術,NLP技術應用場景廣泛,主要聚焦于文本分析、人機對話、輿論監控等方面,可有效提高企業運營效率并替代規律性人力工作。特別是在銀行制度文本數據識別、抽取、匹配與處理相關的海量結構化和非結構化數據應用場景中,NLP技術具備人工處理無法達到的效率。
銀行制度管理現狀及改進方向
銀行制度管理業務痛點
銀行相關從業人員在學習制度、編發文件的過程中,可能經常會面對制度文件繁多、關聯關系不清等問題,導致學習工作質效不高,甚至因為制度內容存在語義層面的沖突而影響制度建設的嚴肅性。因此,銀行迫切需要依托新興數字化技術搭建學習和工作平臺,對各項制度進行全面、智能化的梳理,形成科學、規范的制度分類,分析制度的貫徹落實情況,輔助銀行查漏補缺完善制度體系、融會貫通厘清制度關系、科學統籌提升制度協調性,支撐銀行踐行治理體系和治理能力現代化理念,并落實強化金融標準供給、狠抓金融標準實施的工作要求。
當前,以NLP技術應用為代表的合規科技能夠有效助力銀行降低合規成本、滿足相關制度合規要求。本文提出的合規科技技術方案以數字化形式實現對制度數據和信息的及時、準確處理,并支持對新的制度初稿與現行監管規制是否存在語義沖突進行識別,以提高制度編寫效率及合規性。
銀行制度管理的NLP應用
NLP技術在銀行制度管理場景展現出了廣闊的應用前景。本文創新提出“SIGMA”應用框架,通過將NLP及相關知識圖譜、OCR(光學符號識別)等技術應用于制度文件智能化分析系統,基于錄入的監管制度、金融標準化等文本信息,為銀行在相關業務場景進行制度管理的數字化轉型和智能化升級提供支持。
一是文件內容標準化(Standardization of documents),統一標準,提高銀行管理能力。通過構建多級文檔分類模型和信息抽取模型,將電子版制度文件系統地進行分類整理,利用信息抽取模型自動提取文檔的重要信息,并按照便于查閱的方式,將文檔內容進行標準化管理,從而形成一套完整的、可供實時查詢的制度內容庫。通過OCR系統對圖片和PDF格式的文件進行文字識別,將原文件轉換為文字版本,以供信息抽取模型做進一步處理。
二是文件分類智能化(Intelligent classification),查漏補缺,完善銀行制度建設體系。依托中文Roberta-base模型,對導入系統的海量制度和文件進行智能分類,幫助使用人員從制度組成和制度內容兩方面健全制度體系。這樣一方面快速建立起了制度體系,能面向使用人員提供可視化展示,直觀反映當前制度體系的結構組成,幫助使用人員從制度結構組成上進行查漏補缺;另一方面通過提供對制度文件的語義分析,為每個制度形成摘要信息,可幫助使用人員快速掌握制度核心內容,從制度內容上進行查漏補缺。
三是文件關系圖譜化(Graphically presentation),融會貫通,厘清銀行制度關系。通過運用TF-IDF、Word2Vec、SBert三種基于關鍵詞和語義的內容匹配算法,構建智能搜索引擎。智能搜索引擎不僅能夠實現快速檢索、相關度排序等經典功能,還能夠通過構建語義沖突文本案例的文本特征,提供內容沖突性分析、內容語義理解、智能信息化過濾等新興功能,并通過文件關系圖譜化技術予以可視化展現。
四是考核依據多面化(Measurement diversity),綜合評價,督導銀行制度執行。面向制度執行單位開展考核工作時,考核材料的真實性辨別存在盲區。為幫助基層單位掌握各項制度和文件的落實情況,系統提供制度執行評價功能,運用語義分析技術,對制度執行單位的工作報告、新聞動態等多種類型的文字材料進行綜合分析,降低材料造假的可行性,從而識別出執行單位對制度的貫徹落實情況,為相關評價工作提供參考。
五是語義沖突識別精準化(Accurate detection),科學統籌,提升銀行制度協調性。通過NLP技術,對指定的制度條文進行關鍵詞譜、文本詞云圖、文本摘要、網絡關系圖等方面的分析,盡可能全面、簡潔地展示制度條文的全部內容。同時提供語義沖突分析功能,既可以對存量制度的矛盾點進行精確定位,也可以將本地文件上傳到系統中進行智能分析,篩查是否與存量制度存在沖突,為編撰新制度提供參考,從而提升制度之間的協調性和一致性,提高制度編撰的質量和效率。
基于NLP技術的銀行制度管理系統
基于NLP技術的銀行制度管理系統由前端、算法和后端三大模塊組成(見圖1)。
前端模塊包括客戶端(PC瀏覽器展示)和服務應用層(涵蓋內容分析、摘要生成、情感分析、關聯性分析、圖譜可視化和相似性分析)兩部分。前端基于Vue2+Axios+Element+Vuex +Vue-router的技術架構,集成ECharts可視化框架,集成OCR技術,支持多種類型的文件識別。
算法模塊包括引擎層和算法技術層兩部分。引擎層包括NLP引擎和OCR引擎。算法技術層涉及實體識別、關系抽取、知識融合、實體消歧和實體鏈指。算法模塊使用BERT、mDeBERTa-v3、RoBERTa、LSTM、TF-IDF等多種自然語言模型,可實現數據的自動標簽、自動分片、自動特征,結合快速排序算法可實現語義級別相關內容匹配、外部法規和內部制度條目級別自動關聯。
后端模塊包括數據加工層、數據庫和數據底座三部分。數據加工層涉及非結構化數據、結構化數據和半結構化數據的加工。非結構化數據加工部分配置有圖標解析引擎、OCR解析引擎、文本解析器和表格解析器,從而能實現實體識別、相似度識別、關鍵詞和事件抽取。結構化與半結構化數據加工部分,在ETL基礎上,通過規則引擎對規則進行配置和執行。數據庫主要涉及MySQL和MongoDB。數據底座由海量規章制度和金融標準等非結構化數據組成。后端模塊基于Python+Flask+MySQL+MongoDB的技術架構,通過uWSGI服務,將后端計算結果反向發送到前端服務,再由前端服務處理后顯示到客戶端。
結語
銀行數字化轉型背景下,蓬勃發展的NLP技術為銀行制度管理的科學化提升提供了全新的解決方案。通過完善的文件檢索、待發制度語義沖突分析、關鍵條文圖譜化等功能,以NLP為代表的人工智能技術能夠全面革新銀行制度學習、標準宣貫、文件管理的工作模式,顯著提升銀行對業務條線專用文件的學習與檢索效率,大幅降低海量文本數據存儲與管理成本,為銀行系統踐行治理體系和治理能力現代化等理念提供堅實的技術支撐。
(龍盈智達〔北京〕科技有限公司金雨、關宇航、王彥博對本文亦有貢獻)
(作者單位:中國人民銀行烏魯木齊中心支行, 龍盈智達〔北京〕科技有限公司)
責任編輯:孫 爽