楊 波,楊美芳
(江西財經大學 信息管理學院信息系,南昌 330032)
隨著信息技術、人工智能以及大數據技術的持續發展和不斷變革,新興技術賦能更豐富的新應用使數據呈現規模式增長.海量數據中蘊藏著大量潛在有價值的知識,為經濟社會的發展提供豐富而寶貴的知識資源,但如何從多元異質的互聯網數據中獲取符合用戶需求的信息成為知識管理研究的關鍵問題.因此,我們應遵循知識組織的原則,尋求既符合領域信息資源演化規律又滿足領域實際需求的知識管理方法,使其直觀而全面地展現網絡信息資源全貌,為用戶提供更優質的知識服務.知識圖譜構建了一種全新的知識服務模式,為解決風險管理領域智能化語義檢索與網絡知識互聯提供了新思路.
知識圖譜最先Google公司于2012年正式提出,谷歌知識圖譜最初的目的是為提高搜索引擎效率并提升用戶搜索體驗[1].知識圖譜作為智能信息服務的輔助工具,近年來受到學術界與企業界的關注.大量學者對知識圖譜相關技術進行了深入研究,包括知識抽取、知識融合、知識推理與知識問答等[2];此外,企業應用知識圖譜解決實際問題效果出色,以微軟、谷歌、FaceBook和IBM等為代表的國際巨頭和以BAT與華為等為代表的國內大型企業在其產品中均使用了知識圖譜及其相關技術.目前,知識圖譜逐漸開始應用于風險管理領域,在風險識別、評估、預警與防控等方面具有很好的發展前景[3].知識圖譜是一種有向信息異構網絡,包含節點與有向邊,節點代表現實世界的實體,有向邊代表實體間關系.對企業界而言,風險管理領域知識圖譜中蘊含著大量企業內外部信息,以及企業間的關系,并可與企業經營數據有效集成,從而挖掘企業間隱藏的關聯關系,幫助企業在知識驅動下自動完成風險管理任務[4].隨著人工智能與大數據的快速發展,企業積累了大量風險管理領域數據,如何從這些數據中抽取有價值的信息并加以利用,是推進企業與社會智慧化進程的關鍵,也是風險智能化管理的基礎,對于提高管理決策水平、減少風險損失意義重大.
2012年Google首次提出知識圖譜的概念,并把它定義為一個提供智能搜索服務的大型知識庫.然而從學術界與企業界發展動態來看,這一定義過于簡單.學術界普遍接受的定義為“知識圖譜是語義網技術之一,描述的是基于圖的數據結構,由節點(實體)和邊(實體間關系)組成[5].它本質上是存儲實體及實體間聯系的結構化網絡.”此外,在特定情境下知識圖譜的內容會頻繁動態地更改,最近也有學者嘗試構建動態知識圖譜,將原有的三元組變更為包含時間戳的四元組,擴展了知識的演化性[6].企業界對知識圖譜的定義更加豐富與寬泛,通常將知識圖譜定義為運用圖結構組織企業大規模的領域知識,并為企業提供個性化的智能服務[7].
從知識覆蓋領域來看,知識圖譜分為領域知識圖譜(Domain-Specific Knowledge Graph,DSKG)與通用知識圖譜(Universal Knowledge Graph,UKG).通用知識圖譜則更注重知識的廣度,強調實體間的融合,其精度與深度不高,難以形成統一的本體標準.領域知識圖譜將知識覆蓋范圍聚焦于特定領域,并綜合考慮業務需求、業務能力等因素,因此需定義更為嚴格的數據模式,保證領域實例知識的精度與深度.本文從知識表示、知識組織與知識應用3方面總結DSKG與UKG的區別,如表1所示.

表1 領域知識圖譜與通用知識圖譜對比
本文通過對領域知識圖譜已有研究成果的分析,提出風險管理領域知識圖譜的定義.
定義1. 知識圖譜.知識圖譜是描述物理世界中概念及其關系的語義知識庫,其基本組成單元為“實體-關系-實體”三元組與“實體-屬性-屬性值”三元組.知識圖譜通過三元組將知識表達為網狀的圖結構,便于知識的表示、抽取、組織、檢索與推理.
知識圖譜設計初衷是用于靜態知識表達,無法描述知識隨時間動態變化的過程[8].而風險時刻在變化,這為風險管理領域知識表達帶來極大不便.因此,將時間屬性增加到風險管理領域知識圖譜的基本組織單元中,使之具備表達動態風險知識的能力,是未來風險管理領域知識圖譜研究的趨勢.基于此,本文將風險管理領域知識圖譜的定義如下.
定義2. 風險管理領域知識圖譜.風險管理領域知識圖譜(Risk Management Domain Knowledge Graph,RMDKG)指的是風險管理領域相關的結構化風險語義知識庫和風險事件庫,其基本組成單元是“實體-關系-時間區間-實體”四元組和“實體-屬性-事件-屬性值”四元組.風險管理領域相關信息通過四元組構成網狀動態圖知識結構.
知識圖譜技術架構指知識圖譜的構建模式[9],主要包括自頂向下與自底向上兩種方式.自頂向下是首先構建知識圖譜的本體與數據模式,然后再將抽取的實體與關系更新到知識庫中.自底向上指從開放鏈接數據中抽取置信度較高的實體關系合并到知識圖譜中,然后再構建頂層的數據模式.RMDKG面向特定領域,對知識深度、質量和粒度要求更加嚴格,需更加完備的本體層數據模式,因此RMDKG采用自頂向下和自底向上相結合的方式.
RMDKG主要利用抽取的大量領域知識解決風險管理相關的問題.RMDKG構建流程歸納為風險管理領域知識抽取、風險管理領域知識融合與風險管理領域知識計算等3大模塊,如圖1所示.風險管理領域知識抽取是從這些數據中提取實體、關系、時間、屬性等信息,并按照既定的存儲規則存入風險管理領域知識庫.風險管理領域知識融合是將風險管理領域知識庫的內容有機融合起來,通過知識整合、消歧等操作,增強風險管理領域知識庫的柔性、條理性和系統性.風險管理領域知識計算借助知識推理,推斷出可能引發的風險事件,自動完成風險識別、預警與處理.

圖1 風險管理領域知識圖譜構建技術架構
RMDKG的構建與應用需要知識表示、抽取、融合、計算與推理等多種智能知識處理技術的支持.知識表示的核心在于對風險管理領域文本中的實體和關系進行表示,并通過表示向量捕捉實體間的關聯關系.通過知識抽取技術可從海量的風險管理領域文本數據中自動抽取實體關系,進而將實體與關系結構化為知識,并擴充到知識圖譜中.借助知識融合技術消除實體與關系的歧義,形成高質量的RMDKG.風險管理領域知識計算與推理是在此基礎上進一步挖掘知識圖譜中蘊含的隱性知識,從而豐富與擴展RMDKG.
風險管理領域知識表示(Risk Management Domain Knowledge Representation,RMDKR)是通過挖掘風險管理領域數據中實體及實體間關系信息,并將這些信息組織成結構化的知識網絡[10].傳統RMDKR方法處理風險管理領域知識存在計算效率低與結構稀疏等問題,很大程度影響知識圖譜在風險管理領域的應用.近年來,隨著深度學習與人工智能等知識表示技術的發展,RMDKG中的實體與關系可表示為低維稠密向量,使實體和關系的表示能夠充分融合知識圖譜的結構信息,從而解決風險管理領域實體與關系的復雜多樣性、圖譜結構的稀疏性以及圖譜構建過程信息不準確等問題,為RMDKG的構建奠定基礎.
RMDKR方法大致分為結構向量模型、單層神經網絡模型、語義匹配模型、隱變量模型與平移模型及其擴展.各類模型特點及其優劣勢如表2所示.
由表2可知,盡管TransE模型兼顧了知識表示的效果與方法的執行效率,并被廣泛應用于知識圖譜的知識表示學習中,但在風險管理領域應用中仍有待改進.因此,TransE模型可從以下幾個方面進行拓展,這也是未來RMDKR研究方向.

表2 知識表示模型特點及其優劣勢
1)TransE模型構建基于理想化的平移假設,而RMDKG中實體間存在一對多或多對多的復雜關系,因此知識建模往往會出現問題.為解決知識圖譜中復雜關系建模的問題,楊小平等人提出了基于平移模型的TransR模型,通過關系特化投影矩陣,將不同實體映射到不同的語義空間,使實體在不同關系中表現不同語義特征,有效提升實體間復雜關系的處理能力[11].
2)TransE模型只考慮了知識圖譜中局部實體關系信息,而未考慮知識圖譜全局的網絡結構以及實體間蘊含的邏輯推理關系.郭茂盛等人認為文本蘊含知識推理機制能夠輔助實體間關系識別,同時大數據技術與深度學習理論為知識表示提供了豐富的知識來源和有力的研究工具,給知識圖譜的研究帶來新的視角[12].RMDKG的網絡關系路徑中蘊含著豐富的信息,運用人工智能與深度學習技術研究RMDKR將成為未來的研究趨勢.
3)TransE模型未考慮多源異質的信息,這些信息既可輔助知識表示模型更好的學習已有的結構化知識,也能提供結構信息之外的多模態信息.多源信息融入知識表示學習的研究還處于探索階段,如融入實體文本描述信息、融入實體層次類型信息和實體圖像信息等方法是未來RMDKR的研究趨勢.
風險管理領域知識抽取(Risk Management Domain Knowledge Extraction,RMDKE)是面向多源異構的風險管理領域數據,通過手動或智能化技術抽取可用于風險管理的候選知識單元[13].RMDKE的抽取流程分為實體與觸發詞識別模塊以及關系抽取模塊,如圖2所示.

圖2 實體關系抽取系統流程
RMDKE主要是對風險管理領域文本進行知識建模,自動抽取領域實體間的語義聯系,獲得能有效解決風險管理問題的語義知識.早期RMDKE主要采用預定義實體間網絡結構規則或詞典驅動方法識別實體間的關系[14].Aone等人從大規模的領域文本中篩選領域實體,再利用已構建的詞典實現實體關系抽取.該方法僅根據語義動詞抽取實體關系,而無法抽取其他類型的實體關系,靈活性較差[15].隨后,基于本體的RMDKE模型逐漸替代人工構建的規則與詞典.Cimiano提出基于本體的實體關系抽取框架,該框架能自動抽取語義網中的實體關系形成知識庫[16].任飛亮等人認為在已知風險管理領域知識基礎上,較適合采用機器學習的方法進行領域本體庫的構建[17].接著,有學者嘗試將機器學習方法應用于實體關系抽取,常用的方法有基于特征向量的有監督方法、自舉方法與協同訓練的半監督方法、基于聚類算法的無監督方法等[18].Wang等人綜合運用文本信息、語法分析樹以及實體間依存關系等多維信息構造特征向量,并使用最大熵模型與文本語義特征相結合的方法進行實體關系抽取[19].該方法運用大量文本詞句特征,有助于擴展實體關系規模,提升實體關系抽取效率.Eric等人提出基于隨機特征映射的自舉算法,根據領域文本詞句特征抽取領域實體關系詞,該方法可改善其對標注語料庫的依賴[20].Huang等人面向特定應用領域,融合實體關系的不確定圖模型與語義模板,構建全程無監督的實體關系抽取框架,自動抽取實體間的關系,有效促進無監督方法在具體領域的應用[21].
從大規模數據中獲取風險管理領域實體及其關系,對風險管理的研究具有重要應用價值.傳統機器學習方法在風險管理領域實體關系抽取過程中人工標注專業性不強,需進行大量特征工程,耗費時間且抽取效果參差不齊.因此,研究者嘗試將深度學習方法引入風險管理領域實體關系抽取[22].深度學習是機器學習領域中新的方向,其本質是模擬人腦進行分析與學習的神經網絡.目前,基于深度學習的實體關系抽取能夠減少對標注數據的需求,并逐漸應用于非結構化的風險管理領域實體關系抽取.深度學習的實體抽取方法可挖掘風險管理領域實體與風險間深層次的特征與聯系,在風險識別、風險預警與風險管理研究方面有著廣泛的應用.Aarya等人提出基于卷積神經網絡(Convolutional Neural Networks,CNN)的交通事故風險管理領域實體關系抽取模型[23].風險管理領域數據相比文獻數據具有不完整和非結構化特性,抽取過程更復雜.Aarya運用詞義特征、位置向量、詞級向量等信息表示風險管理領域文本信息,并利用CNN方法進行實體關系抽取.該方法在風險管理領域實體關系抽取效果優于機器學習方法.在此基礎上,Feng Jun等人針對特定領域文本語義信息豐富的特點,提出融合主題信息的卷積神經網絡關系抽取模型,在不同環境下利用字符級與詞語級卷積神經網絡模型對領域實體關系進行自動抽取.該模型能有效提升傳統CNN模型的抽取效果[24].基于CNN的抽取方法減少了對數據標注的依賴,但存在誤差傳播與噪音數據等問題.針對這一問題,肖毅等人融合CNN與注意力機制模型實現企業財務風險事件的抽取[25].另外,為加強對目標實體關系的注意力,肖毅等人在注意力機制上增加了實體關系的描述信息,輔助風險事件與預控方案的知識表示學習,獲取最佳的實體關系知識庫.Lei等人提出基于CNN的協同消噪方法.該方法包括兩個CNN模塊和一個協同消噪模塊,先通過CNN模塊進行領域文本語料庫與知識圖譜的學習,再利用自適應雙向協同方法完成CNN模塊間的學習,從而達到消噪的目的[26].
盡管基于深度學習的實體關系抽取能夠減少對標注數據的需求,并逐漸應用于非結構化的實體關系抽取,但抽取效果仍有待提升.隨著強化學習方法在科學、工程與藝術等領域的應用,有學者將強化學習方法與深度學習方法相結合實現實體關系聯合抽取[27].陳佳灃等人提出基于強化學習的實體關系聯合抽取方法,分為實體抽取與關系分類兩個過程,如圖3所示[28].首先運用神經網絡方法模擬領域文本上下文信息,并將抽取過程視為序列標注過程;然后運用注意力機制生成包含目標實體的初始狀態;接著用神經網絡方法生成中間狀態;最后利用強化學習算法得到抽取策略.該方法可以將實體信息運用至關系抽取過程,使實體與關系信息間能交互學習,有利于消除噪音數據,同時也減弱錯誤知識的傳播.風險管理領域文本語義豐富,風險事件、風控方案等實體及其關系復雜,融合強化學習與深度學習的實體關系抽取方法是未來研究的新方向.

圖3 基于強化學習的實體關系聯合抽取過程
風險管理領域知識覆蓋面廣且來源多樣,存在知識分散、知識隨時間動態演化、不同語言表達導致語義理解困難、不同數據源知識質量良莠不齊等問題.因此,國內外工業界與學術界通過知識融合方法,將多源異構且動態演化的知識通過檢測方法進行正確性判斷,并構建領域知識庫支撐上層應用,從而挖掘風險管理領域知識價值[29].風險管理領域知識融合(Risk Management Domain Knowledge Fusion,RMDKF)過程中,如何評價領域知識的質量,降低領域知識理解的不確定性,挖掘領域知識的真值,并將高質量的知識更新到領域知識庫是知識融合研究的重要內容[30].RMDKF方法有實體對齊、實體鏈接以及關系推演等.其中,實體對齊用于消除風險管理領域知識的異構性;實體鏈接是運用消歧降噪等技術減少知識的不一致;關系推演用于挖掘數據庫中更深層次的隱性知識,擴充風險管理領域知識庫.
3.3.1 實體對齊
實體對齊指判斷相同或不同數據庫中的實體是否對應現實世界統一對象的過程.實體對齊方法分為兩類,包括基于實例及其屬性相似度的成對實體對齊以及在成對實體對齊基礎上基于實例間相互關系的集體實體對齊.
Singh等人運用邏輯連接詞將依賴關系表示為布爾匹配函數,然后通過智能化處理自動生成布爾匹配函數,從而判斷是否是同一實體[31].基于實例及其屬性相似度的實體對齊方法直觀簡單,但是該方法依賴于大量先驗知識.為解決這一問題,有學者嘗試使用基于實例間作用關系的集體實體對齊方法.基于實例間作用關系的集體實體對齊方法是在成對實體對齊方法的基礎上綜合考慮實例間作用關系以計算相似度.為進一步提升實體對齊模型的性能,有研究者將機器學習運用于領域知識圖譜中實體對齊的研究.Zhuang等人運用機器學習的方法對領域知識庫進行粗粒度對齊;然后通過推理模型推測問題的答案;最后借助容錯算法獲取實體對齊結果[32].深度學習是機器學習領域新的研究方向,也逐漸開始應用于知識庫實體對齊.余傳明等人針對知識融合中存在數據冗余與不一致的問題,以知識圖譜為視角,提出基于深度學習的領域知識對齊模型.該模型使用多源異構與跨語言數據集進行計算實驗[33].實驗表明該模型改善了實體對齊的效果,提升了領域知識的正確率與覆蓋率.知識對齊方法在解決實體沖突等不一致的問題上取得了一定的研究成果,但針對風險管理領域知識對齊仍存在亟待解決的問題,概括起來有以下兩方面.一方面,風險管理領域知識庫中數據量巨大、結構復雜,對實體對齊模型的性能與擴展性要求更高.有學者嘗試運用并行與分布式算法解決實體對齊模型性能與擴展性問題.另一方面,目前大部分實體對齊的研究仍集中在離線處理階段,而風險管理應用環境下更需要實時處理領域實體對齊,因此需要更高效的實時算法解決風險管理領域實體對齊問題.因此,構建穩定、可擴展的風險管理領域實時對齊任務模型是未來研究的重要方向.
3.3.2 實體鏈接
實體鏈接指運用風險管理領域知識庫中的實體對從領域大數據文本中識別領域知識庫中與其對應的映射實體.依據實體鏈接使用信息不同,實體鏈接方法可分為基于實體屬性的實體鏈接方法、基于實體流行度的實體鏈接方法、基于上下文的實體鏈接方法與基于外部證據的實體鏈接方法.本文對各類實體鏈接方法進行比較分析,具體如表3所示.

表3 實體鏈接方法的對比分析
3.3.3 關系推演
RMDKG構建過程中通過實體對齊與實體鏈接能夠形成初步的本體庫,但風險管理領域知識庫的需求與設計理念的不同導致知識庫中存在大量異構數據[34].因此,還需運用關系推演方法將動態生成的實體關系不斷更新已有的風險管理領域知識,從而形成高質量的風險管理領域知識庫.
RMDKG中實體關系存在兩種情況:1),風險管理領域知識庫中存在與目標實體關系等價的實體關系,只需找到與之對應的實體關系;2)風險管理領域知識庫中不存在與目標文本實體關系等價的實體關系,則需要將實體關系擴展合并到知識庫,完成與風險管理領域知識庫的關聯合并.
關系推演方法包括基于語義的關系推演與基于嵌入學習的關系推演.彭春光等人根據特定領域的交互信息,提出基于語義交互的關系推演模型,通過對比描述關系的上下文語義的相似度來判斷是否為同一關系.該方法能有效解決上下文語義相對簡單的實體關系推演問題,而對于風險管理領域中遇到的各種復雜語義關系推演效果不佳.基于此,有研究者嘗試基于嵌入學習的關系推演方法.Dong等人通過嵌入式學習技術探尋合適的函數訓練實體的嵌入表示,并判別兩個描述實體的關系是否為同一關系[35].實驗表明該方法能夠顯著提升實體關系推理效果.
綜上,RMDKF技術取得了一定成果,但仍需大量的人工干預,高效的融合算法仍有待研究.
風險管理領域知識推理(Risk Management Domain Knowledge Reasoning,RMDKR)指在已知風險管理領域知識庫的基礎上深入挖掘知識庫中蘊藏的隱性知識,從而擴充已知風險管理領域知識庫.而RMDKR具有行業特殊性,即使相同的風險,仍需根據其行業內外部環境作出不同判斷,因此RMDKG需處理大量矛盾數據,增加RMDKR的難度.
RMDKR方法包括傳統的知識推理方法、基于人工智能的知識推理方法以及面向圖譜的知識推理方法,具體方法見圖4.Gentzen等人最早提出演繹推理方法,將演繹推理引入經典邏輯推理過程[36].Huang等人運用語義描述邏輯與語義謂詞邏輯等規則推理訓練網絡分類模型[37].基于邏輯、規則與案例的傳統知識推理方法在RMDKR方面取得了一定進展,但仍存在數據利用率不高、準確率低、學習能力不足等缺陷,難以滿足RMDKR的應用需求.

圖4 風險管理領域知識推理方法及研究趨勢
隨著風險管理領域大數據規模的增長,傳統的知識推理方法存在推理時間過長、數據遺漏等問題,而人工智能方法可從海量的風險管理領域數據中獲取知識真值,有效提升RMDKR的效率.基于人工智能的知識推理方法主要包括神經網絡、遺傳算法等[38].基于神經網絡的知識推理是利用神經網絡的學習能力與泛化能力構建實體關系事實元組.Socher等人利用神經張量參數表示實體間的關系,并準確關聯實體向量,通過現有風險管理領域知識庫推測其他實體關系事實[39].但在風險管理領域,不僅需要挖掘隱含關系,還需挖掘外部實體鏈接到風險管理領域知識庫.因此,Chen等人在此基礎上,再通過已有的風險管理領域知識庫挖掘其外部新的實體關系,并將其更新到風險管理領域知識庫[40].如何從風險管理領域知識庫中挖掘最相似的實體關系決定了知識推理的性能.Kai等人使用改進的遺傳算法對風險管理知識庫中的特征權重向量進行優化,改善了知識推理性能[41].
無論是基于規則與案例的知識推理方法,還是基于人工智能的知識推理方法均將RMDKG作為知識推理的數據源.而面向風險管理領域知識圖譜的知識推理則是將知識圖譜視為圖,將風險管理領域實體視為節點,實體間的關系視為邊,通過實體間關系路徑所蘊含的信息對其語義關系進行推理.面向RMDKG的知識推理方法主要包括路徑約束隨機游走算法與路徑分級算法.Lao等人認為面向風險管理領域知識圖譜的知識推理的基本思想主要是將實體視為節點,將關系或屬性視為邊,從源節點開始,在知識圖譜上執行隨機游走算法,若源節點能夠通過某一路徑達到目標節點,則可推斷源節點與目標節點之間可能存在關系[42].目前,面向知識圖譜的知識推理方法取得了一定的效果,但風險管理領域知識結構復雜、知識圖譜的不連通與稀疏性且隨時間動態變化,這將嚴重影響知識推理的性能.因此,針對風險管理領域知識結構復雜多樣的特性,Jasper等人運用具體實例集合表示領域實體間的多元關系,實體關系類型的具體事實表示為關系實例,組成關系實例的各要素視為領域實體[43].該方法能減少多元關系結構信息的改變,但在此基礎上如何提升知識推理的靈活性將是未來研究的一個重要方向.針對RMDKG的不連通與稀疏性,Yang等人運用神經網絡強學習和基于規則與案例相結合的方法,并融合多源信息進行知識推理,進一步提升模型的準確率與可解釋性,這也將成為未來知識推理的研究方向之一[44].此外,RMDKG隨著時間的推移而動態變化,Bellomarini等人運用知識圖譜各模塊的并行學習與集成推理方法,有效處理知識圖譜的增刪改,有助于實現風險管理領域知識的動態推理,這也將是未來知識推理的研究方向之一[45].
知識圖譜為風險管理領域多元異構的大數據組織與管理提供更智能化的處理方式.目前,RMDKG主要用于風險智能識別、風險自動預警與風險智能處理等方面.
面向知識圖譜的風險智能識別是運用知識圖譜技術,結合風險辨識、風險分析等風險管理方法,實現風險管理領域文本高效分析與智能化識別,有效防止誤判情況的發生.
王新浩等人認為風險識別是運用風險管理領域詞典,挖掘風險事件中蘊含的文本特征,選取風險特征詞,構建風險管理領域知識庫,并對風險管理領域知識進行可視化處理的過程[46].該過程將非結構化風險管理領域文本數據轉化為RMDKG的形式,實現風險管理領域文本初步的挖掘與分析,為后續的風險預警與處理提供數據支撐.此外,有研究者們針對這一領域進行了深入的研究.Franco等人使用Protégé構建基于本體的風險管理領域知識庫,并對風險事件的關鍵字與相關內容進行標注,再借助Jena推理工具對風險管理領域知識庫模型進行推理,通過自定義風險識別語義規則,實現對風險信息的識別與推理[57].實驗結果表明,該方法能夠快速發現多維風險關聯信息,從而提高風險信息的識別效果.Hyunsoo等人基于概念而非關鍵字的風險識別方法,該方法將基于術語的風險管理領域原始文本轉換為基于領域本體定義的風險管理領域的概念,實驗結果表明該方法能夠有效提升風險識別準確度,并為實現基于知識推理的風險識別系統提供了理論框架[48].針對目前風險識別系統自我學習能力的不足以及傳統案例推理過度依賴歷史案例的缺陷,Guilherme等人從工程領域風險識別過程出發,提出基于深度學習與案例推理的智能風險識別系統[49].該系統通過對風險領域案例的分析,結合本體技術構建風險管理領域案例庫,并融合深度學習的算法用以支持工程領域風險信息的識別.
目前,風險識別方法存在數據來源與數據類型簡單、研究角度片面等問題,歸根結底是風險管理領域知識組織的問題,風險管理領域大數據的價值在于其蘊含的隱性知識.因此,從RMDKG的角度出發,豐富特定領域知識應用模式,充分發揮知識圖譜對風險識別的作用,是未來研究的趨勢之一.
知識圖譜技術為風險管理領域大數據分析與應用提供了技術支持,從海量風險管理領域數據的抽取與表示到多源異構風險知識融合再到潛在風險知識推理,形成完整的RMDKG技術路徑,為實現風險自動預警提供了新思路.風險自動預警系統是風險智能識別系統的一種高級形式,能夠通過評價各種風險狀態偏離警線的強弱程度向決策層發出預警信號并提前采取預控對策.面向知識圖譜的風險自動預警系統旨在整合基于知識圖譜的風險識別與風險評價方法,設計適用于大數據環境下特定領域的風險預警模型,并根據預警模型自動將預警信息以圖譜方式直觀地展現給決策層.
研究人員針對知識圖譜與風險自動預警系統的融合進行了相關研究.邱玉霞等人運用文獻分析法與知識圖譜分析工具對網絡組織風險研究視角與研究領域進行可視化分析,并基于共被引文獻分析,探討了網絡組織風險形成、傳導與演化機理,深入研究了網絡組織風險預警基本模式,為基于知識圖譜的組織風險評價與預警研究奠定了基礎[50].Nazim等人利用文本抽取、領域數據融合與數據挖掘等技術,探索RMDKG自動化構建方法與風險管理標準化流程,實現基于知識圖譜的風險自動預警[51].Chen Li等人針對RMDKG在輔助風險自動預警過程中缺乏管理者或專家經驗知識的問題,提出一種集成RMDKG與深度學習的風險預警方法[52].該方法的關鍵在于構建知識驅動的卷積神經網絡模型,通過實體鏈接消歧與知識圖譜嵌入結構化的風險管理領域知識,并將風險事件描述的風險特征詞向量與領域實體向量作為卷積神經網絡的多通道輸入.
目前,融合深度學習的風險管理知識圖譜在金融監管領域得到廣泛的應用.深圳市金融辦與騰訊公司合作共建金融風險預警監測平臺.該平臺利用知識圖譜、數據挖掘與深度學習等技術手段,整合互聯網輿情、政府資源數據、銀行資金數據等大數據,對深圳市金融企業進行金融風險提前預判.此外,上交所也在積極部署監管科技,提出利用深度學習結合金融機構知識圖譜對上市公司風險進行監測預警,提高分類風險管理效率,提升金融業監管服務水平.
風險智能化處理是指綜合考慮風險性質、大小以及風險承受能力、風險管理能力與核心競爭力等因素,利用數據挖掘、云計算、機器學習與知識圖譜等技術手段,以數據價值為驅動構建智能化的風險處理模型,并運用該模型自動選擇合適的風險管理策略和工具,對所面臨的風險進行處理.面向知識圖譜的風險智能處理系統通常是將復雜的風險管理問題簡化為多個小問題,然后運用智能語義搜索方法從風險管理領域知識庫中匹配風險預控方案,并自動檢測風險預控方案在時間與空間上的匹配度等,最后將風險預控方案進行整合,用以迅速應對所面臨的風險,并以圖譜的方式將風險智能處理結果反饋給管理者.
中國互聯網絡信息中心(CNNIC)針對本次新冠疫情以及防控疫情中引發的網絡輿情風險問題,嘗試利用機器學習、關聯挖掘、大數據分析等技術構建突發事件網絡輿情風險指標體系、評價重大突發事件網絡輿情風險程度以及針對不同程度的風險給出相應的解決方案,為跨區域協同處理重大突發事件網絡輿情風險提供范本.此外,很多研究者針對風險智能處理領域知識圖譜的應用進行了相關的研究.Bao等人體提出了基于風險管理領域知識庫的風險智能決策模型[53].該模型通過風險管理領域知識庫分析風險特征、類型及危害程度,并給出相應的解決方案.陳曉軍等人針對目前金融領域知識圖譜存在信息缺失且準確率低等問題,利用知識圖譜中圖展示、圖挖掘以及圖模型計算等優勢,構建了企業風險知識圖譜,并基于企業風險知識圖譜構建了智能問答機器人,實現了知識圖譜的檢索與利用,為面向知識圖譜的企業風險智能化處理提供了重要參考[54].LIU等人基于商業銀行知識圖譜分析應用體系,構建企業關聯關系知識圖譜,并運用隨機游走與圖嵌入算法,實現了知識圖譜在商業銀行風險管理中的應用[55].實驗結果表明,該模型能夠較好地抽取風險結構信息,并能有效提升風險處理的準確性.
總的來說,基于知識圖譜的風險智能處理模型通過機器學習、數據挖掘等技術,并融入具體領域的情境信息,能夠有效解決風險智能處理過程中信息缺失、準確率低且耗時較長等問題.但是,目前大部分RMDKG都是處理靜態風險管理問題,未考慮RMDKG中重要的時間信息,缺乏利用時間信息表示風險管理領域更豐富的動態信息,不能推理RMDKG在時間上的動態演化過程.因此,將時間信息引入RMDKG是未來的研究方向之一.
隨著各領域信息化水平的不斷深入,風險管理領域積累了大量的數據,數據的充分利用對風險智能識別、風險自動預警與風險智能防控等工作具有重要的意義.將知識圖譜技術融入風險管理領域,開展RMDKG研究,通過海量風險管理領域數據的抽取、表示、融合與推理,構建RMDKG,最終向決策者提供風險管理領域的知識服務.與傳統的風險管理模型相比,本文從知識圖譜構建的視角出發,介紹和分析了RMDKG架構、RMDKG構建的關鍵技術以及風險管理領域應用現狀與進展,并討論了今后的發展方向.目前風險管理領域知識圖譜構建技術日漸成熟,但依然需要研究者投入大量精力進行不斷探索,通過對現有風險管理領域知識圖譜研究工作的總結,在以后研究中可以從以下幾個方面展開相關研究.
1)開放領域實體關系抽取的深入研究.在風險管理領域知識抽取環節,面向開放領域的實體關系抽取大多面向特定關系類型或特定領域,部分研究成果僅在特定的數據集和語料庫上取得較好效果,但仍存在準確率低、擴展性差、約束較多且其他領域自動遷移能力差等問題.如何不斷提高系統的準確率、可擴展性以及可移植性,這激勵著學者們對開放領域實際關系抽取展開更深入的研究,促進風險管理領域實體關系抽取的發展.
2)風險知識融合方法需不斷改進.風險知識融合的主要挑戰是實現多源異構數據的有效鏈接.雖然風險管理領域知識融合技術取得了一定的成果,但仍需大量的人工干預,如何有效解決多源異構、語義多樣與動態演化的風險管理領域知識組織的問題,這將吸引著學者們不斷改進現有相關算法,不斷提升知識融合模型的性能.
3)融合多源信息與多種方法的動態知識推理模型性能的提升.近年來,越來越多的研究人員關注人工智能與深度學習相結合的知識推理方法.在此基礎上,融合多源信息的知識推理模型能夠有效解決風險管理領域知識圖譜的不連通與稀疏性.另外,運用知識圖譜各模塊的并行學習與集成推理方法有助于實現風險管理領域知識的動態推理.然而,融合多源信息與多種方法的動態知識推理模型性能還需進一步改進,不斷促進風險管理領域知識融合的發展.
4)風險管理領域知識圖譜應用的深入探究.知識圖譜已被廣泛應用于智能搜索、智能問答、個性化推薦等領域.通過學術研究與風險管理需求進入深入融合,不斷提高風險管理領域知識圖譜的運行效率,促進風險管理領域知識圖譜模型性能的提升,為風險管理者在風險智能識別、風險自動預警與風險智能處理等方面提供更多便利.