■林一松 秦 祎 秦浩煒
(1.中國建設銀行總行機構業務部;2.中國建設銀行總行同業業務中心)
知識圖譜是一種直觀顯示各個實體關聯信息的有效數據結構,是一種可以關聯源自不同種類的知識,將它們集中在一起而得到的關系圖譜,本質上它是Semantic Network的知識庫,它將客觀世界中存在的各種概念或實體及其之間的關系以結構化的形式來進行描述[1]。因此也可以簡單地用一張巨大的網絡來比作它,其中,網絡中的節點就表示知識圖譜中的實體或概念,而節點之間的邊則表示知識圖譜中的屬性或關系,用最小的代價知識圖譜便可將從互聯網中積累起來的信息組織起來,并使其成為有著高利用價值的知識[2]。
金融行業的現代金融體系,每時每刻都運行產生大量的金融數據,容量龐大、時刻變化和來源多樣的金融數據給金融業帶來了極大的挑戰,同時,金融業也是一個在數據、信息和知識上有著極大需求的典型的知識密集型行業,金融決策大都需要大量的數據、信息和知識作為支撐,從大數據中提取信息和知識的速度與能力很大程度上會在未來決定著金融業的核心競爭力。
在大數據環境下,針對海量且異質多源的金融數據,加以知識獲取的相關理論、方法和技術進行運用,進而從中獲取有價值的知識信息,從而形成各類金融知識庫來支持金融決策,并對金融知識庫使用知識關聯、知識檢索和知識推理等技術來進行運算,然后以知識檢索、自動問答和知識導航等形式呈現結果提供知識服務給決策者,這項技術在許多的金融決策支持過程中都有著十分重要的意義,例如風險管理、金融監管和投資決策等[3]。
根據已有的研究成果,國內外相關研究重點關注這幾個方面:①知識的融合與集成,獲取到的多源異質的金融知識可能存在重復、語義關聯不明確、不一致等問題,要將其融合與集成,就需要用到實體對齊、語義映射等技術,在同一框架下生成規范的金融知識庫;②高效率的挖掘、獲取大規模知識,從海量的金融數據資源中通過自動標注語義、機器學習和自然語言處理等技術,高效率地挖掘并獲取大規模的金融知識;③個性且智能化服務于決策支持,面向金融決策支持知識服務的前提和基礎就是獲取金融知識后形成的各類知識庫。如何運用知識檢索、推理等技術,結合決策者的特征和需求對金融知識庫運算得出結果,并為決策者提供個性化和智能化的金融知識服務,以知識導航、知識檢索和自動問答等形式,極其值得進一步研究[4]。有了知識圖譜作為輔助之后,文本背后的含義便能夠被機器所理解,用戶的查詢背后的語義信息也能夠輕易地被搜索引擎洞察,這樣就可以返回更為精準的結構化信息,更大可能地滿足了用戶的查詢需求,更高效地組織管理并理解互聯網海量信息,這都是獲益于知識圖譜技術的幫助[5]。
構建知識圖譜,這一過程經過了信息抽取、知識表示、知識融合、知識推理四個過程,每一次更新迭代也都包含這四個階段。
作為知識圖譜構建及應用的基礎,知識表示被廣泛地應用到了自然語言處理和圖像識別等領域。知識表示技術用來表示研究對象的方法是使用低維稠密的向量,廣泛應用于補全知識圖譜、抽取關系和智能問答等,不僅可以顯著地提高計算效率,還能有效地解決數據稀疏的問題;知識表示主要包括:翻譯模型、匹配模型、矩陣分解模型和神經網絡模型等主要模型。
知識圖譜數據來源范圍廣泛,包括文本,圖像,傳感器,視頻等形式。信息抽取是指從這些不同的來源和不同的結構中提取數據以形成結構畫的知識并存儲在知識圖譜中。在信息抽取過程中不僅標識實體,還對抽取的實體進行分類。可以根據知識圖譜的要求調整類別。關系抽取則是多個實體之間語義關系的抽取。
知識圖譜在執行知識抽取時使用多樣化的數據源,知識融合將事實對象與實體、關系、屬性等之間存在的歧義消除后,可以在規范框架下對多種來源的知識進行異構數據整合集成、消除歧義、加工以及推理驗證并更新等。知識融合當出現同屬性不同值,需要決策并賦予其較正確的屬性值時,可以數據源的數量和可靠度作為依據判斷[6]。
知識推理是構建知識圖譜的重要手段和關鍵環節,它可以從現有知識中發現新知識,但存在不完整的數據源和不正確的抽取過程,這就要用已有的事實和推理技術,從相應知識庫中挖掘推理出缺失以及深層的關系,并對知識圖譜進行補全并去噪,完善和豐富知識圖譜。知識推理從特定的知識圖譜中派生新實體跟實體之間的關系,并在知識計算中發揮重要作用,例如知識分類,知識驗證,知識鏈接預測和知識補全等[7]。
金融、醫療、電商作為知識圖譜垂直行業的應用領域代表,產出了金融反欺詐、智能營銷、商品推薦等的應用場景[4]。知識圖譜,本質上是語義網絡,是一種基于圖的數據結構。通過知識圖譜技術將存在金融行業數據中的大量的實體和關系建立連接,將金融行業現有數據以突破傳統計算的模式深度整合,然后結合外部數據能夠更有效地挖掘潛在客戶、預警潛在風險,金融行業的各項業務效率大幅提升、利用價值得到更大發揮都得益于此[8]。
在營銷應用領域,潛在客戶挖掘使用現有及外部數據精準且迅速地找到潛在相關業務中的客戶,帶給銀行業務頗多助益,對客戶的潛在需求進行深度挖掘,使用銀行客戶關系的知識圖譜系統,可以靈活地擴展用戶行為數據,并將其與多類數據源結合起來,用以客戶行為分析更準確,了解其潛在需求并提供精準的推送給現有客戶;將企業級的客戶財務關系、法人關系、投資關系以及公司業務關系等用以知識圖譜進行分析,可得出企業級客戶的潛在需求,最后對其需要的產品、服務等進行推薦。從精確營銷的角度來看,知識圖譜通過將多個數據源鏈接起來,構成用戶及其群體完備的知識體系,進而更充分更到位地對用戶及其群體的行為進行理解、認識和分析,金融公司用知識圖譜去分析待銷售用戶群體之間的關系就是個很好的例子,通過分析去了解他們的共同愛好,進而為用戶人群對癥下藥地制定相應的營銷策略。
在風控應用領域,客戶辦理業務的行為在O2O的時代下得到了前所未有的便利,但也隨之而來并且愈演愈烈的反欺詐問題,羊毛黨、職業欺詐團伙層出不窮,反欺詐在金融風險管理中起著重要作用。人是反欺詐的核心,抽取借款人相關的全部數據源及行為數據,并將其全都整合到反欺詐知識圖譜中,以進行高效并準確的反欺詐分析預測,在申請階段,構建已知欺詐因素的關系圖譜,例如手機、設備、賬號、地理位置等因素,再對其統計分析全量風險數據,在交易階段的反欺詐,可以建立風險特征數據庫。通過知識圖譜技術,可以有效解決電子渠道被薅羊毛、被惡意申請等問題,為電子銀行的發展保駕護航,可以有效解決信用卡申請欺詐信用卡虛假申請、信用卡套現等難點痛點問題,助力信用卡業務更加健康地發展。
在預測應用領域,預測行業潛在風險,進行行業細分后用貨款、行業等信息來建立模型用以關系的挖掘,顯示行業關聯性大小,并及時預測相關行業,以免被高風險行業或事件牽扯,提前預測風險并規避,通過建立客戶、企業和行業的知識圖譜預測潛在風險客戶,也可以連接行業和企業之間數據,盡早預測行業的潛在風險,可及時地發現行業風險以及關聯的企業客戶,數據在金融行業中是極其重要的成分,將知識圖譜的關聯關系概念利用起來,不僅能突破現有關系型數據庫的限制,還能更加精準高效地獲得數據的價值。
知識圖譜這一概念從被提出至今,其行業應用熱度仍然在不斷增長。本文對知識圖譜的構建技術進行了闡述,包括知識表示、知識抽取、知識融合以及知識推理等核心技術,結合了當今社會的需求介紹了知識圖譜在金融行業中的應用現狀,研究分析了知識圖譜對風控、營銷、預測等領域的影響和發展趨勢,對金融行業具有較好的參考價值。