陳 強,代仕婭
(1.興業銀行 信息科技部,上海 201201;2.興業數字金融服務股份有限公司,上海 201210)
金融科技蓬勃發展,以人工智能、大數據等為代表的核心技術驅動金融業務創新,持續提升金融服務的智能化水平,推動金融向高質量發展[1]。央行《金融科技發展規劃(2019-2021)》明確表示,要探索人工智能在金融領域的應用,推動金融服務向主動化、個性化、智慧化發展,并指出要統籌優化數據資源、算法模型、算力支持等人工智能核心資產,探索人工智能在不同業務場景的應用路徑與方法,創新智能金融產品與服務[2]。智慧金融已成為新形勢下金融業務轉型升級、高質量發展的必然方向。
從需求端來看,智慧金融是滿足客戶金融需要的必要手段。金融服務需求呈現精細化、生態化態勢,單一的金融產品及服務已越來越難以滿足客戶的實際金融需要。為此,金融業務正走向大融合、大協同,其發展模式也迫切需要從線上化、移動化進一步向個性化、智慧化轉變,通過智能化技術迅速感知客戶需求,并讓適配的金融服務主動、快速、精準地觸達客戶,使其享受到“所需即所得、所想即所得”的智慧化服務體驗。
從供給端來看,智慧金融是促進金融供給側改革的關鍵路徑。依托智能化技術,對金融業務由描述性、統計性分析深入到診斷性、預測性、決策性分析,能夠挖掘出更深層次的金融業務價值;智能化產品能實現對現有線上化、數字化產品的升級與改進,有助于創新和完善金融產品供給,提升金融的供給側改革質效,也有助于優化金融資產的合理配置,降低金融業務成本,增強金融服務實體經濟與普惠大眾的能力。
大數據、人工智能等技術已廣泛應用于金融的風險信貸、投資研究等諸多領域智能化建設中。隨著金融業務的復雜程度日益加劇,智慧金融建設對大數據、人工智能等技術的應用與創新也提出更高要求,需要搭建統籌集成數據資源、計算資源、算法資源的平臺化基礎服務設施[3],為智慧金融建設在數據處理、算法建模、挖掘預測等方面提供更強有力的支撐,以充分釋放數據的業務價值,提升智慧化服務的敏捷性、精準性水平。
本文基于投資研究、風險內控、財富管理等幾類典型金融業務場景的智慧金融研發實踐,重點闡述金融業的大數據平臺、AI 平臺的架構搭建、實施方法,以及在平臺支撐下相關領域數據資產開發、算法模型構建的成果,并展示基于該研發范式推出的智能化應用效果,最后對智慧金融高效落地的路徑進行了深入研究,為金融業智慧化轉型、高質量發展提供啟發與建議。
在行業智慧化解決方案中,大數據平臺、人工智能平臺作為重要的基礎設施,為智慧化建設提供基礎性數據、算力、算法等方面的核心能力支持??挡ǖ龋?]提出面向行業應用場景的云計算、大數據、人工智能等基礎平臺的融合建設方案,實現不同平臺數據的整合共享、高性能計算和統一數據建模,并基于平臺推出了面向智能診療、智能輔助駕駛等多領域應用;王彥棡等[5]重點討論了高性能計算與人工智能應用的結合,通過整合數據、計算、應用資源,支持全流程模型設計、訓練和部署,實現智能化應用的快速研發,促進諸多應用領域發展;曹峰等[6]指出金融等傳統行業對人工智能應用的需求不斷提升,相關計算平臺和應用服務平臺的統籌建設是垂直行業智能化產品落地的重要基礎,能有效推動社會經濟智能化水平提升。
在金融行業,大型商業銀行較早開展相關布局。工商銀行推出全行統一的大數據分析與應用平臺,支撐金融場景中海量、實時、復雜數據的存儲與處理,并完成企業級人工智能平臺建設,形成全流程、獨立自主的建模能力,驅動風控、營銷、客服等諸多金融領域的業務發展;中國銀行將云平臺、大數據平臺、人工智能3 大平臺作為數字化轉型的技術支撐,已完成企業級人工智能生態打造,形成數據高效連接、AI 模型自學習、數據分析閉環的智能化研發模式,相關智能化產品使中國銀行在營銷成功率、高風險交易攔截、工單處理效率等方面有顯著提升,增強了金融服務競爭力。
搭建整合數據資源、計算資源、算法資源的大數據平臺與人工智能平臺,并在此基礎上進行數據資產的開發、算法模型的構建,已成為智慧金融建設的必要路徑,但目前相關建設仍處于初期應用階段。由于不同金融領域面向的客戶群體、數據特點、業務目標都存在較大差異,決定了大數據平臺、AI 平臺的功能架構需要與具體場景的智能化應用緊密結合,也需要持續與業務演變相匹配,實現以智能應用為驅動的平臺搭建與產品研發。
本文基于財務管理、投資研究、風險內控等具體金融場景,重點闡述在相關領域的智慧金融產品研發中,為滿足數據、計算、算法等方面的資源及性能,大數據平臺與AI平臺所需的技術構架體系及主要功能組件。在大數據平臺、AI 平臺的支撐下,進行數據資產開發,在此基礎上進行算法模型構建,能顯著提升算法模型分析預測服務的精準性。
智慧金融的核心在于依托智能化技術手段,形成面向業務場景需求的智能化應用解決方案[7],促進金融服務的優化升級,涵蓋數據、技術、業務等全方位內容,是一個系統性工程。如何使大數據平臺符合不同場景對數據收集、存儲、加工、計算等性能要求,如何使AI 平臺滿足各類預測分析在模型構建、信息挖掘等方面需求,如何在平臺支撐下研發出切實解決業務痛點、提升經營效益的智能化應用產品,是智慧金融建設過程中研究與關注的重點。智慧金融建設整體框架如圖1 所示。

Fig.1 Intelligent financial construction architecture圖1 智慧金融建設整體框架
核心技術層為大數據平臺與AI 平臺,其中大數據平臺為AI 平臺提供算法建模所需數據和計算資源支持,AI 平臺可以向大數據平臺反饋復雜數據的處理結果,豐富大數據平臺提供的數據服務類型,兩者協調運作,賦能金融業務場景建設,快速滿足并響應不同業務領域的智能化應用需求。
大數據平臺主要功能在于整合大數據采集存儲、集成批量計算、流計算、邊緣計算等方面的能力,構建起面向全集團統一的、企業級的大數據基礎服務,為不同場景的智能應用建設提供便捷的數據訪問與分析能力。同時在大數據領域落實數據統一、技術統一,避免各應用分別構建大數據集群、形成功能重復建設。大數據基礎服務平臺功能架構如圖2 所示。

Fig.2 Big data platform architecture圖2 大數據基礎服務平臺功能架構
平臺基于Hadoop 生態系統,利用集群進行高效的數據存儲與運算[8],平臺重點實現以下幾方面功能:
(1)數據采集與存儲。金融業務場景的交叉程度與復雜程度日益提升,每項智能化應用所涵蓋的數據范圍往往會跨領域、跨系統,且涉及大量流式數據,如客戶實時行為數據等,大數據平臺需要對不同來源、不同類型的數據集中整合與存儲,以便后續進行統一、高效的處理與分析。在構建過程中,大數據平臺需要對接銀行企業金融、零售金融、金融市場等相關領域的各類客戶、業務、管理系統,以及對外部的第三方信息進行日志等實時數據采集;讀取HDS、EDW 及各類數據集市中積累的數據,實現批量數據整合。平臺可通過Sqoop/Canal 等對關系型數據庫中全量數據及增量數據進行導入,采用Flume 進行圖片、視頻等非關系型數據,以及用戶行為日志等流式數據進行收集,最終以不同方式將采集的數據加載、整合到HDFS、Hbase 等分布式存儲系統中,供后續分析處理[9]。
(2)數據處理與計算。在傳統數據之外,非結構化數據、實時流式數據等在金融業務的分析決策中逐漸發揮越來越重要的作用,帶來數據處理方式的改進。在數據處理類型上,除了結構化數據,大數據平臺還支持非結構化數據、半結構化數據等貼源數據處理,提升數據質量以更方便于查詢、使用。在數據處理時效上,在采用MapReduce/Spark 等分布式計算引擎進行大規模批量數據挖掘分析的同時,引入Flink/Storm/Spark Streaming 等大數據流式計算技術實現對實時數據的計算處理,生成實時分析決策[10],滿足金融市場行情分析、理財產品精準推薦等高時效場景數據處理需求。同時平臺構建大數據沙箱,在保障數據安全的同時,為數據探索分析、AI 模型訓練提供更貼近真實業務場景的開發環境。最終平臺對各類數據加工處理后的結果以元數據的形式進行存儲,以供進一步數據挖掘及業務應用。
(3)數據中臺服務。大數據平臺對原始數據進行加工處理后,生成的數據分析與探索結果,一方面以數據服務的形式直接輸出給金融業務應用,另一方面為AI 平臺提供算法建模所需的數據輸入?;跇I務邏輯將原始數據計算成可應用的指標,形成標準化的數據資產,能降低原始數據的噪聲,增強數據的業務應用能力,提升數據的服務價值。根據數據工程化程度以及應用方式的不同,數據資產種類多樣,涵蓋了特征庫、標簽、知識圖譜、規則引擎等,以共享、可復用的形式供不同領域智能化建設靈活調用。數據服務直接輸出時,可以文件方式批量輸出數據結果,也可以API 服務方式開放實時接口給應用系統,供其進行數據查詢;數據資產作為AI 平臺的數據輸入時,可通過AI平臺的沙箱功能從大數據平臺提取部分數據,也可直接調用大數據平臺的接口,使用大數據平臺的數據和計算資源。
(4)數據管理與平臺管理。數據管理主要實現對元數據、數據資產的查詢、維護、更新,對數據質量檢查、修正、調整,以及對數據關系的追蹤與影響進行分析等。當數據服務出現明顯異常時,能迅速定位并追溯到問題節點。平臺管理主要體現在統一調度、統一監控、統一用戶認證、統一安全體系等方面。
AI 平臺在人工智能計算資源支持下,集成多種機器學習框架及基礎算法模型,形成全流程、一體化的模型開發能力,并提供涵蓋計算機視覺、智能語音、自然語言處理等領域的AI 服務,為相關業務場景智能化產品研發提供核心建模支撐。AI 平臺整體架構如圖3 所示。

Fig.3 AI platform architecture圖3 AI 平臺功能架構
AI 平臺具備以下功能:
(1)算法資源集成。不同金融業務對算法模型性能有不同的側重,如信貸審批注重模型的業務可解釋性,而個性化推薦更側重模型的實時精準性。面對多樣的業務場景,平臺匯集了行業領先的機器學習算法庫及深度學習算法 框 架,如Scikit-learn、MLlib、TensorFlow、Torch、Caffe、CNTK 等,供模型開發時靈活調用;在此基礎上,涵蓋主流的各類人工智能基礎算法模型,如傳統機器學習算法中的邏輯回歸(LR)、支持向量機(SVM)、樸素貝葉斯(Naive Bayes)等;深度學習算法中的卷積神經網絡(CNN)、循環神經網絡(RNN)及相應網絡衍生出的經典結構等;圖模型算法中的社區發現算法、鏈路預測算法以及GNN 類圖神經網絡算法等。依托全面的開發框架以及基礎算法,能夠基于特定業務目標進行靈活的算法設計與重構,充分滿足風險識別、財富管理、投資研究等領域對技術模型的差異化、定制化需求。
(2)全流程模型開發。AI 平臺提供多種人工智能開發工具,支持從數據標注、數據預處理、特征工程、模型構建、參數尋優、模型評估、模型部署等全流程、一站式算法模型研發流程,極大提升各場景算法建模效率。在人工智能開發工具支持下,可通過對開發功能組件進行拖拉拽方式形成特定的工作流,基于對基礎組件的調用減少代碼的重復編寫,以更便捷地完成數據分析、模型搭建等操作。如在數據標注環節采用自動標注工具,能迅速生成大規模數據的目標定義,以更便捷地構建訓練樣本;在特征工程環節,可點擊“特征提取”組件自動實現對數據的離散化、歸一化、關聯計算等加工處理;對于加工好的指標變量,可點擊“特征選擇”組件選擇卡方檢驗、決策樹、信息熵等多種方法,挑選出有效的特征集合進入模型;還可點擊“特征組合”組件對選定的特征變量進行自動組合,以生成更體現業務含義的新特征。
(3)AI 領域服務。計算機視覺、自然語言處理、語音識別是人工智能尤其是深度學習應用最為廣泛的3 大領域,由于具有較大規模、公開的訓練樣本,這些領域已形成較多針對特定任務、成型的通用智能服務,如計算機視覺領域的人臉識別、目標檢測、圖像分類等,自然語言處理領域的分詞、命名實體識別、文本分類等,這些通用服務已越來越深入地應用到風控、投資等金融核心領域的智能化建設過程中。AI 平臺通過提供相關通用服務的功能組件,將各領域智能化產品在研發過程中進行共享與調用,提升整體智能化研發效率。同時,對于信用評分、營銷白名單等銀行場景中常用的智能化服務,AI 平臺也提供相應的功能組件,滿足各類業務對通用機器學習服務的需求。
(4)資源調度管理。算法模型訓練尤其是深度神經網絡模型訓練需要以強大的計算資源為基礎,故AI 平臺需實現對異構計算資源的調度,為上層建模提供高可用、彈性可拓展的異構計算能力。平臺采用容器管理技術進行CPU、GPU 等計算資源調度,且支持多租戶計算資源的調度、隔離與管理,可實現不同業務場景多用戶、多模型的并行訓練、測試、部署及對外服務。
在大數據平臺、AI 平臺的資源與環境支持下進行數據資產開發與算法模型構建,才能研發出賦能業務場景的智能化應用。這兩者相互作用、相互影響,但相互影響、相互作用的過程有所不同。一方面數據資產作為算法模型的輸入,其質量會直接影響模型的分析預測效果,如在金融市場投資等不完全信息博弈領域,金融資產動態因子庫這一數據資產對預測金融資產的價格至關重要;另一方面,算法模型作為某些數據資產的開發手段,模型的技術架構也將直接決定數據資產的質量,如對于知識圖譜這類數據資產,依托算法模型從大量非結構化數據中提取出實體、關系等信息[11],是構建高質量知識圖譜最為重要的步驟。
2.3.1 場景化數據資產開發
業務場景中原始數據通常形態多樣、紛繁雜亂,充斥著無關的噪聲信息,對業務的表達能力有限[12],不能直接用來進行業務分析或建模預測,而需要工程化處理后轉化為應用價值更高的數據資產[13]。對應不同的應用目標,數據資產也具有豐富的類型,本文基于財富管理、投資研究、風險內控等金融場景,主要構建了特征因子庫與知識圖譜這兩大類數據資產。
(1)動態特征因子庫。動態特征因子庫是在原始數據基礎上結合金融領域業務邏輯思維,構建出能有效應用于業務分析及建模預測的特征指標,并隨著數據的演變持續更新?;诮鹑谫Y產的特征因子庫(見表1)和基于客戶的特征因子庫(見表2)為財富管理相關算法模型構建奠定持續穩定、高可用度的數據基礎。

Table 1 Example of financial assets’dynamic feature corpus(part)表1 金融資產動態特征因子庫字典截圖示例(部分)

Table 2 Example of customer’s dynamic feature corpus(part)表2 客戶動態特征庫數據字典截圖示例(部分)
(2)金融知識圖譜。金融知識圖譜主要是通過大規模語義網絡,將金融領域中結構化、半結構化、非結構化等不同類型的數據進行整合,并以圖連接的形式加以展現[14],沉淀成結構化的知識體系,并通過進一步分析挖掘得出更深層的隱藏信息,使信息的檢索查詢都更加智能化[15]。本文構建了投研領域的企業債券知識圖譜(見圖4),以及風險內控領域的資金賬戶關聯圖譜(見圖5),更清晰地展現不同主體之間的關聯關系,研判可能的風險事件。

Fig.4 Enterprise bonds knowledge graph圖4 企業債券知識圖譜

Fig.5 Capital accounts knowledge graph圖5 資金賬戶關聯圖譜
2.3.2 應用型算法模型構建
數據價值的釋放需要設計和開發符合業務需求的數據挖掘與機器學習算法模型[16]。依托AI 平臺豐富的算法框架,在數據資產基礎上根據業務目標構建相應的金融模型,能有效提升分析預測服務的精準性。本文列出兩類在智慧金融建設中具有較強金融屬性與業務代表性的模型并研發形成相應的技術架構。
(1)行為序列注意力機制(BSA:Behavior Sequence At?tention)模型。該模型在前述金融資產、個人客戶等動態特征因子庫數據資產基礎上構建,將金融資產的風險、收益等特征與客戶的靜態基本信息、動態行為特點等結合進行預測分析[17],發掘出與客戶更適配的金融產品及資產組合(見圖6)。
(2)圖卷積神經網絡(GCN:Graph Convolutional Neural Network)。該模型基于金融知識圖譜這類數據資產進行構建,應用于投資研究中的金融風險預測,研判企業可能出現的風險事件[18];也被應用于風險內控中欺詐交易的識別,挖掘資金賬戶交易網絡的深層信息,預警異常交易行為[19](見圖7)。

Fig.6 BSA model’s technology architecture圖6 BSM 模型技術架構

Fig.7 GCN model’s technology architecture(taking fraud as an example)圖7 GCN 模型技術架構(以欺詐預測為例)
在大數據平臺和AI 平臺支撐下進行數據資產的開發及算法模型構建,最終實現投資研究、風險內控、財富管理等場景智能化產品的研發、落地與應用。業務實踐結果表明,這些智能化產品顯著提升了金融服務的智慧化水平,提高了業務的經營效益,有助于推動銀行智慧化轉型、高質量發展進程。
智能投研主要功能是幫助投研人員進行行業知識的提煉、總結、關聯,構建出行業、企業等主體相關更加清晰、完整的關聯關系及事件關系全景拓撲網絡視圖,并在此基礎上進行風險及事件預測,輔助研判行業趨勢。
在智能化應用過程中(見圖8),將大量文本形式的行業研究報告、債券評級報告等作為分析挖掘的基礎數據,基于場景化的Bi-LSTM+CRF 模型[20]、PCNN 網絡[21]等,從報告中提取出關鍵信息,自動構建關聯知識圖譜,一方面幫助投研人員對報告核心內容進行迅速、便捷、全面的檢索,另一方面基于GCN 模型前瞻性地預判企業可能面臨的金融風險,更深入地輔助投研人員進行投資決策。
該智能化產品應用后極大提高了投研人員的分析效率,以一份城投債評級報告為例,如表3 所示。通常情況下人工進行深入分析、梳理大概要花費2 小時左右的時間,而智能投研產品能夠在1 分30 秒內迅速完成對報告內容的解析、提煉,以關聯圖譜的形式進行展示,并可應用于檢索查詢及深入的挖掘預測。

Fig.8 Business application framework of intelligent investment research圖8 智能投研業務應用解決框架

Table 3 Intelligent Investment Research Analysis Results表3 智能投研報告解析效果
智能投顧旨在為客戶推薦符合其特點的個性化資產配置組合。一方面在客戶端評估刻畫投資者的風險屬性、行為偏好等特征,形成客戶的全面畫像;另一方面在資產端分析并篩選當前金融市場走勢下的有效資產組合,最終通過客戶特征與有效資產的結合映射,形成個性化的資產組合推薦。
在具體的智能化應用過程中(見圖9),首先對場景相關數據進行匯集及工程化處理,形成股票、基金等金融產品,及客戶相關的特征因子庫數據資產;然后在數據資產基礎上構建資產配置與推薦相關的業務模型。除了經典的均值—方差模型外,還重點采用前述的BSM 模型,將資產風險收益與客戶行為特征同時納入模型進行分析,為客戶提供個性化的金融資產配置及推薦。

Fig.9 Robo-advisor’s business application framework圖9 智能投顧業務應用解決框架
該智能化產品應用后,能及時、充分識別資產的風險收益特點,有效控制資產組合的整體風險,并基于客戶的偏好特點進行配置與推薦,提高了相關資產的點擊率及購買率。截至2019 年末,該智能化服務為直銷銀行上的基金和理財客戶提供了分層化、差異化、個性化及更適配的資產推薦服務(見表4),推動直銷銀行零售財富管理規模實現15%以上的增長。

Table 4 Robo-advisor’s asset allocation results表4 智能投顧差異化配置效果
智能案防主要應用于商業銀行內部違規操作、可疑交易等風險事件的識別、預警與排查,以降低違規交易事件帶來的資金損失。
在具體的智能化應用實踐中(見圖10),首先對歷史風險事件案例信息進行結構化處理,提取其中風險特征,形成違規操作風險指標庫;然后結合交易賬戶相關主體的資金、信貸、往來等多維數據,構建資金賬戶關聯圖譜這一數據資產;再在關聯圖譜基礎上采用此前構建的GCN 模型進行關聯風險提取,并結合風險指標庫深度挖掘可能的違規交易事件。
該智能化產品應用后取得了顯著的業務效果,會計風險案件核查準確率高達90%以上,如表5 所示。在運行一年多的時間里對全行近3 000 萬個賬戶進行排查,發現問題交易流水上萬筆,挽回損失金額達上百億元,為內控合規建立了一道有效的智能化風險防線。

Fig.10 Business application framework of intelligent accounting risk management圖10 智能案防業務應用解決框架

Table 5 Intelligent risk accounting verification results表5 智能案防風險排查效果
智慧金融建設中數據、技術及應用環環相扣又相互影響,構建大數據平臺、AI 平臺、應用平臺三者之間順暢的垂直交互架構,形成靈活的橫向延伸模式,使智能化產品既能快速在當前金融領域落地,又能進一步敏捷推演至其他金融場景,對智慧金融的高效、全面建設起到決定性作用。智慧金融應用發展路徑要從以下幾方面著手:
(1)形成垂直切片、小場景演進的研發架構,如圖11 所示(彩圖掃OSID 碼可見,下同)。從特定場景的某項具體智能化應用入手構建該場景的大數據平臺、AI 技術平臺、應用平臺之間垂直切片架構,一方面通過聚合垂直領域各層面的相關功能,使智能化應用可以基于業務目標自行選擇更有效的數據、設計更合適的算法、創造更精準的服務,并根據業務場景及服務目標的變化進行快速迭代;另一方面經過在垂直切片領域的探索試錯,將成功、有效的方法、技術迅速拓展到更廣泛的金融業務中,使智能化服務由小場景逐漸演進至全領域,為全面智慧金融建設提供更穩健、可靠的路徑保障。

Fig.11 Vertical slice technology architecture圖11 垂直切片的研發技術架構
(2)打通數據、技術、應用的循環交互鏈條,如圖12 所示。在垂直業務領域的切片架構下,數據、技術與應用之間存在閉環傳導機制,數據為技術模型提供分析基礎,技術模型為業務應用輸出決策能力,業務變化又產生新的數據及分析需求,只有疏通三者間的傳導渠道才能使數據的信息價值、技術的預測能力成功轉化成智能化服務。一方面在正向傳導過程中要保障數據向技術模型順暢傳輸,使技術模型因數據特點靈活設計,業務場景由技術模型驅動運營,最終使智能化產品觸達到市場與客戶;另一方面在反向傳導過程中,要形成對業務經營中產生與變化的數據進行實時加工整合的能力,使數據隨場景演變及時更新匯集,再通過技術模型得到新的分析結果,從而能迅速捕獲到金融業務中稍縱即逝的新機會。

Fig.12 Interaction architecture of data,technology and business圖12 數據、技術、業務的交互架構
智慧金融是金融供給側改革的重要路徑,也是商業銀行滿足客戶需求的重要手段,已成為金融業轉型發展的必然選擇。本文對商業銀行相關業務領域智能產品的研發與實踐進行了總結,并基于此對商業銀行智能化建設的路徑,尤其是大數據、人工智能相關核心技術在金融場景的落地應用、效能提升等相關問題進行了研究和思考,為商業銀行全面高效推進數字化轉型和高質量發展提出了一些更具前瞻性的建議。在業務領域智能化實踐中,商業銀行需將數據體系、技術體系、應用體系三個層面有機結合統籌推進,構建大數據平臺、AI 平臺、應用平臺三者之間順暢的垂直交互架構,以實現智能化產品在業務場景中敏捷化落地應用。