周衛(wèi)峰
(中國人民銀行太原中心支行 山西省太原市 030024)
隨著外匯領(lǐng)域數(shù)據(jù)量的快速持續(xù)增長,如何整合外匯數(shù)據(jù)資源,深入挖掘數(shù)據(jù)的關(guān)聯(lián)關(guān)系,為外匯管理提供全面、高效、智能的數(shù)據(jù)支撐,值得深入研究。本文基于當(dāng)前外匯數(shù)據(jù)實(shí)際,結(jié)合大數(shù)據(jù)平臺(tái)架構(gòu)與算法,對(duì)智能外管大數(shù)據(jù)分析平臺(tái)建設(shè)的基礎(chǔ)、路徑和內(nèi)容進(jìn)行了探索。
建設(shè)大數(shù)據(jù)分析平臺(tái)是實(shí)施智能外管必需的基礎(chǔ)設(shè)施,相較于金融機(jī)構(gòu)基于海量歷史數(shù)據(jù),利用大數(shù)據(jù)技術(shù)建立起自身的應(yīng)用平臺(tái),金融監(jiān)管機(jī)構(gòu)大數(shù)據(jù)平臺(tái)建設(shè)相對(duì)緩慢。受制于技術(shù)成熟度、運(yùn)維能力、監(jiān)管目標(biāo)等因素的影響,外匯局應(yīng)用大數(shù)據(jù)技術(shù)之初,主要采用按業(yè)務(wù)條線各自建設(shè)的方式,容易產(chǎn)生數(shù)據(jù)孤島,無法深入開展跨業(yè)務(wù)領(lǐng)域的數(shù)據(jù)分析,難以發(fā)揮出大數(shù)據(jù)技術(shù)在數(shù)據(jù)集成、關(guān)聯(lián)分析、數(shù)據(jù)挖掘等方面的優(yōu)勢。因此,穩(wěn)步推進(jìn)智能外管建設(shè),構(gòu)建跨業(yè)務(wù)條線、全局統(tǒng)一的智能外管大數(shù)據(jù)分析平臺(tái)勢在必行。
建設(shè)智能外管大數(shù)據(jù)分析平臺(tái),需要對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行梳理,當(dāng)前外匯局?jǐn)?shù)據(jù)具有以下特點(diǎn):一是數(shù)據(jù)規(guī)模大。外匯局系統(tǒng)數(shù)據(jù)數(shù)字化報(bào)送以來,積累了海量的登記信息與交易數(shù)據(jù)。二是數(shù)據(jù)規(guī)范度高。通過外匯應(yīng)用系統(tǒng)銀行端及互聯(lián)網(wǎng)端申報(bào)的數(shù)據(jù),數(shù)據(jù)采集范圍和數(shù)據(jù)格式均采用統(tǒng)一要求。三是安全性高?!鞍踩夤堋苯ㄔO(shè)成效明顯,實(shí)行專線接入,構(gòu)建“兩地三中心”信息安全保障方案,有效保障了外匯數(shù)據(jù)安全。四是數(shù)據(jù)廣度大。外匯系統(tǒng)數(shù)據(jù)不僅包括跨境交易數(shù)據(jù),還通過數(shù)據(jù)共享的方式集成了大量的外部數(shù)據(jù),如海關(guān)數(shù)據(jù)、工商登記數(shù)據(jù)、商務(wù)部門直接投資數(shù)據(jù)等,外部數(shù)據(jù)的擴(kuò)充有效提升了外匯系統(tǒng)數(shù)據(jù)的廣度。從分析梳理可以看出,外匯系統(tǒng)數(shù)據(jù)規(guī)模大、規(guī)范度高、安全性好和廣度大的特點(diǎn)為智能外管大數(shù)據(jù)分析平臺(tái)的建設(shè)提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。但值得注意的是,跨境資金流動(dòng)中各類市場主體跨市場、跨行業(yè)風(fēng)險(xiǎn)不斷演變升級(jí),外部風(fēng)險(xiǎn)的不斷加大,新時(shí)代外匯監(jiān)管需求對(duì)智能外管大數(shù)據(jù)分析平臺(tái)的建設(shè)提出了更高的要求:一是《民法典》的頒布讓民眾的隱私權(quán)得到了更有效的保護(hù),外匯數(shù)據(jù)安全問題在滿足應(yīng)用的同時(shí)需要進(jìn)一步考量數(shù)據(jù)安全使用的問題。二是外匯監(jiān)管由事前向事后、由定期監(jiān)測向?qū)崟r(shí)預(yù)警的轉(zhuǎn)型,需要加大對(duì)數(shù)據(jù)的挖掘力度,擴(kuò)展數(shù)據(jù)的應(yīng)用需求。三是當(dāng)前外部數(shù)據(jù)源有待進(jìn)一步拓展,如應(yīng)考慮補(bǔ)充境內(nèi)人民幣數(shù)據(jù),進(jìn)而對(duì)某一市場主體跨境資金流動(dòng)數(shù)據(jù)進(jìn)行有效對(duì)接,完整刻畫市場主體交易脈絡(luò)和圖譜,為高效識(shí)別異常交易提供精準(zhǔn)信息支撐??傮w而言,現(xiàn)有外匯系統(tǒng)數(shù)據(jù)可以為智能外管大數(shù)據(jù)分析平臺(tái)提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),為平臺(tái)的功能應(yīng)用提供足夠的數(shù)據(jù)資源。同時(shí),在建設(shè)中也需要進(jìn)一步拓展有效數(shù)據(jù)源,豐富智能建設(shè)技術(shù),建立統(tǒng)一的大數(shù)據(jù)分析平臺(tái)服務(wù)監(jiān)管科技的總目標(biāo)。
基于外匯局現(xiàn)有數(shù)據(jù)特點(diǎn),智能外管大數(shù)據(jù)分析平臺(tái)除需要為“數(shù)字外管”平臺(tái)提供數(shù)據(jù)的采集、存儲(chǔ)、運(yùn)算、分析等基礎(chǔ)性支撐功能外。還應(yīng)具有以下功能:
(1)提供云計(jì)算環(huán)境。支持分布式與并行運(yùn)算,實(shí)現(xiàn)對(duì)數(shù)據(jù)存儲(chǔ)、計(jì)算、建模、可視化等全過程開發(fā)和運(yùn)行,以滿足不同的分析需求。
(2)提供基于WEB 的建模功能。建立基于WEB 架構(gòu)和業(yè)務(wù)流的大數(shù)據(jù)建模系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)模型的實(shí)時(shí)構(gòu)建。
(3)提供可視化分析系統(tǒng)。可以通過可視化引擎、數(shù)據(jù)處理、人機(jī)交互等功能,進(jìn)行互動(dòng)式數(shù)據(jù)分析。
(4)支持多源異構(gòu)數(shù)據(jù)集成。建立多種數(shù)據(jù)接口,便于與外部數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)采集接口的對(duì)接,實(shí)現(xiàn)異構(gòu)采集數(shù)據(jù)的存儲(chǔ),解決數(shù)據(jù)廣度問題。
(5)建立知識(shí)庫。包括算法庫、建模庫與案例庫,實(shí)現(xiàn)分析成果的全局共享。
(6)系統(tǒng)與數(shù)據(jù)安全管控。在使用必要措施避免發(fā)生數(shù)據(jù)泄漏和丟失的同時(shí),平臺(tái)還應(yīng)對(duì)各種操作行為進(jìn)行實(shí)時(shí)記錄,實(shí)現(xiàn)對(duì)違規(guī)行為的溯源需求。
如圖1所示,該架構(gòu)可以考慮參照目前主流大數(shù)據(jù)平臺(tái)系統(tǒng)進(jìn)行搭建,即采用自上而下多功能層的架構(gòu)思路,構(gòu)架主要可分為數(shù)據(jù)應(yīng)用層、數(shù)據(jù)支撐層、數(shù)據(jù)存儲(chǔ)層和數(shù)據(jù)采集層四個(gè)層次,除此之外,還需要貫穿整體的數(shù)據(jù)安全模塊和數(shù)據(jù)管理模塊。結(jié)合外匯局信息系統(tǒng)建設(shè)實(shí)際,可以遵循以下順序?qū)崿F(xiàn)智能外管大數(shù)據(jù)分析平臺(tái)的搭建。

圖1:智能外管大數(shù)據(jù)分析平臺(tái)架構(gòu)
首先,搭建數(shù)據(jù)存儲(chǔ)層,存儲(chǔ)層是整個(gè)平臺(tái)的基礎(chǔ),搭建可擴(kuò)展的 Hadoop (分布式系統(tǒng)基礎(chǔ)框架)集群及相關(guān)組件,解決大數(shù)據(jù)平臺(tái)中最核心的海量數(shù)據(jù)存儲(chǔ)與高速讀取問題。其次,通過已有外匯數(shù)據(jù)建立數(shù)據(jù)倉庫(Datawarehouse)和ETL(Extract-Transform-Load)組件,實(shí)現(xiàn)已有外匯數(shù)據(jù)向大數(shù)據(jù)平臺(tái)遷移與增量數(shù)據(jù)存儲(chǔ)。最后,完善應(yīng)用層,可直接遷移現(xiàn)有“數(shù)字外管”平臺(tái)應(yīng)用層,實(shí)現(xiàn)原有系統(tǒng)在大數(shù)據(jù)平臺(tái)上的平穩(wěn)過渡和高效使用,再逐步強(qiáng)化大數(shù)據(jù)分析功能,利用大數(shù)據(jù)分析工具挖掘數(shù)據(jù)價(jià)值,真正發(fā)揮大數(shù)據(jù)平臺(tái)的智能分析能力。
3.2.1 數(shù)據(jù)采集
數(shù)據(jù)采集層是該平臺(tái)的基礎(chǔ),除外匯局各業(yè)務(wù)系統(tǒng)現(xiàn)行采集的數(shù)據(jù)外,還需納入以下數(shù)據(jù):一是其他監(jiān)管部門(如稅務(wù)總局)數(shù)據(jù)。二是被監(jiān)管方流水?dāng)?shù)據(jù)。三是互聯(lián)網(wǎng)數(shù)據(jù),包括各機(jī)構(gòu)互聯(lián)網(wǎng)公開公布數(shù)據(jù)、天眼查(企查查)等第三方平臺(tái)API 接口數(shù)據(jù)和爬蟲抓取數(shù)據(jù)。只有打破監(jiān)管方與被監(jiān)管方、監(jiān)管部門之間的數(shù)據(jù)共享壁壘,才能挖掘出數(shù)據(jù)背后的價(jià)值,發(fā)揮大數(shù)據(jù)平臺(tái)的真正作用?!督鹑跈C(jī)構(gòu)外匯業(yè)務(wù)數(shù)據(jù)采集規(guī)范(1.2 版)》的發(fā)布提高了外匯業(yè)務(wù)系統(tǒng)數(shù)據(jù)規(guī)范化程度,但由于人員素質(zhì)、業(yè)務(wù)熟練程度等因素的影響,部分需由交易主體手工錄入的數(shù)據(jù)仍無法避免出現(xiàn)錯(cuò)誤與遺漏,難以從源頭上保證數(shù)據(jù)信息準(zhǔn)確完整。外部數(shù)據(jù)由于數(shù)據(jù)來源不同,導(dǎo)致數(shù)據(jù)格式的多樣,且需要實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)庫到數(shù)據(jù)倉庫的轉(zhuǎn)化。這就要求外匯局應(yīng)從數(shù)據(jù)格式入手,結(jié)合自身業(yè)務(wù)特點(diǎn)和場景需求設(shè)計(jì)數(shù)據(jù)倉庫樣式與ETL 程序。
3.2.2 數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)存儲(chǔ)層建立在Hadoop 的HDFS 基礎(chǔ)上,主要負(fù)責(zé)提供多源異構(gòu)、高擴(kuò)展、低延遲的數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)存儲(chǔ)層可以存儲(chǔ)結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),其中結(jié)構(gòu)化數(shù)據(jù)主要是指關(guān)系型數(shù)據(jù),特點(diǎn)是數(shù)據(jù)量小、格式固定且需要頻繁訪問,可使用現(xiàn)存的關(guān)系型數(shù)據(jù)庫存儲(chǔ)。非結(jié)構(gòu)化數(shù)據(jù)包括登記備案、違規(guī)處罰等非數(shù)字型數(shù)據(jù),特點(diǎn)是量大、可用率低,要求具有較高的壓縮比率和存取速率,可利用Parquet format 的HDFS 進(jìn)行存儲(chǔ),以提高壓縮比率的方法實(shí)現(xiàn)快速的存儲(chǔ)。半結(jié)構(gòu)化數(shù)據(jù)介于完全結(jié)構(gòu)化和完全無結(jié)構(gòu)數(shù)據(jù)之間,如電子郵件、JSON、XML 文檔等,大多為日志數(shù)據(jù),此類數(shù)據(jù)易于傳輸、轉(zhuǎn)換,同時(shí)具有較高的可讀性,可采用基于Lucene的ElasticSearch 分布式文件系統(tǒng)存儲(chǔ)。
3.2.3 數(shù)據(jù)處理
數(shù)據(jù)處理層負(fù)責(zé)數(shù)據(jù)計(jì)算與分析,向下整合各類格式的數(shù)據(jù),利用大數(shù)據(jù)平臺(tái)的運(yùn)算和挖掘能力,向上實(shí)現(xiàn)數(shù)據(jù)的共享,提供豐富的應(yīng)用場景。該層針對(duì)大規(guī)模海量數(shù)據(jù),采用云計(jì)算環(huán)境下的并行數(shù)據(jù)處理算法與策略,另外,數(shù)據(jù)運(yùn)算應(yīng)支持流式運(yùn)算和離線運(yùn)算,Hadoop 的Map/Reduce 運(yùn)算架構(gòu)對(duì)現(xiàn)有應(yīng)用較多的聚類、分類、關(guān)聯(lián)規(guī)則算法等進(jìn)行了改進(jìn),在離線和并行運(yùn)算方面表現(xiàn)突出,但在實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)流運(yùn)算方面略顯不足,實(shí)時(shí)流運(yùn)算可采用Spark 架構(gòu),Spark 作為一種基于Memory computing 的分布式運(yùn)算架構(gòu),嵌入了多種Machine Learning 運(yùn)算庫,可在保證容錯(cuò)率和高可伸縮性的同時(shí)進(jìn)行實(shí)時(shí)性的數(shù)據(jù)處理。同時(shí),數(shù)據(jù)處理層通過運(yùn)用大數(shù)據(jù)平臺(tái)的存儲(chǔ)與運(yùn)算優(yōu)勢,在對(duì)各類數(shù)據(jù)進(jìn)行整合的基礎(chǔ)上,利用數(shù)據(jù)挖掘技術(shù),為不同外匯業(yè)務(wù)提供跨條線的查詢檢索、分析模型和挖掘算法。
3.2.4 數(shù)據(jù)應(yīng)用
數(shù)據(jù)應(yīng)用層是大數(shù)據(jù)分析及相關(guān)技術(shù)智能應(yīng)用的直接體現(xiàn),為用戶提供決策支持,為“數(shù)字外管”提供智能監(jiān)管,為各種外部應(yīng)用提供服務(wù)和接口,充分發(fā)揮該平臺(tái)的潛力。數(shù)據(jù)應(yīng)用層可以針對(duì)不同的數(shù)據(jù)場景進(jìn)行數(shù)據(jù)梳理:
(1)決策支持。運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行深入挖掘和處理,在精準(zhǔn)識(shí)別有效數(shù)據(jù)基礎(chǔ)上,對(duì)跨境資金的主體、性質(zhì)、形式、用途等進(jìn)行切片分析。運(yùn)用決策樹分析、神經(jīng)網(wǎng)絡(luò)、遺傳算法等技術(shù),深挖數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,發(fā)現(xiàn)與跨境風(fēng)險(xiǎn)關(guān)聯(lián)的潛在因素,提早識(shí)別出傾向性問題,助力實(shí)現(xiàn)國際收支動(dòng)態(tài)平衡。
(2)智能監(jiān)管方面的事前預(yù)警。深入挖掘海量歷史數(shù)據(jù),搭建邊界條件開展模擬驗(yàn)證,分析各參數(shù)的壓力、臨界區(qū)間,構(gòu)建監(jiān)管預(yù)警模型,結(jié)合當(dāng)前形勢,對(duì)每筆交易進(jìn)行風(fēng)險(xiǎn)分級(jí),例如地下錢莊、跨境賭博等。
(3)智能監(jiān)管方面的客戶標(biāo)簽。以銀行或者企業(yè)為主體,用全方位的數(shù)據(jù)進(jìn)行主體畫像,提取違規(guī)企業(yè)、銀行的特征信息,構(gòu)建相關(guān)規(guī)則庫,實(shí)現(xiàn)違規(guī)主體的篩選和監(jiān)測,實(shí)現(xiàn)主體的智能監(jiān)管。
(4)數(shù)據(jù)共享。在簽署聯(lián)合監(jiān)管合作備忘錄的基礎(chǔ)上,可以充分利用該平臺(tái)資源,接入公安、稅務(wù)、海關(guān)數(shù)據(jù),共享自身數(shù)據(jù),實(shí)施全面、綜合監(jiān)管,減少重復(fù)監(jiān)管,提高社會(huì)總體監(jiān)管水平。
3.2.5 數(shù)據(jù)安全
該平臺(tái)為外匯監(jiān)管帶來便利的同時(shí),亦會(huì)存在潛在的風(fēng)險(xiǎn)。一方面外匯數(shù)據(jù)具有較高的安全性要求,另一方面針對(duì)大數(shù)據(jù)的數(shù)據(jù)集中、數(shù)據(jù)量大、數(shù)據(jù)價(jià)值大等新特點(diǎn)產(chǎn)生的安全風(fēng)險(xiǎn)更加突出,一旦數(shù)據(jù)被非法訪問甚至泄露損失更加巨大。平臺(tái)數(shù)據(jù)安全模塊應(yīng)遵從合規(guī)性和規(guī)范化原則,采用國產(chǎn)自主可控硬件,建立全面的基于數(shù)據(jù)生命周期的安全保護(hù)體系。
(1)提供訪問控制。對(duì)數(shù)據(jù)進(jìn)行安全等級(jí)劃分,建立基于標(biāo)識(shí)的強(qiáng)制訪問措施。
(2)提供數(shù)據(jù)安全審計(jì)。充分運(yùn)用數(shù)據(jù)訪問日志,掌握數(shù)據(jù)使用情況。
(3)提供數(shù)據(jù)安全預(yù)警。建立數(shù)據(jù)導(dǎo)出預(yù)警機(jī)制,防止數(shù)據(jù)違規(guī)使用行為。
(4)提供質(zhì)量保證機(jī)制。對(duì)共享數(shù)據(jù)實(shí)施質(zhì)量控制,全面保障平臺(tái)數(shù)據(jù)安全。
3.2.6 數(shù)據(jù)管理
數(shù)據(jù)管理功能主要實(shí)現(xiàn)異構(gòu)數(shù)據(jù)統(tǒng)一管理,圍繞數(shù)據(jù)處理任務(wù)進(jìn)行設(shè)計(jì),對(duì)于不同來源、類型的數(shù)據(jù)進(jìn)行全生命周期的管理,同時(shí)在系統(tǒng)和制度方面建立嚴(yán)格的數(shù)據(jù)管理機(jī)制,對(duì)系統(tǒng)數(shù)據(jù)的查詢、增加、刪除、修改、提取、備份、恢復(fù)進(jìn)行規(guī)定,確保數(shù)據(jù)管理有章可循。