唐云霞 胡滟
當前,以大數據、云計算等為代表的新一代信息技術風起云涌,并迅速向金融領域滲透融合。人民銀行作為金融管理部門和金融服務單位,決定了央行數據信息的敏感性和多樣性,如何能在大數據、云計算這些新技術發展趨勢中,完善信息化發展環境,創新信息化服務模式,是新形勢下央行履職的要求。本文以人民銀行數據綜合利用為研究對象,充分發揮業務、信息、技術等多學科的優勢,著重研究大數據驅動人民銀行數據資源治理、價值挖掘,突出管理與決策的利用,通過對區域金融云大數據應用平臺的搭建及運用,建立數據應用研究的新模式。
一、目前金融數據、央行數據分布情況以及存在問題的思考
(一)金融數據分布
全國范圍金融機構信息分布概覽
(二)央行數據分布
目前,央行有100多個自成體系的獨立系統,而且上有多個數據中心,中有32個省級數據中心和32個城市處理中心,下有多個一級節點或二節點。具體如下圖所示:
(三)數據收集、整合、應用存在問題
1.數據采集不統一。一是沒有實現數據一次采集多方共享。目前各個業務數據沒有統一的入口,且數據采集通道不暢通。
二是沒有實現開發標準統一、接口統一。各類業務系統沒有統一技術標準,存在不同數據接口,采集方式單一。
三是沒有實現流程化數據清洗處理。沒有應用新技術來實現規范數據采集流程,沒有實現對內、對外和經濟、金融數據采集的統一規范交互。
2.數據資源孤立。一是獲取外部信息不全面。我們目前沒有一個平臺可以做到對不同類型機構、不同數據格式數據報表能通過統一信息、統一明細數據的上報和抓取。
二是內部信息獲取碎片化。目前部門間數據信息碎片化非常嚴重,數據分散在不同部門、不同科室、不同系統、和不同人員的計算機,各業務數據信息存在條塊切割,獲取效率不高,不利于決策層面的需要。
三是內、外信息實效滯后分散。目前人民銀行與被監管金融機構的評估模式主要為系統交互、按需上報、問卷調查、專家評判決策等模式,數據指標的內外分散、收集時效的滯后、統計信息的缺失將會弱化后續的決策依據。
3.信息資源不共享。目前,人行、政府、其他監管機構關于金融信息的共享及往來,限于金融聯席會議、金融內部網絡交互平臺、金融統計報表傳遞、多部門聯合金融信息交換等較為有限的渠道,金融機構、單位內設部門、政府機構、監管部門的信息都是以各自獨立使用數據庫方式留存,在部門之間、上下級間、經濟金融部門、業務應用和管理應用之間存在信息不對稱,標準不統一,難以實現信息的有效共享。
二、區域金融云大數據應用平臺的建設及應用
(一)規劃“云上央行”
根據人民銀行總行數據綜合利用研究以及云南省云計算大數據“云上云”規劃部署要求,我們在“十三五”期間規劃了以私有云為特征、數據統一管理、內外區別利用的云計算大數據“云上央行”應用模式。其基本架構如下:
1.從“連接”需要考慮。目前,人行業務部門在和銀行、證券、保險的業務信息連接上是不完整的,有些只和銀行連接,與證券、保險等相關部門的連接是完全中斷的。通過“云上央行”行動,搭建“兩個平臺”,實現網絡連接和系統連接,通過金融機構編碼作為數據信息索引標識、作為數據信息匯聚引擎,實現所有數據信息的連接,實現金融信息處理的創新生態。
2.從“共享”需要考慮。目前,人行業務部門在和銀行、證券、保險等單位,都是“各家只顧各家糧”,每個部門都是自己建立一個數據倉庫,把自己的業務需求搞定就完成。但隨著金融改革的深入,人民銀行履職的特殊性,金融數據信息的相互交叉、滲透、融合,僅僅靠掌握自己手中的數據信息,管理人員和分析研究部門會發現越來越勢單力薄,能掌握“多少信息”能否看得“再遠一點”是各個單位綜合部門在進行數據處理和利用時的困惑。通過綜合平臺,從兩個方面為數據信息共享搭建橋梁:
一是對“外”,建立人民銀行與外部機構的網絡和應用連接,積累大量分析數據信息,增強數據信息的實用價值。
二是對“內”,建立人民銀行橫向和縱向的數據信息關聯機制,以及利用大數據、云計算和云存儲,共享數據,實現數據的共創和碰撞,讓數據真正地“應用”起來,而不是僅僅“擁有”,力爭提升數據綜合應用分析能力。
3.從“計算”需要考慮。大數據、云計算首當其沖面臨的是數據的處理速度,今天我們購買的高端機、小機、PC機或者建立數據倉庫等等一系列都是用來解決計算的問題,綜合平臺的建立可以降低連接成本;大數據可以降低信息的獲取成本,擴大信息的獲取范疇;提供海量數據的實時處理速度。
(二)建設大數據應用平臺
我們結合工作實際,從各個業務處室提出的成百上千的統計報表匯聚;經濟金融運行中關聯數據的使用;數十年海量數據的利用窘境,從如何融合、共享、分析、展示部門之間的信息,為全行各職能部門研判決策提供支撐出發,依托虛擬化平臺,實施建設區域金融云大數據應用平臺。
1.搭建BI(商業智能)系統架構。在系統整體架構中采用業界先進的BI(商業智能)技術架構,集成ETL技術、OLAP技術、報表技術、分布式大數據技術、數據挖掘技術和云計算技術,有效地保系統障了數據的時效性、準確性和易用性。邏輯架構如下圖所示:
2.采取分布式大數據處理核心技術。區域金融云大數據應用平臺的數據技術涵蓋了硬軟件多個方面的技術,采用的大數據處理的核心技術DB2 DPF和Hadoop。目前各種技術基本都獨立存在于存儲、開發、平臺架構、數據分析挖掘的各個相對獨立的領域。
3.建立分布式數據庫物理結構。平臺采用DB2 DPF實現非共享體系架構的分布式高性能數據處理和大數據量存儲環境。
(三)大數據應用研究成果
以編碼信息為例,我們通過對業務的理解、數據準備、建模開展了以金融機構編碼信息為收索引擎的模型應用分析。
利用金融機構編碼匯聚眾多金融機構業務信息和編碼信息的之間的關系,以及相互之間是如何影響的,對于數據分析是非常重要的。關聯規則模型可以依據業務發生對象的行為,通過算法找出業務趨勢和監測對象的相關性,如圖:
目前BMS系統內登記了銀行、證券、保險機構信息并為每一家機構賦予了唯一的金融屬性的識別碼,金融機構編碼也嵌入ACS、賬戶、反洗錢、國庫、征信等應用系統系統內。以機構編碼為信息會聚、搜索“結點”從“機構信息直接分析”、“機構信息業務關聯分析”、“機構監測應用分析”三個維度(時間、地域、訪問者)展示數據應用研究的一個成果:
三、未來發展展望
一是通過數據分析挖掘平臺在多個基礎業務部門開展數據挖掘研究,通過立方體多維分析服務,借助下鉆、上鉆、切片、旋轉等便捷的操作實現對熱點和關注點的深入分析和全方位了解圍繞金融監測、貨幣政策、金融穩定提供利用價值。
二是選取某一關注點,通過數據分析平臺實現的數據整合資源,利用大數據的技術去尋找不同變量間新的相關關系,建立1-3個決策模型,利用算法把大量碎片化數據進行整合形成拼圖,對“數據”深度研究還原數據反映的某一類趨勢的真實情況。
三是以實驗的方式驗證大數據的思維方式和大數據應用的推廣方案,把一些沒有經過數據實證的假設當成真理性的結論。endprint