張新建
摘要:人民銀行支付系統作為我國社會資金流動的大動脈,累積了海量的真實交易數據,為充分挖掘這些交易數據蘊含的有價值信息,該文對基于支付系統數據的大數據分析平臺進行了研究,并提出了設計模型,以期為支付系統數據分析研究提供參考。
關鍵詞:支付系統;交易數據;大數據平臺
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)06-0068-02
人民銀行建設并運營的中國現代化支付系統是我國社會資金在包括企業和個人在內的各經濟實體之間進行流動的主要通道,隨著社會經濟的快速發展,支付系統累積的交易數據也呈現爆炸式增長,通過對這些海量且來源于真實經濟活動的數據進行挖掘、分析,必然能夠得到反映經濟活動規律的有價值信息。
當前基于傳統技術構建的數據分析平臺普遍存在分析能力不足、業務數據訪問流程復雜等缺點,尤其是在對海量數據進行分析處理時,存在處理速度過慢、分析結果價值低等不可容忍缺陷,因此應用傳統架構的數據分析平臺不適用于支付數據的挖掘分析,而建立一個基于支付系統數據的大數據分析平臺,從而讓數據產生價值,就顯得尤為迫切。
1 支付系統數據的特點
1.1 數據規模大
中國現代化支付系統(CNAPS)作為人民銀行開發設計的金融基礎設施,主要提供商業銀行之間跨行的支付清算服務,是為商業銀行之間和商業銀行與中國人民銀行之間的支付業務提供最終資金清算的系統,是各商業銀行電子匯兌系統資金清算的樞紐系統,是連接國內外銀行重要的橋梁,也是金融市場的核心支持系統。通過支付系統的交易數據量非常大,2017年,支付系統平均每月處理的業務量超過2億筆。
1.2 數據格式化程度高
通過支付系統的交易數據,格式化程度較高,每條交易數據,都包含完整的發起方、發起賬號、收款方、收款賬戶等信息,便于數據的存儲和分析。
1.3 數據安全性要求高
支付系統的交易數據,均是真實的交易記錄,包含交易雙方的真實信息,數據安全性要求很高,需要嚴格保密,防止數據泄露。
1.4 數據分析的實時性要求較低
通過大數據平臺,對支付系統數據進行分析的實時性要求較低,可以進行離線分析和處理。
2 支付系統大數據分析平臺架構設計
根據支付系統數據的生命周期,支付系統大數據分析平臺架構應當包括四個部分:數據采集層、數據存儲層、數據處理層、數據應用層,除此之外,還需要包括貫穿整個數據生命周期的數據管理模塊和數據安全模塊。
由于支付系統大數據分析的實時性要求不高,因此,可以采用分布式系統基礎架構Hadoop系統作為技術框架,Hadoop系統通過部署在多臺普通的PC機上,利用網絡互聯和協同機制,提供高速數據傳輸和處理能力,同時也具有穩定的性能,適合進行支付系統數據分析。基于Hadoop系統的支付系統大數據平臺的架構如圖1所示。
2.1 數據采集層
數據源主要包括支付系統交易數據,主要采用清算總中心統一下發的屬地數據。雖然支付系統交易數據的格式化程度較高,但是也存在半格式化、非格式化的數據,因此,在進行數據采集時需要對數據源進行統一的格式化處理。同時,為了提供數據分析的能力,還需要從工商、稅務等部門采集區域、行業、公司類別等輔助信息。
2.2 數據存儲層
Hadoop系統的底層存儲建立在HDFS基礎上,HDFS的全稱是Hadoop分布式文件系統。HDFS具有傳統分布式文件系統的很多特征,但也有自己的顯著特點,HDFS被設計成一個高容錯的系統,能夠部署在廉價的PC機器上,提供很高吞吐量的并發數據訪問,非常適合在大規模數據集上進行數據訪問和數據分析。HDFS通過將數據計算任務劃分為不同的文件塊,并分派至不同計算機,實現了數據的物理存儲和邏輯存儲的有機統一,能夠有效提升數據運算的效率,然后將計算結果匯總,實現對大數據平臺計算能力的拓展,同時,分布式計算適用于大量數據的離線處理過程中。
支付系統大數據分析平臺,利用Hadoop系統的Spark技術,通過流式數據訪問,有效降低了存儲資源的使用率和網絡帶寬的占用量,實現對海量存儲的實時分析,為科學決策提供精準的數據支撐。同時利用HDFS的分塊存儲機制,將支付系統數據按照數據塊進行分布式存儲,同時通過構建元數據信息進行管理,能搞實現數據的高速并發訪問,有助于提高數據挖掘和分析的效率。在數據計算分析的基礎上,進行匯總分析,拓展了大數據分析平臺的計算能力,提高了數據安全性和可用性。
2.3 數據處理層
數據處理層是支付系統大數據分析平臺的核心,基于Hadoop技術的數據處理層關注的核心是如何處理支付系統大數據平臺采集的結構化數據和非結構化數據,并進行有效的整合,充分發揮數據挖掘、分析的能力。
支付系統大數據平臺的數據處理,可以針對不同的應用場景進行數據梳理,具體包括:1)數據查詢:通過關鍵字組合、時間點限制,查詢支付系統數據中符合條件的記錄,這也是支付系統大數據分析平臺的基本功能。2)數據重組:根據不同的關鍵字信息和要求,以相應的字段為坐標,對支付系統的數據進行重組,以適應不同的應用場景。3)交互式報表:能夠根據用戶的查詢條件,提供差異化的數據報表,為用戶的數據查詢提供便利,同時也能夠批量處理用戶提供的報表;4)數據字典:通過采集工商、稅務等信息,構建與區域、產業相關的數據字典,為數據應用提供服務。
2.4 數據應用層
通過支付系統大數據分析平臺,為各種外部應用提供服務和接口,充分挖掘支付系統大數據的潛力。具體包括:1)電信詐騙:通過提取支付系統交易數據的異常信息,為電信詐騙案件提供線索,能夠有效提高電信詐騙的偵破概率。2)反洗錢:分析交易數據,及時發現洗錢行為的路徑和金額,為反洗錢行為提供數據支撐。3)區域信息聚合。將指定區域(省、市、縣)的交易數據進行聚合,進行橫向、縱向的比對分析,為政府決策提供支撐。4)產業信息聚合。根據數據處理層提供的數據字典,將不同產業的交易數據進行聚合,分析不同產業的發展情況。
2.5 數據管理模塊
基于Hadoop技術的支付系統大數據分析平臺,在數據管理上圍繞數據處理任務進行設計,重點針對異構數據實現標準化的數據管理,特別是要重點考量元數據架構的設計、數據的生命周期、以及任務處理的調度等,以提高系統的數據管理質量。同時需要建立嚴格的數據管理制度,以數據備份和數據恢復為抓手,確保數據管理有章可循。
2.6 數據安全模塊
基于Hadoop技術支付系統大數據分析平臺,需要建立貫穿整個生命周期的數據安全模塊,支付系統交易數據的安全性要求非常高,數據安全模塊的核心是冗余存儲和并行網絡控制,通過建立嚴格的訪問控制協議,提升大數據分析平臺的安全性。
3 結束語
本文在對支付系統數據的特點進行分析后,提出了對支付系統數據進行分析的大數據平臺,并詳細介紹了各個平臺模塊(層)的設計和作用,受限于客觀條件,本平臺尚在開發之中,并未完全建成,筆者將在今后的工作中,繼續對此進行探索。
參考文獻:
[1] 孟小峰, 慈祥. 大數據的管理:概念、技術與挑戰[J].計算機研究與發展, 2013(1).
[2] 于文. 大數據時代背景下數據挖掘技術與企業信息化[J]. 通信世界, 2016(23).
【通聯編輯:謝媛媛】