劉凱 于天



摘要:文章結合商業銀行目前數據治理工作情況和存在的問題,并結合目前我國商業銀行科技化、數字化進程發展情況,提出具體思考建議,為我國商業銀行數字化轉型奠定決策基礎。
關鍵詞:數據治理;數字銀行;科技賦能
一、 數字銀行與數據治理介紹
2017年來,全球各大領先銀行紛紛擁抱數字化變革。據統計,國際領先銀行每年平均投入稅前利潤的17%~20%用于數字化轉型和創新。而在我國,根據2019年初中國銀行業協會曾發布過一份行業調研報告,披露了多家銀行在金融科技方面的投入(見表1)。從數據來看,上榜銀行2018年的金融科技投入普遍占總營收的1%升至2%。對比2018年上市銀行財報,盡管僅有少數幾家銀行披露了研發和科技投入的規模,但都在上述調研結果的區間內。而展望2019年,不少銀行則將這一比例提升到了3%以上。
數字銀行以大數據、云計算、人工智能和移動互聯網等先進信息技術為支撐,全面強化了“以客戶為中心”的理念,強調通過數字化的寬帶網絡和移動互聯網等各種新興渠道為客戶提供便利化服務以增加客戶黏性。通過“端到端”數據處理優化流程,對客戶開展差異化經營以提升客戶體驗。通過客戶行為數據捕捉和分析以引導創新,同時注重加強客戶數據安全和隱私保護。
高質量的數據是構建數字銀行的核心基礎,高質量數據不應僅滿足于高準確性,而應轉變為一個包含豐富內涵、具有多種維度的綜合性概念;而且,隨著統計的服務外延從數據服務向決策服務轉變,數據質量還需要滿足用戶的需求和期望。同時,結合全面質量管理理論,如果將數據視為產品,那么數據治理不僅包含數據本身的治理,還應包括數據產生和形成過程的治理。
綜上所述,數據治理是在數據收集、處理和加工、生成和應用等數據產生和形成的整個過程中,影響數據滿足用戶需求的一組特性。一般情況下,數據治理包括數據收集過程的準確性、真實性、適用性等,數據加工和處理過程中的可比性、方法健全性、可銜接性等,數據生成和應用過程中的及時性、完整性、可獲得性等,及整個過程的成本有效性等。
二、 數字銀行數據治理的現狀與挑戰
1. 銀行業數據安全現狀。數字技術是指借助一定的設備將各種信息,如圖、文、聲、像等,轉化為電子計算機能識別的二進制數字“0”和“1”后進行運算、加工、存儲、傳送、傳播、還原的技術。它是數字技術(機器學習、自然語言處理、大數據分析)和IT基礎設施(含IT基礎架構、信息安全、云計算、量子計算等)等一系列技術的全集。
根據以上對于數字銀行定義及其關鍵技術介紹,未來銀行的發展方向已經由過去的應用中介轉變為數據中介,通過綜合利用自身業務數據,第三方中介和外部社交網絡數據,銀行可以對于各個領域的業務進行數字化流程改造,從而全面提升轉型,因此對于數據的管理利用就成為了銀行未來發展的核心競爭力。
信息時代對于數據安全的要求與日俱增,特別是銀行業對于數據的保密性要求更高,高質量的數據管理是有效的數據利用的基礎。然而,近幾年出現的數據泄露事故頻繁出現,例如去年Hotel Group的數據泄露涉及五百多萬客戶,Facebook 5 000萬用戶數據遭到泄露,在我國,華住酒店集團數據泄露影響范圍涉及130萬客戶,此外還有涉及平臺陌陌的數據泄露事件。由于數據泄露事件的出現,各國的監管層也開始意識到對于數據隱私保護監管的規定。
目前全球各個主要發達國家均對于數據隱私保護進行立法,核心原則包括:不過度收集數據;收集數據應該有具體的、合法的目的、數據儲存應該有合適的期限;應該有可靠的數據庫確保數據安全;在處理數據過程中確保透明性;應該有專門負責數據安全的團隊或部門。
表2顯示了目前我國銀行業在個人數據信息保護中的法律法規,以上法規要求銀行應將個人信息保護與其數據安全管控或IT風險管理框架結合起來。銀行的數據治理建設應涉及戰略、行為準則、內外部審計、員工培訓等方面。
2. 數字銀行在數據保護方面的挑戰。目前銀行獲取數據主要來源于三個方面,首先,客戶的數據大部分來源于線下業務系統累積的結構化數據,這也是銀行數字化的核心基礎數據;第二,從外部渠道引入的相關數據信息,例如從社交網站上采集的半結構化或非結構化數據,比如文本、視頻等。第三,新的生態格局下,銀行通過與第三方合作,拓展數據信息獲取來源。在開放銀行業務模式下,當銀行將金融服務嵌入第三方平臺時,一些新的場景和新的業務就會產生更多的數據流,譬如隨著云服務發展,基于云計算會形成新數據,這將進一步挖掘數據的使用深度。
銀行本身會面對很多新挑戰,例如信用風險、經營風險和聲譽風險,在數字時代這些風險又會演變成不同的形式,針對以上數字銀行獲取數據的不同來源,銀行面臨的數據保護與治理也有以下幾個方面的挑戰:
(1)數據真實性。海量數據是數字銀行的根基,數據的真實性直接決定了銀行業務發展的方向和趨勢,伴隨著數據采集渠道的日益拓展,通過交叉檢驗、生物識別和機器學習等技術來解決數據低質的問題顯得迫在眉睫。因此如何保證數據來源的真實性,準確快速的對于偽造的錯誤數據進行鑒別,是數字銀行面臨的首要挑戰。
(2)數據質量。數據收集范圍和標準不一致導致數據清洗的難度和復雜度大幅提升,雖然銀行內部為了實現數字轉型已經開始注意內部數據的標準化,但是通過外界第三方渠道獲取的數據格式確千差萬別。這些因素也是制約目前金融數據深度利用的最大障礙。
(3)海量數據。由于現代社會個人活動的網絡化,造成了數據爆炸式的增長,對于海量數據的實時處理分析需要銀行在IT系統的軟硬件建設上進行巨大的研發投資,這就會對銀行造成運用風險,另外如何設計API開放銀行構建金融生態圈,也關系到銀行的經營風險。
(4)數據孤島。數據孤島仍然是制約數字銀行發展的重要因素。銀行作為傳統金融機構長期形成的合規文化氛圍,主導著各項業務的規范發展,因而設計了諸多制約環節和監控措施。以至于銀行的數據開放流程變得異常繁瑣和低效。再者,掌握著大量真實信息的互聯網企業、第三方征信公司和O2O平臺之間也難以達到互聯互通的程。
(5)數據信任。由于目前越來越多的銀行在數字化轉型中尋求與外部金融科技公司聯合開放相關技術,致使一些中小型銀行過度依賴技術供應商,從而導致技術風險和業務約束的不利影響。與此同時,互聯網公司文化倡導開放共享,這與銀行和內控合規嚴格文化相違背,如果不能很好的融合,合作伙伴或將為銀行帶來聲譽風險。
三、 數字銀行數據治理的應對措施
1. 建設一體化數據平臺。為了實現數據分析的潛在巨大價值,讓商業銀行具體業務在大數據驅動下切實產生效益,在銀行全行范圍內建設一體化的數據平臺作為大數據基礎架構是重中之重。該平臺從數據整合到一線執行共包括5層,且各層均配備相應的組織架構和KPI支持。一是數據整合層:基礎層的功能是將不同來源的數據(例如客戶的基本人口統計、儲蓄交易、信用卡交易等)整合為一個集成數據庫,具備標準化且統一的數據結構和格式;二是分析模型層:在一體化數據庫的基礎上,構建各種機器學習模型來獲取洞見,并通過數據創造價值,例如利用聚類模型進行顆粒化客戶細分、通過回歸/分類技術開展預測性分析、采用優化技術進行資源分配等;三是軟件工具層:軟件工具是數據/分析模型和一線執行之間的連接性組織;四是一線實施層:一線員工需要利用軟件工具,在其日常工作流中使用分析模型洞察。五是組織和KPI支持:所有上述工作需要組織和KPI體系的支持。
2. 注重數據積累,倡導互聯互通。目前,數據孤島是數字銀行建設過程中資源整合的最大障礙。各個部門和子公司在拓展業務的同時,積累了海量的數據信息。但由于各個系統之間缺乏信息共享機制,導致形成了大量的數據孤島,不利于銀行基礎數據庫的建設。
數據共享的程度反映了商業銀行的數字化發展水平,數據共享程度越高,數字化發展水平越高。要實現數據共享,首先應通過頂層設計建立一套統一的、法定的數據交換標準,規范數據格式,使用戶盡可能采用規定的數據標準。通過自上而下的頂層設計,實現全行的信息流共享。具體做法可以通過以下三點實現:一是基本的安全性保障下的開放銀行服務。通過專業的數據加密技術,保證數據共享過程中,不會被盜用和篡改,客戶隱私不會被侵犯;二是數據使用范圍和透明性。涉及客戶隱私數據保證共享數據只能在客戶授權范圍和時間內使用,建立客戶收回共享授權機制,確保客戶收回共享授權后,數據共享方權限永久刪除;三是數據保密權責分明。一旦發生客戶授權共享數據的安全和隱私受損,需要能夠在第一時間找到相關業務和技術責任人,根據具體問題進行排查和故障解除,并且通過事后漏洞審查,排除相關類型隱患的再次發生。
3. 人工智能實現數據自動化審核。基礎數據庫內容的存儲更新是數字銀行建設的關鍵,對于日常客戶業務和外接導入的海量數據,數據庫管理人員需要確認、更正、剔除數據,并在數據庫啟用后提供編輯數據的程序。數據質量分析通常首先進行數據質量審核,即在信息系統中進行數據準確性和完整性方面的結構化調查,它可以在整個數據文件范圍內或數據文件范本內調查,也可以調查終端用戶對數據質量的看法。
目前銀行對于業務數據特別是信貸合規方面的審核工作還是主要依靠人工完成。而通過人工智能技術實現數據的自動化核查,是未來建設數字銀行數據驗證工作的必由之路。
現在金融科技公司已經在數據智能審核方面開始應用,比如第三方征信機構——芝麻信用積極地尋求外部合作,打通公安、工商、法院部分數據接口,掌握著豐富的內外部大數據,與此同時,螞蟻金服借助芝麻信用公司的信用大數據。利用機器學習、視頻對話和笑臉掃描等先進技術手段,對內外部大數據進行交叉檢驗,有效快速地進行風險識別和定價。
4. “多層水閘式”數據安全防范體系。維護數據安全是數據治理中不可或缺的一部分,數據的安全性能否得到保證以及當數據遭受一定的破壞后的災備處理能力直接關乎整個銀行的生存發展。因此,數據高安全性是衡量銀行數據治理能力的重要參考指標之一。數字銀行時代的數據安全防范體系應該集中在三個方面共同建設:
(1)采用“多層水閘式”防范體系。數字銀行的客戶渠道,網銀、手機銀行承擔著大量交易,通過將一個公共數據庫,把它拓展為多個同構的公共庫,使數據分布存放成為可能。同時,根據客戶ID對數據庫進行垂直拆分,這樣有效減少了高并發對數據庫帶來的訪問的壓力。在不同數據層級設定恢復節點,通過這種“多層水閘”的方式防控風險蔓延傳導,一旦單個數據庫出現故障,可以迅速定位和排查出故障源,控制IT系統性風險的發生。
(2)新一代IT系統安全架構。傳統的銀行IT系統架構的安全功能與應用系統集成實現,嵌入到應用系統中,與應用系統緊密耦合,導致安全策略與安全功能固化。數字銀行時代“新一代安全架構”的應用系統只集成通用、標準化的安全代理,所有安全功能通過安全代理為應用系統提供,后臺的安全服務可以統一調度、靈活組合,安全服務的調整不會導致業務系統的改造。
(3)不同權限的數據密碼化存儲。數字銀行時代的IT系統將數據以密碼形式存儲,加強警衛以識別用戶身份,防止從通信線路上竊聽或盜竊存儲設備等。在系統處理上,常采用以下措施:設置用戶口令,對用戶身份進行鑒定;對用戶權限進行限制,如用戶可以讀某些數據卻不能改變其屬性值,或者用戶可以取得整體統計信息但不能取得個體信息等;建立日志文件,以監視數據庫活動;對數據采用集中管理方式。此外,還需要注意對數據結構的隱蔽。
5. 基于生命周期角度的數據治理。數據的生命周期包括數據創建、數據使用、數據歸檔、數據銷毀4個階段。而數據在生命周期內有效則可以滿足業務操作和管理分析的需要;滿足對歷史數據查詢相關政策和管理制度的要求;滿足審計管理要求;減少數據冗余,提高數據一致性;減少存儲、硬件、運維等方面基礎設施投入;提升應用系統性能,提高響應速度。因此,數據生命周期的管理必不可少:
首先,在數據創建階段,要求利用數據模型保證數據完整;執行數據標準保證數據準確;加入數據質量檢查創建準確;保證數據在合理的系統生成。
其次,在數據使用階段,要求利用元數據監控數據使用;利用數據標準保證數據準確;利用數據質量檢查加工準確;確保數據在合理的系統使用;控制數據的派生。
然后,在數據歸檔階段,要求利用評估手段保證歸檔時機;分數據類型歸檔數據。
最后,在數據銷毀階段,要求利用評估手段保證銷毀時機;分數據類型銷毀數據。
參考文獻:
[1] 李璠.商業銀行數字化轉型[J].中國金融,2017,(17).
[2] 李虹含.大數據技術在商業銀行中的應用:場景、優勢與對策[J].廣西大學學報(哲學社會科學版),2016,(1).
[3] 傅俊.數據挖掘技術及其在商業銀行中數字化轉型中的應用[J].軟件導刊,2016,(2).
[4] 楊力元.數據管理模式對中國建設銀行信息化建設的影響[D].蘭州:蘭州大學學位論文,2017.
作者簡介:劉凱(1987-),男,漢族,河南省焦作市人,復旦大學應用經濟學博士后流動站、浦發銀行博士后科研工作站博士后,研究方向:數字銀行;于天(1984-),男,漢族,天津市人,復旦大學應用經濟學博士后流動站、浦發銀行博士后科研工作站博士后,研究方向:大類資產配置。
收稿日期:2019-08-14。