汪峰
(聚賢融資租賃(上海)有限公司 上海市 200131)
信貸風險問題是所有金融機構發展期間必須面對的重點問題,如果信貸風險管理水平不足,便無法滿足金融機構的發展需求,只有構建一套切實可行,能夠滿足金融機構發展需求的信貸風險預警系統,才能夠使金融機構面對的信貸風得到有效控制。因此,有必要對大數據驅動下的信貸風險預警系統進行分析。
現如今,科技的發展令我國信貸行業獲得了長足的進步,各種信貸機構相互之間的競爭也變得愈發激烈,信貸風險的重要性得到了非常多的關注。信貸業務作為金融機構的一項主要業務,其在開展過程中具有非常大的風險,而我國目前的信貸風險管理技術卻與國際理念的風險管理技術存在一定差距,無法滿足金融機構的長期發展。而且在金融機構發展期間,信貸風險管理屬于一項綜合性較強的工作,風險貫穿在整個信貸業務的所有流程中,所以金融機構需要從貸前分析、貸時控制、貸后監管等多個環節入手,以此來保證貸款的正常收回。就目前而言,信貸部門在開展業務的過程中,通常會將內部數據作為判斷信貸風險的主要參考,信貸部門也為此專門構建了面向信貸業務數據信息的數據庫,但是因為數據信息相對較為單一,很難全方位體現出信貸風險,所以應該結合大數據技術完成信貸風險預警系統的構建,以此來整合信貸業務中產生的所有數據,實現對信貸業務的全方位評估,為信貸業務中的風險情況做出預警,避免信貸風險的發生[1]。除此之外,通過構建信貸風險預警系統還可以完成對信貸業務的全方位管理,有效降低信貸業務開展期間需要面對的風險。在預警系統構建過程中,需要加強對大數據平臺的利用,以此來保證預警系統的使用效果。
基于大數據技術的風險預警系統可以分為源數據、數據交換、計算、應用、訪問五個層級。其中源數據層是風險預警系統中的數據核心,其中包含了信貸行業內部、外部的各種數據信息。而數據交換層則能夠完成對風險預警系統中數據源的控制與管理,完成對數據源數據的存儲、組織,確保數據計算層在工作期間擁有足夠的數據支撐。數據計算層可以完成對交換層數據的提取、整理、加工,從而形成信貸業務需要的各種基礎數據與指標。而數據應用層則能夠將計算層處理后的數據傳輸至數據庫中,以便用戶訪問層對數據進行調取。
在信貸風險預警系統中,源數據層屬于預警系統的重點數據來源,還是信貸風險系統得以完善的基礎,其中主要包括內部數據源以及外部數據源兩個部分。數據交換層則屬于信貸風險預警系統中的數據信息交換平臺,能夠以信貸系統獲取到足夠的數據信息,其主要作用就是將數據源層中的各種數據信息以數據文件的形式存儲到數據交換平臺中。數據計算層是信貸風險預警系統中的重要組成部分,屬于整個系統的核心內容。數據計算層能夠利用數據平臺交互技術將各種數據信息存放到分布式系統中,并通過數據加工將結構、非結構數據處理成符合信貸風險預警系統的基礎數據內容,并合理利用計算規則完成數據信息的加工、篩選,從而生成信貸風險指標[2]。在此期間,計算層會利用Hive 完成對關系型數據信息的存儲,利用Hbase 完成對半結構、非結構化數據信息的存儲,sqoop 將會用作數據信息的傳輸等。數據應用層可以完成對計算層數據的整理與匯總,并將整合后的數據傳輸至數據服務器中,保證數據訪問層具有足夠的使用數據。數據訪問層屬于信貸風險預警系統的訪問窗口,用以幫助用戶完成數據信息的訪問。信貸風險預警系統就是將信貸數據資料作為基礎,幫助金融機構完成信貸風險判斷的系統。
Hive 就是在Hadoop 上構建出的數據倉庫框架,在信貸風險預警系統中負責數據計算層貼源數據、數據匯總內工作,在使用期間,不僅可以作為與ETL 相應的數據庫,用來完成對內部、外部結構化數據信息的存儲,還能夠將ETL 加工處理后的數據信息與數據歷史記錄存儲在Hive 中。
Hbase 屬于分布式面向列的一種開源數據。在預警系統中,Hbase 的主要作用就是完成對行外非結構化數據的存儲,經過存儲的非結構數據能夠通過Hbase 轉化成為結構化數據存儲至Hive。
Oozie 工作流屬于DAG 中的一組動作,動作中指定了執行順序。在預警系統中,通過Oozie 能夠完成對流程的合理調度,從而在流程調度區域中發揮出非常好的效果。Oozie 的主要任務就是在數據平臺ETL 中對加工作業開展調度管理。
Sqoop 屬于幫助Hadoop 與關系型數據庫兩者之間將內部數據相互傳遞的一種數據傳輸工具。在預警系統中,Sqoop 可以在應用層中使用,使用時能夠將計算層中加工得出的各種基礎數據以及匯總數據傳輸至關系型數據庫中,從而將數據提供給Web 進行查詢使用[3]。
Hadoop Streaming 是一種能夠為MapReduce 編程提供方便的工具包。在預警系統中,合理利用Streaming 就可以完成對數據的快速處理,并將貼源區的數據傳遞至關系型數據庫。
在信貸風險預警系統中,如何實現數據信息的存儲加工正是預警系統中的關鍵內容。預警系統中的數據計算層需要在大數據平臺上設計并實現。在設計過程中,需要優先將數據交換區中的數據信息全部傳輸至大數據平臺中,這部分數據信息將會存儲在數據計算層貼源數據區Hive 與Hbase 內,數據標準區則會將這部分數據信息進行標準化操作并實現統一設計、管理,然后在計算層的匯總層內部將標準化數據按照加工規定完成加工統計,當前數據需要通過Sqoop 輸送至數據庫中使Web 端對其進行展示。數據計算層架構內容如下:
(1)在數據計算層的整體架構中,交換區域外部數據平臺共包含3 部分,即信貸業務數據、外部數據以及業務實時數據,這3部分數據會通過數據傳輸、推送等方式把數據傳輸至數據平臺。
(2)在數據計算層中,還能通過YARN 對數據平臺中的數據開展統一管理。然后采用HDFS 完成對數據文件的存儲、集群創建管理。
(3)數據平臺中的數據信息文件可以通過Hive 傳輸至信貸業務數據表中,在此期間需要利用腳步封裝數命令完成對Oozie 的合理調度。
(4)數據平臺外部數據能夠利用Hbase 進行轉換并進入Hive中,此時需要通過Oozie 完成數據信息調度。
(5)數據平臺業務數據與外部數據將會利用Hive 與轉換腳本生成標準化數據,生成的數據將會經過Oozie 調度存儲至Hive 中。
(6)利用Sqoop 與外部RDBMS 連接完成后,可以結合標準化數據按照匯總規則完成數據信息的匯總統計,方便Oozie 的后續調度。
(7)數據平臺中已有實時業務數據將會與標準化業務數據相結合,然后利用Streaming 完成數據加工。
(8)Sqoop 經過腳本封裝將標準化基礎、匯總數據傳遞至RDBMS 中,這部分腳本需要由Oozie 進行調度。
(9)BI 工具可以利用標準sql 對RDBMS 基礎、應用、匯總數據進行訪問,利用Spark Sql 完成對歷史區域中的數據、實時數據訪問。
預警系統包括了貼源數據、歷史數據、標準數據、匯總數據四個不同的數據區域。為了能夠明確四個數據區域內的業務數據,系統數據表組織可以劃分成為三級,其中第一級主要用作區分預警系統中各類數據應該屬于哪一個區域,而第二級則主要用于區分數據信息的業務類型。第三級便是具體的數據表內容,數據分組需要結合具體含義來完成命名[4]。
新店風險預警系統中的各類數據文件需要存儲到HDSF 中,為了對業務類型、文件類型進行區分,需要對數據文件專門進行組織。
作業可以利用一個作業同時處理多個數據邏輯,或是通過將一個業務邏輯拆分成為多個作業來完成處理。
在信貸風險預警系統中,貼源數據區就是為了完成數據加載、轉換專門設計出的數據區,屬于純技術加工類型的數據區。將與源系統相同的數據結構與內容融入到貼源數據區需要經過構建數據表以及導入數據兩部分。第一部分為構建數據表,購進過程中為了能夠保證數據完整性,需要將構建的數據表結構與原系統的數據結構保持一致性。
數據標準區的主要任務就是將貼源數據區域內的數據信息,按照信貸業務的分類方式實現數據標準化的過程。想要實現數據標準區就需要同時完成代碼標準化以及碼值標準化。實現步驟包括構建標準數據表以及構建標準碼值數據兩個部分,其中構建標準碼值數據就是實現碼值轉化,在數據標準化的過程中便可以完成碼值的轉換。
在預警系統中,數據匯總區的主要作用就是標準區域內的數據按照風險指標加工規則完成匯總數據處理的整個流程。該部分包括構建匯總數據表以及匯總數據加工兩個部分。
預警系統能夠通過Sqoop 完成數據信息的傳遞,完成對Hive中的基礎數據與匯總數據的傳輸,關系型數據庫中數據信息可以提供給其他區域使用。流程調度即是完成作業調度管理,由于預警系統中需要通過腳本完成大部分操作的實現,所以調度作業類型需要選定shell 作業。在流程調度過程中,主要包含三個實現文件,三個文件分別代表作業流程、配置信息以及腳本信息。通過作業流程能夠完成對作業的調度管理,而利用配置信息則可以完成面向對多種參數的有效說明,腳本信息則可以完成對實現過程的封裝處理。
總而言之,時代的發展令信貸行業面對的風險越來越大。在大數據的驅動下,通過將信貸業務數據與外部數據相結合,可以在數據平臺中完善信貸風險預警系統,在信貸業務開展期間完成風險評估。相信隨著更多人了解到信貸風險預警系統的重要性,預警系統將會變得更加完善。