鮑佳彤



卷積神經網絡(CNN)最早用于手寫數字識別并一直保持了其在該問題的霸主地位。近年來卷積神經網絡在多個方向持續發力,語音識別、人臉識別等方面均有突破。
一、項目簡介
基于卷積神經網絡(CNN)的征信系統,作為個人征信系統第三方機構,利用合作單位已有大數據對卷積神經系統進行訓練,使系統具有高準確率對未來借貸人交易數據進行分析,快速得出是否可提供貸款及借貸金額和時間。
二、項目目標
目前我國的個人征信系統主要以銀行的信貸信息和個人繳費信息為參數,在未來借貸人信用預測方面仍有缺陷。利用卷積神經網絡的征信系統可以對自然人進行預測,減少損失,快速得到可否借貸及借貸額度,同時系統本身所具有的傳輸加密功能也能良好防止客戶信息的泄露。
三、項目內容
(一)基于卷積神經網絡CNN的征信系統框架
征信作為金融業的基礎設施,不是簡單拿到數據就可以了,還要對數據進行加工或者評價。為此,我們提出了CNN框架來進行征信系統的研發。
(二)特征工程
將用戶的每條記錄的交易數據轉換為特征矩陣,通過相應的數據轉化為可以在CNN模型顯示。
(三)CNN建模
模型中共有7層,模型的輸入是一個特征矩陣。前四層分別是卷積層、下采樣層、卷積層和池化層。最后三層則是全連接層。
(四)實驗及模型評估
將任意客戶交易數據樣本輸入CNN結構,利用樣本自身差異性和排列多樣性,對結構進行大量重復訓練以提高其識別準確率,從而實現本項目征信系統的不斷完善。后期將真實客戶交易信息,運用CNN征信系統進行實際評級操作,從而來檢驗評估項目系統的實際應用準確性。
研究過程部分展示之特征工程部分:
在編程中我們將數據中的sex,edu,marry,age,paydue,bill,pay,label,記錄在數組中,如圖:
首先將借貸人的自然屬性放在中間的6*12的像素格中(img3)。部分代碼如下:
其中金額部分由于數字過大,我們將數字除10000后處理,得到的三位數由于只有100,我們用在兩個像素格里填10表示,兩位數的我們用十位和個位分別填在不同像素格的表示。
關于pay,bill和paydue的記錄由于有負數的存在,所以我們根據上正下負,左正右負的原則,將他們分別反正圍繞img3的img1(bill和pay中的正數),img2(bill和pay中的正數),img4(paydue中的正數),img5(paydue中的正數)中。
這樣就基本完成了數字到圖像的轉換,例如,把第2480個人的信息轉化為圖像,得到圖像:
四、創新點
(一)引用卷積神經網絡處理征信問題
在此之前由Kokkinaki提出了決策樹和布爾邏輯函數,對個人進行征信評估。然而效果并不是很理想,因此我們使用CNN可以有效地降低特征冗余,避免模型的過擬合。
(二)特征轉化法
CNN可以用于圖像分類和語音信號領域,但并不是所有類型的數據都適用于CNN模型,因此提出特征轉換的方法。
(三)數據預處理
CNN模型很適合用于海量數據的訓練,同時它有避免模型過擬合的機制。我們將通過大量基于真實的數據進行訓練和測試,并在不斷的實驗過程中,降低偏差值。
(四)信息安全性
通過CNN模型生成的熱力圖在行和列的形式上有很強的局部相關性,保障信息被處理時的隱蔽性,及用戶個人信息的安全性。
五、市場推廣計劃
當前中國市面上對CNN技術并未有特別成熟的應用,此領域在市面上屬于藍海市場;同時CNN技術在 處理征信問題,特征轉化法,數據預處理,信息安全性點上的處理都體現了極大的創新性,可以充分完善當前信貸機構的用戶征信問題,因此CNN的技術應用仍有相當大的使用前景。
基金項目:大學生創新創業項目:《基于卷積神經網絡在征信方面的應用》201810173044。
作者單位:東北財經大學