文/夏德虎
互聯網金融是在互聯網時代背景下發展起來的新型金融業態,已經成為我國金融體系的重要組成部分。隨著大數據時代的到來,大數據技術與互聯網金融的深度整合成為互聯網金融快速發展的助推器。基于大數據技術的互聯網金融體系,在第三方支付、征信管理、風險防控、P2P網貸等領域正不斷創新和完善,體現出大數據技術的巨大應用優勢,為驅動互聯網金融健康、持續發展提供了有力的技術支撐。為此,下面對互聯網金融的大數據驅動模式進行分析研討。
大數據采集技術是指從傳感器和其他設備中自動獲取信息的一項技術。在大數據采集技術中,大數據主要來源商業數據、互聯網數據和傳感器數據,數據類型包括結構化數據、半結構化和非結構化數據,并采用系統日志采集、網絡數據采集、專業機構特定系統數據采集等數據采集方法獲取到巨大的數據量,為深度挖掘數據提供數據支撐。以互聯網金融征信體系為例,利用大數據采集技術可收集到與客戶信用相關的信息,包括職業、婚姻、社會關系、支付習慣、購買記錄等,幫助互聯網金融企業了解客戶的借貸情況,分析客戶的還款能力,為互聯網金融信貸決策提供依據。
大數據存儲技術是對大量數據進行長期保存的一項技術,在數據量呈幾何倍數增長的形勢下,對大數據存儲技術的要求也隨之提高。對于互聯網金融而言,隨著互聯網金融業務的增多,數據量呈現出海量化狀態,所以必須應用大數據存儲技術,保證實時采集到的數據得以安全保存。目前,適用于互聯網金融的大數據存儲方案主要包括MPP關系型數據、hadoop非關系型數據庫、硬件和軟件共用的大數據一體機三種方案。
大數據清洗技術是指運用算法和模型對存儲的龐雜數據進行篩選、剔除,以獲取有價值數據的一種技術。在互聯網金融中,運用大數據清洗技術可對已經獲取的結構化數據和非結構化數據進行抽取,將龐雜的數據進行合并、分類、排序,找出與目標信息存在顯著關聯的數據,為數據分析提供依據。
大數據挖掘技術是大數據技術中的核心技術,通過運用數學科學與系統科學建立起數據挖掘算法,對數據中蘊含的價值數據挖掘出來,從而為決策提供高質量的數據服務。在互聯網金融中,運用大數據挖掘技術可準確定位金融服務客戶,制定精準的金融營銷策略,快速識別金融風險因素,為互聯網金融企業強化風險管理、提高服務競爭力提供數據支持。
近年來,在內、外部因素聯合的推動下,使互聯網消費金融得到快速發展,由此使得相關行業的競爭變得日益激烈,各種風險因素也隨之出現,對風險進行有效預防和控制,成為互聯網消費金融持續發展中亟待解決的首要問題之一。通過對大數據技術的合理應用,能夠為互聯網消費金融平臺的風險防控提供強有力的技術支撐,從而降低風險的發生幾率。
2.1.1 鑒別用戶信息
借助大數據技術,并引入風險控制模型,從不同的渠道對相關用戶的信息進行收集,如身份信息、行為數據等等,同時,消費金融平臺可依托網絡,與司法部門的信息系統建立連接,對用戶信息進行核實,看是否存在不良的信用記錄,這樣能夠使收集的信息更加全面。在此基礎上,消費金融平臺可在風險控制模型中,對相關的規則進行設定,據此對用戶信息和行為數據進行驗證,從中找出虛假的信息加以剔除,將真實的信息保存下來。如,利用大數據技術,設計關聯性問題,并讓用戶進行作答,隨后使用風險控制模型,對所有用戶給出的答案進行數據清洗和分析,判斷信息的真偽。通過大數據技術和風險控制模型的應用,可以幫助消費金融平臺,識別各種欺詐行為,有效降低平臺的信用損失,為平臺的安全性提供了強有力的保障。
2.1.2 構建信用評分系統
消費金融平臺可以利用大數據技術構建起一套完善的信用評分系統,以該系統對用戶的信用等級評定。在該系統的構建過程中,可將數據挖掘技術與統計分析方法進行聯合運用,依據分析結果,對用戶的信用進行評定,以最終的評分作為貸款的核準依據。同時,消費金融平臺還可依托大數據技術,在用戶信息發生變化時,調整其信用等級,以此來達到防范風險的目的。
互聯網金融雖然出現的時間并不是很長,但其發展速度卻非常之快,尤其是第三方支付,這種支付方式已實現線上與線下的全面覆蓋,用戶數量隨之激增。第三方支付最為突出的特點是能夠為消費者網上購物提供便利條件,并為商家節省運營成本。然而,在肯定第三方支付優點的同時,也不能忽視其存在的不足之處,如潛在的金融風險問題,此類問題中較具代表性的是利用第三方支付平臺進行非法洗錢活動,由此對第三方支付的發展造成不利影響,間接影響了整個互聯網金融的發展。因此,解決第三方支付的非法洗錢問題尤為必要,在這一過程中,可對大數據技術進行應用,具體如下:
2.2.1 收集相關數據
在第三方支付模式下,支付平臺會在不斷的運營中積累大量的數據信息,這部分數據涵蓋的內容相當較多,如支付金額、消費行為以及消費者的社交關系等等,從而使此類數據具有了異構數據的特征,這些原始數據中隱含著大量的重要信息,比如用戶的基本特征、資金的流入與流出情況等等,據此能夠為非法洗錢的防控提供有價值的信息。因此,可運用大數據技術,對第三方支付平臺中的原始數據進行收集,為后續的數據挖掘提供支撐。
2.2.2 開展數據挖掘
在大數據技術中,數據挖掘是一種能夠借助相關算法從數據中對隱藏的信息進行搜索的過程。線形回歸、分類、聚類是數據挖掘技術中較具代表性的方法,可將這些方法用于第三方支付非法洗錢防控當中,從而判定用戶的身份信息是否屬實,交易過程是否真實、有無非法洗錢的行為、是否對身份關系刻意隱藏等等。
(1)線性回歸。線性回歸簡稱LR,是統計學中一種非常重要的分析方法,主要是借助線性回歸方程進行建模,其在互聯網金融第三方支付非法洗錢防控的中應用如下:對第三方支付平臺中現有的反洗錢數據進行利用,基于階段性的支付數據,構建與洗錢活動相關的線性回歸模型,通過對模型中的自變量與因變量進行分析,判斷支付賬戶在該階段內,是否有異常的洗錢行為。同時,該模型還能對某支付賬戶在某個階段內發生異常洗錢活動的概率進行預測,從而為非法洗錢防控提供依據。
(2)聚類分析。聚類分析是一種能夠對收集數據中存在相似性的數據進行分類的方法,其可以將數據源分類到不同的簇中。在第三方支付非法洗錢防控中,可對聚類分析進行合理運用。具體如下:第三方支付中的每個用戶使用的支付設備都有一個特定的地址,以及與該地址存在關聯的賬戶,同時,用戶在進行支付時,還會使用到銀行卡,每張銀行卡的卡號均不相同,據此,可通過對上述信息的追蹤,對支付平臺中存在關聯的客戶進行識別,并以交叉驗證的方法,找出所有的關聯交易,據此分析用戶是否存在洗錢行為。
(3)分類分析。分類分析是按事物本身所具有的共性和特性,對事物進行有效區分的方法,該方法在第三方支付非法洗錢防范中的應用如下:從第三方支付平臺數據庫中,對用戶的支付數據進行分類分析,從中挖掘出與洗錢活動有關的數據,如洗錢行為、洗錢模式、洗錢路徑等等,據此能夠使非法洗錢的防范更具針對性。
P2P網貸是互聯網金融的重要組成部分之一,它的運用模式主要有以下三種:純線上、擔保和線上+線下。為了能夠爭取到更多的投資人,并有效降低網貸過程中的信用風險,國內的大部分平臺基本上采用的都是擔保與線上+線下相結合的模式。大數據技術與互聯網金融之間存在的著極為密切的關聯性,鑒于此,可在P2P網貸的風險預警中,對大數據進行合理運用,以此來達到降低P2P網貸風險的目的。以下是大數據技術在P2P網貸風險預警中的具體應用:
2.3.1 P2P網貸風險預警模型構建思路
在P2P網貸風險預警中,對大數據進行應用時,需要先構建一個風險預警模型,在具體的構建過程中,應對原始數據進行采集,通過數據預處理的方法,對采集到的數據格式進行統一,從而使數據與訓練模型的要求相符;將預處理后的數據細分為兩類樣本,一類為訓練,另一類為測試,并將前者帶入到模型中進行機器學習,利用后者對模型的準確性進行驗證,在此基礎上對模型進行優化改進,從而得到一個性能完備的風險預警模型。
2.3.2 預警模型中的大數據技術
(1)數據采集技術。對于P2P網貸平臺而言,其在運營的過程中,面對的主要風險因素包括內部和外部兩個方面,其中內部風險為經營不善,外部風險為惡意欺詐。鑒于此,風險預警模型可將這兩個因素作為主要的判斷依據。通過篩選之后,對與P2P網貸平臺風險有關的特征集合進行確定,具體包括:平臺的運營狀況、經營管理模式和規章制度、誠信記錄、運營者的信用以及宣傳信息。
(2)數據預處理技術。從P2P網貸平臺中采集到的特征集合數據的格式與類型存在較大的差異,并且部分數據存在缺陷,如數據不完整、數據異常等,為提高數據的可用性,并使其能夠被運用于模型訓練當中,可以運用大數據技術對采集到的數據進行預處理,具體的方法如下:對文本類信息進行處理,由于此類信息屬于非結構化數據的范疇,所以可對其進行語義分析,在此基礎上完成文本分類,將所有的文本轉化為數值,在這一過程中,主要應用的是關鍵詞自動提取技術;借助字段均值、擬合函數,對不完整的數據進行處理,將所有不可用的數據全部剔除;最后,通過設定閾值,利用聚類分析技術,去掉所有存在異常的數據,剩余的數據均為可用數據。
2.3.3 風險預警模型的構建與優化。
Spark是一款專為大數據處理而研發的計算引擎,在數據挖掘與機械學習中具有良好的適用性。因此,在構建P2P網貸風險預警模型時,可對該計算引擎加以運用,具體的構建過程如下:
(1)借助假設檢驗方法中的卡方檢驗,對預處理后的可用數據的相關性進行驗證,從中找出風險影響程度偏低的數據進行剔除,這樣除了能夠使分析結果的準確性獲得大幅度提升之外,還能進一步提高模型的運算效率。
(2)本次構建的模型主要是針對P2P網貸平臺的風險進行及時預警,模型需要判斷的風險類型以欺詐型為主,該風險的輸出變量符合統計學中二項分布的規律,所有具備可用性的風險指標均應當為序數型變量。在對這種類型的變量進行分析時,可以使用的模型有以下幾種:神經網絡網絡、邏輯回歸模型等等??蓪⑦@些模型全部作為備選模型,經過建模之后,以對比的方法,從中選取最優的模型作為風險預警模型。
綜上所述,互聯網金融作為新時代的產物,它的發展除了需要強大的互聯網技術作為支撐之外,還需要大數據技術進行驅動。為此,可在互聯網金融中,對大數據技術進行合理應用,從而實現以技術驅動金融發展的目標。在未來一段時期內,應加大對大數據技術的研究力度,除對現有的技術進行逐步完善之外,還應開發一些新的技術,使其更好地為互聯網金融發展服務。