于司吉



互聯網金融的大數據分析處理研究
摘要:大數據采集與存儲是大數據研究領域的關鍵技術,也是大數據分析挖掘的基礎。隨著移動互聯網、新型智能終端、新媒體、物聯網等技術和應用的快速發展,傳統的數據采集與存儲已經不能滿足海量、異構、實施數據分析的需求,新的產品和技術方案應運而生,并在實踐中不斷地完善和發展。本文將圍繞大數據采集、預處理、存儲與管理等方面展開討論,重點探討數據采集的策略、原則和技術。其次,結合數據預處理的研究,探討數據清理、集成、變換和規約的過程;最后,分析數據的存儲和管理技術、產品和解決方案,為互聯網金融領域的大數據分析奠定基礎。
關鍵詞:互聯網? 金融? 大數據? 分析? 處理? 研究
一、大數據應用概述
(一)大數據應簡介
隨著大數據技術的快速發展,大數據應用已經從探索階段進入了市場化應用層面。互聯網行業作為大數據的主要生產者,已成為大數據應用的重要領域之一。互聯網企業都在用大數據優化自身的業務運營,在大數據開放和合作方面,形成線上線下數據的協同,并從中拓展新的商業模式。大數據除了應用在互聯網行業之外,隨著互聯網、通信等技術不斷發展,在其他領域也得到了重視和應用。下面以智能工業、醫療衛生、智慧交通、公共安全等方面為例進行分析。
智能工業,在制造業智能化過程中,定制數據達到一定的數量級后,醫療衛生,能夠建立疾病診斷和市場需求預測模改進臨床實驗統計和分析方法,對海量的臨床實驗數據進行挖掘分析和疾病分型研究,以及基于基因數據分析的個性化診療研究等。一些醫療軟件廠商也在挖掘、分析醫療大數據的價值,實現其市場競爭核心從賣產品到賣服務的轉移,尤其是數據挖掘分析服務。智慧交通,大數據技術在智慧交通中的應用主要通過在城市中部署監控設施.
(二)互聯網金融大數據應用研究
大數據應用是金融業的主流方向,已經開展了基于互聯網金融的新型業務拓展,積極發揮互聯網金融應用。傅志華先生曾在他的“大數據在金融行業的應用”中,針對對大數據的應用進行了分析,具體分析如下。
1.保險大數據應用,在如圖1所示。
客戶細分和精細化營銷:利用風險偏好、客戶職業、消費方式等數據的分析對客戶進行細分,以實現不同客戶之間的差異化服務;利用大數據整合客戶線上線下的行為數據,挖掘潛在客戶,細化銷售重點,預防客戶流失;在網絡營銷中,精細化運營:通過對自有數據和客戶的社交數據分析,可以解決現有的風險問題。
2.證券行業大數據應用,進而指導投資者投資。客戶關系管理:通過分析客戶的賬戶狀態、賬戶價值、如圖2所示。
綜上所述,但大數據在金融領域的應用深度和廣度尚具有較大的擴展空間,大數據普惠互聯網金融,數據作為金融的命門,不斷驅使金融行業發展壯大。互聯網金融更是如此,它對數據的數量、質量都有很高的要求,而大數據技術不僅可以提高數據的質量和處理能力,更為其創造了新的商業機會和價值。因此,大數據被視為互聯網金融快速發展的重要驅動之一,在互聯網金融領域中具有非常重要的作用。
二、大數據采集與存儲
(一)大數據采集
傳統的數據采集又稱數據獲取,是指從傳感器和其他待測設備中自動采集非電量或者電量信號。在互聯網和大數據快速發展的今天,數據采集的內涵、范圍和形式已經發生了重要的變化。在大數據采集研究領域,數據采集的策略、采集原則及采集技術是研究的重點對象,數據采集策略,傳統數據采集的來源相對固定、數據類型較為單一,隨著企業信息化和大數據時代的到來,金融領域的數據采集正發生著本質的改變,數據采集已經從簡單的業務電子化,逐步向管理數據化和數據化企業的方向發展。業務電子化主要實現對于手工單證的電子化存儲,并實現流程的電子化,確保業務的過程被真實記錄。在管理數據化階段,數據采集主要實現了企業內部信息、客戶信息、供應鏈上下游信息等全面采集,并通過數據集市、數據倉庫等平臺的建立,實現數據的整合。數據化企業實現了數據采集向廣度和深度兩個方向發展:在廣度方面,企業不僅對每個流程的執行結果進行采集,也對流程中每個節點執行的過程信息進行采集。
對不同數據的采集層次分析可知,業務電子化主要關注數據采集的真實性和數據的質量、管理數據化關注數據采集的全面性、數據化企業階段關注數據的價值。所以在互聯網金融領域,如何針對不同的數據采集層次,結合企業本身的戰略和業務目標,以及大數據采集對象、范圍、方法和技術的特點,制定大數據的采集策略,是數據采集研究的基礎。當前的數據采集策略一般有兩類。
(二)以數據為中心的采集策略
該策略的目標是盡量多地采集數據,整合到統一平臺后分析使用。該策略一般需要兩個條件:較大的投入成本和較強的數據專家團隊。內外部的數據采集、數據存儲和整合都需要較大的信息化基礎設施投入,快速有效地甄別數據并發現數據價值是可持續發展的有效支撐。
(三)以業務為導向的采集策略
當業務或管理提出數據需求時,再進行數據采集、分析和處理。該策略能夠有效避免投入成本過大的問題,但完全以需求為導向的數據采集,往往無法發現大數據的真正價值,在目標既定的情況下,數據的采集、分析都容易出現思維限制。因此,在互聯網金融領域,企業可以根據自身的定位和發展情況,制定不同的數據采集策略。對于完全數字化的互聯網金融企業,建議采用第一種采集策略;對于尚處于數字化過程中、數據能力成熟度較低的企業,建議采用第二種采集策略。
(四)大數據的預處理
現實世界中,一方面,數據常常因為“臟數據”、“雜數據”等原因,造成數據的不完整、不一致等問題,從而為數據的決策和預測提供支撐。因此,大數據的預處理作為大數據分析挖掘的基礎,具有十分重要的意義和作用。
三、大數據的存儲與管理
(一)數據存儲的問題和挑戰
傳統的數據存儲解決方案能提供數據的可靠性和安全性保障,但是大數據時代,面對海量的數據及其各種不同的需求,傳統的解決方案日益面臨越來越多的問題,尤其當數據量呈現出指數級增長的情況下,對存儲空間的擴容、存儲計算能力等提出了更高的要求。如何在傳統存儲解決方案的基礎上,研究提出多級存儲技術來不斷適應大數據存儲管理或研究提出全新的存儲解決方案,是大數據存儲與管理需要解決的問題。本節圍繞大數據的存儲技術展開,首先介紹大數據存儲的問題和挑戰,然后介紹三種典型的大數據存儲方案分布式文件系統、分布式數據庫和云存儲。
隨著大數據及其應用的爆發性增長,大數據已經衍生出了自己獨特的技術方案,直接推動了存儲、網絡及計算技術的發展。數據存儲是大數據分析和處理的基礎。目前,數據存儲的問題和挑戰主要表現在數據存儲系統性能、數據存儲的擴容、數據存儲模式和數據兼容集成等方面。(1)數據存儲系統性能。數據存儲系統的性能主要從準確性、可用性、可靠性和可擴展性這幾個方面考慮。對于大數據的存儲來說,其準確性、可用性和可靠性主要通過較為簡單的多副本(即冗余備份)方式實現。可擴性關注的是容量規劃,同時滿足現有的存儲空間和帶寬的需求,更重要的是考慮到系統擴張后的容量升級。
(二)數據存儲的擴容
數據存儲的擴容一般通過縱向擴容和橫向擴容兩種方式實現。縱向擴容是指當存儲容量不夠或者存儲磁盤帶寬不夠時,通過添加磁盤達到增加容量和帶寬的作用。在大數據環境下,縱向擴容方式無法滿足其需求,主要是因為海量的數據存儲規模是無法通過添加硬盤來實現的,即使通過縱向擴容達到更大數據規模的需求,其高額的硬件及管理軟件成本也是數據存儲管理中心無法承擔的。橫向擴容是指當存儲容量或者帶寬不足以滿足現有要求時,添加存儲節點來達到擴容的目的。橫向擴容意味著數據管理軟件將要統籌更多的節點,面對更大的壓力。例如,如果采用集中式的主節點管理,主節點的能力可能成為整個大數據存儲系統的性能瓶頸,尤其是當規模擴大到成千上萬個節點時,單管理節點的模式是不可靠的;如果采用分布式主節點群管理,軟件的開發成本和系統本身的復雜度也會相應提高。
(三)數據存儲模式
傳統的存儲系統是依賴于SAN或者NAS的網絡存儲模式,在縱向擴容方面存在一定的瓶頸,更重要的是,SAN和NAS的計算節點與存儲節點是分開的,數據的存取速度被限制在網絡的瓶頸上,即使通過縱向擴容其存儲池容量,也受限于數據處理和存儲節點之間的網絡帶寬,無法滿足EB級別數據規模的需求。目前,大數據存儲系統普遍采用的是DAS的方式,將計算資源搬遷到存儲節點上。這種方式存儲管理系統的軟件層增加了許多的新問題,例如,通過網絡的跨節點數據訪問管理、存儲數據塊的管理等。
(四)數據兼容集成
大數據存儲系統的兼容集成特性涉及若干方面。大數據多樣性的特點決定了其存儲系統需要兼容各種種類的數據,大數據存儲需要整合集成各種數據源和數據存儲系統,數據交換接口需要兼容各種數據傳輸機制,大數據應用和服務需要存儲系統支持各種上層應用的需求、大數據存儲管理需要支持各種介質的存儲設備來滿足上層各種應用的需求。這些問題都為數據的兼容和集成提出了新的挑戰。
(五)分布式文件系統
只需要像使用本地文件系統一樣管理和存儲文件系統中的數據。分布式文件系統所管理的數據,存儲在分散的設備或節點上,存儲資源通過網絡連接。分布式文件系統是解決當前大數據存儲與管理的有效手段之一,分布式數據庫必須及時響應大規模用戶的讀/寫請求,
大數據分析與挖掘,大數據分析是指對規模巨大的數據進行分析。因此本節重點分析大數據挖掘。在本節中,我們首先深入研究傳統數據挖掘,然后結合大數據的特有特性,重點聚焦其復雜性,再進一步學習和研究大數據環境下的數據挖掘技術。最后,結合經典數據分析挖掘算法的研究,探討其在互聯網金融中的典型應用大數據分析和挖掘概述.大數據的分析技術也以前所未有的速度快速發展。
四、SaaS與互聯網金融大數據
(一)資產大多數是非標資產
金融大數據,目前有4個階段。第一階段是基于數據存儲;第二階段是分布式計算;第三階段是大數據挖掘與分析;第四階段是數據服務。對于商業銀行,包括中、農、工、建和交通這國有五大行來說,都處于第一階段。其中,建行處于平臺選型階段。農業銀行已經完成數據存儲方面的工作,但還未上線。光大銀行項目,在2013年10月上線,是國內第一家真正意義上將金融大數據應用到銀行核心業務系統的案例。
無論是傳統銀行還是新興的互聯網金融企業都需要對現有的數據進行增值挖掘。如果依靠傳統的挖掘方式,成本巨大。如果采用現有的大數據分析技術、采用分布式集成框架、采用開源框架,一方面可以降低成本,另外一方面運算性能也有所提升。互聯網金融環境的大數據處理之所以難,是因為互聯網金融企業的數據具有如下特點。
(二)數據是非結構化數據
大家都知道,結構化數據可以依賴數據庫進行快速的分類統計和分析;如果是非結構化的數據,就很難利用傳統的數據庫來進行快速的分類統計了。另外一個挑戰就是金融大數據的安全性,需要提供實時的風險控制,這是很強的安全要求,如圖3所示。
圖3互聯網金融的實時風險控制SaaS即Software-as-a-Service(軟件即服務),是隨著互聯網技術的發展和應用軟件的成熟,提供的基于互聯網的全新軟件服務模式。處于初創階段的互聯網金融企業,很多都會選擇在云平臺(AWS,阿里云)上搭建自己的SaaS服務,從而節省了不少人力物力。用戶按月或者按請求購買服務。當用戶量急劇上升的時候,很多服務響應就會變慢,甚至宕機,往往會造成某些大客戶無法容忍。我們在搭建多租戶SaaS金融服務的時候,由于數據庫往往是SaaS系統的瓶頸所在,所以我們通常會根據用戶的級別,提供不同水平的服務,一些微型的客戶就采用完全共享式的數據庫,一些高端的大客戶就采用完全隔離的數據模型。
多租戶SaaS平臺下的數據庫共享模式如圖4所示,在數據層中有三個級別的資源共享。完全隔離:每個租戶均使用單獨的數據庫。部分共享:共享數據庫,但是使用單獨的模式。完全共享:使用相同的數據庫和相同的模式。
多租戶平臺的SOA服務化及其功能當用戶急劇上升,每天的調用量成指數上升的時候,某些核心服務每天的調用量達到上億的級別,服務開始變得不可控。這個時候,僅僅靠增加硬件已經不能解決問題了,從服務器到中間件,再到數據庫,任何一個環節都可能導致服務變慢甚至宕機。更有甚者,當某一款新的金融產品上線的時候,海量用戶蜂擁而來搶購的時候,瞬間就會有數十萬或者數百萬的用戶進來,頁面開始堵塞,已經進去的用戶無法投資,新來的用戶無法登錄,開始不停地刷新頁面……噩夢開始了,數據庫開始死鎖,服務進一步僵化,新來的用戶越聚越多,雪崩開始了,互聯網金融下的服務治理互聯網金融的高速發展,為企業帶來了諸多的機遇,還是移動互聯網應用帶來的惡意程序,都為互聯網金融應用帶來了潛在的風險。另一方面,互聯網金融的監管有待完善。
五、物聯網金融大數據
(一)物聯網金融的應用分析
例如,可以利用豐富的傳感器系統與智能監管分析系統相結合,對實物資產進行數字化分析與管理,解決傳統動產融資業務中雙方信息不對稱及誠信的問題,便于銀行對抵押物有更好、更全面的了解與監控。在動產質押業務上把原有的人工防范變為全方位的技術防范,從主觀評價變為客觀評價。從銀行的角度來看,物聯網技術可以幫助銀行更好地控制風險;從融資方的角度來看,數字化后可以
更容易量化實物本身的價值及安全監管,變相提高了信用評價,可以更容易與銀行達成融資業務。
傳統互聯網對用戶信息的收集更多的是依賴于用戶自身在互聯網發布信息的收集,而物聯網則可以通過豐富的傳感器技術借用不同的實物載體對個體進行主動的全方位多元化的信息收集。保險行業應該是最早享受到物聯網金融益處的行業之一,以當前流行的智能可穿戴設備為例,能夠做到全天候對人體的各項生理指標和行為模式進行全方位的監控,獲取的大量數據可以為電子病歷及保險行業帶來非常大的價值,例如,可以提前獲知個體發生潛在疾病的風險從而提供指導意見,判斷投保人可能發生意外情況的概率而對保單進行調整等。同時,當前保險公司和個人的信息是完全不對等的(個人對自己身體狀況等信息的了解遠多于保險公司),基于分析數據對相關保險進行合理的定價,同時也更容易發現潛在的投保人,從而擴展相關業務。
(二)物聯網金融的主要創新模式
在汽車領域,通過對高智能化汽車芯片的數據進行分析并有效評估汽車的整體狀況,不僅可以為汽車廠商提供相應的改進修改方案與市場營銷方案等,還能為保險公司車險價值評估提供有效的數據支持和指導意見。同時在對駕駛員駕駛行為習慣數據分析后,可以為駕駛員提供相應的安全行車指導意見,從而有效降低道路事故發生率。
宏觀來講,物聯網技術帶給我們更豐富全方位立體化的,甚至傳統互聯網不能提供的海量數據,基于這些大數據,我們可以建立起更多的數據模型,實現更多的跨行業跨領域的交互與協作,從而在信息對等的基礎上建立起實體流、信息流、資金流三者合一的物聯網金融形態。
六、結論
大數據技術起源于互聯網行業,目前最成功的應用也在互聯網行業,在其他行業的應用還處于初級階段。我國的各級政府機關和各類傳統行業,在日常管理和業務運行中也積累了大量的數據。大數據的真正價值所在是深度價值發現和行業應用,如何推進大數據技術應用,喚醒這些沉睡的大數據資源,實現管理上的科學決策,開創新的業務模式,是這些數據擁有者所關心的問題。
參考文獻:
[1]李珺.數據網格環境下的元數據管理技術.武漢:華中科技大學,2017.
[2]尹文燕.元數據發展現狀及存在問題研究.中國科學技術信息研究所,2013.
[3]趙慶峰,鞠英杰.國內元數據研究綜述.現代情報,2013(11):42-45.
[4]陳進.關于數據倉庫元數據管理系統的研究與建立.青島:中國海洋大學,2014.
[5]趙輝,張英杰,彭潔.CWM技術研發決策支持平臺的元數據管理模型研究.中國科技資源導刊,2014,46(4):14-19.
[6]靳麗娟.元數據及其在數字圖書館信息組織中的應用.山西:山西大學,2014.
作者單位:南京理工大學紫金學院