張 巖,胡林生
(西安歐亞學院,西安 710065)
隨著時代和科技的發展,信息量劇增,大數據一詞也越來越火熱,TB 級數據已經很常見,PB、EB 級的數據也會成為趨勢。在數據科學研究發展的歷程中,大型的企業都有自己的數據管理部門、數據管理途徑和方法。而一些中小型企業,尤其是中小型金融科技企業,其發展戰略側重于業務的快速發展,在企業運營過程中,忽略了數據的維護和管理。
企業在運營中產生的數據既有結構化的數據,例如企業員工相關信息、企業打卡記錄、企業訂單、企業倉庫管理、客戶記錄信息、客戶信用評價信息等,也有非結構化的數據,包括企業運營日志、文檔、照片、音頻、視頻等。而且這些數據每天都在隨著業務的開展而增加和更新,數據量巨大,很多中小型金融科技企業并沒有對數據進行規范化的管理。這些數據背后都隱藏著巨大的價值,企業需要建立一個規范化的數據管理平臺,既能存儲數據,也能加強數據的規范化管理,提高數據的安全性。
隨著大數據時代的到來,信息量日益增加,金融科技企業必將產生大數據的存儲和分析需求。傳統的關系型數據庫僅支持結構化數據,可以滿足日常企業運維;但對于海量的數據,再加上許多非結構化的數據,傳統的關系型數據庫已經不能滿足存儲需求。數據的安全性也非常重要,如果數據僅存在于某個數據庫或者某臺機器,安全性達不到要求,那么數據的共享程度也不高。為解決這些問題,可以通過在多臺大容量Linux服務器上部署Hadoop 大數據平臺,搭建HDFS(Hadoop Distributed File System,Hadoop 分布式文件系統)分布式集群環境,對數據文件進行分布式處理,能提高數據的存儲效率、安全性、可靠性。在Hadoop 大數據平臺上,構建Hive 數據倉庫,在Hive 數據倉庫中對海量結構化數據進行分析,能滿足大數據分析的需求。
Hadoop 分布式文件系統是可以運行在N 臺通用(廉價)機上的分布式文件系統。HDFS 分布式集群環境就是將分布式文件系統部署在成百上千臺服務器組成的集群上,同一個企業不同地區服務器協同工作,能夠完成企業日常數據的運維工作。
HDFS 分布式文件系統有如下優勢。①支持超大文件的存儲,可以存放超大數據集,例如TB 級、PB 級數據的存儲。②快速高容錯性,HDFS 分布式文件系統部署在N 臺服務器,每臺服務器都有數據塊。集群環境中,硬件故障會導致個別服務器故障,HDFS 分布式文件系統可以進行錯誤檢測,快速并自動恢復數據。③流式數據訪問,HDFS 分布式集群環境,通常數據處理規模比較大,應用程序通常以流的形式訪問數據集,而不是用戶交互式處理。顧名思義,流式數據就是數據流源源不斷像水流一樣從各個地方匯聚而來。為了保證高吞吐量的數據訪問,HDFS 流式讀取數據的方式,更適合數據的批處理。④高吞吐量,HDFS 提供對數據的高吞吐量訪問,適用于具有海量數據集的應用程序。HDFS 的設計是為了存儲大文件,它更注重數據訪問的吞吐量。HDFS 采用的是“一次性寫,多次讀”這種簡單的數據一致性模型,有利于提高數據訪問吞吐量。
①高性能,克服單一服務器存儲數據的困難,例如,某金融科技公司將普通數據服務器更換為2U 四節點分布式集群存儲方式,可以提高數據存儲容量和性能。②節省空間,部署機架式CPU 集群服務器,可以降低機房空間成本,存儲數據也不需要單獨放入每臺機器;節省的空間可以更多用于金融業務和設計演示場地。③省電優勢,刀片設備耗電量比傳統模式下,大大降低設備功耗,后期服務器運維的成本也會有所降低。④可擴展性,分布式文件系統是一個高度可用的橫向擴展型系統,當隨著業務量的增加,數據量越來越多,可以自行增加節點進行管理。⑤易于管理,多臺CPU 服務器同時工作,通過CDH 管理界面進行統一部署、管理和維護,更加方便快捷,軟件統一維護和升級,不會導致數據存儲丟失。
隨著互聯網金融、大數據的迅速發展,金融行業的競爭也非常激烈,為提高企業辦事效率,增強風險預測能力,越來越多的金融公司希望能夠降低攬客成本和客戶服務成本。此時,金融科技就發揮了重要的作用。
為此,中小型金融科技企業都在努力實施金融科技項目,例如:為提高柜臺工作效率,降低各個營業網點業務開通成本,可以通過智能化信息柜臺辦理相關業務,也可以通過掃描二維碼辦理相關業務;通過手機客戶端進行快速理賠,可以提升用戶理賠效率,節省時間和人力成本;通過智能化信貸平臺,對用戶特征進行分析,構建模型,提升風險評估效率,降低人力投入成本。
在銀行、保險行業工作流程中,存款項目、信貸申請、放貸項目、保險和理賠等業務除了在數據庫中記錄每天的數據交易信息,還會產生大量的非結構化數據,例如,辦理相關業務的各自照片和文檔記錄,很明顯會產生海量的圖片、文檔、音頻和視頻等非結構化數據,這些數據會隨著時間變化,其文件個數都會爆發性增長,對傳統的存儲系統架構帶來新的挑戰。為解決這些數據可能存在的問題,需要構建大數據平臺對數據進行存儲,并能方便快捷的完成數據查詢和調取。
Hadoop 生態系統架構(如圖1)有三大核心組件:HDFS、MapReduce 和Yarn,分別發揮著各自的功能和作用。其中,HDFS 是分布式文件系統,主要將文件分布式存儲在多臺服務器上;MapReduce 是并行計算編程框架,其作用主要是在多臺服務器上實現并行運算;Yarn 是分布式資源調度平臺,主要是幫助用戶調度大量的MapReduce 程序,并能夠合理地分配分布式運算資源。在Hadoop 生態系統架構中,HDFS 是Hadoop生態系統的分布式文件系統,主要負責數據的切片與分布式存儲。HDFS 可以提供高吞吐率的數據訪問服務,在超大數據集上的應用最為廣泛。

圖1 Hadoop 生態系統架構圖
HDFS 采用典型的Master/Slave 主從架構。一個HDFS 集群由一個NameNode 和多個DataNode 組成。其中,NameNode是中心服務器,稱為名稱節點或主節點,主要負責管理文件塊的記錄和客戶端的訪問。DataNode 一般是一個節點一個,稱為數據節點或從節點,主要負責數據塊的創建、復制和存儲。
HDFS 分布式文件系統工作流程:
①當用戶通過客戶端把一個文件存入HDFS 分布式文件系統,HDFS 會對這個文件進行切塊,切塊后的每個文件都有標識,然后分散存儲在負責DataNode 節點的N 臺Linux 服務器中;②一旦某個文件被切塊存儲,那么,HDFS 中的NameNode 會記錄用戶每一個文件的切塊信息,并且會記錄每個切塊的存儲路徑;③為確保數據的安全性,HDFS 會把每一個文件塊在集群環境中存放多個副本,具體的切塊行為,用戶可以指定,分布式文件系統默認每個切塊存在3 個副本。
綜上所述,一個HDFS 分布式文件系統,就是由一臺運行了NameNode 的服務器,和N 臺運行了DataNode 的服務器組成。Hadoop 集群環境是典型的Master/Slave 結構,其中名字節點NameNode 屬于Master,DataNode 屬于Slave。

圖2 HDFS 存儲機制原理圖
HDFS 以獨特的存儲機制,創建了閑置硬件資源共享的經濟模式。HDFS 分布式文件系統將大大節省中小型金融科技企業在閑置硬件資源的消耗,可以為企業提供大數據分布式存儲平臺;HDFS 將開啟企業信息數字化的時代,為中小型科技企業提供了一個共享數據平臺,中小型金融科技企業HDFS 用戶可以實現對企業對全部數據的收集匯總、數據分析以及數據安全存儲。
中小型金融科技企業搭建Hadoop 大數據平臺,為企業提供了可靠的大數據存儲和分析平臺。Hadoop 大數據平臺對結構化和復雜大數據進行快速、可靠分析,從而為企業做出科學合理的決策,促進收入增長,改善服務,降低成本提供很好的技術支撐。分布式大數據平臺促進了中小型金融科技企業發展模式創新,推動了數據產業轉型升級,發揮了數據的重要價值,具備應對新時代下海量客戶、海量業務統計大數據的能力。新時代互聯網場景下,Hadoop 大數據平臺為金融科技企業發展提供了扎實的技術保障,金融信息化的運轉將更加高效便捷,推動金融科技企業良好發展。