耿曉斐
摘要:隨著以AI、大數據、云計算技術的深度融合,以深度學習為代表的研究為數據更好的利用提供技術支持。為深入理解大數據技術的內涵,從大數據的定義、4V特征、體系架構等方面進行闡述。介紹了大數據的基本概念、特征,總結了云計算、系統層、算法層、應用層的核心技術及關鍵策略。
關鍵詞:大數據;4V定義;體系結構;
一、大數據定義
大數據這一概念目前沒有統一的定義?,F在業界一般認可國際數據公司(IDC)用四個維度的特征來定義大數據,即數據集的規模(Volume)、數據流動的速度(Velocity)、數據類型的多少(Variety)和數據價值的大?。╒alue)。具體來說,大數據具有以下4個基本特征:
一是數據體量巨大,從 TB 級別,躍升到 PB 級別。
二是數據類型多樣?,F在的數據類型不僅是結構化數據,還有以半結構化、非結構化數據為主體的,如是圖片、視頻、音頻等多類型的數據,個性化數據占絕對多數。據統計,2012 年互聯網中非結構化數據量已達到75%以上。
三是價值密度低。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。
四是處理速度快。數據處理遵循“1秒定律”,可從各種類型的數據中快速獲得高價值的信息。這一點也是和傳統的數據挖掘技術有著本質的不同。業界將這其歸納為 “4V”——Volume,Variety,Value,Velocity。
二、大數據平臺體系結構
從信息化角度來看,大數據系統一般由構架層、系統層、算法層、應用層四塊組成。
1.構架層
大數據與云計算融合是技術發展的趨勢,云計算解決大型數據中心的資源利用率提升和自動化運維管理,它管理的對象中顯然包括需要使用大量計算資源的“大數據”系統。因此從層次上講,云計算技術為大數據技術提供基礎資源,云計算是基礎設施能力(IaaS),大數據是云計算的一種服務能力(PaaS)。大數據集群是由多種角色組成的龐大的應用部署群,一般會分為部署節點、管理節點、計算節點、流計算節點、數據復制節點等,這些節點中只有計算節點因為承載了HDFS的海量數據持久化建議物理機部署外,其它節點都可以進行虛擬化部署,從而使大數據集群可以部署在云數據中心中統一管理,最終實現大數據服務的資源共享、統一管理、按需分配、動態調度。因此實際部署時,針對節點規模大的集群,可采用半虛半實的方式部署。大數據集群節點中的管理節點、流計算節點對IO的需求量不大,可以使用虛擬機方式進行部署,而計算節點對IO需求大,保留物理部署模式。同時在虛擬機中部署臨時的大數據集群,在大數據業務波峰時,通過臨時集群來彈性增加處理能力,分擔共享大數據集群的數據處理壓力。
2.系統層
Alluxio一個開源的基于內存的分布式存儲系統,現在成為開源社區中成長最快的大數據開源項目之一,已成為一個大數據存儲和共享平臺工業標準,并成為全球發展最快的大數據開源軟件系統。Alluxio的目的就是想要讓計算層和存儲層可以再次輕裝上陣,讓它們獨立的優化和發展自己,而不用擔心破壞兩者之間的依賴。具體說來,Alluxio提供一層文件系統的抽象給計算層。這層抽象之上的計算只需要和Alluxio交互來訪問數據;而這層抽象之下可以同時對接多個不同的持久化存儲(比如一個S3加上一個HDFS部署),而這層抽象本身又是由部署在靠近計算的內存級Alluxio存儲系統來實現。
它適用以下場景:
1.計算層需要反復訪問遠程(比如在云端,或跨機房)的數據;
2.計算層需要同時訪問多個獨立的持久化數據源(比如同時訪問S3和HDFS中的數據);
3.多個獨立的大數據應用(比如不同的Spark Job)需要高速有效的共享數據;
4.當計算層有著較為嚴重的內存資源、以及JVM GC壓力,或者較高的任務失敗率時,Alluxio作為輸入輸出數據的Off heap存儲可以極大緩解這一壓力,并使計算消耗的時間和資源更可控可預測。
3.算法層
數據挖掘是從海量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的計算過程。數據挖掘中用到了大量的機器學習界提供的數據分析技術和數據庫界提供的數據管理技術。機器學習是數據挖掘中的一種重要工具,然而機器學習的門檻較高,數據分析人員不僅需要了解各個算法的優缺點,而且需要了解每個算法的超參數調優技巧,一個數據分析流程一般包括數據清洗、特征提取、算法選擇以及模型評估等,所以被戲稱機器學習為“煉丹術”。使用某種學習機制,通過AI的方式自己來調整超參數,找出最優解的思想自然產生,AutoML、AutoKeras都是此類方法的代表,使用此類方法能讓用戶輕松地訓練高性能的深度網絡,而用戶無需具備任何機器學習或AI的知識就可以得到想要的數據。這種方式是今后的發展的方向,值的去進一步研究。
4.應用層
企業大數據應用體系其實就是在生產業務系統之外構建統一的企業級數據庫。企業級數據庫的建設,從技術架構上經歷了從數據倉儲體系到MPP數據庫體系,再到現在應用較廣的Hadoop架構體系。除了技術體系架構外,企業級數據庫的建設還包含數據模型的建立、數據管理體系建設、數據應用體系建設,而企業級數據庫的實際應用效果更多的則是依賴于企業自身數據專家庫的建立以及專業機構的推動。
三、小結
本文結合大數據的產生背景、需求和系統結構,梳理了大數據的基本概念及4V特征,總結歸納了大數據技術的架構體系,分析了每層的核心技術。目前大數據技術的研究還有許多深層次的問題亟待解決,如大數據4V特征中起關鍵作用的是什么,如何對網絡數據進行實時同步,如何對數據進行結構化處理等等,需要我們用更加敏銳的洞察力來分析和研究。
參考文獻:
[1]中國信息通信研究院 大數據白皮書 2018.4
[2]《深入理解大數據》 黃宜華、苗凱翔 機械工業出版社
[3]The Google File System Sanjay Ghemawat,Howard Gobioff,and Shun-Tak Leung
[4]BARWICK H.The "four Vs" of big data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].
[5]Hadoop [EB/OL].[2012-10-02].
(作者單位:河南省開封市煙草公司信息中心)