黃小華
進入二十一世紀以來,以計算機技術、網絡技術等為代表的新技術應用,深刻的改變了人類社會的方方面面,尤其是近年來,伴隨著5G技術的應用、物聯網技術的突飛猛進,萬物互聯、一切皆可數據化似乎正從夢想走向現實。目前,數據已經滲透到了每一個行業領域并成為重要的生產因素,數據規模也正以驚人的速度呈膨脹式的增長,大數據正成為這個時代最為顯著的標簽。大數據概念的提出,顛覆了我們對傳統數據的認識,同時也引起了數據獲取、存儲、分析、挖掘以及可視化等技術的變革,大數據以及其相關技術的發展正在成為改變人類生產以及生活方式的重要基礎。本文基于對大數據內涵的認識,就其技術體系進行一些探討并分析其未來發展趨勢,以期能夠對相關研究提供一些參考與借鑒。
大數據的概念一經提出便受到了學界的廣泛關注,但到目前為止,對于大數據還沒有形成一個統一的定義。麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合。維基百科則將大數據定義為:利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間限制的數據集。中國科學院院士徐宗本則將大數據定義為:不能夠集中存儲、并且難以在可接受時間內分析處理,其中個體或部分數據呈現低價值性而數據整體呈現高價值的海量復雜數據集。從上述定義不難看出,大數據從不同角度、側重點可以有不同的理解,但其本質核心是一種數據集,是相較于傳統數據在獲取、存儲、分析處理等方面具有較大差異,需要特殊技術支撐的復雜數據集合。
大數據具有數據規模大、流動速度快、類型多樣、低價值密度以及真實性等特征,這使得其與傳統數據相較具有較大差異。計算機技術、數字化技術以及網絡技術等的飛速發展以及大范圍普及是大數據產生的基礎條件,使得數據的產生脫離了對活動的依賴,從被動產生到主動產生再到自發性產生,數據的規模在此情況下得到了爆發性的增長。但大數據的戰略意義或者說是價值體現并不在于對海量數據的掌握,而在于對這些數據的分析加工、處理能力,也就是說,大數據技術才是大數據從“死數據”變成“活資產”的關鍵。大數據的數據類型主要分為結構化數據、非結構化數據的半結構化數據,其中非結構化數據和半結構化數據是大數據的主要類型,也被稱為異構數據。由于半結構化數據和非結構化數據無規則性結構、模式多樣化,且在大數據海量數據規模中占比較大,為大數據的存儲、分析、呈現帶來巨大挑戰。

大數據采集技術
大數據采集是指從終端設備、社交網絡、企業管理系統以及其它互聯網平臺、系統等獲取數據的過程。大數據采集的數據包括了從各種數據源如RFID、傳感器、社交網絡及移動互聯網等采集的各種類型的結構化、半結構化及非結構化的海量數據。這些數據不但來源廣泛,且數據類型多樣、規模龐大、產生速度快,傳統的數據采集方法基本無法勝任。大數據采集過程中主要挑戰是并發數高,成千上萬的用戶在同一時間對系統進行訪問和操作,無疑對其技術支撐提出了挑戰。大數據采集的數據源不同,數據采集方法也有所不同。就目前來說,針對不同的數據源,采集方法大致有如下幾種:一是數據庫采集。傳統的關系型數據庫如MySQL和Oracle等可用大數據的采集,但其在處理超大規模和高并發的數據采集中顯得有些力不從心。近年來,非關系型數據庫如Redis、MongoDB和HBase等在大數據采集中的應用日益增多;二是系統日志采集。很多企業管理系統、商務平臺每天都會產生大量的日志,這些日志是大數據中的一種重要數據類型。對于系統日志采集,目前使用最廣泛的采集工具有Hadoop的Chukwa、Apache FlumeA;Facebook的Scribe和LinkedIn的Kafka等,這些工具均采用分布式架構,能滿足每秒數百MB的日志數據采集和傳輸需求;三是網絡數據采集。網絡數據采集是指通過網絡爬蟲或網站公開 API 等方式從網站上獲取數據信息的過程。網絡爬蟲會從一個或若干初始網頁的URL開始,獲得各個網頁上的內容,并且在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足設置的停止條件為止。這樣可將非結構化數據、半結構化數據從網頁中提取出來,存儲在本地的存儲系統中。四是感知設備數據采集感知設備數據采集是指通過傳感器、攝像頭和其他智能終端自動采集信號、圖片或錄像來獲取數據。大數據智能感知系統需要實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。其關鍵技術包括針對大數據源的智能識別、感知、適配、傳輸、接入等。
大數據存儲技術
大數據的存儲與數據采集環節密切相關。一般情況下,當數據采集量在一定的量級范圍內且僅需要響應簡單的處理請求時,可將數據存儲在輕型數據庫內。大數據存儲的輕型數據庫包括了關系型數據庫、非關系型數據庫和一些新型數據庫。如EMC的Greenplum、HP的 Vertica、Teradata的 AsterData都是用于大數據存儲的關系型數據庫;Google的HBase、10gen的MongoDB、Facebook的Cassandra以及VMware的Redis等都是用于大數據存儲的非關系型數據庫;此外,Google的Spanner、Megastore、F1是具有代表性的大數據NewSQL數據庫。
當輕型數據庫難以滿足大數據存儲需要時,便需要采取大型分布式存儲數據庫或者分布式存儲集群的方式,這類大數據存儲技術也被稱為大數據存儲平臺。目前典型的大數據存儲平臺包括Info Brignt、Hadoop、YunTable、HANA以及 Exadata等。