楊 剛 楊 凱
(陜西理工學院數學與計算機科學學院 漢中 723000)
?
大數據關鍵處理技術綜述*
楊剛楊凱
(陜西理工學院數學與計算機科學學院漢中723000)
摘要大數據是繼云計算、物聯網之后IT產業又一次顛覆性的技術革命,大數據的發展、研究必將改變世界。先簡介大數據的概念及其特征、大數據發展歷程、大數據與云計算的關系;接著敘述了大數據分析和處理的比較成熟的平臺:Spark和Hadoop;然后對大數據處理的若干關鍵技術:大數據采集、大數據預處理、大數據的存儲及管理、大數據的分析和挖掘、大數據的統計分析等進行了較系統的分析、歸納和探討。
關鍵詞大數據; Hadoop; 數據挖掘; NoSQL數據庫
Class NumberTP309
現代數據的種類和規模與日俱增,大數據時代已到來。大數據對數據處理的實時性、有效性提出了更高的要求,需要根據大數據特點對傳統數據處理技術變革,形成適用于大數據收集、存儲、管理、處理、分析、共享和可視化的技術。本文主要歸納、分析大數據處理的若干關鍵技術。
2.1大數據的概念及其特征
大數據不是一種新技術、新產品,而是一種新現象。大數據的概念較為抽象,沒有統一、確切的定義。麥肯錫將大數據定義為:無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合[1]。維基百科定義大數據為:巨量數據、海量數據,它指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息[2~3]。
大數據從字面來看,就是大規模的數據,但數量龐大不能準確定義大數據。大數據的定義要符合大數據的特點。當前,較統一的觀點是4個特點,即“4V”[4]:數據規模(Volumes)巨大、數據種類(Variety)繁多、數據價值(Value)密度低和數據處理速度(Velocity)快(1秒定律)。
2.2大數據研究的發展歷程
2012年3月,奧巴馬政府投資2億美元啟動“大數據研究和發展計劃”。隨后谷歌、Facebook等大數據資源企業優勢顯現;甲骨文、IBM、微軟、Sybase、EMC、Intel等企業陸續推出大數據產品和方案。如甲骨文公司的Oracle NoSQL數據庫、IBM公司的InfoSphere BigInsights數據分析平臺、微軟公司Windows Azure上的HDInsight大數據解決方案、EMC公司的Greenplum UAP大數據引擎等。以HDFS、GFS、MapReduce、Hadoop、Storm、HBase、MongoDB為代表的一批大數據通用技術和開源項目迅猛發展。
2.3大數據與云計算
云計算的概念很多,綜合其他資料,可以將云計算歸納為[5]:云計算以虛擬化技術為核心,虛擬化技術將共享的硬件和軟件資源抽象化成一個統一的資源池,通過互聯網這個載體,向用戶按需地提供所需的資源。其特點在于多用戶共享、大數據處理與大數據存儲。
大數據是云計算的靈魂和升級方向,云計算為大數據提供的存儲的空間和訪問的渠道。大數據與云計算關系十分密切。從整體上看,大數據與云計算是相輔相成的;從技術上看,大數據植根于云計算。云計算與大數據的不同之處在于應用的不同。
3.1Spark
1) Spark概述
Spark是一種與Hadoop相似的開源集群計算環境,但Spark在某些工作負載方面表現得更加優越。Spark啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。
Spark是在Scala語言中實現的,它將Scala用作其應用程序框架。與Hadoop不同,Spark和Scala能夠緊密集成,其中Scala可以像操作本地集合對象一樣輕松地操作分布式數據集。
盡管創建Spark是為了支持分布式數據集上的迭代作業,但是實際上它是對Hadoop的補充,可以在Hadoop文件系統中并行運行。通過名為Mesos的第三方集群框架可以支持此行為。Spark由加州大學伯克利分校AMP實驗室開發,可用來構建大型的、低延遲的數據分析應用程序。
2) Spark集群計算架構
雖然Spark與Hadoop有相似之處,但它提供了具有有用差異的一個新的集群計算框架。首先,Spark是為集群計算中的特定類型的工作負載而設計,即那些在并行操作之間重用工作數據集的工作負載。為了優化這些類型的工作負載,Spark引進了內存集群計算的概念,可在內存集群計算中將數據集緩存在內存中,以縮短訪問延遲。
Spark還引進了名為彈性分布式數據集(RDD)的抽象。RDD是分布在一組節點中的只讀對象集合。這些集合是彈性的,如果數據集一部分丟失,則可以對它們進行重建,重建部分數據集的過程依賴于容錯機制。RDD被表示為一個Scala對象,并且可以從文件中創建它。
Spark中的應用程序稱為驅動程序,這些驅動程序可實現在單一節點上執行的操作或在一組節點上并行執行的操作。與Hadoop類似,Spark支持單節點集群或多節點集群。對于多節點操作,Spark依賴于Mesos集群管理器。Mesos為分布式應用程序的資源共享和隔離提供了一個有效平臺,該設置允許Spark與Hadoop共存于節點的一個共享池中。
3.2Hadoop
1) Hadoop概述
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,用戶可以在不了解分布式底層細節的情況下,開發分布式程序,充分利用集群的威力進行高速運算和存儲。它具有高可靠性、高擴展性、高效性、高容錯性、低成本幾個優點[6]。
Hadoop實現了一個分布式文件系統(Hadoop Distributed File System,HDFS)。HDFS有高容錯性的特點,并且設計用來部署在低廉的硬件上;而且它提供高吞吐量來訪問應用程序的數據,適合那些有著超大數據集的應用程序。Hadoop框架最核心的設計是HDFS和MapReduce[7]。HDFS為海量的數據提供了存儲,MapReduce則為海量的數據提供了計算。Hadoop平臺基于主從式構架,通過Namenode、Datanode、Secondary、Jobtracter和Tasktracker管理,可以運行在幾十臺乃至幾千臺計算機上,能夠充分利用集群節點巨大的存儲和計算資源。
Hadoop強調的是移動計算,HDFS將數據分塊存儲在集群中不同的節點上。計算前,Namenode分析程序需要的數據存儲在集群中的哪些節點;Jobtracter將MapReduce計算任務分配給這些節點上的Tasktracker;Tasktracker啟動Map程序,開啟計算任務;經過Combiner、Shuffle等過程,在Reduce階段生成計算結果。
2) Hadoop的構成元素
作為一個分布式數據處理體系架構,Hadoop由很多元素構成,包括HDFS、MapReduce、HBase、Hive、Zookeeper、Avro等,核心部分是HDFS分布式數據存儲和MapReduce的數據并存處理機制,下面介紹幾個主要的元素。
(1)HDFS
HDFS是Hadoop項目的核心子項目,是分布式計算中數據存儲管理的基礎,是基于流數據模式訪問和處理超大文件的需求而開發的,可以運行于廉價的商用服務器上。它所具有的高容錯、高可靠性、高可擴展性、高獲得性、高吞吐率等特征為海量數據提供了不怕故障的存儲,為超大數據集(Large Data Set)的應用處理帶來了很多便利。
HDFS默認的最基本的存儲單位是64M的數據塊。HDFS體系結構中有兩類節點,一類是NameNode,又叫“元數據節點”;另一類是DataNode,又叫“數據節點”。這兩類節點分別承擔Master和Worker具體任務的執行節點。Namenode是一個中心服務器,負責管理文件系統的namespace和客戶端對文件的訪問。Datanode在集群中一般是一個節點一個,負責管理節點上它們附帶的存儲。
(2)MapReduce
MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。2004年,Google公司最先提出MapReduce技術,作為面向大數據分析和處理的并行計算模型。
MapReduce技術框架包含三層面的內容:分布式文件系統、并行編程模型和并行執行引擎。MapReduce并行編程模型把計算過程分解為兩個主要階段,即Map階段和Reduce階段[8]。MapReduce技術是一種簡潔的并行計算模型,它在系統層面解決了擴展性、容錯性等問題,通過接受用戶編寫的Map函數和Reduce函數,自動地在可伸縮的大規模集群上并行執行,從而可以處理和分析大規模的數據。MapReduce技術是非關系數據管理和分析技術的典型代表。
(3)HBase
HBase(Hadoop Database)是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,是一個適合于非結構化數據存儲的開源數據庫,它在Hadoop之上提供了類似于Bigtable的能力。
大數據處理關鍵技術一般包括:大數據采集、預處理、存儲及管理、分析及挖掘、可視化分析、統計分析等。
4.1大數據采集技術
大數據中的數據是指通過RFID射頻數據、傳感器數據、社交網絡交互數據及移動互聯網數據等方式獲得的各種類型的結構化、半結構化及非結構化的海量數據,它是大數據知識服務模型的根本。
1) 數據采集
數據倉庫技術[9](即ETL)工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。數據的主要來源有:管理信息系統(主要為結構化數據)、Web信息系統(非結構化、半結構化數據)、物理信息系統(傳感器、多媒體數據)和科學實驗系統(仿真數據)等。
2) 大數據采集分層
大數據智能感知層主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統,實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。必須著重攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術。
4.2大數據預處理技術
大數據預處理主要完成對已接收數據的辨析、抽取、清洗等操作。數據抽取過程可以幫助將這些復雜的數據轉化為單一的或者便于處理的構型。清洗是指要對數據通過過濾“去噪”從而提取出有效數據。大數據預處理取得進展的技術包括有:Deep Web技術、異構數據集成技術、傳感器網絡融合技術、Web中實體識別技術等。
1) Deep Web技術
Web可以劃分為Surface Web和Deep Web兩大部分。Surface Web是指通過超鏈接可以被傳統搜索引擎索引到的頁面的集合。Deep Web[10](深網)又稱不可見網、隱藏網,是指互聯網上那些不能被標準搜索引擎索引的非表面網絡內容。廣義上來說,Deep Web的內容主要包含四個方面:通過填寫表單形成對后臺在線數據庫的查詢而得到的動態頁面;由于缺乏被指向的超鏈接而沒有被搜索引擎索引到的頁面;需要注冊或其它限制才能訪問的內容;Web上可訪問的非網頁文件,比如圖片文件、PDF和Word文檔等。
目前的通用搜索引擎不能提供對Deep Web中豐富高質量的信息資源的搜索,必須使用全新的搜索引擎技術。Deep Web搜索引擎是一種對Deep Web中的信息進行搜集、分析處理并提供搜索服務的信息檢索機制。Deep Web搜索引擎框架主要由六個模塊組成:數據庫自動發現模塊、用戶接口、數據庫自動選擇模塊、數據庫自動查詢模塊、返回結果自動抽取模塊、結果聚合模塊。
2) 異構數據集成技術
異構數據集成系統為企業解決多平臺、多結構數據的集成問題提供了一條解決途徑。異構數據不僅指不同的數據庫系統之間的數據是異構的,而且還包括不同結構的數據之間的異構。數據集成是對各種異構數據提供統一的表示、存儲和管理,因此集成后的異構數據對用戶來說是統一的和無差異的。異構數據集成系統的研究涉及的技術有分布式對象技術、XML、面向對象技術等。
目前分布式對象技術主要包括:CORBA(Common Object Request Broker Architecture)標準、Microsoft的COM/DCOM標準以及Sun公司的Java RMI(Java Remote Method Invocation)標準。
CORBA應用程序非常類似于其他面向對象的應用程序。所不同的是,當對象在另一臺機器上的時候,客戶端和服務器端必須分別通過一個特殊的層來管理網絡通信,在客戶端稱為Stub,在服務器端稱為Skeleton,Skeleton與ORB之間通過通信聯系。
XML(可擴展標志語言)是特別為Web應用服務的SGML(通用標識語言標準)的一個重要分支。XML是一種中介標示語言,由于XML大大提高了Internet的接入速度和查詢檢索Web數據的速度,它將逐步成為數據組織和交換的標準。基于XML數據不需要有內部描述就能被交換和處理,用戶可以方便地進行本地計算和處理。
3) 傳感器網絡融合技術
無線傳感器網絡(Wireless Sensor Networks,WSN)是一種分布式傳感網絡,它的末梢是可以感知和檢查外部世界的傳感器。WSN中的傳感器通過無線方式通信,WSN的發展受到包括能量供應、存儲數據量、數據處理能力、數據傳輸速率、同步率、系統魯棒性等諸多條件的限制和挑戰。其中,能量供給是WSN的最大挑戰。能量和能力都有限的傳感器節點如何實現復雜的數據監測和信息報告是WSN中需要解決的首要問題,但可以利用數據融合技術來解決上述問題。
數據融合技術是指利用計算機對按時序獲得的若干觀測信息,在一定準則下加以自動分析、綜合,以完成所需的決策和評估任務而進行的信息處理技術。數據融合技術,包括對各種信息源給出的有用信息的采集、傳輸、綜合、過濾、相關及合成,以便輔助人們進行態勢或環境判定、規劃、探測、驗證、診斷等。數據融合的種類主要有:數據層融合、特征層融合和決策層融合。
4.3大數據存儲及管理技術
大數據存儲與管理要用存儲器把采集到的數據存儲起來,建立相應的數據庫,并進行管理和調用。重點解決復雜結構化、半結構化和非結構化大數據管理與處理技術。大數據存儲及管理技術的重點內容是開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、大數據的去冗余及高效低成本的大數據存儲技術;突破分布式非關系型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術;突破大數據索引技術,突破大數據移動、備份、復制等技術。目前出現了幾類大數據存儲和管理數據庫系統,下面進行簡單介紹。
1) NoSQL數據庫
NoSQL(Not Only SQL)是一項全新的數據庫革命性運動。數據庫分為關系型數據庫、非關系型數據庫以及數據庫緩存系統[11]。其中非關系型數據庫主要指NoSQL數據庫,當前主要有以下四種:鍵值存儲數據庫、列存儲數據庫、文檔型數據庫和圖形數據庫。
NoSQL數據庫在以下幾種情況下較適用:(1)數據模型比較簡單;(2)需要靈活性更強的IT系統;(3)對數據庫性能要求較高;(4)不需要高度的數據一致性;(5)對于給定key,比較容易映射復雜值的環境。
2) 并行數據庫
并行數據庫是指在無共享的體系結構中進行數據操作的數據庫系統。這些系統大部分采用了關系數據模型并且支持SQL語句查詢,為了能夠并行執行SQL的查詢操作,系統中采用了兩個關鍵技術:關系表的水平劃分和SQL查詢的分區執行?,F有的分區策略有哈希分區、范圍分區、循環分區等,在分區存儲的表中處理SQL查詢需要使用基于分區的執行策略。并行數據庫系統的目標是高性能和高可用性,通過多個節點并行執行數據庫任務,提高整個系統的性能和可用性。
3) NewSQL數據庫
NewSQL是對各種新的可擴展、高性能數據庫的簡稱,這類數據庫不僅具有NoSQL對海量數據的存儲管理能力,還保持了傳統數據庫支持ACID(即原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability))和SQL等特性。
NewSQL系統雖然在的內部結構變化很大,但是它們有兩個顯著的共同特點:一是它們都支持關系數據模型;二是它們都使用SQL作為其主要的接口。已知的第一個NewSQL系統叫做H-Store,它是一個分布式并行內存數據庫系統。
4.4大數據分析及挖掘技術
大數據分析及挖掘技術主要有:改進已有數據挖掘和機器學習技術;開發數據網絡挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基于對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網絡行為分析、情感語義分析等面向領域的大數據挖掘技術。
1) 大數據的分析
大數據的分析是研究大數據的重點,只有通過分析才能獲得深入的、有價值的信息。大數據分析的主要內容有:(1)可視化分析。大數據可視化分析系統是通過三維表現技術來表示復雜的信息,實現對海量數據的立體呈現。數據可視化已經提出了許多方法,這些方法可以劃分為基于幾何的技術、面向像素技術、基于圖標的技術、基于層次的技術、基于圖像的技術和分布式技術等。(2)數據挖掘算法。挖掘算法可以深入數據內部,挖掘出公認的價值。(3)預測性分析。通過科學地建立模型,從而預測未來的數據。(4)語義引擎。語義引擎需要設計到有足夠的人工智能以足以從數據中主動地提取信息。語言處理技術包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統等。(5)數據質量和數據管理。高質量的數據和有效的數據管理,能夠保證分析結果的真實和有價值。
2) 大數據挖掘技術
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含的人們事先不知道的、但又是潛在有用的信息和知識的過程,數據挖掘有多種分類法。
根據挖掘任務可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等。
根據挖掘對象可分為關系數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫、遺產數據庫以及環球網Web。
根據挖掘方法可粗分為:機器學習方法、統計方法、神經網絡方法和數據庫方法。機器學習可細分為:歸納學習方法(決策樹、規則歸納等)、基于范例學習、遺傳算法等。當前,機器學習研究與應用中最常用的關鍵技術有:半監督學習、遷移學習、集成學習、貝葉斯網絡、決策樹、統計學習理論與支持向量機、隱馬爾可夫模型、神經網絡、k近鄰方法、序列分析、聚類、粗糙集理論、回歸模型等。其中在大數據分析中,半監督學習、集成學習、遷移學習和概率圖模型[12](即GPA)等技術尤為重要。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網絡方法中,可細分為:前向神經網絡(BP算法等)、自組織神經網絡(自組織特征映射、競爭學習等)等。數據庫方法主要是多維數據分析或OLAP(聯機分析處理)方法,另外還有面向屬性的歸納方法。
4.5大數據統計分析
1) 大數據統計分析流程
大數據統計分析完整的商業智能流程[13]如下:從各種來源的關系型數據庫出發,進行提取、轉換和整合,將數據輸入數據倉庫;再鎖定目標數據,構造聯機分析,形成多維立方體;并進行挖掘數據,發現模式和規律;進行評價、檢驗得到知識;最后進行可視化設計,得到可視化圖表。
2) 統計分析方法的應用
主要采用文獻法中的內容分析法,將文字的、非定量的文獻某種程度地轉化為定量數據,則某些性質的內容就變成可測量和可進行數學運算,提高分析結果的客觀性。
對大數據可進行多維度分析,主要基于“分組標志”的統計分組和分布數列整理,得到分組數據的數據結構,展開相關性分析,采取消元降維技術,在相關性分析的基礎上進行(多元)回歸分析和時間數列的預測分析等[14~15]。對非線性變化進行判斷,數據擬合,進行擬合優良的數理趨勢模型選擇。最后確定效標,評價效度和信度。還可以進行統計檢驗,進行顯著性分析等。數據統計專注于建模及統計分析,通過概率、統計、離散化等數學知識建立合理模型,充分發掘數據內容,其常用工具有SAS、SPSS等。
21世紀是大數據的時代,大數據成為變革價值、變革經濟的中堅力量,大數據必將改變世界。目前大數據處理涉及的相關技術較繁雜,而且許多關鍵技術正處于快速發展階段,這些越發引起了人們研究大數據的難度和興趣。大數據時代帶來的挑戰不僅體現在如何處理巨量數據從中獲取有價值的信息,也體現在如何加強大數據技術研發,搶占時代發展的前沿。大數據研發目的是發展大數據技術并將其應用到相關領域,通過解決巨量數據處理問題促進其突破性發展。
參 考 文 獻
[1] 嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013(4):1-5.
YAN Xiaofeng, ZHANG Dexin. Big Data Research[J]. Computer Technology and Development,2013(4):1-5.
[2] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.
MENG Xiaofeng, CI Xiang. Big Data Management: Concepts, Technology, and Challenges[J]. Journal of Computer Research and Development,2013,50(1):146-169.
[3] 馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013,34(2):10-17.
MA Jianguang, JIANG Wei. The Concept, Characteristics and Applications of Big Data[J]. National Defense Science & Technology,2013,34(2):10-17.
[4] 劉鵬,吳兆峰,胡谷雨.大數據——正在發生的深刻變革[J].中興通訊技術,2013,19(4):2-7.
LIU Peng, WU Zhaofeng, HU Guyu. Big Data is Undergoing Profound Changes[J]. ZTE Technology Journal,2013,19(4):2-7.
[5] 陳杰.大數據場景下的云存儲技術與應用[J].中興通訊技術,2012,18(6):47-51.
CHEN Jie. The Cloud Storage Technology and Application in Large Data Scenarios[J]. ZTE Technology Journal,2012,18(6):47-51.
[6] 任仁.Hadoop在大數據處理中的應用優勢分析[J].電子技術與軟件工程,2014(15):193-194.
REN Ren. The Application Advantage Analysis of Hadoop in the Processing of Large Data[J]. Electronic Technology & Software Engineering,2014(15):193-194.
[7] 李瑞琴,鄭建國.大數據研究:現狀、問題、趨勢[J].現代商業,2013(36):107-108.
LI Ruiqin, ZHENG Jianguo. Big Data Research: the Status Quo, Problems and Trends[J]. Modern Business,2013(36):107-108.
[8] 覃雄派,王會舉,杜小勇,等.大數據分析——RDBMS與Mapreduce的競爭與共生[J].軟件學報,2012,23(1):32-45.
TAN Xiongpai, WANG Huiju, DU Xiaoyong, et al. Big Data Analytics——Competition and Coexistence of RDBMS and Mapreduce[J]. Journal of Software,2012,23(1):32-45.
[9] 項軍,雷英杰.數據倉庫技術與應用[J].計算機與現代化,2004(11):86-88,91.
XIANG Jun, LEI Yingjie. Data Warehouse Technology and Application[J]. Computer and Modernization,2004(11):86-88,91.
[10] 藕軍.Deep web搜索引擎的關鍵技術[D].合肥:合肥工業大學,2007:34-35.
OU Jun. The Key Technology of Deep Web Search Engine[D]. Hefei: Hefei University of Technology,2007:34-35.
[11] 夏秀峰,趙小磊,孔慶云.MBE與大數據給PDM帶來的思考[J].制造業自動化,2013,35(10):70-74.
XIA Xiufeng, ZHAO Xiaolei, KONG Qingyun. The Enlightenment about PDM from MBE and Dig Data[J]. Manufacturing Automation,2013,35(10):70-74.
[12] 陳康,向勇,喻超.大數據時代機器學習的新趨勢[J].電信科學,2012(12):88-95.
CHEN Kang, XIANG Yong, YU Chao. The New Trend of Machine Learning in Big Data Era[J]. Telecommunications Science,2012(12):88-95.
[13] 李垚,朱亮,陳國潤.Hadoop在數據處理中的應用[J].電信技術,2013(4):34-38.
LI Yao, ZHU Liang, CHEN Guorui. The Application of the Hadoop in Data Processing[J]. Telecommunications Technology,2013(4):34-38.
[14] 吳華斌.大數據的統計分析淺議[J].經濟師,2014(10):277-280.
WU Huabin. The Shallow Discussion of Statistical Analysis in Big Data[J]. China Economist,2014(10):277-280.
[15] 宗威,吳峰.大數據時代下數據質量的挑戰[J].西安交通大學學報(社會科學版),2013,33(5):38-43.
ZONG Wei, WU Feng. The Challenge of Data Quality in the Dig Data Era[J]. Journal of Xi’an Jiaotong University(Social Sciences),2013,33(5):38-43.
收稿日期:2015年10月10日,修回日期:2015年11月22日
基金項目:陜西省教育廳科學基金項目(15JK1134)資助。
作者簡介:楊剛,男,碩士,副教授,研究方向:應用統計、計算機應用、區域經濟等。楊凱,男,研究方向:信息管理與信息系統。
中圖分類號TP309
DOI:10.3969/j.issn.1672-9722.2016.04.030
Summary of Big Data Key Processing Technology
YANG GangYANG Kai
(School of Mathematics and Computer Science, Shanxi University of Technology, Hanzhong723000)
AbstractBig data is a disruptive technological revolution, in IT field, after the cloud computing and EPC system network, and big data development and research will change the world. The conceptions and characteristics of big data, its development course, and the relationship between big data and cloud computing are introduced. Then the more mature platform, Spark and Hadoop of big data analysis and processing are described. And some key techniques for big data processing are systematically analyzed, summarized and discussed, such as big data acquisition, big data preprocessing, big data storage and management, big data analysis and mining, and statistical analysis of big data.
Key Wordsbig data, Hadoop, data mining, NoSQL database