摘要:隨著通信技術的發展,移動終端的隨時接入,大數據如排山倒海之勢充斥著我們的生活,如何處理大數據以及對大數據的利用是我們未來所面臨的主要問題。文章對大數據的概念及特點進行了簡要分析與介紹,主要針對目前大數據分析與處理的常用六大工具進行深入剖析與比較,旨在為大數據方向的科研工作者提供一些理論依據。
關鍵詞:大數據;Hadoop;HPCC;Storm;Apache Drill;RapidMiner;Pentaho BI
1大數據的概念
繼蒸汽時代、電氣時代、信息時代三大工業革命漸漸退出歷史舞臺之時,以物聯網(IoT)與智能制造為主導的第四代工業革命悄然而至。云計算技術的興起,數據量出現了井噴現象,標志著大數據(MegaData,BigData)時代的到來。與傳統的數據、海量數據(SeaData)所不同的是:大數據從數量上、類型上以及價值等方面都極具特色。
目前,對大數據的定義還沒有一個統一的標準和認可,眾家各持己見。其中全球知名的咨詢公司麥肯錫提出了大數據的概念:大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合。而研究機構Gartner對大數據提出的概念是:大數據是指需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產Ⅲ。在維基百科中大數據的概念定義為:大數據指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策目的的資訊。
2大數據的特點
在實際應用中,也把大數據稱為巨量資料(Huge Data),從技術角度來看,大數據技術實際上是指從種類繁多的“數據”中,剔除數據噪音,迅速獲取有用信息的能力。云計算技術的出現為大數據的產生提供了“肥沃的土壤”,二者之間是密不可分的,也可以簡單的說:云計算技術促進了大數據的發展,二者之間的關系就如同手心與手背的關系。
目前對大數據的特點可概括為4V:
*Volume(數量),數據量從過去的TB級別躍升至PB級別,甚至是EB級別。
*Variety(類型),過去我們所處理的數據大部分都是結構化數據,少部分非結構化數據;如今,移動終端的實時接入、互聯網的快速發展,所產生的網絡日志、影視、圖片、動畫以及聲音等更多的是非結構化數據或者是半結構化數據,其中個性化數據占近乎總數據量的三分之二。
*Value(價值),數據量雖然很大,但是在這些數據中所包含的價值密度卻很低,以我們日常生活中的影像資料為例,一般時長為六十分鐘的視頻,對某類用戶來說有價值的數據可能只有那么一兩秒鐘,其余的都是數據噪音。
*Velocity(速度),大數據要求其處理速度很快,也就是我們常說的1秒定律,它主要是從數據有效的實時性角度來考慮的。
伴隨日益普及的網絡而產生的大數據,給企業、事業、政府等部門帶來“困惑”的同時也帶來了潛在的“價值”。因為,在大數據中蘊含著數據生產者的真實意圖與喜好。比如阿里巴巴、天貓等通過訪問量與訪問內容就可以提取出客戶的喜好與需求,更好的為電子商務的擴展業務提供數據支持。但是,從海量數據中去除噪音,提純信息使其更具價值,這對網絡的架構來說是一項艱巨的任務,對提高數據處理能力來說是一個難攻克的課題。因此,針對不同領域的大數據分析、大數據處理將是大數據產業健康、持續發展的關鍵。
3大數據處理分析的六大常用工具
1)Hadoop
2006年,Apache Lucene的創始人Doung Cutting創建了Hadoop,Hadoop是Apache的Lucene項目的一個子項目。與此同時,Doung加入yahoo,yahoo將Hadoop發展成一個能夠處理Web數據的系統。Hadoop作為對大量數據進行分布式處理的軟件框架具有高可靠性、高容錯性、高效性以及可伸縮性等優點,以至于在2008年短短幾年期間,它就基本成了大數據的代名詞。
2)HPCC
HPCC(High Performance Computing and Communications)是LexisNexis公司發布的一款開源的數據處理工具。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交的一份關于HPCC的報告,其主要目標是提高網絡的傳輸性能、擴展網絡連接能力等。
3)Storm
Storm由Twitter開源而來,通常被比作“實時的Hadoop”,與Hadoop相比較為簡單,它是一個實時的、分布式以及具備高容錯的計算系統。
4)ApacheDrill
Apache Drill是Apache參考Googlel的Dremel所創建的開源項目,是一個能夠對大數據進行交互分析、開源的分布式系統,它能夠運行在上千個節點的服務器集群上,且能在幾秒內處理PB級或者萬億條的數據記錄。
5)RapidMiner
RapidMiner是目前世界上較為領先的開源數據挖掘軟件,它提供了一些有用的、可擴展的數據分析挖掘算法,可以用來搭建推薦系統和評論挖掘系統,最終幫助用戶方便、快捷地創建智能應用程序。
6)Pentaho BI
Pentaho BI平臺與傳統的BI產品有所不同,它是一個以流程為中心的,工作流驅動的,可擴展平臺的,用于解決商業智能問題的框架,側重于大中型企業應用。Pentaho BI平臺是在MozillaPublic License(MPL)下基于Java的開放源碼。
4結論
大數據的分析工具是更好地利用大數據的必不可少的手段,這些工具都有或多或少的弊端,需要我們后續的科研工作者在前人的基礎上,進行深入研究,為大數據更好地服務于企業、事業單位以及政府而不斷努力。
作者簡介
袁琴(1983-),女,江西吉安,講師,研究方向:計算機科學與技術。
(作者單位:江西工程學院)