文/張雪 蘇海濤 陳明瀟 安曉哲 彭濤
隨著大數據時代的到來,如何實現企業核心數據資源的統一管控,更好地保障核心數據資產的安全和權威,更經濟地從高頻率的、大容量的、不同結構和類型的數據中獲取價值,基于數據中心建設企業級的數據資源管理平臺,顯得尤為必要。面對高數據量、高維度與異構化的特點,傳統統計分析工具已經難以應對,眾多新的軟件分析工具應運而生。本文分別從大數據的存儲、分析、挖掘以及可視化四個方面概述了大數據分析常用軟件,并比較了各自的優缺點及適用范圍。
聯合國“全球脈動資深發展經濟學家艾瑪紐爾·勒圖曾提出,大數據描述的是海量結構化和非結構化數據,這些數據的容量非常巨大,以至于很難用傳統的數據庫和軟件技術處理。在進行大數據存儲并建立相應的數據庫時,由于大數據屬性繁多,數據量呈爆炸性增長,常規標準處理和存儲技術已難以應對。
一段時間以來,全世界數據庫市場基本被Oracle,IBM/DB2,Microsoft/SQL Server 壟斷。隨著互聯網的出現和快速發展,大量數據通過設備、服務器、應用自動產生,其類型呈現出以非結構、半結構化為主的轉變。要實現對各類大數據進行整理、交叉分析、比對,進行深度挖掘,對用戶提供自助的即席、迭代分析,并對非結構化數據的特征進行提取,以及半結構化數據的內容檢索、理解等,傳統數據庫無論在技術還是功能上都難以應對。Hadoop技術平臺的出現,為開源技術的快速發展提供了良好的發展機遇和空間,產生了一些面向大數據分析的數據庫新產品,主要包括基于Hadoop環境下的各種NoSQL數據庫以及基于Shared Nothing架構的NewSQL。
NoSQL數據庫代表性軟件有基于Hadoop架構的HBase、Google的Bigtable、Cassandra等。此類數據庫摒棄了傳統關系型數據庫管理系統的設計思想,采用了不同的解決方案來滿足擴展性方面的需求,沒有固定的數據模式并且可以水平擴展,能夠很好地應對海量數據的挑戰。相對于關系型數據庫而言,NoSQL最大的不同是不使用SQL作為查詢語言,避免了不必要的復雜性、高吞吐量、高水平擴展能力和低端硬件集群以及昂貴的對象-關系映射。
相比NoSQL,NewSQL在實時性、復雜分析、即席查詢和開發性等方面表現出獨特的優勢。具體表現在:
(1)NewSQL整體優化較好,實時性較強,而NoSQL相比實時性較差;
(2)NewSQL采用多種索引和分區技術保證多表關聯,效率較高,而NoSQL缺少高效索引和查詢優化,復雜分析差;
(3)NewSQL采用列存儲和智能索引保證了即席查詢性能,而NoSQL只能做精確查詢不能做關聯查詢;
(4)NewSQL是基于標準的成熟商業軟件,對用戶的研發能力要求相對較低,而NoSQL屬于平臺型的模塊,對用戶的研發能力要求較高。
NewSQL數據庫代表性軟件有ΕMC的Greenplum,HP 的Vertica,TD的Asterdata以及南大通用開發的GBase 8a MPP Cluster等。作為NewSQL的代表數據庫,Greenplum是一款基于標準X86極速智能分析數據庫,完全無共享的并行處理架構,專門為BI分析、挖掘預測應用優化,數據跨越所有節點均勻分布,高度靈活的行+列混合存儲,所有節點以并行方式工作,支持PB級以上的海量存儲和處理。能夠映射Hadoop集群中的HDFS、HIVΕ、HBASΕ等多種格式數據。其局限是列存儲模式有限制,不支持delete/update操作,數據庫需要額外的空間清理維護,沒有增量備份。Greenplum 數據倉庫解決方案曾為中信銀行信用卡中心提供了統一的客戶視圖,借助客戶統一視圖,中信銀行信用卡中心可以更清楚地了解其客戶價值體系,從而能夠為客戶提供更有針對性和相關性的營銷活動。
南大通用開發的GBase 8a產品定位就是“行業大數據”,并針對云架構做出的創新。該數據庫為超大規模數據管理提供高性價比的通用計算平臺,可廣泛地用于支撐各類數據倉庫系統、BI系統和決策支持系統。GBase 8a MPP Cluster基于現代云架構,與傳統數據庫相比在擴展性,處理數據,靈活性,維護性以及建設成本上更具優勢。
綜合各種大數據存儲平臺的特點,針對企業級大數據應用,筆者認為Greenplum產品更成熟,編程開發和用戶訪問以SQL為主,對人員要求低,且購買產品后可以使用所有功能,無論初期投入和后期擴容成本都可以控制,更符合企業降成本增效益的發展目標。
工業大數據除了容量大、類型多、存取速度快這些特點,還具有高維度、強非線性、樣本分布不均和低信噪比的特點,所以對工業大數據的分析和挖掘與傳統的大數據分析方法也有差異,Chone J等人認為,最好的大數據分析系統應具有磁性、靈活性和深刻性。磁性指該系統能抓取所有數據,不管其結構和質量;靈活性指系統具有適應性和對不同數據的應變性;深刻性指該系統能支持傳統的商業情報以及機器學習和復雜的統計分析。目前常用的分析框架及軟件包括,Hadoop、Storm以及Pentaho BI 平臺等。
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,以一種可靠、高效、可伸縮的方式進行處理,被認為是時下最流行并有可能為下一代大數據處理確定標準的軟件系統。其特點在于,其一假設計算元素和存儲會失敗,維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理;其二以并行的方式工作,通過并行處理加快處理速度,能夠處理PB級數據;其三Hadoop依賴于社區服務器,成本低廉,使用便捷。采用Hadoop的案例較多,如中國移動的詳單實時查詢系統。美國AMD半導體公司利用ClouderaHadoop大數據分析提高了產品預測能力,通過分析一定時間段內芯片出故障的頻率,從而提升生產質量水平。王成輝等人[4]提到,在鋼鐵工業中,利用HDFS實現海量的能耗數據的分布式存儲,通過本體建模技術實現加熱爐本體模型構建與數據屬性映射,為大數據分析提供數據源。在MapReduce分布式分析模型上運用線性回歸、遺傳算法等對Hadoop平臺篩選出來的數據進行分析,來挖掘海量數據背后隱藏的能耗模型,同時能挖掘出加熱爐的節能能力,分析加熱爐的最佳工況運行參數,來提高加熱爐的能耗水平,構建加熱爐大數據節能潛力分析系統。
Storm是自由的開源軟件,一個分布式的、容錯的實時計算系統,可以非常可靠的處理龐大的數據流,用于處理Hadoop的批量數據。該軟件支持許多種編程語言,由Twitter開源而來,應用領域包括實時分析、在線機器學習、不停頓的計算、分布式RPC、ΕTL等,經測試,Storm的處理速度驚人,每個節點每秒鐘可以處理100萬個數據元組。該軟件曾應用于淘寶雙十一實時流計算實現實時銷售額統計以及電信行業在重大節日的實時保障監控。
Pentaho BI 平臺是一個以流程為中心的,面向解決方案的框架。其特點在于將一系列企業級BI產品、開源軟件、API等組件集成起來,方便商務智能應用的開發。目前,Pentaho的主要組成元素包括報表生成、分析、數據挖掘和工作流管理等。這些組件通過 J2ΕΕ、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術集成到Pentaho平臺中來。
以上大數據分析軟件都可以滿足對企業中的大數據進行分析統計,Hadoop擅長批處理、吞吐量大、做全量數據的離線分析,對比Hadoop的批處理,Storm是一個實時處理計算框架,是針對在線業務而存在的計算平臺。同Hadoop一樣,Storm也可以處理大批量的數據,然而Storm在保證高可靠性的前提下還可以讓處理進行的更加實時,節省了運行時間,提高效率。
大數據挖掘是目前人工智能和數據庫領域研究的熱點問題,是一種決策支持過程,基于人工智能、機器學習、模式識別、可視化技術等高度自動化地分析企業的數據,做出歸納性的推理,幫助企業領導調整市場策略,減少風險,做出正確的決策。下面介紹四種開源數據挖掘軟件工具。
RapidMiner是世界領先的數據挖掘解決工具,用 Java 語言編寫,用戶無需寫任何代碼。RapidMiner具有豐富數據挖掘分析和算法功能,常用于解決各種的商業關鍵問題,如營銷響應率、客戶細分、客戶忠誠度及終身價值、資產維護、資源規劃、預測性維修、質量管理、社交媒體監測和情感分析等典型商業案例。
與RapidMiner相比,WΕKA優勢在于通用公共許可證下是免費的,用戶可以按照自己的喜好選擇自定義。WΕKA基于 Java 版本,應用在包括數據分析以及預測建模的可視化和算法,支持多種標準數據挖掘任務,包括數據預處理、收集、分類、回歸分析、可視化和特征選取等。
Orange是一款基于 Python 語言,功能強大的開源工具,對初學者和專家級的大神均適用。它不僅有機器學習的組件,還附加有生物信息和文本挖掘,具備了數據分析的絕大部分功能。如以學生的基本信息和成績數據作為處理對象,利用Orange軟件中的決策樹分析法學生的成績分布進行數據分析,為學校決策者在專業培養計劃的制定中提供科學依據。
R語言是一款針對編程語言和軟件環境進行統計計算和制圖的免費軟件,被廣泛應用于數據挖掘以及開發統計軟件和數據分析中。除了數據,它還提供統計和制圖技術,包括線性和非線性建模,經典的統計測試,時間序列分析、分類、收集等。
R語言幾乎覆蓋了整個統計領域最前沿的算法,有廣泛、便捷的數據接口,可以通過不同的加載包調用其他開源數據挖掘軟件,成為這幾年各大高校和企業最受歡迎的數據挖掘軟件。
一圖勝千言,數據可視化以信息圖的方法描述大數據,可以讓數據分析師的發現更容易被理解和信服。
IBM Cognos Analytics是一種BI工具,實現企業級的交互式數據庫查詢和報表生成,對企業數據進行多維分析和統計匯總,提供豐富的數據展現形式,靈活的自助分析能力,主要功能包括元數據建模、MOLP建模、內存OLAP建模、專業報表開發、可擴展的可視化RAVΕ引擎、SDK開發集成,在提供豐富的前臺展現和分析能力的同時,后臺通過優異的查詢引擎和多維分析能力,提升數據查詢效率,增強各層次業務人員分析體驗。如在雅戈爾的供應鏈系統中,Cognos是輔助決策的核心組件,對整條供應鏈系統中的重要數據進行抽取和多維分析,通過二維報表和多維數據立方體展現出來,供決策者按需定義分析條件,找到問題的關鍵,使雅戈爾對訂單的反應能力及生產周期縮短了50%,庫存周轉率提高一倍以上,節省了2.5億元的庫存成本。
SAS可視化分析軟件通過交互式數據可視化和易于使用的分析探索數據,設計分發報表和儀表盤,通過自動繪圖提供一系列先進的數據可視化技術和向導式分析,從報告和探索、分析直至通過不同渠道分享信息,可利用單一用戶界面來完成。如XL Group集團應用SAS可視化分析軟件,應對保險行業新變化,實現了全球保險和再保險業務新突破。SAS可視化分析能直觀形象地展示信息,同時又能進行先進統計概念的交流,比以往通過大量圖表、數字和相互關系說明更加有效。
Tableau是一款定位在數據可視化的商務智能展現工具,可以用來實現交互地、可視化的分析和儀表盤分析應用。Tableau可視化界面幫助用戶通過數據尋找業務答案,通過普通的硬件環境,實現上百萬條數據的訪問,對內存技術的數據沒有大小的限制,無需對數據進行事先的匯總和計算。它允許普通業務人員將表格中的數據轉變成各種可視化的圖形,強交互性的儀表盤并共享給企業中的其它用戶,這些通過點擊鼠標即可完成。如中國東方航空公司,以前制作報表需要3周的時間,應用Tableau將制作報表時間縮短至數分鐘,及時作出決策,營業額增長了2%。
Smartbi采用最新的互聯網技術,以簡潔、直觀的界面,展現企業各環節的經營數據,并以豐富的形式為企業決策者剔紅分析和管理上的幫助,洞察企業的運營狀況。Smartbi具有儀表盤、靈活查詢、電子表格、OLAP多維分析、移動BI應用、Off i ce分析報告、自助BI分析、數據采集填報、數據挖掘等功能模塊,適用于領導駕駛艙、KPI監控看板、財務分析、銷售分析、市場分析、生產分析、供應鏈分析、風險分析、質量分析、客戶分析、精準營銷等管理領域,增強了企業的洞察能力、盈利能力,為企業獲得可持續的競爭優勢提供強大的保障。
Cognos Analytics同時滿足了企業級BI和敏捷BI分析需求,提供企業級的數據建模分析和報表能力,同時兼顧業務部門自助服務,針對不同管理層次的用戶業務進行定位分析,更能滿足企業的需要,個人認為,Cognos Analytics是企業大數據可視化軟件的首選。
基于工業4.0要求下的大數據管理,需要從數據采集、存儲、分析、挖掘、展示等各個階段進行處理。如何將工業各工序存在的與產品、質量、成本、物流、能源等相關的信息進行大數據管理,進而形成決策支撐是當下工業革命的重要課題。本文在概述了近年來基于hadoop平臺開創后產生的針對大數據存儲、分析、挖掘、可視化軟件,旨在為工業建立適合自身的大數據管理體系,實現以效益為目標,精益、精品管理為內核的愿景,從而全面提升企業的運營管理效率,推動企業的全面發展。