【摘要】網絡時代信息量劇增,企業為獲得快速精準的決策參考,紛紛使用商務智能工具分析處理商務數據,然而商務智能工具難以處理海量數據,于是誕生了大數據概念。本文結合商務智能和大數據產生背景,詳細分析了商務智能和大數據的含義、特征和技術特點,介紹大數據系統的Hadoop平臺和大數據系統的關鍵技術,并對商務智能與大數據的區別與聯系進行了總結。
【關鍵詞】商務智能 大數據 Hadoop 云計算
【中圖分類號】G712 【文獻標識碼】A 【文章編號】2095-3089(2017)48-0235-02
隨著網絡技術和信息技術的不斷發展和普及應用,各行各業以及個人生活都通過網絡進行數據化,日積月累就產生了大量的數據。為了高效利用這些數據,輔助企業或個人的決策,人們先后研究了商務智能技術和大數據技術,并且在社會上得到廣泛應用。下面針對大數據和商務智能進行分析與對比。
一、商務智能
1.商務智能概念
信息時代,CRM、ERP、OA等基礎信息化系統被各行各業廣泛使用,這些系統都是通過業務人員或者用戶的操作,實現對數據庫進行增加、修改、刪除等,稱為在線事務處理OLTP (Online Transaction Process)。系統運行了一段時間以后,必然會幫助企事業單位收集到大量的歷史數據,使用人工的方法和傳統的軟件來處理分析這些數據顯然效率很低,于是人們需要找到一種實現數據的快速分析處理,并轉化為信息的方法,使得業務人員和管理者能夠充分掌握、利用這些信息來提高企業運營性能和決策質量,在這個背景下產生了商務智能(business intelligence, BI)的概念。BI概念隨著通俗化描述而被人們廣泛了解,越來越多的企業提出對BI的需求。
商務智能是指由數據倉庫、查詢報表、數據分析、數據挖掘、數據備份和恢復等部分組成的、幫助企業提高運營性能而采用的一系列方法、技術和軟件。從技術層面上講,商務智能采用的技術是ETL(抽取、轉換和裝載)、數據倉庫、OLAP、數據挖掘、數據展現等技術的綜合運用。
2.商務智能的數據處理關鍵流程分析
商務智能的關鍵,是對企業相關的各種數據進行ETL過程處理,即提取出有用的數據并進行清理,以保證數據的正確性,然后進行格式轉換,以企業預定的數據倉庫模型加載到企業級的數據倉庫里。這里的數據是指企業業務系統的訂單、庫存、交易賬目、客戶和供應商資料,以及來自企業所處行業、競爭對手以及來自其他外部環境中的各種數據,通常是結構化數據。
為了將數據轉化為知識,系統從數據倉庫中取出數據,需要利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對這些數據進行分析和處理,得出處理的結果即知識,然后利用可視化工具將這些知識以圖表的形式呈現給管理者,為管理者的決策過程提供支持。
二、大數據
1.大數據概念
現在的人們似乎都習慣了將自己的生活和工作通過網絡進行數據化,方便分享、記錄和回憶,因此互聯網上產生的數據量正在呈指數級增長,如何管理和使用這些數據,逐漸成為人們關注的問題。很多企業為了提高運營性能,紛紛使用商務智能進行數據分析統計,但是隨著數據的爆炸性增長,海量數據(尤其是非結構化數據)分析處理超出了傳統商務智能的處理能力,于是企業界又希望有一個能處理分析海量數據的工具,這時大數據的概念應運而生。
著名未來學家阿爾文·托夫勒早在1980年的《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪潮的華彩樂章”。最早提出“大數據時代已經到來”的機構是全球知名咨詢公司麥肯錫。2011年,麥肯錫在題為《海量數據,創新、競爭和提高生成率的下一個新領域》的研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產要素,而人們對于海量數據的應用將預示著新一波生產率增長和消費者盈余浪潮的到來。
大數據目前已逐漸成為社會基礎設施的一部分。
在以云計算、物聯網為代表的技術創新條件下,原本很難收集和使用的商品和服務交易數據開始容易被收集利用起來了,通過各行各業對大數據應用的不斷創新,大數據應用必將為企業和普通消費者創造更多的價值。
大數據在國內外尚沒有統一的定義,不同廠商和不同用戶站的角度不同,對大數據的理解也不一樣。大數據(Big data)研究機構Gartner給出了這樣的定義:大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。也就是說,大數據(big data)指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。
2.大數據的特征和技術特點分析
信息社會產生的數據來源很多,比如搜索、新聞、博客等等,這些海量的類型復雜的數據統稱大數據,可以分為結構化數據和非結構化數據。結構化數據是可以用二維表結構的邏輯表來表現的數據。不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。一般認為,大數據主要具有四個方面的典型特征(4V),即規模性(Volume)、多樣性(Varity)、高速性(Velocity)和價值性(Value),此外還有數據的真實性(Veracity)。
(1)規模性(Volume):數據量大,TB,PB,乃至EB等數據量的數據需要分析處理;(2)多樣性(Variety):數據有很多種類,非結構化數據越來越多,需要進行清洗,整理,篩選等操作,變為結構數據;(3)高速性(Velocity):要求快速響應,由于市場數據變化快,在性能上也有更高要求,所以及時快速的響應變化,快速分析處理數據;(4)價值性(value):價值密度低,當數據量達到一定規模,可以通過全量的數據達到更真實全面的反饋。endprint
從技術層面上,大數據系統的技術除了包括先進的商務智能技術,還要利用云計算技術和Hadoop平臺等。云計算技術的特點是通過廉價的計算機節點集群,改寫軟件,使之能夠在集群上并行執行,實現數據的分布式存儲和分布式處理,解決海量數據的存儲和檢索功能。2006年Google首先提出了云計算的概念,并首次將云計算技術應用于各種大數據的處理。
三、大數據的關鍵技術分析
Google公司的大數據處理關鍵技術為GFS、MapReduce和Bigtable。隨后其他各大IT巨頭公司紛紛提出了自己的大數據處理平臺,采用的技術也都大同小異。下面將從大數據系統的開源實現平臺Hadoop入手介紹大數據的關鍵技術。
Hadoop是MapReduce計算機模型的載體,軟件開發者在Hadoop平臺上編出分布式并行程序,這些程序在計算機集群上完成海量數據的計算。MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算,編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統上。大數據系統中HDFS是分布式文件系統,可以構建幾千臺常規服務器組成的集群,實現文件的輸入輸出和訪問。HBase是分布式、按列存儲的、多維表結構的實時分布式數據庫,可以提供大數據量結構化和非結構化數據的高度讀寫操作。Hive是基于Hadoop的大數據分布式數據倉庫引擎,可以將數據存放在分布式文件系統或分布式數據庫中,并使用SQL語言進行海量信息的統計、查詢和分析操作。ZooKeeper是針對大型分布式系統的可靠協調系統,可以維護系統配置、群組用戶和命名等信息。Sqoop是在Hadoop和結構化數據源之間提供高效雙向傳送數據的連接器組件,可將數據傳輸任務轉換為分布式Map任務實現,在傳輸過程中還可以實現數據轉換等功能。Flume是分布式、高可靠的和高可用的日志采集系統,它用來從不同源的系統中采集、匯總和搬移大量日志數據到一個集中式的數據存儲中。
四、商務智能與大數據的區別
商務智能與大數據的區別主要表現在以下幾個方面:
(1)數據量。大數據系統處理的數據量是PB級別以上的,商務智能系統出來的數據量是TB級別的,相對大數據來說不太大。(2)數據特征。智能商務處理的大部分是結構化數據,而大數據處理的數據中85%是非結構化數據。(3)信息來源。商務智能數據的來源主要是企業交易數據,而大數據的信息來源除了企業交易數據,還有更多的社會日常運作和各種服務中實施產生的數據。(4)涉及技術。商務智能使用了ETL、OLTP、數據倉庫、OLAP、數據挖掘和可視化報表技術。大數據采樣的技術是在BI技術基礎上,再利用云計算技術、Hadoop、HBase、Hive、HDFS、MapReduce、ZooKeeper、Sqoop、Flume等。(5)數據來源。商務智能的數據從數據倉庫中隨機抽取,而大數據的數據更傾向于從Web、社交網絡、RFID傳感器等獲取非結構化海量數據,數據不是隨機抽取,而是全量數據。(6)因果與關聯。商務智能強調數據的因果分析,而大數據則是采用關聯分析。比如沃爾瑪公司的啤酒與尿布案例就是典型的大數據案例。(7)個性化。商務智能基于群體共性,幫助決策者掌握宏觀統計趨勢,適合運營指標支撐類問題。而大數據則強調個體刻畫,精準分析每一個用戶,適合于精準推薦類的營銷類問題。
雖然商務智能能處理的數據類型較少,處理的數據量級別不如大數據技術,但是也不能被大數據所取代。現代企業主要還是分析處理企業自身的內部數據和網上一些相關企業的數據,希望得到對管理者的宏觀決策有幫助的分析結果。
五、結束語
本文介紹了商務智能和大數據的社會背景和特點,分析了云計算技術對大數據的影響,大數據系統的一些關鍵技術,描述了商務智能和大數據的主要區別。通過這些分析介紹可以看到大數據是商務智能概念的擴展和手段的擴充。智能商務和大數據應用已經成為社會的基礎設施,必將幫助使用先進商務智能和大數據應用的企業有效提高運營性能和經濟效益。
參考文獻:
[1]劉鵬.大數據. 電子工業出版社出版,2017.01.
[2]林子雨.大數據技術原理與應用(第2版).人民郵電出版社出版, 2017.02.
[3]孟小峰,慈祥.大數據管理:概念、技術與挑戰 [J]. 計算機研究與發展, 2013,50(1):146-169.
[4]朱潔.大數據架構詳解:從數據獲取到深度學習,2016.10.
作者簡介:
陳煒(1969.2-),女,湖北武漢人,浙江經貿職業技術學院,副教授,研究方向為計算機技術應用。endprint