大數據時代來臨,為企業的發展帶來了新機會。在未來的3—5年,我們將看到真正理解大數據并能利用大數據進行價值挖掘的企業與對大數據價值挖掘重視程度不夠企業間的差距進一步拉大。真正能夠利用好大數據,并將其價值轉化成生產力的企業將具備強勁的競爭優勢,從而成為行業領導者。對善于發現市場機遇和開拓企業市場的IT企業來說,則是找到了一座待挖的“金礦”。
什么是大數據
最早提出大數據時代來臨的是知名咨詢公司麥肯錫,麥肯錫認為,數據逐漸成為重要的生產因素,人們對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來。
IBM大中華區董事長錢大群在IBM論壇2012上表示,大數據時代的到來,使數據更為重要,通過對數據的分析,可以為決策者提供更有建設性的看法。對于大數據,IBM提出了規模性(Volume)、多樣性(Variety)、高速性(Velocity)和真實性(Veracity)的“4V理論”;戴爾公司全球企業級解決方案副總裁Cheryl Cook認為,大數據就是指有大量的、快速的和多樣化的數據集合以及由此帶來的數據分析所導致的大的見解,同樣,戴爾提出了大數據的五個階段。
甲骨文公司副總裁兼大中華區技術總經理喻思成則認為,在大數據的實際應用中,用戶的最終目的是要利用大數據來進行更好的決策。這一過程是由四個部分組成的:數據捕獲、組織、分析和決策。NetApp大中華區總經理陳文表示,大數據要包括A、B、C三個要素:大分析、高帶寬和大內容。
定義雖然不盡相同,但概括起來有下列特點:一是數據雖然很多并且很多樣,但只有對這些數據進行有效的組織分析,才能找到對自身有用的信息;二是公司決策應當從數據分析結果中獲得,而不是依賴于經驗。
大數據不等于海量數據。一是大數據是海量數據+復雜類型的數據和不斷變化的數據,所以復雜類型的數據既包括了傳統結構型數據,也包括了半結構化的數據,還包括了完全非結構化的數據。二是海量數據首先是量特別大,常常是超過TB級的,但是大數據是在海量數據加工基礎上形成的,它的絕對數量可能小于TB級,甚至是若干個GB級,但也可以稱為大數據。它的典型特征是:數據量大、數據類型復雜、處理速度快。所謂數據量大,是指數據不再以幾個GB和幾個TB為單位來衡量,而是以PB(1000個T)、EB(100萬個T)或ZB(10億個T)為計量單位;數量類型復雜,是因為它的來源復雜,從結構化數據到非結構化數據;處理速度快,則是指數據的分析和使用需要在極短的時間內完成,甚至實時使用,它的來源是企業的交易數據、交互數據與傳感數據。交易數據來自于企業ERP、CRM等應用程序和自主開發的業務管理系統、POS終端,以及網上支付系統等;交互數據來自于移動通信記錄和社交媒體等;傳感數據來自于GPS、RFID和視頻監控設備等。
數據與云計算異同點
大數據的重點是計算的對象,而云計算的重點是計算能力,兩者相輔相成。大數據強調信息流程、信息目的,而云計算強調途徑、方式、位置。云計算是高速公路,大數據是超級跑車。云計算帶來了IT基礎架構的變革,大數據則有力地推動了企業業務的轉型。簡單來說,云計算是幫助大數據中信息存儲、計算、完成流程并實現商業目的的重要手段。首先,在概念上兩者有所不同,云計算改變了IT,而大數據則改變了業務。大數據必須有云計算作為基礎架構,才得以順暢運營。沒有云計算這條高速公路,大數據這輛超級跑車就跑不起來。當市場對大數據需求很高時,云計算就會往各個方向伸展,形成良性互動。其次,大數據和云計算的目標受眾不同,云計算是針對企業首席信息官的技術和產品,是一個進階的IT解決方案。而大數據是針對企業業務層的產品,大數據的決策者是業務層,由于他們能直接感受到來自市場競爭的壓力,因此必須在業務上以更有競爭力的方式戰勝對手。對大數據和云計算合理、優化的利用,產生的價值不可限量。
數據將改變數據管理狀況
一是數據本身的改變。因為過去的數據大多是人為產生的,比較容易轉化成關系型數據庫形式,而現在產生數據的來源日漸增多,很多數據是由機器以流的形式產生的。對于這樣的數據,關系型數據庫已經不再是最優秀的技術了。二是云帶來的副作用。在云時代,對于很多企業來說,數據往往是跟應用在一起的。當應用在企業的防火墻之外時,它的數據也在防火墻之外,企業的數據已經不完全由自己來掌控。在這樣一個多地點、多來源的數據時代,怎樣對這些不同的數據方式和數據材料進行統一的分析和處理,從數據里面得到智能是新的挑戰。三是云的使用者在改變。云使用者的改變也是數據使用者的改變,以前中國很多大公司可能都會有比較好的數據庫系統可以對數據進行分析,但現在對于數據的需求,任何一個公司、部門、小組都有需要。當然,數據庫并不會消失,在很長的時間里,這兩種技術將會共存。對傳統數據庫廠商而言,大數據絕對是機會多過挑戰。因為大數據的應用場景雖然與傳統數據庫有一定程度的重合,但更大多數情況是各有各的適用領域,這兩者應該是相互補充,共同應對用戶對數據管理的需求。
數據將推動兩大重要趨勢
一是數據資產化,信息部門將從成本中心轉向利潤中心。在大數據時代,數據滲透各個行業,漸漸成為企業戰略資產。擁有數據的規模、活性,以及收集、運用數據的能力,將決定企業的核心競爭力。二是決策智能化,企業戰略將從業務驅動轉向數據驅動。智能化決策是企業未來發展的方向。過去很多企業對自身經營發展的分析只停留在數據和信息的簡單匯總層面,缺乏對客戶、業務、營銷、競爭等方面的深入分析。在大數據時代,企業通過挖掘大量內部和外部數據中所蘊含的信息,可以預測市場需求,進行智能化決策分析,從而制定更加行之有效的戰略。
國IT企業需要制定應對策略
對大數據的利用將成為企業提高核心競爭力、搶占市場先機的關鍵,所以企業需要制定應對策略以充分利用大數據蘊含的巨大商業價值。在推進大數據應用的過程中,企業將面臨以下三方面的困難:一是認識上的不足。很多人并不知道大數據是什么,因此也就無法知道如何正確地使用大數據工具。二是投入不足。大數據的應用需要相當大的投入,一般的企業很難承受。三是人才的匱乏制約大數據應用的發展。為此,需要企業加強對數據價值的認識,改善流程,重視對技術和人員的投入。
首先,應加強技術研發。大數據時代,大數據相關產業鏈上的企業將迎來快速發展的機會。IBM、Oracle、EMC等國外數據庫廠商均看中大數據時代蘊含的商業價值,一方面通過并購整合增強競爭力,另一方面加快研發創新推出數據分析解決方案。如Oracle發布了Oracle大數據機,EMC推出了EMC Hadoop,IBM研發出基于云端Hadoop的分析軟件InfoSphere BigInsights、針對iPad用戶推出的全新移動分析應用軟件Cognos Mobile等。國內企業盡管實力與這些國際企業存在較大差距,但也應該積極投身大數據時代,進一步加強技術研發、擴大應用,不斷推出符合中國市場應用需求的產品,在大數據產業鏈中發揮自身優勢,占據重要位置。
其次,應創建合理的信息管理框架。數據管理生命周期在大多數情況下要經歷這樣的過程:創建、訪問、處理、保護、刪除、創建。絕大多數符合數據增長的問題出現在“刪除”環節,因為很少有企業出臺數據刪除的管理規定。數據因此不斷積累,進而帶來更多的管理問題。所以,創建有效的數據與信息管理框架非常重要。一是要了解自己訪問老舊數據的需求,即是否愿意保留所有的數據,為什么?它會重復使用嗎,多久一次?必須使用所有數據嗎,或只是樣本就足夠了?希望如何利用它?是否有監管保留的考慮因素?是否會被更新?近期需要用到還是立即會用到?二是要考慮應該把它儲存在哪里。①硬件與軟件的獲取成本;②管理數據所需的技術、人員和時間;③現場還是異地,主要和備份?多少份?④私有云還是公有云?⑤在線、近線,還是歸檔?
建立數據挖掘全流程。過去,企業雖然擁有了數據庫,部分也建立了用于分析的數學模型,但是它們只是對數據進行了簡單的處理、轉換,沒有將重點放在建立數據挖掘流程上。因此,有的雖然可以從數學模型中找到一些所需的數據,但是沒有辦法很快地將這些數據分析的結果運用到企業的決策、運營流程中。因此,企業應先調整信息流程。因為原有的信息流程是從企業內部發起需求的,而大數據時代需要企業從用戶端收集數據來推動企業發展。整個信息流程相比之前有了倒轉,并逐步建立從收集、轉換、挖掘到應用的數據挖掘全流程,實現對大數據價值的深入分析與挖掘。
搭建數據共享平臺。數據只有不斷流動和充分共享,才有生命力。對于大型集團企業來說,各級子公司和分公司的ERP系統每天都在生成大量的交易數據和業務數據。分散在各個業務系統中的數據無法形成集中的資源池,不能互聯互通,嚴重影響對大數據的統一管理與價值挖掘。而實現數據集中是大數據利用的第一步。因此,應當通過云平臺實現數據大集中,在各級子公司和分公司專用ERP系統建設的基礎上,通過數據集成,實現各級子公司和分公司信息系統的數據交換和數據共享,以形成整個企業數據資產。
第三,應當深度分析挖掘大數據的價值,推動企業實施智能決策。根據預測,大數據挖掘和應用可以創造出超萬億美元的價值,數據將成為企業的利潤之源,掌握了數據也就掌握了競爭力。因此,行業用戶必須真正重視對大數據價值的深入分析與挖掘,注重數據的收集、整理、提取與分析,以推動企業決策機制從業務驅動向數據驅動轉變,提高企業核心競爭力。
最后,應加大對既懂得相關技術又諳熟企業業務的復合型人才引進和培訓力度。據IDC的研究表明,2009—2020年,全球數字信息量將實現44倍的增長,其中需要管理的文件數將增加67倍,總存儲容量將增長30倍。企業在PB級甚至EB級的數據中尋找相關信息無異于大海撈針,將為信息驅動決策帶來與日俱增的成本和復雜性。此外,企業數據并不是非黑即白,多樣化的數據源、數據種類以及信息共享機制正逐步替代傳統的結構化和非結構化的數據二分法。企業一方面要與外部的客戶、合作伙伴通過文本信息、社交網絡、移動應用等方式進行互動;另一方面,企業內部也會頻繁通過電子郵件、即時通信、博客等進行有效溝通。企業有責任和義務管理并且保護這些數據。雖然企業產生的數據僅占全球數據總量的20%,但企業實際上要對80%的內容承擔起管理的責任。這就意味著企業必須承擔起與業務有關的數據管理、挖掘和保護的職責。面對涌動的數據洪流以及數據多樣化的挑戰,企業現有的業務模型很難通過有效的方法和途徑對這些數據進行管理,并充分展現其價值,而且不能對業務未來的發展做出正確預測。企業非常需要以下兩種大數據人才:一是大數據系統和工具的研發、優化人才。要求對于Hadoop、數據倉庫、OLAP工具等大數據工具具有較深的優化經驗,最好能根據業務需求對于Hadoop等開源大數據工具進行定制開發。二是既懂得企業的業務和運營,又具備極強的數據分析能力,能夠透過數據看到事件本質的數據分析師人才。當然,他們不能僅僅停留在簡單收集、整理、分析數據和寫報告層面,而是要對企業經營分析業務具有一定的經驗,能夠熟練使用大數據工具,了解數據主流統計分析、數據挖掘算法,能夠結合企業自身的業務發展,根據業務特征進行建模分析,找出數字背后隱藏的挑戰和機遇,并將這些洞察應用在具體的企業內部戰略規劃及日常運營中。
目前,雖然大數據很熱,但是從技術發展階段而言,它還是處于市場培育期,用到大數據的用戶也是邊摸索邊實施。因此,企業必定要面臨一些挑戰和困難,這其中最為突出的就是人才缺乏,包括懂Hadoop相關技術的人才和數據分析與管理人才,尤其是后者。好在相關部門已開始重視,2008年4月,數據分析行業的全國性行業組織——中國商業聯合會數據分析專業委員會正式成立。工業和信息化部教育與考試中心也早在2003年就從國外引進了數據分析師培訓和認證課程,并于2008年開始在國內大規模推廣。國內一些知名的IT培訓機構也開設了大數據方面的培訓課程,不過主要還是集中在數據庫方面。企業也必須加大招聘和人才挽留力度,大力投入關鍵數據人員的教育和培訓工作。