IBM工程師及InfoSphere Streams高級開發經理James R·Giles博士認為未來信息技術發展趨勢為移動、社交、物聯網。大數據是新一代自然資源,與傳統自然資源不一樣的是大數據是不斷增長的新型資源,需要新的技術和工具,能夠對它進行挖掘和分析。

利用大數據平臺,利用數據和分析去分析各種數據,如靜態的數據、流動的數據,各種各樣不同種類的數據。人們對它進行實時分析和信息攝取及運作,通過傳統數據倉庫和數據集進行分析,同時進行存放,并進行更加智能的分析和商業分析,人們可以利用完整的信息集成和管理完成監管的安全和業務的連續性。
Constant Contact公司就是每年通過分析350億的電子郵件指導客戶,利用大數據提高了將近40倍的分析性能,同時也使分析時間從以前的幾個小時降低為幾秒,提高了15%~25%市場營銷活動的效率。
通過大數據平臺帶來運營分析的提高,能夠極大縮短處理能力,從12小時降到10秒這是非常可觀的提高數據處理的能力,使運營商能夠提供更多的、更新業務的價值,比如針對客戶進行實時推新活動以及基于位置的更加精準的營銷和服務。
在大數據的很多應用場景當中,還需要通過可視化的方式把大數據軟件,包括BigInsights、InfoSphere Streams等很多不同的數據源能夠結合在一起,做出很好的展示。

在全球大數據的應用案例當中,James歸納總結出有五大類是共性的,包括大數據的探索、360度的客戶視圖擴展、安全性和智能擴展、運營分析以及數據倉庫的擴充。

數據的集成人們都很清楚,而談到治理,治理在英文上是Governance,這個詞在英文中和政府的單詞類似,它會涉及到相應的法律法規。大數據的治理,與傳統結構化數據的治理項目相比較,大數據治理相對來說更難,帶來已有數據和將來對它的使用方式,同時也有基于傳統的編程模式,大數據下有NoSQL方式,它是沒有辦法利用傳統的數據治理的方式來進行操作的。同時在大數據的模式下,會有一些新的數據結構,比如聚合型的數據結構,不是傳統的矩陣型,中間有很多關聯,還有一些新的技術,像JSON和Avro這樣的技術,最后大數據的治理不同于原有的結構化數據,這些因素都體現出來大數據的治理更加具有挑戰性。
相對來說大數據治理比傳統數據相比來講更困難,可能用一句簡單的話講,大數據治理就是會變成把所有的雞蛋都放在一個籃子里。把大數據放在一起,不只是說為了大數據,而是要做一些分析處理,對企業的商務決策,各種方面起到指導的作用。如果這些大數據的數據質量不高,或是錯誤的數據比較多,就會出現一個最大的風險——基于大數據得出這些分析的結果不是正確的。數據的準確性將影響企業的決策。
大數據的治理不只是說當企業有了數據之后開始治理,而是要從數據開始生成的時候就開始考慮要以大數據的方式來進行治理。當企業的數據質量作為很重要因素的時候,就要對數據進行清洗,最后要做分析得出對應商務領域的決策對比時候,這些數據的質量和數據整個生命周期的管理就成為一個很重要的因素。不只是簡單說是大數據治理,而是對整個生命周期的大數據進行治理。在進行大數據治理時,有以下幾個方面是需要注意的。
數據轉換。現在企業經歷多年的沉淀,企業里有很多數據,很多企業都在思考如何把現有的數據轉成大數據可以使用的數據集和相應的在集成的需求情況下數據之間相互轉換?在產品方面有一系列的工具可以幫助企業,通過使用工具,可以在現有企業的關系型數據和大數據需要的數據模型下進行自由的轉換。
數據屏蔽。人們討論在Hadoop一種大數據環境下的數據屏蔽,這里提到數據屏蔽,其實也是數據漂白的方式。當把所有的數據放在一起,數據中很多部分跟企業和個人相關的數據是具有敏感性的,在不同的人手里這些敏感的數據用做不同的用途,有一些是有害的,如何防止這些數據在流入流出的過程中避免敏感數據泄露,這在數據治理的過程中是非常必要的。目前有一系列的工具或方法可以幫助企業把數據從現有的企業環境移植到大數據環境當中,而對相應敏感的數據可以提供漂白的解決方案。從大數據環境中流入到其他的環節,或者企業現有的應用環境或者新的應用環境中,這種數據可以進行漂白,做到保護企業和個人的隱私數據不被泄露。
數據的加密。特別是在大數據環境下,會出現很多節點,這些節點在物理上很多是分布在一起,或者根本在不同的領域、地域,處于不同的機房和不同的階段,如何保證這里面的數據不被一些其他非法利用?數據的加密,可以提供中間的透明方式,保護只有特定的用戶使用特定的應用程序和特定的方法來訪問到真實的數據。
大數據Hadoop的保護。在大數據保護之前,很多方案提供商已經對現有市場上流行的所有數據源都提供了保護方案。基于這種保護方案基礎之上,企業可以在大數據環境下提供數據保護方案。