大數據是一個熱門話題,然而當下關注的焦點正在發生轉變,從數據分析邁向數據集成。
到底要用多少個“V”來描述大數據呢?2001年的一份研究報告顯示,大數據有三維屬性:容量(volume)、速度(volocity)以及類型(variety)。在此之后,人們又添加了新的屬性,即精確性(veracity),缺乏精確性的數據毫無意義與價值性。然而,盡管供應商們嘗試各種手段在這熱門潮流中撈金,關于大數據的定義卻仍然模糊。所以,我們不妨再給它一條“V”描述,也就是“Vague”。
盡管有關大數據的炒作不斷,其真實性卻是不可置疑的。像開源軟件Apache Hadoop分布式文件系統越來越為人們接受。據Hadoop數據分析公司Karmasphere的調查,26%的機構已經開始使用它,還有45%的機構正在認真考慮。另一項由Tachaisle在市場中端企業間進行的調查發現,18%的機構正投資大數據,還有25%的機構正計劃投資。預計對于大數據的年投入將于2016年超過36億美元,這僅僅是來自中端企業的數據。
業內人士指出,從分析師的角度看世界,你發現世界很復雜。現在我們有6種分析方法從傳統的數據倉庫中獲取數據;或從專用分析數據庫獲取數據,如MC Pivotal,Greenplum;或從內存數據庫,如SAP HANA獲取數據;或從Hadoop獲取數據,這是目前最熱門的數據技術。此外,還可以從云網得到服務。
需要明確的是,數據分析僅僅是大數據項目中的一部分。忽視了這一關鍵點,對于任何企業而言都是極不明智的。未來,人們希望集成來自多渠道的數據,并希望在不同的系統中對這些數據進行分析。過去,我們稱這種做法為ETL——即抽取、轉換與加載。預計在不久的將來,大數據集成將成為大數據領域中的新興熱點。
(摘編自中國科技網)