我們正處于一個數據爆炸性增長的時代。根據IDC的預測,從2009年到2020年,數據總量將增長44倍,達到35ZB(Zettabyte)。其中,80%的數據都是非結構化數據。這些龐大的數據信息考驗著企業對大數據的處理能力。
事實上,不少企業已經感受到失控的數據增長對績效造成的沖擊。比如,越來越多的機構為了應對大數據現象,開始部署更加先進的大規模并行處理(MPP)數據庫、Hadoop 分布式文件系統、MapReduce 算法、云計算及存檔存儲設施。
“對各個組織來說,讓業務部門能夠訪問所有數據,以便將其應用于整個大數據基礎設施極為重要。而數據集成讓組織機構能夠利用大數據的最大優勢,將傳統的交易數據與全新的交互數據組合起來,從而獲得在其他情況下無法達成的洞察力和價值。”Informatica企業數據集成產品管理總監鄭瑋告訴記者。
“比如,可以通過社交媒體了解客戶的喜惡,以此充實客戶資料來提高目標行銷效率。沒有數據集成,大數據就僅僅是許多海量數據孤島。” 鄭瑋指出,Informatica在2011年6月推出的Informatica 9.1 for Big Data,就是專門針對大數據分析而創建的統一數據集成平臺。
“Informatica 9.1 for Big Data平臺的開發目標非常明確,就是將海量數據帶來的挑戰轉化為重大機遇。”鄭瑋說,該平臺提供了3個方面的創新功能:在與大交易數據的連接方面,其提供的全新關系/數據倉庫設備包括將該連接擴展到專為大數據定制的解決方案;與大交互數據的連接方面,借助其提供的與新型社交媒體的連接器,用戶能夠訪問Facebook、Twitter等新數據源;在海量數據處理方面,該平臺可讓 IT 部門將來自任何來源的數據輸入 Hadoop,同時從 Hadoop 中抽取數據發送給任何目標。此外,該連接還允許對 Hadoop中的數據應用 Informatica 數據質量、數量探查和其他技術。
據鄭瑋介紹,目前,已經有中國公司開始和Informatica就大數據項目進行溝通。從全球角度來看,在一些數據比較多、比較成熟的行業中,將會產生大量的數據分析、數據科學家的需求。