李蕓
摘要:大數據不僅意味著大機遇,同樣帶來了大噪聲。因此,任何具有價值的大數據策略都必須給出濾除噪音,同時對真正相關的數據進行有效且高效的處理和解決辦法。該文分析了大數據背景下企業的數據策略和現有IT解決方案中存在的問題,提出通過優化ETL過程來增強早期數據整合的解決方案,以提高企業大數據策略的成本收益。
關鍵詞:大數據;策略;ETL
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)34-8081-02
大數據時代來臨之初,許多企業、機構還在思考如何加大軟硬件資源的投入以充分地利用移動網絡、智能手機和云服務等擴大自己的業務收益和影響力;而短短幾年過去,更多的是坐擁云服務商提供的技術和設施,卻陷入了數據謎團。隨著智能手機、社交網絡等進一步深入生活,科研數據、商業智能的全面應用,數據海洋以人們完全無法控制的速度迎面而來。IDC(國際數據公司)預測,未來全球數據量將于2020年達到40ZB。獲取、分析和運用指數級增長的龐大數據,將催生創新,為各行各業提供新的發展機遇、實現價值,給人們日常生活帶來方方面面的改變。
1 大數據資源化過程中的成本收益
1.1 大數據資源轉化效率的決定因素
大數據有四個顯著特征:1) 數據種類繁多(variety):數據類型包括結構化、半結構化和非結構化數據;2) 數據體量巨大(volume):PB級別是常態[1];3) 數據處理速度快(velocity):海量數據需要在有效時間內處理完成;4) 價值密度低(value):需要從低價值的原始海量數據中進行深度挖掘和計算,總結出具備高價值的數據[2]。……