最近,數據湖已經開始在IT行業涌現。數據湖是與附加數據管理系統相結合的數據存儲,而附加數據管理系統提供關于數據的分析,作為數據清理過程的一部分,通常是從其他分析環境剝離的能力。例如,數據倉庫的提取、轉換和加載預處理消除了告知系統何時到達或插入“操作數據存儲”的日志。
在當今的行業中,數據湖似乎至少有兩個定義:一個來自存儲公司,數據湖是允許元數據存儲的磁盤存儲基礎設施;另一個主要是側重營銷驅動,是混合通常不混合的多個數據存儲的一個湖。相關資料顯示,其實并沒有銷售全面數據湖的供應商,而是人們使用Hadoop和本地工具訪問數據來將它們拼湊在一起。
企業在實施大規模數據湖前,應該從小規模著手,并將該技術作為對現有分析系統的擴展。
更多時候,數據湖是探索性的。數據湖實施應該允許以特別的和探索的方式擴展現有的分析,當前分析系統不會及時獲取高度數據的核心(例如客戶事務日志),來通過增長的數據湖判斷數據類型。大多數現有的分析不足以真實了解應用程序的行為,數據倉庫和Hadoop等數據管理方案失去了重要的數據支撐。
大數據分析系統提供商Pentaho公司首席技術官James Dixon在博客上例舉了這樣一個例子:數據倉庫等系統并不捕獲客戶購買過程中的每一步,而是事務日志。這樣購買過程的設計對于典型的數據架構師似乎是直接的,但在每個步驟中可能有數分鐘甚至數小時的滯后。通過發現流程中的滯后,用戶可以開始與客戶面對的數據湖實現購買等相關交易。分析對企業的整體工作具有探索性和重要性,因為一旦用戶有機會更系統全面地分析客戶日志時間,還不清楚會有什么樣的發現。
數據集市、數據湖和數據倉庫之間有什么區別?數據集市是數據倉庫的變體。數據倉庫存儲來自整體較舊的數據,用于報告和分析。多個數據集市大致相當于數據倉庫,通常在自身的IT環境中為子公司服務。用戶可以由多個數據集市進入數據倉庫,或者只是松散耦合的數據集市。集成是實現數據湖的關鍵,將數據湖與其他企業數據架構(包括數據治理和主要數據管理)完全集成也很重要。了解哪些數據類型對數據倉庫或數據集市重要,以及原始數據是否正確和一致,才可以實施數據治理實踐,避免分析有缺陷的數據。
數據湖的長期發展。數據湖有潛力毋庸置疑,但除非人們能夠更好地了解自己可以長期提供什么,否則這很可能只是一個時尚的陷阱,除非所展現的利益比迄今為止具體顯示的更廣泛。
Dixon在并入時序和間距時的數據倉庫問題的例子,只是當今分析繼續依賴簡單統計數據,而不考慮什么是“壞”數據并可以告訴人們的一個實例。由于數據湖實施可以發掘分析中的關鍵“陷阱”,因此它值得任何企業進行探索。然而從長遠來看,這需要實驗和仔細平衡數據湖和整體信息架構。