引言: 預計未來十年,數字宇宙將以每年約40%的速度增長,這是個驚人的數字,更重要的是,數字宇宙中囊括了絕大多數企業業務的數據需求。在這種環境下,通過使用數據分析提高競爭力,企業需要有能力滿足“信息一代”的需求,這對企業來說至關重要。
預計未來十年,數字宇宙將以每年約40%的速度增長,這是個驚人的數字,更重要的是,數字宇宙中囊括了絕大多數企業業務的數據需求。
在這種環境下,通過使用數據分析提高競爭力,企業需要有能力滿足“信息一代”的需求,這對企業來說至關重要。從幫助預測購買行為到驅動創新項目以增強客戶服務或提高生產力,數據湖能整理、存儲并分析海量數據,擁有變革業務的巨大能量。分析能力正從企業的“愿望清單”中移除,轉而成為必需。
然而,許多組織在早期便遭遇阻力。近半數(49%)的企業知道他們能夠從信息和數據中獲得更有價值的洞察,但不知道怎么做。
其中一個主要原因是,在最佳實踐和大數據項目的業務目標方面,IT和業務線并不總是一致的。雖然一些公司可能在利用基本的數據分析進行試驗(而有些公司甚至還沒開始),很多還沒準備好面對下一個階段,進入這個階段,分析將變得復雜和深入得多。實際上,現在,只有19%的企業擁有隨時在線的生產力,并能夠跨組織范圍實時運營。近三分之一的企業甚至還沒有開始這樣做。
那么,企業什么時候應該擴大規模,投資數據湖?下面四個信號可供參考:
1.運營復雜:在一個“前數據湖”環境中,如果企業正試圖擴大基礎設施規模,但沒有任何額外的全職人工管理支持選項,其數據需求就很有可能超過管理能力。傳統的Tier 1數據資源并不總是池化的,這樣就為單一管理者可應對的存儲空間造成了限制,同樣,在構建更靈活的通用存儲資源(例如數據湖)方面,管理者也面臨難題。
2.運營成本:當公司發現,雖然正試圖減少運營成本,但業務對IT的需求卻在持續增長時,就是時候該尋求新的辦法了。全職人工也會帶來管理IT資源的運營成本上升。為了有效應對這些需求,企業或者需要更多人力資源,或者需要投資額外的第三方,支持監控、管理、部署和改善系統。與簡單地增加員工人數相比,第二種方法擴展了一個數量級甚至更多。
3.生產壓力:另外一個暗示數據湖需求的關鍵指標是,現有的分析應用正為業務生產系統帶來壓力。實時分析可能是耗費大量資源的,無論是想通過視頻分析,從大量高清視頻流中獲得洞察,還是研究社交內容瀑布流。這些流程是需要專用資源的,這樣,嘗試使用生產系統的用戶才不會損失性能。數據湖是確保實時分析能夠以最佳性能運行的關鍵。
4.多協議分析:企業需要數據湖,一個最終的關鍵信號是,數據科學家正在大量不同的Hadoop發行版上運行應用,并且,需要將他們的數據與Hadoop掛鉤。未來,隨著各種各樣的分析實驗不斷深入,業務線需要IT有能力支持多種協議。企業也需要以數據湖策略為重要依據,進行整體的合理規劃。
現在,并不是每家公司都已經做好準備部署數據分析,但大多數會,至少是需要開始計劃,否則,就會面臨落后于競爭對手的風險。最終,所有公司都需要擁抱數據分析,那些拒絕改變的公司將逐漸褪色,變得默默無聞。
數據湖近在眼前,有人持懷疑的態度,有人熱情擁抱。懷疑者認為,數據湖無非另一種將全部數據整合至單一位置的存儲形式,支持者認為,數據湖不僅預示著前所未見的存儲效率,還讓分析成為可能,讓每個組織都可用。
暫且擱置爭議,讓我們看看數據湖帶來的變化,以及這些變化對今天的世界意味著什么,從IT直至消費者。
長期以來,數據孤島一直是存儲應用的標準,但是這些系統是運營效率低下的,并且會限制從相關數據中獲得更佳洞察的能力。
節約成本也是一大驅動力。除了管理復雜性,孤島系統還需要多種授權,服務器和其他費用,而數據湖可以經濟高效的方式,由單一基礎設施提供支持。
隨著分析變得更快速、更復雜,組織也需要以同樣的方式進化,以探索所有可能性。數據不再單單是數據本身,借助所有組織化數據構建的完整圖景,分析解釋能夠以前所未有的方式,打開新的大門。
數據收集和分析正變得越來越快。像信用卡欺詐預警分析、股票分析這樣的應用場景,需要在動作發生后數秒內就實現。不過,實時分析并不都是需要100%立刻馬上就實現的。一些數據(如月銷售數據、季度財務數據或年度員工表現數據)只需以特定的時間間隔存儲并分析。組織需要有能力構建數據湖,為分析提供最大的靈活度。
現在,企業產生的數據比以往任何時候都更多。這種情況為企業帶來了獨特的問題:需要裝備自己分析這些數據,而不僅僅是存儲。數據湖與Hadoop平臺一道,提供了增加數據價值所需的自動化和透明度。
例如,物聯網就是一個產生數據的怪獸,同時,也是一個持續不斷追加銷售的機會,假設組織能夠實時提供有吸引力的產品。確實,廣告主正站在利用數據湖獲得消費者洞察的趨勢前沿,在此基礎上,設法將洞察轉化成銷售。
這種情形下,“實時”意味著:數據湖能夠大幅減少分析的價值轉化時間,從數月或數星期到幾分鐘內完成。
數據湖不只是一個內部工具,事實上,數據湖正幫助催生新的業務模式,例如分析即服務(Analytics-as-a-Service),通過提供對數據湖的訪問權限,讓用戶進行自服務分析。
既然分析即服務不是面向所有用戶的,那么,它能帶來什么好處?外包的基礎設施和自動化使分析成本驟降。
這意味著公司可以嘗試新東西,并可根據客戶獲取和經驗實時調整,無需很多預算。
對那些正尋求外包服務的公司來說,有能力存儲、管理并保護數據,作為分析即服務部分內容的服務供應商是一個有用的途徑。
知識型員工則帶來不同的價值,隨著手動操作的部分被移除或顯著減少,基于分析結果,他們可將精力更多地用于與業務單元的戰略性結合上。
對于早期采用來說,分析即服務是一個有效的路徑,在零售、公用事業、體育俱樂部等行業處于領先地位。
顯然,想要開始獲得價值,企業不一定非得自建數據湖。
目前,從整體上看,數據湖應用尚處于早期階段,但全球化部署正在不斷增長。對于那些還在運行數據孤島的公司來說,或許是時候該開始嘗試實時分析了。