劉貴浙
在當今數字化時代,幾乎所有企業都需要應對數據激增帶來的巨大挑戰。
日前,全球信息管理解決方案廠商Veritas Technologies發布《數據基因指數》(Data GenomicsIndex)報告,首次在業界公開由企業數據組成的精確視圖。
為了進一步了解客戶數據環境的真正結構,Veritas在2015年分析了來自眾多客戶非結構化數據環境的數百億份文件及其屬性。本次分析涵蓋了8,000多種最常見的文件類型擴展名。因此,報告中的數據基本能夠代表客戶文件系統環境的數據構成。
根據實時的企業數據視圖表明,40%以上的企業文件在3年內處于無人問津的狀態,這一調研發現將為企業降低運營成本創造新的機會。《數據基因指數》報告是評估且建立企業數據環境標桿的第一步,旨在提高企業應對數據量激增挑戰的關注度和行動力。
《數據基因指數》報告首次公開當今企業數據環境的精確洞察,同時企業可以將其作為對比標準。該調研所得出的洞察能夠大力推動企業智能化運轉,實現最大修復能力,從而獲得最佳的商業回報。本次報告的重要發現包括:
開發者文件主導,演示文稿文件已成為過去時
《數據基因指數》報告揭示,過去七年中,數據的實際增長速度為每年平均增長39.2%,而相應的存儲空間需求增長比創建單個文件增長快9%。
圖片、開發者文件和壓縮文件大約占企業環境總容量的三分之一。從文件數量上來看,開發者文件占總量的20%。回顧過去10年的IT發展趨勢,與其他文件類型相比,演示文稿文件的數量下降500%。可以說,演示文稿當道的時代已經過去。
秋季成為存儲旺季
秋天是文件創建的旺季。文本文件的增長率尤為突出,高達91%;其次是地理和信息系統文件,增長率為89%;電子表格的增長率為48%。通過本次調研可以總結出,企業通常在夏季和秋季錄制視頻,并將錄制內容保存在公司的磁盤中。在秋季,視頻量會迅速增長68%。
只有備份和文檔文件會在秋冬季激增。在企業完成年度備份后,備份文件將激增756%。但圖像文件的創建量明顯減少,降幅達63%。此外,68%的視頻都創建于夏秋兩季,電子郵件(pst)的情況可預測性高,各季節間只有0.7%的標準偏差。
在數據環境中,41%的數據長期無人問津
根據規定或合規要求,數據通常在3年后會從“可能相關”變為“過期”狀態。令人難以置信的是,在企業中,平均41%的企業數據已經過期,或者是連續3年沒有任何用戶對其進行過修改操作。
面對海量的陳舊數據,以及在可以執行多個可行處理決策時,為信息管理“決策預算”的重點劃分優先級,無疑能夠幫助企業選擇文件管理的入手點。陳舊數據和總數據中數量最多的文件類型中,傳統“office”文件是企業巨大的負擔。
如果企業希望最大限度地節約存儲空間成本,但又無法確定優先處理哪些文件類型,那么企業可以重點對以下五大類型文件進行處理,每一類型都能夠幫助企業找回GB級的存儲空間:虛擬機文件、安全文件、游戲文件、科技文件、地理位置信息系統文件。
孤立數據成為企業的巨大負擔
由于職位變更或員工離職,數據將失去其所有者,成為孤立數據。由于職位變更、員工離職以及常用活動目錄混亂等原因,企業很難追蹤數居環境的傳承關系;此外,追蹤數據傳承需要巨大的資金支持。企業對這類數據通常選擇忽略,但它們卻不斷花銷企業的成本。根據《數據基因指數》報告,孤立數據多為內容豐富的文件類型,例如視頻、圖片和演示文稿等。如果企業選擇忽略這類數據,將會造成一定的潛在安全風險。孤立數據也占據大量的磁盤空間,超出所應占空間的200%。
孤立數據會占據企業高額成本,一方面是因為其占據了過量的存儲空間。即便孤立數據僅占文件總量的1.6%,但它占據的存儲空間卻達到了5.1%。不僅如此,大多數孤立數據是內容豐富的數據類型,這類數據所占據的空間都遠遠超正常比例,如圖像文件超出正常存儲空間的88%,而視頻和演示文稿分別超出165%和229%。
報告調查發現,企業人員流動趨勢對存儲環境具有一定的影響。孤立文件的大小是平均文件的222%。數據管理人員可能認為,文件越大,其內容越重要,因此在員工離職后傾向于繼續保留這類密集文件。如果企業希望恢復更多存儲空間,從孤立數據下手無疑是首選。
小變動或極大影響企業存儲成本
如果能夠洞察自身數據,企業可以明確劃分優先區域,從而實現最大的回報。演示文稿、電子表格和文檔等傳統Office格式文件所占據的空間遠遠超出合理數值,這為企業造成不必要的成本負擔。同時,視頻和圖片等視覺格式文件也是企業的另一負擔。企業應該對此類文件實施歸檔、刪除和遷移工作。以10PB為普通環境舉例,開展一項專門處理過期演示文稿、文檔、電子表格和文本文件的歸檔項目就能為企業每年節省大約200萬美元的存儲成本。
Veritas公司首席技術官SteveVranyes表示:“客戶一直向我們訴說困擾他們的兩大挑戰:數據的爆炸式增長,以及在新服務器和應用程序上所投入的有限的配置資源及預算。借助Veritas對關鍵元數據特征的獨特洞察,我們可以精確地呈現一般數據環境的真實情況。這些洞察分析會幫助企業從容應對當今嚴峻增長態勢下所發生的巨大變化。”
《數據基因指數》是首個精確評估實際數據環境組成的研究報告,調研包括文件類型組成、平均使用期限,以及單個文件的大小等多方面。Veritas公司還啟動了數據基因項目(Data GenomicsProject),為本次研究創造一個共同的討論區和平臺。該首創研究計劃旨在幫助企業深入了解日常創建、存儲和管理的非結構化數據的本質。首份《數據基因指數》報告便是此項計劃的首個研究成果。數據基因項目(Data Genomics Project)將成為數據科學家、行業專家以及思想領導者的討論社區,不斷為信息管理提供豐富的數據基因圖譜,同時將研究和討論結果分享給全球的企業用戶,幫助他們從容應對數據增長的難題。