丁海驁

“首先我們相信:數據可以讓今天我們認為不可能的事情,通過對數據發掘和數據分析,讓這個事情在明天變成可能。”2021年底,履新8個月的Cloudera大中華區區域副總裁王剛(Galen)在一場活動上,談到專注于大數據軟件平臺的、基于開源社區的軟件公司,Cloudera對大數據有三個基本的理解:“第二,我們認為,人在大數據應用過程中是非常具有決定性的因素:我們可以讓機器幫我們做很多事情,讓他們做正確的事情,但是是否正確,要由人來判斷,所以我們可以賦予人對大數據應用做更深的洞察和發現;第三,我們確認,現在數據無處不在:可以在你的手機上,在你的筆記本上,在公有云上,也可以在機房里面……在任何場合下,我們都可能會用到AI、大數據分析。由于大數據無處不在,所以無論在哪種環境下,我們都可以讓大數據繼續幫助我們——Cloudera支持在不同的使用環境中應用大數據技術。”
事實上,隨著企業數字化轉型進程的不斷深入,“軟件定義”的企業業務模式已經成為一種被廣泛認可的趨勢,因此企業對于數據價值的認可,基本成為一種共識。而大數據應用作為一種能夠真正幫助企業發掘數據價值的手段,也已經被廣泛認可。對于應用企業而言,他們的問題往往集中在實際操作環節:企業該如何圍繞自身的業務去設計、構建和維護一個有效的數據價值發掘體系?大數據系統如何與企業的現實業務進行更密切的關聯?
作為大數據應用平臺的提供商,王剛談到了一個“企業數據生命周期”的概念。
“數據實際上也有自己的生命周期:從出生到長大,再到成年、老年,最終離我們而去。我們要做的,就是管理數據整個生命周期,從數據的獲取到對數據進行豐富、整理,再到對數據的展現、服務和預測等。”王剛將數據全生命周期分為5個具體的部分:收集、富華、報告、服務和預測。
其中,對于企業用戶而言,數據的來源是非常多元的,“可能在用戶的手機上、設備上、電腦上,或者是在后臺業務系統里面”,因此企業需要構架一個數據流管理體系,完成對數據進行完整、及時和充分的收集獲取。然后第二步的“富化”過程,是利用數據工程,對收集到的數據按照不同的格式、版本和樣式,進行豐富、整理和處理,使其變得更加有序。完成數據富化的數據就進入了“數據全生命周期”的第三個環節“報告”階段,在這個環節,數據被存儲在數據倉庫中,企業就可以根據自身的業務需求,對數據進行初級的應用:根據不同不同部門、不同職位需求,將數據以各種報表和表格的形式,展示出來,讓用戶了解企業當前的相關業務情況。“比如,企業管理者要了解公司過去的客戶流失情況、業務增長情況,尤其是金融行業用戶常常需要通過數據了解當前的業務狀況……這些都可以通過數據報表的形式分析出來,這也是絕大多數企業重點投入的部分。”王剛說,此時企業對數據應用的底層IT基礎,是數據倉庫。
然而這并不是大數據應用的盡頭:事實上,讓數據真正賦能企業現實業務需求,發掘企業數據真正的價值,往往集中在數據全生命周期的后面兩個階段。
第四個階段,是服務。在這個階段中,企業可以將數據直接服務于現實的應用場景:數據倉庫中數據經過處理被轉移到操作型數據庫——這是一個相對專業的數據處理過程,可以簡單理解為:為了某個具體的應用,對數據倉庫中的數據進行更加詳細的分析、建模和轉換數據關系模型——此時,就可以利用這些處理過的數據直接支持企業的新應用和新業務場景。進而,就可以進入數據全生命周期的最后一個階段“預測”環節:利用機器學習、人工智能技術,對數據進行更深入的模型分析和數學計算,面向未來作出更具有參考價值的預測。

“可以預測明年的GDP、雙十一的庫存、未來訂單情況、客戶的增長情況……很多的數據模型都是要靠前端非常干凈、處理非常好的數據才能進行預測分析。”王剛認為,企業對于大數據技術和工具的應用,需要構建一個全生命周期的概念,即便不能一次性搭建完成,也需要保證最終整個完整應用周期的五個環節缺一不可,因為越是后面較高階的應用,越是需要足夠扎實的低階應用作為基礎。
于此同時,王剛也強調企業在構建數據全生命周期解決方案的過程中,不同節點間的關聯關系是影響企業能否成功實踐大數據應用的關鍵。“我們看到:絕大多數大數據解決方案都定位在一個單一系統,只能處理一個單一的環節,如BI、報表、數據倉庫、操作型數據庫……然而對于企業用戶而言,顯然一個能夠完整覆蓋五個環節、能實現從端到端完成整個數據全生命周期管理的的解決方案,是最佳選擇。”王剛說,作為企業大數據應用平臺的提供者,Cloudera目前不僅能夠為企業提供覆蓋完整五個環節的解決方案,而且可以通過公有云和私有云兩個版本,為用戶提供更便捷的部署和應用體驗:“Cloudera的大數據平臺在當時設計時,就考慮到大數據使用場景下有不同需求:有些業務場景需要把數據放在公有云上;有些敏感數據,交易數據、核心數據需要放在私有云上——Cloudera的兩種方案是互相打通的,可以隨時根據業務需求互相交流,從而保證企業從成本和性能上,得到更好的應用體驗。”
王剛當天出席的活動,是Cloudera與ReadyAI合作編寫的兒童電子讀物《一杯檸檬水的啟蒙》的發布。這是一本針對8至12歲兒童,講解機器學習模型訓練和數據偏差等復雜數據概念的兒童繪本。Cloudera首席運營官Scott Aronson,用“兩個小男孩的驕傲父親”的署名,在書中的結尾寫道:“我希望你們和我,還有我的兩個兒子一樣,都能享受從克拉拉和亞歷克斯(這是這本童書中的兩個小主人公)身上學習的過程。”
數據的洪流,正在改變世界。也許等這代孩子長大的時候,將會面對一個真正的數字時代:數據成為主導,人類生活依賴于一個又一個的數據全生命周期……所有的這些,都正在從現在開始。