王雄
提到“數據中臺”4個字,很多人都會“不明覺厲”。有意思的是,國外并沒有“數據中臺”這個詞,那么,為什么中國企業如此看重數據中臺?中臺是如何產生并被發現進而現價值的?這是一個值得分析的現象。
數據中臺的重要性
不管企業業務規模大還是小、不管公司成立得早還是晚,或多或少地都會對數據進行投資,除了基礎的數據系統建設,還包括數據湖、數據倉庫等。但實際上,這些已有的數據投入并沒有產生理想的業務價值。
為什么會出現這種現象?Gartner研究總監孫鑫一語道破,在他看來,企業已有的數據投入是割裂狀態,有嚴重的數據孤島問題。雖然,企業在后端已經部署了大量與數據管理相關的應用,但與前端數據消費者以及應用之間存在著巨大的價值鴻溝。
有些企業為了實現數字化轉型戰略目標,只是借用了數據湖概念,采購了交易型數據庫、分析型數據庫以及數倉等,并且會考慮未來幾年實現云轉型目標,或者說現在已經在向云化方向發展。但由于企業規模不同、戰略目標不同、對數字化的理解不一樣,它們對數據分析、數據庫和數據資產的投入順序也會千差萬別。但相同的目標是,企業建立數據中臺最直接的動因是希望讓現有的數據投資產生價值。
然而,放眼市場,中國雖然有很多“中臺生意”,但真正做數據整合的廠商卻不多,當企業做了大量BI、數據庫的工作后,才開始意識到ETL的重要性。尤其是大數據時代,隨著企業數據量的持續增加,數據整合的需求變得越來越強烈。所以,數據中臺解決方案的最首要任務是,通過數據整合實現數據的快速交付,并且還要找到真正可復用的數據,從根本上解決數據孤島問題。
如何建立數據中臺
建數據中臺并不是一件容易的事情,失敗的數據中臺會給企業帶來負面效果,這也是“數據中臺干跑了很多CIO”的最重要原因。所以,在企業搭建數據中臺之前,要多問自己幾個為什么,比如,如何決定是否要做這件事兒,如果要做,最需要注意的問題是什么……
Gartner建議,企業在部署數據中臺之前,先要從端到端的數據能力來評估,看看到底缺少哪一塊,而不是盲目上一個中臺。數據中臺一定在“技術成熟度曲線”的頂峰,雖然不管是 BI廠商,還是數據庫廠商都稱自己提供的是中臺解決方案,但作為選型決策者,一定要準確判斷,找到能解決問題的廠商,有時候選型過程可能比部署還難。
另外,如何與業務部門進行深度溝通,也是上中臺前要考慮的重要事項之一。因為,企業的數據大多與核心業務系統有關,比如ERP、CRM;然后再考慮如何建立數倉、數據湖,如果技術和業務不統一,這樣的中臺很難直擊痛點,產生價值。
很多人都認為,數據中臺是一個技術問題,其實更多的時候它是一種戰略決策。尤其對于大型互聯網企業來說,數據中臺來自業務需求,業務部門希望對日益增長的數據進行有效管理,并利用這些數據指導決策。所以,好的數據分析團隊應該是“聯邦”關系,通過中央團隊、中央IT人員,對數據分析進行延展,確保企業數據擁有強一致性。同時,還要聯合業務側的成員,一起關注快速部署與價值輸出的問題。
值得一提的是,搭建數據中臺,還要考慮以往數據資產投入產出比的問題。要知道,無論企業做不做中臺,企業的業務量和數據量都在飛速增長,對于早已投入生產的數倉、數據湖的處理是企業在數字化轉型背景下,必須要解決的問題。如果企業過去津津樂道的“數據資產”并沒有與現有業務實現共享,這其實是數據中臺在設計方面的“不完整”。如果企業把大量的時間都花在尋找數據上,而沒有用在分析數據上,這說明沒有在投資回報率(ROI)上得到更好的體現。
讓數據中臺建設為業務賦能,其實有很多相應的解決方案和實操工具。比如:通過元數據的自動發現,企業可以搜索到更好的數據,找到更符合企業業務情境的數據,并轉化為企業智能生產的語意。換言之,通過智能搜索,可以讓企業快速尋找到相關的數據源,讓藏在各個系統中的數據更直觀地送到用戶手中,最終通過不斷優化和演進,形成企業最核心的數據資產。
有哪些可落地的方案
有人可能會問,數據中臺要想成功落地,有沒有可參考的模型?
Gartner把數據分析或者說任何關于數據的投入,都分成了2個維度。一個是從數據的角度看(也是IT的角度),分為已知數據和未知數據;另一個是從問題的角度看(也是業務角度),分為“已知問題”和“未知問題”。
首先,很多企業建中臺是為了復用數據,并且把這些數據放在數據資產庫中,Gartner把這個數據資產庫稱之為數據目錄,大多屬于“未知的數據”和“未知的問題”。那么,問題來了,過去做的數據自檢,難道不算數據目錄嗎?當然也算,只不過是IT導向,真正的數據目錄,應該有業務部門參與,然后共同完善,實現業務語義的逐步凈化。

其次,通過ETL工具實現數據整合,包括數據的批處理、數據的復制、流數據管理等,解決的是“已知的數據”和“已知的問題”。在數據整合過程中,要讓業務側用戶有獲得數據的能力,并產生實際價值。所以,數據中臺要具備自助部署能力,這一點非常重要,決定了數據中臺項目的成敗。
其三,是數據虛擬化,這是很多數據中臺解決方案或者產品欠缺的一點。所謂的數據虛擬化就是在數據還沒有或不用物理位置移動的情況下,依舊可以在一個虛擬層進行分析和應用。一旦市場有了A廠商和B廠商的產品,企業想把這兩家廠商的數據源整合到數據中臺時,就需要通過數據虛擬化來實現,在虛擬層上完成可復用的數據能力建設。
基于這個模型,去選擇所需要的產品和解決方案,結果一定不會太差。只是,現在很多人都在提數據智能,這一概念是怎么來的?數據智能化和中臺有哪些相關性?
數據智能化和中臺是什么關系
其實,數據呈智能化方向發展,還是和企業的業務變化密切相關。過去,企業的很多決策都由領導“拍腦袋”決定。但是,隨著企業業務的規?;l展,業務決策不再是一個人的事情,而是由數據決定,需要幾個部門共同決策。
更準確的說法是,在數據驅動下,業務決策不再僅是一次性行為,還要強調連接和連續性,要更具情境化。
如果用一句話總結,就是企業決策不再是“一碼通吃”,而是需要把更多小決策關聯起來,形成一個大決策。同時,前一個決策還會影響后面的決策,所有決策都要通過情境化的分析能力作為輔助。這時,以知識圖譜為代表的產品,就成為數據智能化的重要工具。
至于,數據智能化和數據中臺是怎樣一種關系?也并不難理解,數據智能化提升了數據中臺建設的難度。
企業在數據智能化背景下,數據中臺建設也要順應形勢,滿足更高要求。首先,中臺要能夠連接更復雜的數據源;其次,要能夠根據用戶需求,給出更具情境化的數據;其三,能以更連接、更連續、更快速的形式,給決策者提供想要的數據。
不管是交易型數據庫、傳統數倉、數據湖,還是云端數據存儲,企業在數據端的應用非常豐富,構成了屬于企業組織之上的一張虛擬的網。但是,虛擬化不應該只是單純地把數據收集在一起,而是應該以更具情境化的工具或者方案(知識圖譜)對數據進行編織。在數據編織過程中,不僅涉及每個和消費行為相關的數據,還包括元數據的管理與關聯。
從某種角度來說,知識圖譜或圖技術的最核心內容就是以業務視角來關聯數據,且數據存儲是以點和邊的形式實現。過去,企業的中臺或者數據管理模式比較偏IT;但現在有了“圖”能力,企業可以對各個領域的業務進行關聯,通過建模來統一數據交互語言。這是從采集和連接的角度,來看待數據智能化帶來的變化。
組裝式數據分析給企業帶來哪些價值
接下來的問題是,企業如何建立數據中臺才能滿足數據智能化時代的需求?Gartner認為,組裝式數據分析架構是中臺建設未來的方向。
組裝式分析架構,是基于智能化的采集和連接,幫助用戶實現自助式分析。
什么意思呢?就是當數據編織可以給用戶提供合適數據,能夠建立一些分析型應用的時候,企業便可以通過組裝的形式把一個個和數據相關的產品直接整合,而不是每次都從零開始。所以,中臺建設的最終目標,其實是讓用戶基于數據進行組裝。
成功的數據中臺,應該是一個組裝型能力平臺,帶來的是一個個和數據分析相關的能力,而不僅僅只是數據的復用。企業可以通過自助式分析,找到可復用的數據分析模塊,并以組裝的形式構建符合業務需求的分析型應用。
具體而言,組裝式分析架構的底層依賴于數據編織設計模式,上一層是企業已購買的類似于報表平臺、分析工作站、自助式分析平臺或數據科學平臺,且這些能力平臺被微服務以及容器化,以高度開放性確保用戶上了中臺后,可以獲得組裝式體驗。
此外,組裝式數據分析架構的底層,還會涵蓋在應用開發過程中經常用到的一個概念———DevOps。隨著企業應用搭建的加快,或者說建立數據產品需求的不斷上漲、越來越多地把DevOps實踐放到與數據相關的應用上,業內稱之為DataOps。包括版本控制、持續集成、持續開發和CAID理論等,在智能數據時代同樣適用,可以助力數據應用開發快速走向生產階段。
毫不夸張地說,組裝式數據分析正在重塑數據分析應用的未來,把數據中臺提升到一個新的高度。