王慕維
新華通訊社大數據中心 北京 100803
數據中臺的概念是阿里巴巴首次提出的,是應對像“雙十一”這樣的業務高峰,應對大規模數據的線性可擴展問題,應對復雜業務系統的解耦問題的綜合性解決方案,也稱為“大中臺、小前臺”戰略[1]。數據中臺是一套基于數據與服務實現的業務支撐體系,本身并沒有什么新的技術或內容,主要包含兩樣東西,一個是數據,另一個是服務。
數據中臺主要實現數據接入、管理、共享與應用,從整體上統一數據架構,打破信息孤島,解決數據冗余、不一致等問題。與傳統數據倉庫不同,數據中臺記錄了企業業務全過程數據,大到企業戰略實施過程數據,小到個人操作記錄。數據中臺將業務發展的全流程進行數據化并整合,以數據鏈打通生產和傳播。另一方面,實現數據的靈活訪問,基于數據資源目錄和數據服務滿足不同類型、規模用戶對數據資源的需求。例如,為新媒體編輯生產數據新聞、數據專題、短視頻新聞等提供數據與技術支持;利用全業務數據特性,靈活的統計、計算服務,為企業決策提供更多幫助。
數據中臺提供三類服務:依賴接口的服務、依賴工具的服務和依賴數據的服務。數據中臺原則上只提供通用的服務接口,主要解決業務上的共性需求,以API(接口)形式支持前臺應用,提升對業務需求的響應效率。通過系統中不同服務組件的配置、組合和流程搭建滿足不同的業態模式,實現業務的創新。例如,為新聞客戶端添加推薦服務,為采編系統提供文本糾錯服務和自動標引服務,在傳播分析中添加水軍檢查服務等。
媒體行業數據中臺是一個承接技術,引領業務,涵蓋數據資產、數據治理、數據模型、垂直數據中心、全域數據中心、數據服務等多個層次的技術平臺[2]。數據中臺匯聚稿件資源,整合報道資源,構建媒體統一數據平臺,形成“數據整合、能力共享、應用創新”的大數據體系。數據中臺構建統一的數據標準與數據資源管理體系,為業務方提供統一的基礎數據服務。為了提升大數據智能分析能力,數據中臺引入智能分析服務,提供滿足業務需要的各類公共性智能分析應用服務。總之,媒體行業數據中臺的整體建設目標為構建數據平臺、沉淀共享服務、提高服務重用率、賦予業務快速創新能力,實現面向媒體行業打造平臺化、數據化、智能化、服務化、工具化的“中央廚房”式融媒體數據中臺。
媒體行業數據中臺的建設,從功能上說,包括構建數據平臺和能力平臺。其中,數據平臺的本質是將數據資產化,能力平臺的本質是將流程自動化、將應用場景化。
數據平臺作為整個中臺技術體系的核心,涵蓋了數據資產、數據治理、數據模型、垂直數據中心、全域數據中心、數據服務等多個層次。實現稿件數據、產品數據、運營數據、行為數據,以及外部互聯網資源等各類數據資源有效匯聚與管理,建設統一的數據標準與數據資源管理體系,提供業務方統一的基礎數據服務。
數據平臺底層采用先進的大數據平臺“Hadoop+全文檢索+分布式文件系統”混合存儲架構,實現文本、稿件、圖片、音視頻等資源的高效存儲和使用;采用更加有效的數據資產管理,對數據按照垂直數據、公共數據和萃取數據等進行分層管理;采用“容器云+微服務”平臺架構,實現服務的快速開發與編排、彈性伸縮、動態更新,以及更加完善的權限認證、服務審計、計費、運營等能力;加強數據開放共享能力,將數據通過API、文件等方式開放給外部系統,實現數據交換與共享;采用更加豐富的大數據中間件,提供大數據計算服務、大數據研發套件、數據分析及可視化能力;同時以數據多樣性的全域思想為指導,采集、引入全業務(采編、供稿等)、多終端(PC、H5、App等)、多形態(自身業務系統、三方購買、互聯網采集抓取)的數據,實現全媒體數據資源的有效利用與融合。
此外,數據平臺直接面向業務方提供實時、離線、流式等多種計算與分析能力,業務方可以在數據平臺上自助獲取數據,進行數據處理、數據探索、數據挖掘、分析鉆取、多維分析、自助化報表、數據分享等,快速響應業務開發需求。
能力平臺是一個用來構建業務應用的基礎設施平臺,對業務系統所需的功能模塊提供了分布分層的構建能力和服務全生命周期管理功能,實現各個業務領域基礎性、場景性、通用性的 AI 能力沉淀,加強模型復用、組合創新、規模化,最終實現降本增效和快速響應業務方的需求。
能力平臺提供各類公共性智能分析應用服務,例如中文語義處理、智能推薦、圖像識別、語音識別等服務。能力平臺統一管理各類數據應用服務,提供標準化的服務接口方式和數據輸入輸出格式。
能力平臺利用各種基礎數據服務和智能服務,提供可復用的公共功能模塊,同時通過梳理各業務系統共性的功能與模塊,并進行剝離與重新封裝,豐富能力平臺的公共模塊資源。上層應用可以基于公共模塊快速封裝業務產品,降低業務系統的定制化開發成本,快速響應用戶需求迭代。
數據平臺和能力平臺兩者是相互依存、承前啟后的關系。數據平臺融合各類數據,實現數據分類治理。同時數據平臺提供基礎數據服務(全文檢索、數據訂閱等服務),并將基礎數據服務注冊到能力平臺。能力平臺依托數據平臺提供的數據和分析工具集,加速 AI 相關服務的開發和復用,提供各種智能服務(自然語言處理、智能推薦等)來應對前臺業務需求。
依照媒體行業數據中臺建設思路,筆者設計了一套媒體行業數據中臺整體技術架構。如圖1所示,媒體行業數據中臺可以分為數據支撐層、能力支撐層兩層。

圖1 媒體數據中臺架構設計圖
數據支撐層對接各類媒體資源后臺,存儲采編發系統生產的稿件資源,匯集采集的媒體網站數據、數字報數據、客戶端數據、社交平臺數據等互聯網采集數據,匯集各個業務系統生成的行為數據、交易數據、日志數據,形成統一的數據資源池,供上層業務系統使用。
整個數據支撐層包含大數據平臺、容器云平臺、基礎應用平臺、數據采集分發系統、資源管理系統、數據開發分析系統等“三平臺三系統”體系。通過大數據平臺、容器云平臺、基礎應用平臺實現底層基礎設施環境的統一。大數據平臺提供大數據存儲和計算能力,基于大數據平臺進行海量多源異構數據的存儲與計算;容器云平臺提供應用的快速部署、彈性伸縮和應用環境資源動態調整等能力;基礎應用平臺提供應用所需要的基礎運行環境,包括JDK、Tomcat、Nginx等組件,常規應用可以直接在基礎應用平臺上進行服務的部署與發布。
數據采集分發系統涵蓋數據采集、存儲、加工、管理等數據生命全周期流程,數據采集分發系統采集各業務線數據,進行標準化、規范化,將接入的數據永久性存儲到中央數據庫中,同時把業務系統所需要的數據以多種形式分發給它們。中央數據庫的數據類型多且繁雜,需要資源管理系統對中央數據庫的資源進行有效的管理。資源管理系統提供元數據管理、分類體系管理、內容編輯、資源權限管理等功能,實現中央數據庫全方位、立體化管理。通過資源管理系統,實現中央數據庫數據分層存儲,匯集到中央數據庫的數據經過標準化后形成原始庫;然后通過數據分類和融合,形成不同的業務庫;中央數據庫可以根據業務需求生成相關主題庫,對各種圖片、文稿、音視頻進行有效整合,實現資源的融合,豐富相關主題的維度。數據開發分析系統為數據開發人員提供相應的開發環境,開發人員可以申請業務所需的數據資源權限,然后進行快速的數據協同開發工作,快速產出所需業務數據。
能力支撐層主要包括能力資源池和服務資源池兩大重要組成部分。能力資源池提供基礎的業務分析與智能分析能力。業務分析主要提供和業務相關的分析能力,包括新聞圖譜分析、輿情分析、專題分析、傳播分析等內容;智能分析主要提供通用的人工智能相關的分析能力,包括文本分析、圖像識別、個性化推薦、智能檢索等內容。通過這些能力來加強數據中臺整體信息智能分析水平,提升大數據分析能力,提供業務需要的各類公共性智能分析應用服務。
數據能力、分析能力以微服務的形式封裝成統一口徑的API服務接口對外提供數據服務,形成服務資源池。服務資源池的核心為服務管理平臺,匯入服務資源池的服務需要注冊到服務管理平臺,經過授權后對外提供數據服務。服務管理平臺提供服務的注冊、發布、審批、監控、權限控制,流量限制等功能,提供服務一體化管理頁面,包括服務的上線、下線設置,保證服務的平滑上下線;支持服務實例的權重分配,根據服務實例負載情況進行服務的調用分配;提供應用配置的集中化管理,支持配置文件的版本管理和回滾,以及數據庫配置、網關路由配置、流量控制配置等常用配置的實時修改和熱更新。
媒體行業數據中臺由多個平臺和系統進行相關支撐與配合,共同構成,形成采集、存儲、數據能力、分析能力、服務能力、發布能力的整套數據處理流程。媒體行業數據中臺的出現徹底解決媒體行業信息資源整合的業務痛點,為媒體機構提供豐富的數據和智能服務,賦能傳統媒體轉型。作為大數據和媒體行業深度融合的產物,筆者相信媒體行業數據中臺將會在媒體內容生產,驅動媒體智能化轉型方面發揮重要作用。