徐文杰
(上海軟中信息技術有限公司,上海 200235)
隨著數字經濟的飛速發展,數據作為企業中的關鍵資產之一,其地位與關注度不斷提升,依靠數據驅動創新成為企業數字化轉型的重要目標。中臺的概念源于阿里,是以“共享”和“復用”為核心,與前臺與后臺相對應,在企業組織中前臺是指市場、銷售等部門,后臺是指人資、財務等支撐部門。而中臺介于二者之間,可將前后臺有機聯系起來,這種概念的提出將企業從多個平臺分散煙囪式系統集群轉變為相同平臺下的應用集群,依靠數據賦能企業發展,進一步凸顯數據價值。
從阿里提出“中臺”戰略后,數據中臺在網絡背景下得到迅猛發展,其主要以數據驅動創新為目標,使用先進的技術創建體系,具有機動靈活、組織能力強等特點,其終極目標在于解決業務問題、快速解決業務訴求為中臺建設的重要考量指標。從本質上看,中臺建設的目的在于使用服務;如果沒有嚴格的組織協調就很難形成強大戰斗力,該體系建設應有嚴格的技術體系與組織架構,并且需要深入思考。
近年來,隨著Flink等技術的飛速發展,逐漸形成流批一體化潮流,接入層以流式接入,計算層支持實時計算,批處理成為流處理中的補充場景,可實現處理方式的自由切換,架構如圖1所示。在大數據統計方面,統計分析不會出現根本性變化,以“T+1”批處理為例,作為數據應用不可或缺的內容,在相同的架構中,因數據源與維度變化較大,批處理面臨許多復雜場景,在利用相同框架時有一定難度,需要進行架構分層,在符合網絡應用需求的基礎上,采用ELT系統架構將其分為3層,具體如下:1)業務數據層。該層數據來源為原始數據,數據結構基本與數據源相同,可采用拉鏈加工與存儲變化數據。2)公共數據層。寬表便于理解與應用,下游調用十分便捷,且寬表利用率70%。3)應用層。其主要作用是數據加工,即集市層,該層設計較為靈活,與實際應用相貼合,設計理念為維度建模思想[1]。

圖1 數據中臺處理架構
元數據主要對數據、信息資源進行定位,使檢索與應用更加便利,同時還具有資源尋找、存儲位置和文件記錄等作用,是實現數據交換的必要前提。中臺系統十分龐大,內部資源需要統籌管理,以元數據為頂層控制層,對內部數據全面管控。中臺作為數據資源、共享中心,其本質與具體業務無關,主要內容如下所述。
2.1.1 基礎模式
在數據導入中臺后形成基礎數據信息,資源類型多種多樣,根據關系與對象模式進行結構化處理,還有一些非結構化的信息;元數據可采用自動與手動2種形式獲取,前者利用元數據獲取接口;對于難以獲取的數據可通過人機界面錄入。
2.1.2 數據服務
數據服務包括基礎數據與分析結果數據2項內容,中臺服務是在Web服務的基礎上開展的,并遵循相關行業標準規定,采用微服務形式,通過提煉、回補等方式對基礎數據進行采集。
2.1.3 數據分析
通過配置建立分析邏輯,利用大數據分析引擎,在自定義數據中執行相應的分析任務,通過對象模式描述數據分析結果。當該類數據需求得到滿足后,與數據管理同步運行[2]。
中臺數據的來源為各業務系統,因數據提供方式不同,可將元數據整合到中臺內進行統一管理。關系型數據經過抽取轉換進入中臺的關系型數據庫中,對象型數據以公共信息模型為參考進行優化,如對象關聯、路徑等,以原始數據為主,可利用關系型數據庫與對象數據訪問服務。在中臺內的關系型數據,只要是在信息模型覆蓋內,對象轉換后就可以將引入數據作為待處理的整體,按照層次、關聯等分為多個級別,實現多元系統數據配置,完成數據整合目標,鏟除內部數據聯系存在的阻礙。將中臺內部數據按照共享的方式提供給外界使用,為進一步提高數據效用,還可以發揮大數據的作用與優勢,也可根據現實需求開發分析軟件,將所得結果作為中臺數據的構成內容之一,將元數據凝練后納入平臺中。通過反復循環和補充,不僅使中臺管理內容更加豐富,而且可以根據分析結果選擇相應的服務方式,為數據取用提供更多便利。在數據整合完畢后,中臺可獲得3種類型數據,即原始數據、全域數據與分析型數據[3]。
在中臺體系中數據服務十分關鍵,通過自定義查詢工具生成的查詢腳本存儲到關系型數據庫內,并標記好名稱、協議、路徑與分組等信息,創建數據訪問API。生成API可注冊到服務平臺中進行統一管理,且可直接發布到API網管,提供開放共享的服務,如圖2所示。在數據服務的基礎上,一些價值較高的計算結果可導入指定數據源中,為展示分析提供更多便利。數據導出過程與導入基本相同,只要將源與目標角色對調即可。將導出計算結果傳入關系型數據庫中,使中臺數據內容更加豐富,為商業數據智能應用提供更多便利,以數據資源管控為代表,可直接分析結果,并通過可視化的方式展現,使應用創建速度得到顯著提升[4]。

圖2 數據服務發布
中臺可提供多種與國際、行業標準相符合的標準,使多種數據訪問需求得到滿足,包括關系型、對象型、非結構型,其服務與說明見表1。

表1 中臺主要數據服務
在RDS的基礎上,除關系型數據有特定的訪問接口之外,其他數據都具有微服務與Web服務。GDA提供相似SQL語言對象訪問語義支持,可按照批量、關聯鏈等查詢導航。對地址空間對象統一管理,在安全通道的基礎上,以二進制編碼高效傳輸數據。如果數據訪問端要求較高,就可以有限采用OPCUA服務。在服務部署方面,RDS數據服務可由RDS服務器提供,在ECS上統一部署到EDAS。
在數據研發后還應注重生命周期,爆炸式增長的數據不但會占據更多的存儲空間,如機柜、存儲設備和IDC機房等,而且會影響計算效率。從數據形成開始就要重視生命周期問題,并根據數據利用情況,制定數據歸檔、銷毀等管理策略。如果數據已經占用龐大的存儲資源,應采取一系列成本控制措施,包括以下3種:1)降低存量。采用數據壓縮技術、降低副本等方式,創建合理的數據模型,使存儲量降到最低。2)控制增量。根據數據關鍵性,明確數據存檔周期,根據周期自動歸檔,由此提高利用率。3)分攤成本。通過創建算法,如數據應用分布、需求來源等,其目標在于將成本分攤到不同部門,使相關部門更加重視資產管理成本,從而降低安全風險[5]。
某企業為大型國資企業,主要從事資本運營,已經在國內多個地區與國外地區投資管理300多家子公司,企業實力雄厚,擁有廣闊的發展空間。
由數據流向上進行技術選型,采用開源技術創建數據中臺,具體如下:1)抽取層。結構化數據采用sqoop離線抽取,利用flume進行非結構化日志接入。2)存儲層。文件可利用Hdfs與kafka進行存儲,適用于流式數據總線。3)計算與調度層。可利用hive與spark進行離線計算,采用Airflow、Axkabon進行數據調度,采用storm與spark進行實時計算。4)引擎層。主要為ROLAP與MOLAP。5)可視化。以Superset、Metabase為主。除此之外,整個Hadoop技術體系可選范圍較多,應與自身業務場景相結合靈活選擇,在選擇時還可對社區活躍度、技術開放性和組件兼容性等進行綜合分析。
在網絡時代,該企業逐漸引進先進的信息技術,在技術與數字的驅動下實現轉型升級,緊緊圍繞企業戰略目標,從本質上解決企業效率、速度與細節等問題。采用精細化管理模式,使IT部門能夠對業務變化快速響應,創建一套敏捷、智能、場景化數據賦能體系,在數據中臺的基礎上使該體系不斷成熟完善,具體內容如下。
3.2.1 數據系統化
經過信息化3.0建設,該企業數據系統化程度不斷加深,基本涵蓋全部業務與數據,如資源信息數據、記錄數據和經營活動等,還包括內部資源活動記錄、主動采集數據和公共數據資源等,在系統化模式下使各項工作效率得到顯著提升。
3.2.2 數據服務化
在數據治理完畢后,企業應充分適應市場業務變化情況,加強人資培養,創建數字化人才賦能模型,實現數據場景化應用目標,如圖3所示。從數據整合向中臺演進,在模型搭建過程中,通過夯實技術、業務為基、逐級培訓和因地制宜等方式,將整合后的有價值的數據直接輸出到業務場景中,為業務解決提供更多便利。

圖3 數字化人才賦能模型
3.2.3 數據展現
為提高數據應用水平,在業務場景與角色的基礎上,對個別角色數據進行強化。例如,在移動銷售應用場景中,對總經理、業務代表等營銷類員工來說,不僅要了解內部產品研發與生產進度,而且要考察市場信息,掌握銷售指標完成情況與自身績效排名等,業務場景見表2[6]。

表2 不同業務場景分析
在數據資源的基礎上創建數據中臺,并根據現實需求進行數據分析。生產域數據、管理系統等通過ETL等實時匯集到中臺,在該基礎上,豐富和優化系統資源,為生產經營開展關聯性分析。對象數據通過OPC UA服務,通過受控數據庫服務與Web服務進行訪問。通過云計算創建基礎設施,提高大數據分析能力,有針對性地分析中臺數據,如設備缺陷、日志統計和生產運行等,將分析結果寫到中臺,為其他應用提供高效可靠的數據資源。在中臺內規范化數據的基礎上,對企業運營、智慧園區和新能源應用等進行開發,并對資產部分功能進行細致地劃分,在生產域基礎上展示臺賬數據分析結果。企業內部數據逐漸向中臺匯總,并將更多領域的分析結果納入中臺,使中臺內部數據更加豐富完善,為應用開發提供強有力的支撐。數據資源價值得以充分突顯,獲得顯著的應用成效。
綜上所述,隨著互聯網技術的飛速發展,中臺管理系統不斷匯總更多數據信息,豐富和優化系統資源,為網絡開展關聯性分析,也為其他應用提供高效可靠的數據資源。在未來的發展中,可將阿里云技術引入其中,在私有云支持下優化企業賦能體系,使數據采集、管理、分析與服務等功能更加全面,提高構建效率,降低業務管理難度,通過服務共享提高數據價值,為更多的新業務挖掘提供強有力的技術支持。