陸劍江
(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)
隨著信息化的不斷深入,各種業(yè)務的數(shù)字化產生了前所未有的數(shù)據(jù)量,也生成了各種各樣的數(shù)據(jù)類型,這些給數(shù)據(jù)的共享和利用帶來了新的挑戰(zhàn),尤其是在一些互聯(lián)網平臺上,每天產生的數(shù)據(jù)對業(yè)務提出了更高的要求,此時,需要有更加靈活的、能力更強的平臺來負責大量的數(shù)據(jù)處理[1]。傳統(tǒng)模式下,每個業(yè)務模塊僅會處理各自龐雜的數(shù)據(jù),這樣不僅效率不高,還會產生很多重復的工作,由于每個業(yè)務模塊都是一個獨立的數(shù)據(jù)孤島,因此后續(xù)的數(shù)據(jù)交換和數(shù)據(jù)同步無法應對靈活多變的業(yè)務需求,而這種多樣性的業(yè)務對數(shù)據(jù)的要求更高,數(shù)據(jù)本身的復雜性、對海量數(shù)據(jù)處理的要求、數(shù)據(jù)處理的實時性等都需要有能力更強的數(shù)據(jù)平臺來應對[2]。
高校的信息化發(fā)展已經進入了數(shù)字化和智能化的時代,各種業(yè)務基本完成了數(shù)字化改造,目前最大的問題是存在各種數(shù)據(jù)孤島,數(shù)據(jù)不能完全共享,各業(yè)務系統(tǒng)數(shù)據(jù)不能很好地為跨部門流程服務,無法處理非結構化數(shù)據(jù),無法很好地支撐實時數(shù)據(jù)等[3]。為了解決上述問題,很多企業(yè)如阿里、騰訊和華為等,采用了數(shù)據(jù)中臺(Data Platform,DP)的解決方案,將各業(yè)務模塊中的數(shù)據(jù)處理模塊進行整合,增加數(shù)據(jù)治理和數(shù)據(jù)服務能力,使其不僅具備傳統(tǒng)數(shù)據(jù)倉庫的功能,還具備對大數(shù)據(jù)處理的能力。通過數(shù)據(jù)建模、數(shù)據(jù)分析和數(shù)據(jù)服務,能夠對各類數(shù)據(jù)應用提供更好的支持[4]。所以,高校可以借鑒企業(yè)的中臺解決方案,在數(shù)據(jù)采集、數(shù)據(jù)加工和數(shù)據(jù)服務等方面進行全面改造和升級,從而讓高校在大數(shù)據(jù)處理能力方面有很好的提升。通過構建數(shù)據(jù)中臺,結合各類業(yè)務平臺,則基于大中臺、微服務的方式可以對原有系統(tǒng)進行解構,重新根據(jù)不同業(yè)務邏輯進行模塊化組裝,這勢必將會逐步改變業(yè)務系統(tǒng)的建設模式。
數(shù)據(jù)一般都依賴于各類業(yè)務系統(tǒng)在業(yè)務進行過程中產生,不同的業(yè)務系統(tǒng)由于沒有統(tǒng)一的數(shù)據(jù)標準,生成的數(shù)據(jù)會出現(xiàn)各種不一致的情況,當需要把這些數(shù)據(jù)聚集在一起使用時,就會遇到各種問題。目前,解決這類問題的辦法主要是通過數(shù)據(jù)的集成、加工處理成統(tǒng)一標準形式后,再進行共享的方式。通過建設共享數(shù)據(jù)平臺可以在數(shù)據(jù)量不大、數(shù)據(jù)形式不多的情況下解決問題,但隨著大數(shù)據(jù)的出現(xiàn),以及對各種數(shù)據(jù)類型和數(shù)據(jù)實時性要求的提高,傳統(tǒng)的數(shù)據(jù)平臺已經無法滿足要求,數(shù)據(jù)中臺的概念應運而生。
數(shù)據(jù)中臺是布署在底層網絡計算存儲資源之上、頂層各類應用之下的中間層。南向有各類的數(shù)據(jù)輸入,即數(shù)據(jù)匯集;北向有各類的數(shù)據(jù)輸出,即數(shù)據(jù)服務,數(shù)據(jù)中臺負責對各類數(shù)據(jù)進行匯集、加工、處理和開發(fā),最終將原始數(shù)據(jù)提供給各種具體的系統(tǒng)和應用[5]。高校數(shù)據(jù)中臺的架構如圖1所示。

圖1 高校數(shù)據(jù)中臺架構圖
從圖1的架構圖可以看出,高校的數(shù)據(jù)中臺主要包括數(shù)據(jù)采集(Data Collection,DC)、數(shù)據(jù)集成(Data Integration,DI)、數(shù)據(jù)治理(Data Governance,DG)和數(shù)據(jù)服務(Data Service,DS)等功能模塊,各個模塊負責數(shù)據(jù)流中各個過程的數(shù)據(jù)處理工作,存在DP={DC,DI,DG,DS},可見,數(shù)據(jù)中臺其實是各類技術的集合體,在上述基礎上,還可以納入更多技術,比如數(shù)據(jù)分析等。
從圖1的數(shù)據(jù)流圖來看,數(shù)據(jù)中臺的整個工作流程如下:
(1)作為南向的數(shù)據(jù)輸入,對各個異構的數(shù)據(jù)源進行實時或定時數(shù)據(jù)抽取,這些數(shù)據(jù)直接進入中臺的數(shù)據(jù)湖(Data Lake,DL),DL中存放各類數(shù)據(jù)源數(shù)據(jù)庫的原始鏡像數(shù)據(jù)。
(2)對照數(shù)據(jù)標準,對DL中的數(shù)據(jù)進行清洗、過濾等DG操作,經過處理的標準化數(shù)據(jù)根據(jù)各自的屬性或類別,如教學、科研或財務,以及所屬的具體應用,分別進入到對應的主題數(shù)據(jù)庫或者專題數(shù)據(jù)庫中,這個過程由DI模塊負責。
(3)作為中臺北向的數(shù)據(jù)服務和共享模塊,中臺還將生成各種數(shù)據(jù)接口,數(shù)據(jù)最終以數(shù)據(jù)服務的形式提供給各類應用。
上述幾個步驟分別完成了DC、DI、DG和DS的過程,用戶可以通過各類數(shù)據(jù)應用,從門戶、APP和小程序等訪問DP提供的這些數(shù)據(jù)。通常,中臺還可以提供基于其中各層的數(shù)據(jù),按照特定的指標進行數(shù)據(jù)分析的能力。
數(shù)據(jù)來源于不同的數(shù)據(jù)源,為了對所有數(shù)據(jù)進行各類處理,需要把原始數(shù)據(jù)引入到數(shù)據(jù)湖中,中臺對引入湖中的數(shù)據(jù)進行各類操作,不會對數(shù)據(jù)源有任何影響。數(shù)據(jù)湖支持任意數(shù)據(jù)源、任意格式、任意位置和任意復雜網絡環(huán)境下的高效數(shù)據(jù)采集和傳輸,支持全量數(shù)據(jù)集成,支持數(shù)據(jù)開發(fā)、圖形化、可視化實時監(jiān)控[6],支持各種類型的數(shù)據(jù),包括結構化、半結構化和非結構化,實時的和非實時的數(shù)據(jù)。
數(shù)據(jù)從數(shù)據(jù)源到數(shù)據(jù)中臺后,將對數(shù)據(jù)進行清洗、過濾等數(shù)據(jù)治理操作,經過一系列的加工處理,從而確保數(shù)據(jù)的質量。在構建數(shù)據(jù)中臺的過程中,需要預先根據(jù)學校的業(yè)務對數(shù)據(jù)進行全面建模,建立各種主題數(shù)據(jù)庫,如教工主題庫、學生主題庫等,這些主題庫的結構、數(shù)據(jù)類型等即構成了各種主題域模型。如果有具體的應用需求,可以在主題庫的基礎上構建各類支撐特定應用的專題數(shù)據(jù)庫,這些專題數(shù)據(jù)就形成了各種數(shù)據(jù)的聚合。經過治理后的數(shù)據(jù),會根據(jù)所屬的主題域模型,進入到不同的主題數(shù)據(jù)庫中。可見,經過一系列數(shù)據(jù)操作,數(shù)據(jù)在邏輯上被劃分為各個不同的層次。
如果用SL、BL、TL和ZL分別表示貼源層、標準層、主題層和專題層,則存在DP={SL,BL,TL,ZL},根據(jù)不同層之間的邏輯關系,數(shù)據(jù)的具體流向為:SL→BL→TL→ZL,各層的歷史數(shù)據(jù)定期在歷史庫中歸檔,各個層都是存儲數(shù)據(jù)集的邏輯區(qū)域。可見,數(shù)據(jù)中臺不僅是各種技術的集合體,同時也是各種數(shù)據(jù)邏輯層的集合體,各層之間的邏輯關系和數(shù)據(jù)流向如圖2所示。

圖2 總體邏輯信息架構和數(shù)據(jù)流圖
從圖2中可以看出,數(shù)據(jù)首先從內部或外部的各種數(shù)據(jù)源進入到貼源層中,此過程可能會有必要的數(shù)據(jù)類型轉換操作,該層保存了全量的原始數(shù)據(jù),所有數(shù)據(jù)表的庫表結構及數(shù)據(jù)內容與數(shù)據(jù)源保持一致。隨后,數(shù)據(jù)會進入到標準層,該層對數(shù)據(jù)進行標準代碼轉換、清洗過濾等操作,為后續(xù)的數(shù)據(jù)抽取做準備,這里保存了數(shù)據(jù)表在做標準轉換之后和數(shù)據(jù)整合之前的狀態(tài)。經過標準化處理后的數(shù)據(jù),可以進入到主題層中,但在所有數(shù)據(jù)進入相關主題域之前,需要根據(jù)其存儲的數(shù)據(jù)內容,判斷其屬于哪個主題域并存放在各自的主題域下,該層包含有最細粒度的原子數(shù)據(jù),也包含經過簡單計算和匯總的數(shù)據(jù)。為了服務于特定的應用,主題庫的數(shù)據(jù)可以進一步生成特定的專題庫,對應存放在中臺的專題層中,有時為滿足時效性等需求,專題層的數(shù)據(jù)可直接取自于貼源層,該層主要存放面向最終應用的數(shù)據(jù),應用對數(shù)據(jù)進行的一系列操作也在該層中完成。
所有數(shù)據(jù)層的數(shù)據(jù)最終都會通過定期抽取存儲到歷史數(shù)據(jù)庫中,這樣可以減小各數(shù)據(jù)層的大小,提高數(shù)據(jù)讀寫效率,同時能滿足對離線歷史數(shù)據(jù)查詢的需求,避免對源數(shù)據(jù)的重復抽取。
在數(shù)據(jù)中臺的主題層中,可以根據(jù)業(yè)務場景,通過歸納、抽象,建立相應的主題域模型[7]。參考國標高校數(shù)據(jù)集,對于高校的業(yè)務活動,可以建立組織、人員、教學、科研、資產、財務和服務等主題域模型。首先對高校進行全域的邏輯模型設計,給出若干邏輯實體,然后設計相應的物理模型,即主題庫和物理實體表,并為每一張表開發(fā)數(shù)據(jù)抽取、轉換和加載(Extract-Transform-Load,ETL)的映射關系,同時根據(jù)表的數(shù)據(jù)特征,制定不同的ETL策略。
在專題層中,針對高校的具體應用場景,可以在主題域的基礎上,就某個特定的具體應用,建立單獨的專題域模型,如迎新、離校等專題域模型。
可見,數(shù)據(jù)中臺的數(shù)據(jù)模型包含主題域模型和專題域模型。用D來表示數(shù)據(jù),L表示數(shù)據(jù)項,M表示數(shù)據(jù)模型,S表示數(shù)據(jù)服務,假設存在n個數(shù)據(jù)項,則所有的數(shù)據(jù)項可以用一個向量來表示為:
類似地,存在﹛mi,
可見,S、M、L和D共同構成了一個樹形結構,表明與特定服務相關的所有模型、數(shù)據(jù)項和數(shù)據(jù)的集合,存在DS={D,L,M,S},構建了從數(shù)據(jù)→數(shù)據(jù)項→模型→服務的層次體系結構,其邏輯結構如圖3所示。

圖3 數(shù)據(jù)服務體系層次結構圖
從圖3可以看出,數(shù)據(jù)中臺不再直接提供數(shù)據(jù),而是提供接口服務,接口不屬于某個特定的數(shù)據(jù)應用,而是部署在統(tǒng)一的數(shù)據(jù)服務中,而且接口可以在不同的數(shù)據(jù)應用之間進行共享。可見,數(shù)據(jù)服務打通了數(shù)據(jù)和應用之間的訪問鏈路,建立了從數(shù)據(jù)應用到數(shù)據(jù)中臺的全鏈路數(shù)據(jù)血緣關系,從而構建了基于(D,L,M,S)層次結構的,包含了服務封裝、服務發(fā)布和服務授權的數(shù)據(jù)服務體系。通過該數(shù)據(jù)服務體系,可以在數(shù)據(jù)模型的基礎上,為新系統(tǒng)的構建快速提供基礎數(shù)據(jù),協(xié)助新系統(tǒng)更快上線。
另外,在數(shù)據(jù)中臺中,通過建立主題域模型,基于元數(shù)據(jù)和規(guī)范定義進行建模,構建主題邏輯表,提供主題式的數(shù)據(jù)服務,通過統(tǒng)一的數(shù)據(jù)接入層,屏蔽多種異構數(shù)據(jù)源,可以實現(xiàn)跨源數(shù)據(jù)服務[8]。經過封裝的數(shù)據(jù)服務,可以由不同應用系統(tǒng)調用,實現(xiàn)靈活的數(shù)據(jù)共享,減少重復開發(fā),滿足不同應用數(shù)據(jù)在時效性、開發(fā)成本等方面的要求,還可以提供一站式數(shù)據(jù)查詢和分析等服務。
數(shù)據(jù)中臺匯聚了各類業(yè)務系統(tǒng)的數(shù)據(jù),經過數(shù)據(jù)治理和數(shù)據(jù)加工,形成了各類主題數(shù)據(jù)和專題數(shù)據(jù),尤其是專題數(shù)據(jù),可以為某個特定應用場景提供數(shù)據(jù)支撐服務。如數(shù)據(jù)中臺支撐數(shù)字迎新系統(tǒng)的構建和運行就是一個典型的案例。數(shù)字迎新流程涉及學校的多個業(yè)務部門,需要使用各個部門的數(shù)據(jù)來共同完成迎新過程,在這樣的場景中,傳統(tǒng)的、功能單一的共享數(shù)據(jù)平臺已經無法滿足要求,而匯集了數(shù)據(jù)集成、數(shù)據(jù)處理和數(shù)據(jù)服務功能的數(shù)據(jù)中臺可以輕松完成任務[9]。
一般而言,迎新的業(yè)務流程是新生在各個部門辦理各種報到手續(xù)的過程,與此同時,新生的各種數(shù)據(jù)也同步在各個部門之間進行流轉,這便形成了迎新的數(shù)據(jù)流。從招生、教務、宿管、人武部、信息中心、財務、學工到學院等,各個環(huán)節(jié)都會分享和生成相關數(shù)據(jù)。在迎新辦理現(xiàn)場,新生的實時報到數(shù)據(jù)還會在相應環(huán)節(jié)進行實時交互,這些數(shù)據(jù)來自于諸多不同的業(yè)務系統(tǒng),這些系統(tǒng)的數(shù)據(jù)在結構、形式等方面并不統(tǒng)一,無法完成數(shù)據(jù)的直接交互處理。如果采用基于數(shù)據(jù)中臺的模式來構建迎新系統(tǒng),可以在統(tǒng)一數(shù)據(jù)標準和數(shù)據(jù)服務的前提下,模塊化地搭建迎新系統(tǒng)的各個功能,采用大中臺、小應用的模式,快速構建各個階段的數(shù)據(jù)處理任務[10]。
基于數(shù)據(jù)中臺的迎新系統(tǒng)架構如圖4所示,可見數(shù)據(jù)的流向為各個數(shù)據(jù)源→數(shù)據(jù)中臺→各業(yè)務平臺→各迎新應用,參照數(shù)據(jù)中臺的作用,這里的各類業(yè)務平臺共同組成了業(yè)務中臺,可以理解為,迎新所涉及的各類應用是在數(shù)據(jù)中臺和業(yè)務中臺的基礎上快速構建起來的。比如站群平臺可以構建PC端和移動端的迎新網站,消息平臺可以構建迎新系統(tǒng)中各種消息推送,身份認證可以用于迎新系統(tǒng)中人員的身份登錄授權,繳費平臺可以用于迎新中各類繳費業(yè)務,流程平臺可以用于迎新中各種跨部門的流程應用,業(yè)務中臺的所有數(shù)據(jù)都來源于數(shù)據(jù)中臺,所以,迎新系統(tǒng)各個功能模塊的構建可以從這些大的已有平臺中直接生成,這樣不僅能減少重復開發(fā),還能實現(xiàn)應用的快速靈活構建。

圖4 迎新系統(tǒng)架構圖
從數(shù)據(jù)中臺的角度看,構建類似迎新這類跨部門流程的系統(tǒng)可以按如下步驟進行:
(1)將迎新所涉及的各業(yè)務系統(tǒng)的數(shù)據(jù)通過數(shù)據(jù)采集模塊集成到數(shù)據(jù)湖中。
(2)根據(jù)數(shù)據(jù)中臺的數(shù)據(jù)標準對這些數(shù)據(jù)進行清洗和過濾等操作,形成統(tǒng)一的標準化數(shù)據(jù)。
(3)依據(jù)不同的類別,將這些數(shù)據(jù)分別歸屬到不同的主題域中。
(4)生成迎新專題庫,后續(xù)所有和迎新相關的數(shù)據(jù)操作都將在該專題庫中完成。
(5)在專題庫的基礎上,定制相應的數(shù)據(jù)服務接口,用于外部程序訪問數(shù)據(jù)中臺的數(shù)據(jù)。
(6)利用現(xiàn)有各類公共平臺的能力,構建迎新業(yè)務的通用功能模塊,如身份認證等。
(7)利用門戶的集成能力,整合上述各類功能模塊,為用戶提供個性化的、統(tǒng)一的服務入口。
通過上述步驟,可以在數(shù)據(jù)中臺結合各類業(yè)務平臺的能力,快速拼裝式地構建一個迎新系統(tǒng),結合數(shù)據(jù)中臺的大數(shù)據(jù)分析能力,為迎新提供實時的數(shù)據(jù)處理和分析能力,同時由于各個模塊之間是松耦合的關系,后續(xù)在統(tǒng)一數(shù)據(jù)中臺的支撐下,可以隨意升級各模塊的功能,不會影響整體的迎新服務。
數(shù)據(jù)越來越多,也越來越重要,這一切都為中臺孕育了很好的土壤,尤其在高校里,業(yè)務部門眾多,業(yè)務系統(tǒng)繁雜,對于數(shù)據(jù)的采集和治理都是一個不小的挑戰(zhàn)。隨著圖像、視頻等應用的增多,對于非結構化數(shù)據(jù)的處理要求也越來越高,另外各類大數(shù)據(jù)分析以及實時的數(shù)據(jù)交互等都是不小的挑戰(zhàn),對于這些而言,數(shù)據(jù)中臺都可以輕松化解。但是高校數(shù)據(jù)中臺的建設不能一蹴而就,應該是一個循序漸進的過程,屬于技術和管理結合的綜合范疇。從技術上講,需要有數(shù)據(jù)庫、數(shù)據(jù)抽取工具、數(shù)據(jù)治理平臺、數(shù)據(jù)接口平臺和數(shù)據(jù)分析平臺等;從管理上講,需要協(xié)調各業(yè)務部門配合提供數(shù)據(jù),合理使用數(shù)據(jù),數(shù)據(jù)流的每個環(huán)節(jié)都在中臺里扮演著重要的角色。作為學校的數(shù)據(jù)中樞和數(shù)據(jù)加工工廠,中臺將匯集所有的數(shù)據(jù),這些數(shù)據(jù)經過一系列標準化處理之后,再分享到學校日常活動的各個環(huán)節(jié)。
高校的數(shù)據(jù)孤島現(xiàn)象可以在數(shù)據(jù)中臺的驅動下逐步得到改善,高校的信息化建設模式也可以在中臺的影響下逐步發(fā)生改變,大中臺、小應用的模式將來會逐步取代如今各個龐大臃腫的系統(tǒng),換來系統(tǒng)的快速迭代和需求的快速響應。中臺的成熟應用,將會使得高校的數(shù)字化轉型進入到一個加速車道,高校的信息化建設也將進入到一個飛速發(fā)展時期,逐步向更高階段跨越。