錢喆敏 應鑫迪 高煥江 丁浩然



摘? 要: 數據共享中心是系統間實現數據共享和交換的核心平臺。為了提高數據共享中心的效能和穩定性,針對數據共享中心目前的現狀與不足,提出以數據交換層、共享數據庫、共享數據倉庫為模塊的數據共享中心架構。分別從任務周期管理、數據質量監控、數據規范建設、數據源頭管理、增量同步交換、數據資源目錄等六個角度來提升數據交換管理的水平和質量。通過建設一個穩定、高效的數據共享中心,高校內的數據價值將能得到充分的發揮。
關鍵詞: 數據共享中心; 數據交換層; 共享數據庫; 數據倉庫; 數據交換管理
中圖分類號:TP311.5? ? ? ? ? 文獻標識碼:A? ? ? 文章編號:1006-8228(2021)05-130-04
Analysis of data sharing center in colleges and universities
Qian Zhemin, Ying Xindi, Gao Huanjiang, Ding Haoran
(Information Technology Center of Zhejiang University, Hangzhou, Zhejiang 310012, China)
Abstract: Data sharing center is the core platform for data sharing and exchange between systems. In order to improve the efficiency and stability of data sharing center, aiming at the current situation and shortcomings of data sharing center, a data sharing center architecture with data exchange layer, shared database and shared data warehouse as modules is proposed. The level and quality of data exchange management is promoted by improving the task lifecycle management, data quality monitoring, data standard construction, data source management, incremental synchronous exchange and data resource directory etc. By building a stable and highly efficient data sharing center, the value of data in colleges and universities will be brought into full play.
Key words: data sharing center; data exchange layer; shared database; data warehouse; data exchange management
0 引言
近年來,隨著校園信息化的逐步深入,數據在高校中的作用越來越明顯。更多全校性數據以基礎性查詢服務的形式提供出來,在很大程度上提升了高校教學、科研和行政效率。同時,基于海量數據的智慧型應用也在不斷推廣實踐到校園治理中。如何管理和利用好校園數據已經成為高校信息化建設中無法忽視的重要課題。
在早期數字化發展過程中,各部門大多建立了自己的應用系統,如教務系統、財務系統、人事系統等。這些應用系統很好地滿足了當時職能部門對業務開展的迫切需求。但是由于早期缺乏對學校信息化的頂層規劃和整體設計,各應用系統獨立的垂直型“煙囪式”框架導致了數據只能在系統內流轉而無法實現系統間的常態化互通與共享[1]。而信息化不斷發展,系統間業務的相互依賴性不斷增強,數據交互的場景與需求也越來越多。
以此為背景,數據共享中心[2]作為媒介平臺,其在高校信息化中的作用被凸顯出來。數據共享中心以實現高效、穩定和可靠的數據交換與共享為核心,一方面保證了數據在各業務系統間常態化流轉與查詢,解決高校內“信息孤島”[3]問題,另一方面也為智慧型數據應用提供了支撐作用。
1 數據共享中心現狀與不足
在數據共享中心出現前,系統間發生業務交互時,數據只能通過點對點方式來進行通信。這種交互方式在業務系統數量不斷增加后,會造成各系統間的耦合度逐漸變大,同時也給開發和運維帶來很大負擔。
通過引入數據共享中心作為第三方平臺,所有的業務數據全部基于明確的數據標準和接口規范在該平臺中進行采集和推送。如圖1所示,該模式有效地降低了異構業務系統間數據交互的復雜度。此外,數據共享中心可以通過統一的安全管理策略來避免因各系統間松散且無標準的點對點交互所產生的數據安全隱患問題。
以此為背景,數據共享中心在高校范圍內被廣泛應用。然而,該平臺在應用過程中依然暴露出一些問題。
⑴ 數據交換任務不穩定。采集和推送任務因為資源不足或數據異常發生中斷,出現數據缺失或不同步問題。
⑵ 數據質量問題不達標。數據源頭常出現不滿足規范的問題數據,造成數據質量的低下從而嚴重限制了平臺對外進行數據服務的水平。
⑶ 數據標準執行不規范。問題主要包括兩方面:①數據標準制定后未被嚴格執行;②數據標準變更后在業務系統和數據共享中心間未及時同步。
⑷ 數據源頭管理不到位。單源頭數據選取不合理造成共享庫數據不權威、多源頭數據采集混亂造成共享庫數據發生震蕩等現象的根本原因都是由該問題造成。
⑸ 數據同步方式單一化。目前,數據同步任務以全量同步來為主。該交換方式實現簡單,但任務耗時過長且占用大量平臺和網絡資源。
⑹ 數據資源目錄缺失化。數據資源目錄的缺失造成了平臺內資源管理松散,同時也使得平臺對外暴露資源的能力不足。
2 數據共享中心架構
本章首先闡述了數據共享中心在高校信息化建設框架中的位置與角色,然后對該平臺內的數據交換層、共享數據庫和數據倉庫[4]等模塊進行自下而上的介紹。
2.1 高校信息化建設框架
圖2展示了業務系統、數據共享中心、數據應用在高校信息化架構中的相對位置。從中可以發現,數據共享中心在全校性數據流轉和服務中起核心作用。
向下,數據共享中心承接了與各業務系統數據對接的功能。業務系統即高校各職能部門自建的應用系統,包括教務系統、財務系統、科研系統、人事系統、設備系統、校園卡系統、網絡系統等。業務系統是數據共享中心的數據來源,同樣也是其數據交換的主要服務對象。數據共享中心對各系統內數據進行采集,并將其經過標準化處理后向上推送。
向上,數據共享中心為數據應用提供支撐作用。數據應用主要包括數據基礎服務和數據分析挖掘兩大類。數據基礎服務,依賴于平臺內標準化數據,向全校師生提供綜合服務,包括統一身份認證[5]、個人數字檔案[6]、信息綜合查詢、業務協同辦公等;數據分析挖掘應用如校情分析決策、群體行為分析、流量分析預測、師生個性化服務等,則基于平臺內海量相關性數據進行數據挖掘。數據應用依賴的關聯性數據往往來源于多個維度、多個領域。傳統單一業務系統中的數據無法支持該類應用。而數據共享中心通過對多業務系統數據的采集和聚合可以很好地解決數據應用對多維度、多領域的數據需求。
2.2 數據共享中心建設方案
數據共享中心由數據交換層、共享數據庫和共享數據倉庫等三大模塊組成,如圖3所示。
數據交換層 該模塊作為共享數據庫與業務系統間數據雙向互通的橋梁,在數據流方向上主要分為數據上行流程與數據下行流程。
數據上行流程指源數據從業務系統中通過數據抽取[7]、數據清洗[8]、數據轉換、數據入庫等流程最后存儲至共享數據庫的過程。數據抽取是指數據通過定時請求同步或變更消息監聽等方式被采集至數據中間庫的過程。定時請求同步可通過基于XML和Web-service[9]技術來實現對數據的周期性采集。變更消息監聽則利用了消息隊列服務對數據變更消息進行實時監聽并寫入數據中間庫。數據中間庫的存在使得數據抽取過程與數據清洗和轉換完全解耦,降低ETL過程復雜性。數據清洗將數據中間庫中數據先后通過空值校驗、正確性和重復性驗證、格式匹配等規則進行過濾。數據轉換根據數據標準(包括國標、行標和校標)將來源于不同系統、基于不同標準的數據進行轉換。在完成數據清洗和轉換后,數據最終加載到共享數據庫中。
數據下行流程指數據從共享數據庫下發至業務系統的過程。一般地,數據可通過數據訪問接口或訂閱消息推送等方式進行下發。數據訪問接口由業務系統主動發起遠程過程調用。該方式實現簡單,但當共享庫中數據發生變更時,業務系統無法及時感知而造成數據時效性低下。而訂閱消息推送利用消息中間件服務將數據變更消息推送至業務系統。該方式可使得數據同步時效性更強,但相應的復雜度也更高。
此外,數據交換層還包括了平臺系統管理與數據交換管理。平臺系統管理從系統運維管理、平臺安全管理、角色權限管理、消息隊列管理等方面提升系統平臺的安全性與穩定性。
數據交換管理包括數據標準管理、數據源頭管理、數據質量監控、作業狀態監控、作業調度管理、數據資源目錄、數據訪問管理、接口狀態監控等,致力于提高數據交換任務的穩定,保障數據采集質量,提升數據服務水平。
共享數據庫 該模塊面向事務設計,以操作性數據庫為基礎,承載來自各業務系統的核心數據,遵循統一的數據標準,結合元數據管理手段實現數據的高效管理。該庫以業務類型進行數據劃分,包括教務庫、財務庫、科研庫等。區別于數據的簡單集中,該庫忽略原業務系統中非必要和邊緣化數據,只篩選存儲了需要實現共享的核心數據,且對數據完成標準化處理。各業務系統在請求跨系統數據時均通過數據交換層中的數據訪問接口或訂閱消息推送進程實現對共享數據庫的數據讀取,因此共享數據庫在數據管理上具有權威性和唯一性。
共享數據倉庫 該模塊是面向主題設計的。區別于共享數據庫,數據以主題庫形式在共享數據倉庫中通過數據建模完成分類聚集。同一主題內數據具有強相關性和高聚合度,著重提升平臺數據分析能力。數據根據相關性被構建到同一個業務主題中,以此形成對同一對象的多維度數據描述。以“學生主題”為例的人員主題庫將所有與學生學號相關聯的核心數據聚合集中到同一個庫中,如學生基本信息、課程信息、成績信息、消費信息等。這樣的聚合數據一方面可以快速實現學生綜合信息查詢,另一方面可以實現多維度的學生個體分析。共享數據倉庫的建立,將有效提高全校性數據綜合查詢水平,并可為數據分析挖掘服務提供支撐作用。
3 數據交換管理優化
數據交換是數據共享中心中的核心功能。因此,本章提出針對數據交換層中數據交換管理的優化措施,來解決數據共享中心中存在的問題。
⑴ 加強數據交換任務生命周期管理,提升任務穩定性。通過作業調度管理加強對交換任務的調度編排管理,包括在任務優先級、任務執行周期、任務關系依賴等方面實現可配置化管理。同時實現對任務全周期的作業狀態監控。對任務當前流程節點和作業狀態的監控可以在異常發生時實現對問題的快速定位與管控。
⑵ 以數據質量監控為手段形成閉環的數據維護模式。依據數據質量監控手段將數據清洗和轉換過程中過濾出的問題數據以線上流程的方式反饋至數據源頭部門進行人工處理(修訂或刪除)后再提交,實現在業務系統和數據共享中心之間形成閉環且常態化的數據維護模式,有效解決數據質量問題。
⑶ 以數據規范為基礎,結合技術手段加強數據標準的嚴格執行。通過制定和發布權威的數據標準規范,建立數據“誰生產誰負責”的原則,由業務部門負責維護和更新系統內數據編碼規則以及與數據標準間的轉換映射關系。結合技術手段建立全校性統一的數據規范維護更新入口,保證數據負責人對數據規范的維護和更新實現流程化、常態化、簡單化。
⑷ 嚴格控制數據共享中心中數據源頭的單一來源,以保證數據的權威性和正確性。以學校人事基本數據為例,人員基礎信息普遍存在于各職能部門的系統數據之中,而將人事處數據作為該類數據的唯一權威數據來源可以有效避免同業務類型數據從不同業務系統中被采集到數據共享中心后產生潛在的歧義性。
⑸ 實現數據增量同步,提升平臺內交換任務的執行效率。改造業務系統數據庫,增加時間戳字段記錄數據變更時間是實現增量同步的有效手段。此外利用消息中間件技術來監聽數據變更情況也可以實現快速的增量同步。增量數據同步方式提升數據交換效率的同時,也對業務系統和數據共享中心間的系統協同性提出了更高要求。
⑹ 建設數據資源目錄,以目錄化方式管理和展現全校性數據資源。通過數據資源目錄的建設可以使得松散化的數據資源具有更好的條理性和組織性,一方面有利于提升管理員對數據資源的管理能力和效率,另一方面將數據資源以目錄化形式對外展現,可以進一步推廣和應用全校性共享數據。
4 結束語
數據共享中心是高校信息化中的核心工程,能夠起到消除高校信息化孤島、實現系統間數據共享的重要作用,同時也有助于實現校園智慧型數據應用的快速發展。本文分析了數據共享中心的現狀與不足,描述了該平臺在高校信息化業務架構中的位置與角色,并從數據交換層、共享數據庫、共享數據倉庫等三個模塊介紹了數據共享中心的建設方案。提出了數據共享中心中數據交換管理的優化措施和建設方案,旨在提升數據共享中心的穩定性、可靠性和高效性。
參考文獻(References):
[1] 劉寶妹,陳美玲,白興瑞.智慧校園共享數據中心建設研究[J].中國教育信息化,2020.7:70-73
[2] 許鑫,蘇新寧,吳乃岡.高校共享數據中心平臺的設計與實現[J].現代圖書情報技術,2005.6:48-53
[3] 李希明,土麗艷,金科.從信息孤島的形成談數字資源整合的作用[J].圖書館論壇,2003.6:121-122,61
[4] 胡侃,夏紹瑋.基于大型數據倉庫的數據采掘:研究綜述[J].軟件學報,1998.1:3-5
[5] 常潘,沈富可.基于LDAP的校園網統一身份認證的實現[J].計算機工程,2007.5:281-282,285
[6] 周耀林,趙躍.基于個人云存儲服務的數字存檔策略研究[J].圖書館建設,2014.6:21-24,30
[7] 徐俊剛,裴瑩.數據ETL研究綜述[J].計算機科學,2011.38(4):15-20
[8] 郭志懋,周傲英.數據質量和數據清洗研究綜述[J].軟件學報,2002.11:2076-2082
[9] 尹兆冰,王加陽.Web Service及其關鍵技術研究綜述[J].軟件導刊,2010.9(2):121-123
[10] 李艷春,李新,焦文彬.分布式信息系統中數據交換平臺設計與實現[J].計算機工程與設計,2012.33(7):2640-2645