
[摘" " 要] 近年來,我國高校信息化開始進入智慧校園建設階段,數據的價值開始凸顯,數據工作的重要性日益增加,一些高校購置了名目繁多的數據中臺、大數據平臺,建設了各類統一數據庫、數據倉庫、數據集市、數據湖等,然而,高校的數據中心往往人力資源有限,不少數據相關的平臺或系統在運行一段時間后,即陷入持續的運維投入和發揮的價值不相匹配的境地,對學校整體數據建設產生不利的影響。基于此,文章總結了筆者多年從事高校數據建設工作的經驗和教訓,刪繁就簡,探索提出了“一庫四平臺”的數據建設模式,經在本校實踐驗證,該模式具有功能全面、易用、易擴展的特點,有效提高了利用學校各類業務數據服務教學科研和發展規劃的水平。
[關鍵詞] 智慧校園;數據治理;信息化
doi : 10 . 3969 / j . issn . 1673 - 0194. 2023. 07. 052
[中圖分類號] TP311;G647" " [文獻標識碼]" A" " " [文章編號]" 1673 - 0194(2023)07- 0187- 04
0" " " 引" " 言
對于我國高校信息化發展的歷程,清華大學信息化技術中心蔣東興教授研究團隊在2017年發表的《高校智慧校園成熟度模型與評價指標體系研究》[1]中進行了總結:我國高校信息化經過近三十年的建設,經歷了以單機版信息系統為特征的電算化階段、以網絡建設為重心的校園網絡建設階段、以電子校務系統建設與集成為重點的數字校園建設階段,每個階段都是十年左右。研究同時指出:2016年左右,我國高校信息化建設開始發生明顯變化,大數據、人工智能、物聯網、移動互聯、云計算、知識管理、社交網絡、虛擬現實等新興信息技術被廣泛應用,業務流程優化和服務整合、大數據支持科學決策得到普遍重視,信息技術越來越深入地融入高校的教育教學業務中,向教育教學全面信息化發展,信息技術與教育教學的關系從組合、整合演進到融合創新,高校信息化開始進入智慧校園建設階段。
結合作者工作的高校來看,信息化建設歷程也基本與之契合。2015年左右,我校教務、學工、人事、科研、門禁、校園卡等重要業務系統紛紛改版上線,通過業務系統自身豐富的功能給師生學習工作帶來便利;另一方面,這些業務系統在當時也形成了一個個信息孤島,難以實現跨系統、跨部門的業務流轉,隨即,網上辦事中心應運而生,辦事流程的開發和應用彌補了這一短板。隨著信息化建設的推進,“數據多跑路,師生少跑腿”的呼聲越來越高,數據的價值開始凸顯,數據工作的重要性日益增加,對數據的綜合治理和利用成了我校當前信息化和數據工作的重點。[2]通過調研和工作交流,作者了解到,目前很多高校也進展于此。[3-4]一些高校購置了名目繁多的數據中臺、大數據平臺,建設了各類統一數據庫、數據倉庫、數據集市、數據湖等,然而,高校的數據中心往往人力資源有限,不少數據相關的平臺或系統在運行一段時間后,即陷入持續的運維投入和發揮的價值不相匹配的境地,對學校整體數據建設產生不利的影響。基于此,文章總結了筆者多年從事高校數據建設工作的經驗和教訓,刪繁就簡,探索提出了“一庫四平臺”的數據建設模式,經在本校實踐驗證,該模式具有功能全面、易用、易擴展的特點,有效地提高了利用學校各類業務數據服務教學科研和發展規劃的水平。
1" " " “一庫四平臺”概述
“一庫四平臺”是指由中心數據庫、數據交換平臺、數據庫管理平臺、數據可視化平臺、文件類數據采集平臺組合而成的數據建設模式,將數據的采集、存儲、處理、傳輸、分析等功能有機地銜接起來,做到統籌設計、綜合管理、高效利用。結合當前市場產品及技術來看,“一庫四平臺”已是“小而精”的配置,其五大功能模塊相輔相成,互相協作共同完成從數據源頭治理、交換、再到存儲和利用等各個階段的工作。
“一庫四平臺”的架構如圖1所示。以下本文就“一庫四平臺”的關鍵功能、選擇和使用方面分別進行闡述。
2" " " 一庫:中心數據庫
建立一個中心數據庫[5],具備共享數據庫和數據倉庫的功能。通過數據交換,中心數據庫存儲來自各業務系統數據庫的重要和有價值數據,同時將存儲的數據提供給其他業務系統使用。從技術角度來說,中心數據庫就是一個數據庫系統,與各業務系統數據庫并無二致,常見的ORACLE、MySQL等數據庫產品都能勝任,只需綜合考慮技術力量和偏好選擇其一即可;從業務角度來說,中心數據庫又與各業務系統數據庫明顯不同,它處于核心位置,數據吞吐量更大、對穩定性要求更高、存儲的數據和發揮的作用更加重要,需要數據專業人員日常頻繁操作和進行重點運維保障。
一般高校的業務場景中很少涉及超大的數據量,在偶有遇到大數據量應用場景的情況下,也應該先在業務系統數據庫端進行數據預處理和規范化,再交換至中心數據庫。因此,根據“夠用為主,適度富余”的原則,并不建議建立多個中心數據庫,原因主要有三點:第一,多個中心數據庫之間跨庫數據操作不便,數據更難同步;第二,多個中心數據庫意味著多套權限配置,增加數據安全風險;第三,多個中心數據庫也帶來更多的運維工作,在有限的人力條件下,集中精力確保一個中心數據庫的數據及時、準確、全面和規范是最優選擇。
3" " " 四平臺:數據交換平臺、數據庫管理平臺、數據可視化平臺、文件類數據采集平臺
3.1" "數據交換平臺
數據交換平臺[6]承擔各數據庫之間的數據交換任務,是打通數據孤島的ETL工具,要求功能強大、安全穩定、便捷高效。目前市場上國內外數據交換相關產品較多,常見的有ODI、KETTLE、達夢DM ETL等,各自具有不同的產品優勢,可結合數據業務的特點進行選擇。
數據交換平臺整體功能須滿足以下幾點要求:第一,可接入的數據源類型豐富,或者可通過擴展來支持某些新類型的數據源;第二,可滿足各種場景的數據交換需求,如全量添加、增量添加、增量同步等;第三,可靈活配置和執行數據交換調度,支持按分鐘、小時、天或自循環調度以及限時間段執行等模式;第四,數據交換結果查詢方便,能精確展示執行結果、執行時間、交換的數據條數等關鍵信息;第五,具備告警機制,將交換不成功的信息及時推送給平臺管理員,幫助平臺管理員精準定位問題;第六,平臺的穩定性與數據交換效率越高越好,至少應符合實際應用需求。
其他的細節功能需滿足以下幾點要求:第一,數據交換支持按任意的主鍵或聯合主鍵字段,而不是僅支持按時間字段或自增字段進行增量添加和增量同步;第二,支持源端為UNION、JOIN、GROUP BY及其多層嵌套等復雜數據視圖的數據交換;第三,支持在源端添加如時間戳、刪除標記等非數據源字段進行數據交換;第四,從數據安全角度,支持數據加密傳輸和數據脫敏處理。
3.2" "數據庫管理平臺
數據庫管理平臺[7]承擔對各數據庫的統一管理任務。因全校各類數據來源于近百個業務系統,對這些業務系統的數據進行管理和利用是一項艱巨的重要工作。當出現一個數據需求時,數據工作人員可通過數據庫管理平臺直接連接相關數據庫查看源數據實際情況,同時聯系業務系統管理員和建設廠商,從整體數據管理的角度綜合分析如何向需求方提供數據更合理,使整個過程準確、高效。
目前市場上數據庫管理平臺類產品較多,如常見的Navicat、PL/SQL等。數據庫管理平臺需滿足以下要求:第一,可管理的數據源類型豐富,或者可通過擴展來支持連接和管理某些新類型的數據源;第二,可同時連接多個不同類型的數據源,能方便地在數據源連接之間切換,進行數據比較;第三,通過SQL代碼操作表或視圖等主要數據庫對象時,有完善的SQL代碼提示;第四,數據表操作時支持按字段排序和篩選,以及便捷的數據增、刪、改、查;第五,支持從文件導入數據到數據庫,數據從數據庫導出到文件等功能。
3.3" "數據可視化平臺
數據可視化平臺[8]承擔對學校各類數據的可視化展示任務。數據可視化平臺展示的數據來源于各數據庫,不僅僅局限于中心數據庫;展示的形式也豐富多樣,如柱狀圖、折線圖、餅圖、地圖分析等。數據可視化平臺是數據利用的有效載體,對發掘數據價值、發現潛在問題、優化管理流程、快速響應決策等具有重要的意義。
常見的數據可視化平臺產品有阿里DataV、FineBI等,在平臺選擇上需注意以下幾點:第一,支持多種類型的數據源;第二,可視化程度高,操作簡便,避免較高的學習成本;第三,可根據需要任意添加多種類型的展示組件、數據大屏;第四,支持配置多表關聯查詢與分析;第五,支持自定義圖表,如開源的EChart圖表代碼;第六,可將制作好的展示圖表發布為公開超鏈接,或根據平臺用戶自身的角色和權限配置不同的查看圖表權限。
3.4" "文件類數據采集平臺
文件類數據采集平臺[9]承擔文件類數據的統一采集任務。當前,學校的絕大部分業務均能通過業務系統或網上辦事中心辦理,產生的數據存儲于數據庫中,通過數據庫管理平臺、數據交換平臺、數據可視化平臺即可管理和利用。但是,仍然有部分涉及面小或暫時需要線下辦理的業務,產生的數據通常以EXCEL等文件類型存儲于業務管理員的工作電腦中,而其他部門對這些數據又有使用需求,因此,還需建立一個文件類數據采集平臺,使線下業務數據也有便捷途徑被規范化采集至數據庫中,從而豐富學校整體數據資源,全面發揮數據作用。
目前市場上針對文件類數據采集的產品較少,但一些報表工具類產品能夠勝任。在選擇和試用該類產品的時候須滿足以下主要條件:第一,支持多種文件類型的數據采集,包括XLSX、TXT、CSV、XML等;第二,支持根據業務需求開發和上線數據采集表格,不同的表格可分配給不同的人員填寫或上傳數據;第三,支持對表格數據設置校驗規則,對未校驗通過的數據明確提示原因;第四,支持配置數據入庫前多層級人員審核;第五,支持歷史版本的數據存儲與查詢;第六,支持操作日志的記錄和追溯。
4" " " “一庫四平臺”應用經驗
“一庫四平臺”在技術架構上可以為高校數據建設提供一個較好的解決方案,同時,在日常的數據管理與操作層面,也對數據工作人員提出了一定的要求。文章總結了“一庫四平臺”在高校應用場景下的管理與使用經驗。
第一,嚴格規范命名數據庫的表、視圖等對象。例如,以“RS_”“KY_”“XG_”開頭的分別表示人事、科研、學工相關的數據表,以“_V”結尾的表示視圖。第二,根據事先約定的規則對數據庫的表、視圖等對象進行規范的注釋,方便使用和維護。第三,針對數據表結構、關聯關系、映射關系、業務邏輯等信息,做好文檔記錄,以及業務調整或人員變更后文檔的更新維護工作。第四,根據數據業務實際情況,可合理應用表索引及物化視圖[10]commit更新方式等,縮短數據操作處理時間。第五,隨著數據業務的調整,及時重新理順數據從源端到使用端的流程,調整相關的數據表或視圖、數據交換接口等,使數據順暢流轉。第六,嚴格規范臨時表的創建與管理,避免后期出現冗余數據表維護困難的問題。
5" " " 結束語
文章探索提出“一庫四平臺”數據建設模式,以期為其他高校信息化建設提供有價值的參考。在實際的數據業務中,面對數據應用需求,應將“一庫四平臺”視為一個有機整體,通盤考慮、統一規劃最優數據流轉路徑;同時,針對高校自身業務的特點,有針對性地優化和調整“一庫四平臺”中各個模塊的配置特性,靈活適配不同的應用場景,充分發揮數據的價值。
主要參考文獻
[1]蔣東興,吳海燕,袁芳,等.高校智慧校園成熟度模型與評價指標體系研究[J].鄭州大學學報(工學版),2017,38(2):1-4.
[2]吳宇平,劉佳.高校人員行動軌跡數據規范化服務快速實現研究[J].科技創新與應用,2021,11(20):64-67.
[3]吳志康.高校數據治理現狀分析及思考[J].網絡安全技術與應用,2022(5):104-105.
[4]邵炤昭,王壯.高校數據治理技術框架研究[J].中國教育網絡,2022(4):65-67.
[5]王珊,薩師煊.數據庫系統概論[M].5版.北京:高等教育出版社,2014.
[6]顏如鉆,施芝元.論高校數字化校園統一數據交換平臺的建設與發展[J].現代計算機,2013(25):61-63,73.
[7]維爾弗里德·勒瑪肖,賽普·凡登·布魚克 .數據庫管理:大數據與小數據的存儲、管理及分析實戰[M].李川,林旺群,郭立坤,等,譯.北京:機械工業出版社,2020.
[8]陳為,沈則潛,陶煜波.數據可視化[M].2版.北京:電子工業出版社,2019.
[9]都迎.8款好用的開源報表工具[J].計算機與網絡,2020,46(22):34-35.
[10]Oracle一體機用戶組.物化視圖使用手冊[EB/OL].https://weibo.com/ttarticle/p/show?id=2309404229374030314407,2018-04-16.