盤錦職業技術學院 王菊 鄭黎明 魏孔鵬
隨著職業院校信息化的不斷發展,職業院校數據呈現更多元化的狀態,傳統的業務系統建設模式已不足以滿足職業院校當下對于數據深層次挖掘利用需求,同時在大數據的背景下,數據的隱私和安全也是需要核心保障的。而對于以上兩點的需求,傳統的主數據平臺(數據中心)建設模式無論是從能夠容納的數據體量以及數據供給的模式均無法滿足需求。有鑒于此,針對職業院校信息化的特點,有針對性地提出了職業院校數據中臺的建設模式,解決數據的存儲、連通、使用三類核心問題。
職業院校在數據治理方面區別于本科院校的地方在于,一是信息化技術基礎比較薄弱[1],信息化技術人員的經驗和能力較為欠缺,二是職業院校雖然師生人數、辦學水平等比如本科院校,但是由于職業院校基于人才實踐能力的培養,在實驗實訓方面的建設[2]要優于本科院校,與之相對于的是對實驗實訓方面的信息化建設平臺、軟件和架構是本科院校沒有的。基于以上兩點,職業院校進行數據治理所面臨的場景更復雜,遇到的困難更多。有鑒于此,構建適合職業院校的數據治理模型,需要更扎實的研究和實踐,以期解決數據孤島、數據協調、數據來源、數據發布和數據質量這5類問題,以及數據治理過程中遇到的數據采集、治理數據、發布數據、管理數據和分析數據這5類問題,最后形成以下5個體系:數據標準體系、數據資產體系、知識庫體系、數據處理分析體系、制度規范體系。
職業院校數據治理框架的設計面臨兩種情況:一種情況是職業院校的信息化建設剛剛開始,這樣可以從基礎上構建一套可適應未來的數據治理框架,另一種是職業院校經過多年的信息化建設,已經自主開發或者購置多套信息化系統,積累了分屬不同系統的數據。第一種情況對于設計數據治理框架相對簡單,因為不存在第二種情況的數據孤島、數據標準不統一、數據來源不一致的問題。現在從技術角度出發,數據中臺是比較適合職業院校數據治理框架的平臺和標準。
具體而說,數據中臺并不是一個跨時代的全新理念,其建設的基礎還是數據倉庫和數據中心,在數倉模型的設計上也是一脈傳承,但在傳統的建設模式上升級了底層架構,并通過配套的工具進行組合,形成數據從采集、存儲、計算、使用、管理等環節的閉環,進一步降低數據的使用門檻。
數據中臺安裝從底層到高層的逐層設計,依次為數據源層、數據采集處理層、數據倉庫平臺層、數據應用層。
數據源層包括MIS系統結構化數據、外部數據、日志數據、線下表格數據等。其中MIS系統結構化數據來源于職業院校前期建設(自主研發或者購買)的各信息化系統的數據,不同職業院校所擁有的信息系統不同,但是大體上包括以下全部或者部分系統:教務系統[3]、學生工作管理系統、招生系統、校友系統、財務系統、OA系統、一卡通系統、資產系統、圖書館系統、人事系統、科研系統、就業系統、第二成績單系統、實驗實訓管理系統等。外部數據包括來自于Web、論壇、微博等的數據。日志數據[4]包括上網行為、無線WiFi、網絡安全、服務系統、上網認證、數據庫等數據。線下表格數據是不同的信息化系統中導出的數據,或者沒有被信息化系統覆蓋的各部門之間傳遞數據,或者職業院校向上級主管部門體檢的Excel數據。
數據采集處理層包括數據治理工具和日志處理工具。數據源層的不同結構的數據通過不同的處理方法被采集到數據采集處理層進行處理,比如MIS系統結構化數據通過ETL工具[5]進行采集,線下表格數據通過線下數據采集進行采集、外部數據通過爬蟲[6]進行采集、日志數據通過Flume進行采集。數據質量工具包括:數據標準管理(制定數據標準)、元數據管理(元數據采集)、數據任務監控(盤點采集數據)、主數據管理(數據分類建模)、數據質量管理(質量檢查修正)、數據共享交換(主題數據入庫)。日志處理工具包括:日志存儲、數據解析、數據關聯、數據透視、檢索計算、數據可視化。
數據采集處理層通過數據治理工具得到的數據治理輸出成果包括管理規范體系、數據標準體系和數據管理知識庫體系。其中管理規范體系包括數據標準遵從、標準內容管理、標準發布更新、權威數據責任、數據質量保障、數據安全職責、應用開發規范、交換共享規范。數據標準體系包括:元數據模型、標準代碼集、編碼規范、對象命名規范、接口交換標準、數據質量標準。數據管理知識庫體系包括:數據資產目錄、元數據庫、數據UC矩陣、數據血緣關系、質量規則庫、數據質量報告。
數據倉庫平臺層通過數據資產管理子系統構建統一數據管理平臺,從下到上包括關系型數據庫、大數據組件、數據倉庫、數據管理和數據供給。關系型數據庫包括:Oracle、MySQL等,大數據組件包括分布式計算、分布式存儲、高速檢索、高速緩存、機器學習、NoSQL、流失計算、資源管理。數據倉庫包括主題數據、派生數據、歷史數據。數據管理包括數據封裝、接口發布、數據授權、計算模型、數據模型、應用管理、隱私加密和用戶管理。數據供給包括DB接口、API接口[7]、文件輸出。
數據應用層包括統一數據應用平臺和智慧校園應用兩部分。數據倉庫平臺層通過數據供給的DB接口、API接口和文件輸出提供數據給數據應用層的統一數據應用平臺。統一數據應用平臺從下到上包括應用服務、應用工具和應用容器。應用服務包括API對接、消息推送、定時任務、安全加密、多級緩存、運維監控。應用工具包括可視化設計、計算編排、頁面生成。應用容器包括統一UI、統一權限、統一體驗。統一數據應用平臺通過應用容器開發智慧校園應用,包括數據可視化分析、學生個人數據中心、教師個人數據中心、綜合校情決策支持、一站式服務平臺[8]及其他應用。
數據是一個組織唯一的、非耗竭的、無減損的長期資產。數據治理是一種體系,從范圍來講,數據治理涵蓋了從前端事務處理系統、后端業務數據庫到終端的數據分析,從源頭到終端再回到源頭形成一個閉環負反饋系統(控制理論中趨穩的系統)。從目前來講,數據治理就是要對數據的獲取、處理、使用進行有效管理,從發現、監督、控制、溝通、整合等方面構建組織數據資產。
“十三五”建設目標中智慧校園[9]的高質量運行需要多維、完善、準確的數據來支撐,而當前職業院校的數據現狀與此要求相比,還存在很大的差距。主要表現在:數據標準不統一、數據孤島普遍、數據治理不高、不夠完善、來源不清、管理發布共享困難等。本質原因是傳統數字化校園建設中“重流程、輕數據、缺標準”的歷史狀況所致。學校作為數據的生產、持有和使用的主體,面對這些紛繁雜亂、若隱若現、捉摸不定的數據,難以關聯、統計、分析、挖掘,更無法形成整體數據資源,數據的價值更加得不到充分高效的開發利用,管理水平難以提升,重要決策難以支撐。這種情況下,“智慧校園”的推進收效甚微。
針對職業院校普遍存在的“數據問題”,探索研究了建立基于數據中臺建設的完整的數據治理解決方案。方案對職業院校內外的全量數據進行盤點、梳理、采集、整合、清洗和標準化,建立一個標準統一規范、來源權威穩定、數據高度融合、數據治理可靠的全量數據平臺,實現對數據的全面采集、規范建模、質量提升、安全存儲、可控共享和充分應用。
數據治理主要活動包括設計職業院校校級數據標準,全量采集各種管理業務數據、電子表格數據、日志數據等,并對數據質量進行驗核,針對質量問題進行清洗、轉換、去重、補漏、糾錯等操作,再按照標準模型和標準代碼進行統一建模存儲,形成戰略級數據資產,并由大數據平臺進行承載和運營發布。
通過開發數據治理工具軟件、表格數據處理軟件、日志數據處理軟件、大數據平臺,可以使整個治理過程可靠、可控、可視化,降低了數據治理的技術難度,顯著提升了工作效率。同時,通過提供管理咨詢服務和頂層架構設計,形成數據標準體系、數據工具體系、數據管理知識庫體系和數據管理流程[10]制度體系,使數據資產成果能夠長期持續、可繼承、迭代和完善。
基于治理后形成的全量、標準化、高質量的數據資產,利用數據統計、機器學習、人工智能等大數據相關技術,實現各種微觀、中觀、宏觀尺度的統計、挖掘、分析、預測,為廣大高職院校師生、各個業務部門、各級領導提供數據化、智能化的智慧校園服務。
數據治理是一個具有多個業務系統、復雜數據的組織解決數據問題的唯一出路,對于高職院校,數據來源的獲得、數據標準的制定、數據治理的技術人員的招聘和培訓等各方面都有難度,所以構建一個適應職業院校的數據治理架構模型至關重要。在此之上才能打好職業院校信息化和智能化的基礎。