黃安 鄧明體



作者簡介:黃安,1984年生,廣西南寧人,研究生,講師,研究方向為計算機應用與軟件開發;鄧明體,1986年生,通訊作者,廣西百色人,本科,高級工程師,研究方向為計算機應用與軟件開發。
摘 要:當前,高職院校的信息管理數據日益增長。高職院校要充分利用信息管理數據,挖掘其潛在價值,可以從管理元數據入手,設計一個科學的數據治理模型,建設數據管理平臺,以此促進高職院校的數字化轉型發展。該研究以廣西水利電力職業技術學院數據管理平臺為實例,提出在區塊鏈視角下的高職院校數據治理思路,闡述元數據管理、數據集成等治理工作的開展方法,認為高職院校可基于模塊化思想建設數據管理平臺,重點對元數據進行管理,開展數據管理可視化建設,形成適合高職院校的數據治理模式。
關鍵詞:區塊鏈;數據治理;數字校園建設;高職院校
中圖分類號:G64 文獻標識碼:A 文章編號:0450-9889(2024)09-0079-05
近年來,高職院校對數據信息化的要求不斷提高,高職院校各類信息平臺優化升級迫在眉睫。構建高職院校數據治理平臺成為滿足學校各部門數據共享需求的現行主流解決方案。從智慧校園的角度來看,現階段高職院校數據治理平臺對數據的處理普遍存在隱私性難以保證、缺乏語義、比較零散、缺乏模型復用、體系不夠完善等問題。因此,選擇一種人機交互性更強的語義數據治理方式進行高職院校業務領域中知識共享的相關研究,對高職院校數據治理平臺的建設及高職院校數字化轉型的發展非常重要。本研究基于區塊鏈[1]視角,結合當前主流數據治理框架構建高職院校數據治理模型,嘗試利用區塊鏈優勢并結合Kettle[2]數據轉換工具的長處,開發適合高職院校的數據治理平臺,以期為高職院校數字化轉型提供支持。
一、區塊鏈和數據治理簡述
(一)區塊鏈
區塊鏈相當于一個去中介化的數據庫,它由一串數據塊組成,采用分布式數據存儲,是多種技術的創新應用模式。通俗地說,可以把區塊鏈當成一種分布式“財務記賬本”。這種“財務記賬本”分布在多個網絡節點中,具有防篡改的功能。
區塊鏈顛覆了傳統的信息系統建設模式。可將互聯網比作一個可隨時參加的多人交流會,當個人或多人發生了信息改變,他們會公布信息,交流會成員可以將信息記錄在自己的加密小本子上,任何人均可查閱小本子但不能修改。而當大家需要選擇正確信息時,可以查看所有人的小本子并選擇多數人記錄相同的信息。每個人的小本子就相當于區塊,交流會就相當于用鏈條把這些小本子串聯起來,由此形成了區塊鏈。這是使用區塊鏈技術解決方案的優勢,利用區塊鏈沒有中心、沒有隱藏、沒有不信任等特點,實現沒有丟失、沒有操控的模式,從而給高職院校數字化轉型提供全新的方案。
區塊鏈包含了公有鏈、聯盟鏈、私有鏈。公有鏈是由每一個參與其中的人自由組成,任何人都可以隨時進入或者退出,沒有任何限制,但進入或退出期間的信息會被參與的人所知道或記錄。聯盟鏈是由多個人或多個團體自行組建,參與的人或團體是事先指定或是后期經過審核才能進入,它有一定的準入機制,其信息的寫入與讀取權限由組建的人或團體決定。私有鏈相當于個人或某一單位利用區塊鏈的技術存儲信息,只有本人或本單位有寫入信息的權限和決定信息是否對外公開的權限。
區塊鏈具有以下特征:(1)沒有中心[3]。區塊鏈技術不依賴某一個人或某一方,它沒有中心,也可以說每一個用戶都是中心,因為其信息存在每一個用戶的手中,沒有所謂的信息集中的地方。(2)沒有隱藏。依托區塊鏈技術,每一個用戶都可以查看、核對、記錄公開的信息。(3)沒有不信任。區塊鏈技術為每一個用戶都提供了一本相同的小本子,用戶可以通過自己的本子或是其他大部分用戶的本子查看或核對相關信息,無法欺騙,信任問題因此迎刃而解。(4)沒有丟失。區塊鏈技術解決了信息丟失問題,即便某用戶暫時丟失信息,也可以通過其他用戶找到。(5)沒有操控。只要用戶不能同時掌控記錄信息的大部分的“人”,就不能修改網絡上的數據。(6)可匿名性。單從技術上而言,各區塊節點之間只是單純的信息公開,身份可選擇隱藏,區塊鏈中的信息傳遞可以匿名進行。
(二)數據治理
數據治理(Data Governance)[4]指在管理數據資產過程中行使權力和管控,包括計劃、監控和實施。高職院校需要依托數據進行決策。建立了正式數據治理規程的、有意向性地行使權力和管控的高職院校,能夠從數據治理過程中獲得更大的收益。在高職院校中,數據治理是指導所有其他數據管理領域的活動。
有效的數據治理有利于推進高職院校數字化建設,主要表現在四個方面:其一,數據質量提升,通過真實可信的數據提升業務能力;其二,元數據管理規范,建立業務術語表用于定義和定位組織中的數據,確保組織中數量繁多的元數據得到有效管理和應用;其三,提升項目開發效率,在系統生命周期中改進以解決高職院校數據管理問題,包括利用數據全周期治理來管理特定數據的技術債;其四,提高各類資產數據管理效率,包括云存儲、外部數據采購、數據產品銷售和外包數據運維。
數據治理不是一次性的行為,而是一個持續性的項目集。數據治理可以保證高職院校一直能夠挖掘數據價值和降低數據風險。高職院校需要建立運轉良好的運營框架,指定專門的部門承擔數據治理的責任。此外,在數據治理程序中應該考慮到高職院校文化的獨特性問題,以及數據管理在高職院校內面對的具體挑戰和機遇。
二、高職院校數據治理的思路
目前,很多高職院校存在數據時效性偏低、師生參與數據治理意識不強、缺乏可執行的信息系統平臺支持、數據安全措施不到位、數據治理標準不統一等問題。分析其原因,主要是部分高職院校在校園數字化建設中未做好整體規劃,為了滿足某個院系或者某個部門的業務需求,形成一個個單獨的業務系統,各系統彼此無法實現數據共享,致使“數據孤島”現象產生。高職院校應從頂層設計數據系統架構,統一數據標準,構建數據集合以匯集現有數據資源,增強師生主動參與學校數據治理的意識。本研究嘗試通過高職院校數據治理,全面提升數據價值,重塑業務流程,以支撐高職院校數字化轉型。在技術方面,利用BIM模型、云平臺、物聯網、移動終端、智能系統等抽取數據并進行處理;在方法方面,使用知識推理、流域仿真、業務協同、數據集成、物聯感知等;在工具方面,使用數據平臺、模型平臺、知識平臺、業務平臺、服務平臺等。最終形成高職院校數據治理的數字化轉型框架,如圖1所示。
圖1 高職院校數據治理的數字化轉型框架
通過閱讀相關資料發現,目前的主流數據治理體系有IBM數據治理體系、DGI數據治理體系、DAMA數據治理體系等[5]。其中,在IBM數據治理體系下,數據是一種資源,更是組織發展時的核心資產,數據治理可以當成一種數據資產來看待。本研究的數據治理核心思想是以數據治理技術為抓手,反向監督、促進業務數據管理規范化,形成建設與管理的閉環反饋。在DAMA框架下進行進一步的研究,以解決高職院校數據系統架構不統一、數據標準不一致、數據資源缺乏、師生主動參與數據治理意識不強等問題為重點,設計元數據管理、數據集成、數據治理等模塊,構成高職院校數據治理框架。由于數據具有專業性,各個部門和院系之間相互獨立,針對此現象,系統設計實現了數據在各個職能部門之間的傳遞,形成了數據共享環路。高職院校數據共享體系如下頁圖2所示。
三、高職院校數據治理的方法
(一)管理元數據
元數據被定義為“描述數據的數據”,其表現形式在正常情況下是結構化的文字與數字,乃至于結構化圖形的形式,其描述的數據是多源的。元數據不僅可以對信息對象本身進行描述,而且能夠描述信息對象相關方面的信息,如操作人員、版本更新時間等。元數據對信息對象進行描述是一個步步深化的過程,在其最開始應用的時候,主要用于描述文獻、圖像、視頻、音頻等資源的屬性信息及其結構信息。其規定元數據內具體內容的描述規范,例如描述元素的時候應采用固定標準與自定義描述要求等。本研究以系統域的思想組織元數據,建立系統域與數據庫的關系,經歷“注冊數據源—采集元數據—抽取數據管理—構建系統域級關系”的過程,從而得到不同業務的數據。元數據管理過程如圖3所示。
(二)數據集成
數字化轉型在高職院校信息化建設過程中產生了大量的異構數據,如科研數據、學生“一卡通”數據等,從這些數據中提取價值是高職院校實現數字化轉型的重要任務。如何從產生的異構數據中抽取有用的數據供大數據分析和應用,是高職院校當下面臨的難題。為了提高數據質量,實現數據共享和交換,高職院校可利用數據集成消除數據的冗余和矛盾,使數據能夠更好地支持高職院校的業務運作和決策分析。然而,傳統的數據集成技術存在復雜度高、易錯性高、性能偏低和不易擴展等問題。這些問題在實際應用中會影響數據集成的效率和穩定性。相對于傳統的集成技術,Kettle能夠更加高效地完成數據集成和轉換任務。由于高職院校數據在質量、采集、應用、互通上都有別于其他數據,因此高職院校數據的集成過程與其他數據也有所不同。本研究設計了一個Kettle數據轉換流程以適應高職院校數據的集成過程,解決了現有應用中存在的及時更新慢、集成效率低的問題,如下頁圖4所示。
四、高職院校數據治理的實踐案例
采用上述高職院校數據治理思路與方法,我們在廣西水利電力職業技術學院開展高職院校數據治理實踐探索。截至2023年10月,廣西水利電力職業技術學院數據管理平臺共接入數據源12個,建設數據接口52個,數據接口共享調用超過23萬次,數據下載超過1萬次。數據管理平臺較好地滿足了廣西水利電力職業技術學院對數據的需求,打通了監控、預警、教學資源等多個業務系統之間的數據壁壘,為其辦事一體化提供了支持。
(一)數據管理平臺建設
構建廣西水利電力職業技術學院數據管理平臺,其數據采用ETL進行數據集成,開展數據治理。該平臺采用模塊化思想建設,保證各模塊能脫離其他模塊單獨運行。元數據管理以業務系統為主線,組織元數據目錄,支持用戶配置元數據抽取策略,定時抽取數據庫元數據,抽取結果可與已發布的元數據版本比較,用戶可以決定是否更新發布版本。在自動抽取數據庫元數據的基礎上,用戶還可以根據實際數據情況自行編輯錄入元數據之間的關系。該平臺元數據管理界面如下頁圖5所示。
目前,該平臺的開發還有待完善,未來的建設將從以下幾個方面開展。第一,元數據在高職院校數據管理平臺中的接口應用可以更加豐富。目前,其應用功能的實現是基于元數據的語義細粒度數據單元接口,暫且只能對基于業務寫定的數據調用方案進行不復雜的語義查詢,下一步可根據用戶權限范圍內的需求,為用戶生成自定義的查詢語句,以適應實際場景中的查詢需求。第二,根據高職院校數據管理平臺中不斷更新的數據主體應用需求,完善數據管理平臺元數據構建方案,使主體數據元數據更加符合需求。高校業務領域具有多變性,需要不定時地針對最新的方針政策更新數據融合模型及元數據標準。第三,在數據管理平臺中運用元數據模型和相關技術,及時根據用戶反饋進行優化,同時遷移到其他信息領域中使用。元數據規范和本體構建的可復用性為其他領域的應用提供了可實現的基礎。在數據管理平臺中對元數據進行本體知識抽取的語義化處理屬于管理應用上的一種創新,充分利用元數據在提高數據融合時的數據資源管理能力,能降低用戶在使用數據資源時的理解成本,可見,元數據在高職院校數據管理平臺中的應用有廣闊的前景。
(二)數據管理可視化建設
數據治理,除了建設數據管理平臺以提供有效的、規范的數據給不同業務系統調用,可視化建設也必不可少。基于可視化技術的數據管理建設在高職院校數字化轉型中具有重要意義。例如,通過三維建模技術、虛擬現實技術(VR)和可視化技術,可以更直觀地呈現數據價值,提高數據的可理解性和可接受性,這能為高職院校領導制定決策提供參考。目前,廣西水利電力職業技術學院數據管理平臺采用可視化技術將大量的數據通過圖表、圖形等形式呈現出來,以便用戶更好地理解和分析。在建設方案展示和演示中,可以利用數據可視化技術展示相關數據的變化趨勢、關聯關系等,幫助高職院校管理者更好地評估建設方案的可行性和效果。例如,通過動態的柱狀圖展示不同設計方案的成本、效益等指標,可以直觀地比較其優勢和劣勢。廣西水利電力職業技術學院數據管理平臺的數據集成功能,就是一個很好的數據管理可視化建設的應用例子。數據集成為跨數據庫的數據查詢和加工提供數據融合功能,為單一數據庫內的統計聯合查詢提供主題表創建功能,數據最終集成為多個常用的高職院校數據主題,供后續各業務系統進行主題分析。
綜上所述,本研究提出利用區塊鏈技術的特點,結合Kettle工具制作ETL程序將高職院校數據進行清洗并裝載到數據治理平臺,通過實時調度系統持續對數據進行更新,保證數據的可用性,最后通過業務可視化建設的方式為使用者提供可用的數據。所提出的數據分析、數據抽取、數據更新、元數據管理等集成流程,成功應用在廣西水利電力職業技術學院數據治理平臺項目中,使用結果顯示,此數據治理流程可以解決高職院校的“數據孤島”問題,打破了學校各部門之間的信息隔閡,提高了信息安全性,能充分挖掘數據的潛在價值,為高職院校數字化轉型提供了有力支持。
參考文獻
[1]楊艷.區塊鏈技術在電子檔案管理中的應用路徑研究[J].蘭臺內外,2023(36):39-41.
[2]葉惠仙.基于Kettle構建互聯互通標準數據庫[J].網絡安全技術與應用,2023(11):55-57.
[3]殷紅梅.基于區塊鏈的政務信息服務研究[J].電腦與電信,2022(9):39-43.
[4]吳衛明,陳藝純.合規視角的銀行業數據治理體系建設[J].金融科技時代,2022(9):43-49.
[5]孫學忠,胡偉.跨境貿易大數據平臺數據治理及框架研究[J].中國口岸科學技術,2020(10):69-75.
注:本文系2023年廣西高校中青年教師科研基礎能力提升項目“教育數字化背景下,高校數據治理的探索與研究”(2023KY1231)、2024年廣西高校中青年教師科研基礎能力提升項目“基于Spring Boot框架水文遠程測流平臺”(2024KY1202)的研究成果。
(責編 雷 靖)