李商旭
(深圳技術大學,廣東 深圳 518118)
《國務院關于印發國家教育事業發展“十三五”規劃的通知》中提到,支持各級學校全力推動信息技術與教育教學深度融合。鼓勵學校利用大數據技術開展對教育教學活動和學生行為數據的收集、分析和反饋,為推動個性化學習和針對性教學提供支持。
深圳技術大學是坐落在特區的一所新規劃建設的應用型高等院校,前期已經招收了多屆學生,積累了一些數據。學校第一批大規模建設,就有30多個應用系統,包括物聯網平臺、運維運營平臺、互聯網+應用(如服務學生、校友的微信小程序,服務教職工的移動App應用)、教務管理系統、學工管理系統、科研管理系統等,這些應用系統將積累大量業務數據,運維數據,學生行為數據,教學管理數據,科研業務數據、物聯網數據等。這對深圳技術大學數據管理者提出了更高的要求。
傳統信息架構模式下,學校各個組織、各個部門根據各自的業務需求,在不同的時期開發自己各自的異構數據服務體系,從而出現一個個“數據孤島”式應用,“信息孤島”現象已成為制約信息系統總體高效運作的瓶頸,為了解決這些問題,需要建設數據共享交換平臺,大數據平臺為了更好地解決數據管理者對數據管理中對于數據資源的管理、數據的共享以及帶動業務創新提出來的數據組織和管理框架。
廣東外語外貿大學通過大數據分析平臺的建設,將現有各業務系統產生的數據進行全校范疇內的有效整合,并通過數據關聯分析,挖掘數據的核心價值,在消費行為、師生管理、教務管理、人事管理、輿情分析、資產管理等方面開展了大數據應用。華南師范大學在數字化校園建設過程中,通過大數據中心,利用數據匯聚平臺的網絡爬蟲模塊,從互聯網實時爬取涉及學校、教育、社會、心理健康、校園貸、食品安全等學校關注的輿情信息,為學校改進管理提供決策。西安交通大學建立了教師科研大數據分析系統,學生成長輔助分析系統等,在大數據分析方面主要有:綜合行為畫像分析、群體畫像分析、成績預測分析、成長推薦分析、畢業分析、精準資助認定分析、行為異常預警分析等。
數據歸檔:匯聚不同業務系統的數據,大量的數據需要備份保存,Hadoop天然的備份機制以及超規模數據存儲很夠很好地滿足需求,并且數據存儲類型沒有任何限制。
數據應用分析:數據匯聚不是終極目的,需要分析挖掘數據的潛在價值,面向管理者提供專門的大數據應用分析,解決教學、管理、教研方面的實際問題,Hadoop分布式并行計算方式以及豐富的智能化算法模型,完全能夠滿足數據多樣化,智能化分析的需求。
科研需求:數據劇增由量變引起質變,使科研人員的思維和行為模式在傳統的學科研究領域發生轉變,借助大數據相關技術以及平臺,找到本學科研究成果的新視角,已經成為當前高校研究的重要課題。
如圖1所示,深圳技術大學采用Hadoop生態圈組件共同構建大數據基礎支撐平臺。數據通過數據采集系統匯聚到,數據治理平臺通過原始庫抽取數據,通過數據治理平臺清洗、關聯、融合相應數據,形成主題庫、業務庫。主題庫、業務庫的數據存儲在分布式數據庫中,通過數據共享交換平臺對外服務。基于主題庫、業務庫的數據構建教學分析、學工分析、學科分析、運維運營分析、物聯網數據分析等上層應用。同時通過敏捷BI報表工具以及可視化大屏,將相應的數據通過報表的方式推送到PC端、移動端以及可視化大屏,為學校領導、教職工、學生等提供數據服務。深圳技術大學的統一數據平臺主要包含以下幾個系統:
(1)大數據硬件平臺。學校通過應用多臺X86服務器,用來部署Hadoop集群和分布式數據庫。Hadoop集群和分布式數據庫都是直接部署在物理機上。
(2)大數據基礎平臺。大數據基礎平臺由兩部分組成:一部分是Hadoop集群,采用商用版本的Hadoop方案。需要至少提供數據匯聚平臺、HDFS、Hive、HBASE、SPARK、Storm、ES 等組件,另一部分是分布式數據庫集群。
(3)大數據治理平臺。為深圳技術大學提供數據治理服務,實現深圳技術大學數據的跨網、跨平臺、跨系統間的深度融合。深圳技術大學數據存在以結構化數據為主、半結構化為輔、非結構化數據增量巨大的特點,來源紛雜、類型多樣、標準不一、結構多元,數據接入整合難度較大,建立數據深度治理和標準化機制,進行系統化、倉儲化、精細化的分類管理。
(4)大數據數據倉庫。數據倉庫承載數據匯聚平臺抽取過來的原始數據,通過數據治理之后形成的主題庫,數據共享交換系統的共享庫以及資源目錄庫等。數據倉庫搭建在分布式數據庫集群當中。
(5)大數據服務層。大數據對外提供服務的方式有如下幾種:
大數據資源目錄:學校的數據提供部門可以通過該系統自行編目數據資源并上傳到數據資源目錄系統,學校的數據需求部門可以通過該系統查閱深圳技術大學的所有跨部門的數據并發起訂閱請求。
大數據共享交換系統:大數據共享交換系統通過API接口、文件下載以及推送到前置庫的方式對外提供數據,共享交換系統自動獲取數據資源編目信息,面向全校建立自助式數據共享交換服務。
大數據分析應用:通過從相應的主題庫采集數據,構建了一系列大數據分析應用,分析主題包含:學生分析、教師分析、輿情分析、教學分析、學科分析、科研分析、就業分析、資產分析、人事需求分析、上網分析。
大數據可視化展示:大數據可視化途徑有兩個,一個是通過大屏的方式展示,展示深圳技術大學的物聯網數據、運維數據、校園安全態勢數據、教學情況數據。一個是通過報表的形式將相應的數據推送到PC端、移動端。
隨著深圳技術大學生源的擴張和專業課程的豐富,各類信息系統產生的主數據和日志數據日積月累,其數據規模日益龐大,進而為數據存儲處理、挖掘分析帶來了挑戰,基于傳統的關系型數據庫構建的數據中心和應用已經無法滿足當下的需求。如表1所示,基于Hadoop大數據技術構建數據倉庫已經成為數據倉庫建設、發展的主流方向。

表1 數據庫選型差異對比表
深圳技術大學通過建立全校唯一、權威的主數據庫,在實現數據共享基礎上,通過元數據管理、數據流向規劃、數據治理、數據質量檢測等工具,不斷提升主數據庫數據質量,建立學校統一的數據交換共享能力,應用于學生、教師分析、教學、科研分析、學科分析、就業分析,并通過深圳技術大學大數據中心的匯聚平臺匯聚數據,進行大數據可視化展示。深圳技術大學的實踐案例說明深挖數據的價值,讓數據的價值不單單是數據本身,而是讓數據流動于學生、教學、科研、領導決策,可以加強學校的管理能力和服務能力。