孔曉宇

摘 要:隨著教學(xué)、消費、學(xué)生行為等數(shù)據(jù)量的積累,校園的各個應(yīng)用系統(tǒng)獲取的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)也越來越多。為了對學(xué)校的海量數(shù)據(jù)進行深層次的數(shù)據(jù)挖掘和分析,校本數(shù)據(jù)中心的建設(shè)已成必然趨勢。文章以無錫商業(yè)職業(yè)技術(shù)學(xué)院校本中心的建設(shè)為例,通過對學(xué)情現(xiàn)狀分析、校本中心的建設(shè)情況,提出校本數(shù)據(jù)中心建設(shè)的重要性。
關(guān)鍵詞:校本數(shù)據(jù)中心;校情分析;大數(shù)據(jù)
1 實施背景
經(jīng)過多年的信息應(yīng)用系統(tǒng)建設(shè),高校已經(jīng)積累了海量的教學(xué)、消費、學(xué)生行為等數(shù)據(jù)。但是校本數(shù)據(jù)的存儲和整合過程較為分散,缺乏統(tǒng)一平臺進行管理,而且這些海量數(shù)據(jù)也沒有得到有效、充分的分析和利用,各部門人員在日常數(shù)據(jù)錄入和維護中只是通過統(tǒng)計和排序?qū)?shù)據(jù)進行簡單的功能操作,獲得一些表面、淺顯、價值不高的結(jié)果。
2 現(xiàn)狀分析
經(jīng)過多年的數(shù)字化校園建設(shè),高校校園的各個應(yīng)用系統(tǒng)獲取的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)也越來越多,目前存在應(yīng)用系統(tǒng)種類多、數(shù)據(jù)分布分散等問題。
(1)數(shù)據(jù)規(guī)模日益龐大,數(shù)據(jù)來源多元化,共享數(shù)據(jù)庫涵蓋系統(tǒng)多,高校生源不斷擴張,信息不斷積累,致使數(shù)據(jù)庫中的信息不斷增加,進而為數(shù)據(jù)挖掘、管理和分析帶來了困難。
(2)缺乏穩(wěn)定高效的校本數(shù)據(jù)中心環(huán)境,高校不同學(xué)科與專業(yè)采用的數(shù)據(jù)環(huán)境大多依賴現(xiàn)有的IT環(huán)境,導(dǎo)致數(shù)據(jù)運行的基礎(chǔ)系統(tǒng)環(huán)境比較混亂且極其不穩(wěn)定,缺乏有效的數(shù)據(jù)管理,阻礙教學(xué)和科研工作的高效進行。
(3)在科研管理活動中,沒有使用成熟的管理平臺,不僅數(shù)據(jù)難以共享,還容易出現(xiàn)數(shù)據(jù)隨意修改、刪除等現(xiàn)象,除了容易造成數(shù)據(jù)不一致,還嚴重影響了數(shù)據(jù)的安全性和穩(wěn)定性。
(4)數(shù)據(jù)利用不充分,校園的信息仍然停留在收集和累積階段,而數(shù)據(jù)僅僅停留在簡單查詢和分析階段,并沒有對數(shù)據(jù)進行整合、梳理和挖掘,使得這些信息仍未被管理者采用,作為決策依據(jù)的信息則少之又少。
(5)數(shù)據(jù)驅(qū)動帶來的教學(xué)新挑戰(zhàn),數(shù)據(jù)劇增由量變引起質(zhì)變,學(xué)生的思維和行為模式在傳統(tǒng)的學(xué)科研究領(lǐng)域中發(fā)生轉(zhuǎn)變。如何借助大數(shù)據(jù)和人工智能相關(guān)技術(shù)以及資源,找到校本數(shù)據(jù)研究分析成果的新視角,為教學(xué)和學(xué)生服務(wù)提供策略指導(dǎo)是管理層面臨的新挑戰(zhàn)。
3 校本數(shù)據(jù)中心的建設(shè)
文章以無錫商業(yè)職業(yè)技術(shù)學(xué)院為例,校本中心的建設(shè)框架和內(nèi)容如下。
3.1 總體框架的設(shè)計
數(shù)據(jù)中心應(yīng)適應(yīng)于大數(shù)據(jù)處理要求,能支持PB級數(shù)據(jù)管理。系統(tǒng)架構(gòu)應(yīng)高安全性、易擴展性,能夠支持各類主流開發(fā)語言,并提供豐富的接口。同時能夠支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲和應(yīng)用,搭建4層架構(gòu)的全量數(shù)據(jù)中心。
(1)建設(shè)原始數(shù)據(jù)層(ODS層)。數(shù)據(jù)工程師根據(jù)接口對各系統(tǒng)的數(shù)據(jù)原樣加載到數(shù)據(jù)倉庫ODS層,設(shè)定數(shù)據(jù)拉鏈、可對數(shù)據(jù)質(zhì)量進行監(jiān)控,保證數(shù)據(jù)準確無誤。同時有效地解決了傳統(tǒng)模式下第三方接口不可管理、原始數(shù)據(jù)質(zhì)量無法檢測的問題。
(2)建設(shè)主題明細數(shù)據(jù)層(TDS層)。對中心庫最基本的數(shù)據(jù)進行集中管理,依據(jù)標準規(guī)范建立數(shù)據(jù)集市,為數(shù)據(jù)的分析提供明細主題查詢,解決數(shù)據(jù)可視化管理的問題。
(3)建設(shè)匯總統(tǒng)計數(shù)據(jù)層(SMY層)。可依據(jù)數(shù)據(jù)分析的需求提供各種匯總統(tǒng)計,并可作為明細數(shù)據(jù)的校驗和統(tǒng)計分析數(shù)據(jù)源,解決了傳統(tǒng)模式下數(shù)據(jù)分析建立模型的不規(guī)范性以及模型統(tǒng)一管理問題。
(4)建設(shè)應(yīng)用數(shù)據(jù)層(SER層)。可依據(jù)第三方業(yè)務(wù)需求,構(gòu)建出對外服務(wù)的統(tǒng)一接口,實現(xiàn)接口的開放性,解決了傳統(tǒng)模式下數(shù)據(jù)庫對外服務(wù)接口不規(guī)范、無法管理的問題,保證數(shù)據(jù)安全的情況下也便于對外接口的統(tǒng)一定義和管理。
3.2 建設(shè)內(nèi)容
校本數(shù)據(jù)建設(shè)內(nèi)容如表1所示。
3.3 技術(shù)要求
3.3.1 平臺架構(gòu)技術(shù)要求
(1)以開源的Hadoop為基礎(chǔ),研發(fā)校本數(shù)據(jù)中心,具備自主知識產(chǎn)權(quán)。系統(tǒng)通過多租戶功能允許各個院系或數(shù)據(jù)分析人員接入大數(shù)據(jù)平臺開展數(shù)據(jù)分析與探索工作。以平臺數(shù)據(jù)管理為基礎(chǔ),可針對特定角色的用戶賦予指定表、指定列、指定行的訪問權(quán)限,數(shù)據(jù)下載需按照我校的電子數(shù)據(jù)提取管理辦法完成審批流程,導(dǎo)出數(shù)據(jù)通過桌面文檔安全管理系統(tǒng)進行加密并授權(quán)訪問[1]。
(2)該平臺支持Windows、Linux操作平臺;數(shù)據(jù)庫支持Oracle,Sql Server;Web服務(wù)器支持WebLogic,Tomcat較新版本等。客戶端兼容IE,F(xiàn)irefox,Chrome,Safari,360等主流瀏覽器、手機Android平臺Opera、UC及IOS平臺safari瀏覽器的各個版本。友好支持 PC、平板電腦、智能手機便捷操作。
(3)事務(wù)響應(yīng)時間不超過2s,同時在線數(shù)達到≥? ? 1 500人,并發(fā)數(shù)于≥500人。
(4)保證數(shù)據(jù)無縫對接,并提供安全策略及備份策略,保證與其他平臺之間的共享與交互,符合學(xué)校的數(shù)據(jù)標準。
3.3.2 軟件開發(fā)的要求
(1)遵循學(xué)校信息化標準。
平臺的建設(shè)必須符合和遵守學(xué)校制定的信息化相關(guān)標準要求,以便規(guī)范地進行業(yè)務(wù)數(shù)據(jù)的采集、存儲、傳輸、應(yīng)用。軟件平臺供應(yīng)商應(yīng)熟悉學(xué)校數(shù)據(jù)標準規(guī)范和數(shù)據(jù)接口規(guī)范,在學(xué)校標準覆蓋不全的情況下,根據(jù)國家相關(guān)部門制定的標準,與學(xué)校一起升級和完善學(xué)校自己的標準[2]。
(2)應(yīng)用程序的編程語言及服務(wù)器要求。
軟件須采用Java編程語言和服務(wù)器端Java技術(shù)進行開發(fā),業(yè)務(wù)應(yīng)用平臺和數(shù)據(jù)集成平臺均必須基于如Oracle大型數(shù)據(jù)庫上。數(shù)據(jù)庫服務(wù)器平臺、Web服務(wù)器平臺和應(yīng)用服務(wù)器平臺可以運行于多種操作平臺,包括但不僅限于Windows NT/2000/2003/2008、Unix和Linux(Red Hat Linux)等操作平臺。同時,考慮到學(xué)校在服務(wù)器虛擬化方面的工作,要求平臺須適合在虛擬機上運行。
(3)面向?qū)ο蟮慕M件技術(shù)。
采用了基于元數(shù)據(jù)的設(shè)計模式,開發(fā)組件模塊化,統(tǒng)計指標參數(shù)化,各個平臺之間協(xié)同工作,不同的平臺在同一運行環(huán)境下彼此之間通過接口進行程序模塊的調(diào)用、參數(shù)傳遞、數(shù)據(jù)共享。考慮到整個學(xué)校管理體系的改革以及建設(shè)規(guī)模的龐大和復(fù)雜,平臺建設(shè)具有很強的擴展性要求。各模塊應(yīng)該相對獨立,通過接口容易組裝,整個平臺容易升級和擴展[3]。統(tǒng)計指標可以由用戶自定義,方便隨時根據(jù)業(yè)務(wù)變化來調(diào)整平臺參數(shù)。
(4)標準規(guī)范的接口技術(shù)及安全的數(shù)據(jù)集成。
建立一個能夠適應(yīng)學(xué)校未來發(fā)展的,能夠為第三方應(yīng)用平臺提供相關(guān)接口、開發(fā)規(guī)范以及相關(guān)數(shù)據(jù)集成的接口規(guī)范。數(shù)據(jù)中心要求與學(xué)校其他應(yīng)用系統(tǒng)實行對接,制定與學(xué)校數(shù)據(jù)中心對接的數(shù)據(jù)共享解決方案,提供必要的數(shù)據(jù)檢查和清洗,消除信息孤島,實現(xiàn)學(xué)校其他系統(tǒng)與數(shù)據(jù)中心的高度統(tǒng)一和內(nèi)部共享。
(5)易用性。
平臺必須符合國人的使用習慣,并且簡化各個功能模塊步驟,努力實現(xiàn)“方便找、找得到、使用簡單”,體現(xiàn)“服務(wù)大廳”一站式服務(wù)特點以及“信息推送”的特點。
4 結(jié)語
制定更全面的數(shù)據(jù)管理平臺,為全校師生提供安全可靠、完整統(tǒng)一的數(shù)據(jù)信息,必須從數(shù)據(jù)分類、數(shù)據(jù)維護、數(shù)據(jù)存儲、數(shù)據(jù)使用與服務(wù)、數(shù)據(jù)安全等各個方面,建立有效的校本數(shù)據(jù)中心,實現(xiàn)數(shù)據(jù)共建、共享體系,提高數(shù)據(jù)質(zhì)量和利用效率,更深一步地發(fā)揮數(shù)據(jù)的作用和功能。
[參考文獻]
[1]許琦.內(nèi)部質(zhì)量保證體系中校本數(shù)據(jù)中心建設(shè)探討—以異構(gòu)數(shù)據(jù)遷移方法為例 [J].職業(yè)技術(shù),2020(5):1-6.
[2]王金彬.淺議數(shù)字化校本教學(xué)資源庫的建設(shè)與應(yīng)用[J].高考,2018(36):54.
[3]趙艷妮,郭華磊.基于XML異構(gòu)數(shù)據(jù)庫遷移技術(shù)研究[J].計算機與數(shù)字工程,2018(1):129-133.
(編輯 王雪芬)