王加祥
(南京郵電大學 江蘇 南京 210023)
近年來,隨著大數據技術的發展,越來越多的國家開始重視大數據對于提升本國治理能力和競爭力的作用,2015年我國已將大數據提升為國家層面的戰略資源,2017年國家主席習近平強調要運用大數據提升國家治理現代化水平[1]。2018年,教育部發布《教育信息化2.0行動計劃》,文件指出要完善教育管理信息化的頂層設計,提升大數據在在教育管理及決策等方面的支撐與保障作用[2]。教育宏觀決策大數據庫的建設和應用已成為一項科技智庫建設工程,將成為教育決策創新的重要驅動力,同時這也是一個龐大而且復雜的系統工程,其數據涉及社會多領域的眾多業務系統,要從如此量大且結構復雜的數據中清洗挖掘出有用的教育決策研究信息進而轉化為智庫知識,需要建立一套規范的數據標準體系,以標準化的方式規范和整合資源,為教育決策大數據的健康發展打下基礎。
歐美、日本等發達國家在推進本國經濟發展、提升社會治理水平等方面,都非常重視大數據的應用,大數據在提升其綜合競爭力方面起著很重要的作用。大數據的采集和應用離不開大數據標準化的制定,標準化工作需要科學的頂層設計,其中ISO/IEC JTC1、ITU-T、IEEE BDGMM、NIST等大數據研究組織,專門成立了大數據標準化的研究小組,研究制定和協調大數據領域的關鍵技術,包括大數據參考模型、大數據元數據框架和概念模型、大數據治理和元數據管理、大數據互操作性框架以及大數據安全等,旨在規范大數據的具體應用和保護信息安全。
我國同樣非常重視大數據標準體系的研究工作,首先,在政策方面,相繼出臺了《促進大數據發展行動綱要》、《大數據產業發展規劃(2016-2020年)》等文件,均明確指出要建立和推進大數據標準規范體系建設,加強大數據標準化頂層設計,逐步完善標準體系,發揮標準化對產業發展的重要支撐作用的重點任務。其次,在機構建設方面,2014年12月全國信息技術標準化技術委員會大數據標準工作組正式成立,并有100多家單位申請參與標準制定。近年來,該工作組積極開展標準化研究工作,其中有6項國家標準已完成并發布,處于報批階段的有3項,正在研制中的為15項,并在2018年正式發布大數據安全標準化白皮書(2018版)[3]。這些措施和成果為加強我國大數據體系架構研究和標準化工作提供了重要的政策保障和技術基礎。
目前我國的教育宏觀決策大數據庫建設還處于初期研究階段,在數據標準體系建設方面主要存在以下兩方面難點。
教育宏觀決策大數據不同于一般教育實踐數據,其涉及面廣,首先,基礎數據方面,涵蓋學前教育、基礎教育、職業教育、高等教育、繼續教育等各階段基本信息,如學生人數、師資情況、教育經費等數據,教育政策和研究方面涵蓋各層級教育發展戰略、教育體制機制改革研究、教育政策研究、以及教育比較研究等方面的數據。其次,教育宏觀決策還涉及經濟、人口、就業等社會管理及公共服務數據,需要與多部門進行數據同步。此外還包含來自教育政策執行者在政策實踐后的實時反饋信息,以及目前國家十分重視的網絡媒體發出的關于教育政策的輿情信息數據。這些數據既有諸如統計數據的結構化數據,同時也存在各種文檔、報表、圖形、音視頻文件等非結構化數據,而非結構化數據因其格式類型繁多,與結構化數據相比更難標準化和理解。
大數據建設離不開對數據的采集,除了對互聯網數據的采集,還有一部分數據需要通過數據共享來獲取,但目前數據共享仍存在一定障礙,一方面,長期以來國家級、省級、市縣級各層級的教育業務信息系統多數只運行在本組織內部,相關數據的跨領域、跨部門、跨平臺安全共享以及數據系統之間的接口尚未打通、互操作尚未實現,導致沉積的海量歷史數據只能在有限范圍內共享,造成數據資源不能完全發揮其價值。另一方面,在這些應用系統建設過程中并未建立統一的數據標準,數據格式不一致、系統異構的現象較為普遍,要重新建立統一數據標準,必然需要調動各級業務部門進行統一協作,不僅工作量大耗時長,且調動難度大。
通過對教育宏觀決策大數據標準化建設需求和數據特點分析,結合當前其他領域大數據標準化設計和應用的實踐及發展趨勢,本文將主要從基礎標準、數據標準、技術標準、管理標準等幾方面對教育宏觀決策大數據標準體系進行研究,并構建標準體系框架模型(如圖1)。各類標準之間互相聯系,也互為補充,是一個完整的體系。同時,該標準體系符合開放、共享和可擴展的原則,在對教育宏觀決策數據庫建設進行規范化的同時,也能夠為教育領域其他業務平臺的數據庫建設起到指導作用,并隨著教育領域數據應用的深入和拓展而不斷細化和完善。

圖1 教育宏觀決策大數據標準體系框架模型
4.2.1 基礎標準
基礎標準是對教育宏觀決策大數據標準體系建設的工作規范和適用范圍進行說明,包括基本術語、標準編制規范、標準體系構建原則等。其中,術語類標準用于規范和統一數據庫中常用的技術術語和應用系統中的業務術語等。建立術語規范有利于業務人員和技術人員在數據采集調用、系統設計、使用維護等方面對術語的含義形成統一的理解。標準編制規范用于明確大數據標準化的工作規程、標準編制、實施和修改的基本要求,對標準制定起指導作用。
4.2.2 數據標準
數據標準是對教育數據資源的數據來源和數據共享進行規范,對元數據參考模型,數據分類與編碼規范,基礎教育、高等教育、教育政策等主題數據庫元數據規范,在數據管理過程中,采用數據字典和元數據管理,可以方便地規范數據資源。通過建立數據共享及數據服務評價標準,提升數據服務質量。
4.2.3 技術標準
技術標準包括數據采集與存儲、數據清洗、數據接口、互操作技術規范、數據質量控制、數據溯源、數據安全等技術規范。如網絡教育輿情數據采集規范,公共服務數據庫數據的采集整合管理規范,元數據訪問服務接口規范,數據跨域互操作技術規范,用戶統一認證接口規范等。數據安全作為大數據標準體系的重要部分,保障了數據不被非法冒充、竊取、篡改[4]。安全規范是對數據全生命周期提出安全防護要求,包括數據安全技術實施規范、安全評估標準及方法等。
4.2.4 管理標準
管理標準是用于規范教育宏觀決策數據庫應用與維護過程中涉及的各種標準,在數據的整個生命周期中發揮著重要管理支撐作用。包括數據質量管理標準、運維管理標準、數據共享管理標準等,確保數據庫中的數據正確性,為不同來源數據分類管理,明確數據運維工作指南,對數據共享內容、范圍、對象、級別等作出明確界定,以確保數據庫中的數據安全和可持續發展。
在國家層面,雖然已經出臺了針對促進數據公開、開放共享及保障數據安全等方面的政策法規與制度,但由于數據割據、數據孤島等現象的存在,教育相關數據的共享效果并不及預期,仍需加強政策保障力度,鼓勵地方出臺相應細則,加大宣傳和培訓,提高相關機構和部門的數據共享意愿,加快數據共享的步伐,為推動標準體系的制定和實施提供更有力的政策支持。
教育宏觀決策大數據標準編制工作難度大,應保持與國家大數據標準委員會相關工作組的溝通,在遵循國家標準的基礎上,結合教育行業數據特點,有針對性地進行標準體系的建設,并積極與大數據應用已成功落地的行業進行交流,汲取成功經驗和先進理念,推動教育決策大數據標準體系建設[5]。
應充分重視人才在教育宏觀決策大數據建設和應用中的重要作用,抓緊設立專門數據管理崗位,通過與高校及科研單位合作,定向培養教育決策研究和大數據技術方面的跨學科復合人才隊伍,為實現教育宏觀決策大數據庫的綜合發展利用、輔助科學決策做好數據人才儲備。
標準體系建設作為教育宏觀決策大數據庫建設的基礎工作,在編制過程中,既要考慮存量數據資源特點和數據服務的成熟技術,又要兼顧數據標準和技術標準的新進展和新趨勢,確保標準體系框架的相對穩定性。標準體系制定不可能一蹴而就,應兼顧近期需求和長遠規劃,避免閉門造車,并隨著研究的深入不斷完善,以保障教育宏觀決策大數據庫的可持續發展。