流程和數據驅動下的高校招生主題數據分析*

2019-11-05 02:16:40徐楠楠胡晨光

中國教育信息化 2019年19期

關鍵詞：活動

徐楠楠，胡晨光

（北京電子科技職業學院信息中心，北京 100176）

一、引言

隨著信息技術的不斷發展，教育信息化經歷了部門級應用建設、數字校園建設等幾個發展階段，智能化校園建設成為目前研究和實踐的焦點。高校信息化建設過程中，各個部門都先后建立了各種業務管理系統，但這些系統是不同時期的不同平臺，依據不同的數據模型建立，缺乏統一規劃，沒有統一的數據標準，各自為政，相互之間無法進行有效的數據共享和數據利用。“項目型”建設模式不僅帶來較大的開發和運維成本，建設完成即形成新的信息孤島，如果不進行數據整合和集成，沉睡的數據將無法發揮價值。

《國家中長期教育改革和發展規劃綱要（2011-2020年）》中明確提出，構建國家教育管理信息系統，促進學校管理標準化、規范化，加強動態監測，提高管理效率。教育部按照《教育信息化十年發展規劃（2011-2020年）》要求，制定了《職業院校數字校園建設規范》，推動職業院校數字校園建設，促進信息技術與職業教育的深度融合。《教育信息化2.0 行動計劃》中也提出，建立“覆蓋全國、統一標準、上下聯動、資源共享”的教育政務信息資源大數據，打破數據壁壘，實現“一數一源”和伴隨式數據采集。《中國教育現代化2035》中明確提出，建設智能化校園，統籌建設一體化智能化教學、管理與服務平臺。以上這些政策文件為今后高校信息化建設指明了方向。

二、學生業務域業務梳理

1.原業務處理模式問題

學生是學校的主體，在信息化建設中，依據頂層設計，對學生業務域的業務活動、流程、數據進行分析尤為重要。學生相關管理業務在信息化建設之前，原業務處理模式主要存在以下問題：

（1）橫向協調困難，效率不高。絕大多數流程需要多個部門配合才能完成，流程的各活動分散于各部門中，各部門缺乏有效信息交流和協作，整個流程處于無法整體控制的分散狀態。各部門以維護部門利益為工作標準，任何一個部門提升整個流程效率的設想往往無法得到認同，缺乏整體控制弱化了整個業務流程的效能。

（2）信息交流不暢，數據不準確。缺乏溝通手段，每個活動操作人員只知道自己負責的業務活動，無法了解流程的全貌，不能準確地參與到整個流程處理中，經常出現重復性工作。在這些重復性工作中，原始數據的選擇、過濾、處理機制各不相同，所得結果無法共享，缺乏第三方驗證，無法形成數據處理的閉環流程，信息失真在所難免。

2.學生業務域業務活動梳理

根據上述問題，對涉及學生主體的招生就業處、學工部、教務處、財務處、二級學院等多個職能部門調研，對學生入校前、入校、在校、離校四個階段全過程管理進行分析，整理出學生業務域的主要業務活動，如圖1 所示。

學生入校前，包含的業務活動有自主招生、考務管理、錄取管理、招生管理；入校階段，包含的業務活動有生成新生學籍、收費管理、宿舍安排、綠色通道、新生制卡、新生報到（迎新）；在校階段，包含的業務活動有學籍管理、學籍異動、教學活動、獎懲貸助、發費管理、收費管理、綠色通道、宿舍管理、一卡通管理、社團活動；離校階段，包含的業務活動有畢業離校、就業管理、校友管理。

在上述業務活動中，學生在校階段的學籍管理、學籍異動和教學活動是與教學相關的非常重要的一部分業務，因此，此部分內容也可以劃分到教學業務域中進行分析。

3.以新生為主體進行流程優化

確定主要業務活動后，就進入流程分析階段。業務流程分析的目的是通過對現有流程進行評價，尋找出改進的機會并確定選擇業務流程中的哪些活動進行優化。涉及新生的業務活動主要包括入校前和入校兩個階段，在分析過程中，確認具體業務活動描述和業務對應的主責部門，并對這10 個業務活動全部進行信息化并建設相關的業務系統，具體如表1 所示。

圖1 學生業務域業務活動

表1 涉及新生的業務活動描述

業務系統建設完成后，雖然在一定程度上規范了各業務部門內部的管理工作，提升了管理效率，但是對跨部門間的業務和數據仍存在業務流程不通、數據不一致導致的重復操作情況。因此，需要再次對跨部門業務進行梳理和流程再造，旨在以業務流帶動數據流，以數據共享需求推動業務流程梳理和再造，進而打破各部門的系統屏障，實現跨部門業務流轉，整合原先各部門分散的數據，統一管理數據資源的目標。

以自主招生為例，對考生報名、考試、錄取、生成新生學籍、生成應收、安排宿舍、新生報到、報到結果反饋的全過程進行流程梳理和優化，如圖2 所示。

圖2 自主招生中新生業務流程的優化

流程優化遵循以下原則：

（1）流程便捷化。在分解和診斷原有流程的基礎上，實現流程優化，達到便捷化和自動化，從而降低時間成本，提高服務效率。流程便捷化不是某一個部門內部的變革活動，而是眾多部門的聯動，無需再做重復性工作。

（2）行為規范化。通過信息化技術手段對業務流程進行準確描述并形成標準作業的一系列過程，必然要求業務流程的制度化、標準化、程序化。

（3）過程人性化。以用戶需求為導向，業務流相關人員全面參與，建立相互協調、相互監督、相互合作的工作關系。

經過流程優化，達到以下目標：

（1）把非結構化的流程轉變為具體的程序化活動，以全局視角將不同部門所負責的活動相互連接構成了有組織的業務活動，破解了各自為政、協調困難的問題。

（2）更多關注活動之間的關系，設計各項活動觸發條件、完成時間、輸入輸出等活動之間的銜接問題，保證流程的整體運動方向，以整個流程的標準化促進部門內各活動處理的制度化、規范化，實現流程的整體協調。

（3）明確了每個部門的職責，上一個活動產生的輸出作為下一個活動的輸入，下一活動對上一活動提供的數據進行使用、驗證和反饋，流程上實現了數據管理的持續過程。這種閉環業務流程既提高了工作效率，又保證了學校所有主數據的準確。

三、數據治理為數據分析夯實基礎

業務流程再造使得學生全局業務成為上下貫通、左右協調的閉環流程，但是要保證業務流上所承載數據流的高質量、可用性和一致性，還需要對數據收集、轉換、清洗等過程進行規范化治理。

1.規范數據階段，明確數據職責

數據在業務流程中分為三個階段：

（1）數據產生階段。學校的原始數據，大部分源于各業務系統。

（2）數據集成階段。使用ETL 或Web Services 接口將數據抽取到數據交換平臺中。

（3）數據使用階段。對上游數據進一步處理，產生增值數據。

數據質量問題主要產生于數據產生階段，主要問題有數據項缺失、數據不準確；其次在數據集成階段的數據加工過程，主要問題有數據定義缺失導致的數據理解錯誤，系統間數據同步時效造成的數據不一致。數據使用階段和數據集成階段是數據質量問題暴露最多的兩個階段，因為數據的使用決定了數據質量問題的定義，很多質量問題都是在首次使用時才發現。

針對數據階段特點和數據質量問題特性，制訂數據治理策略：

（1）數據產生階段。數據質量問題必須在源頭得到修正，這是數據治理策略的一項基本原則。數據項缺失、數據不準確和數據集成階段暴露的數據定義缺失都是在數據產生階段出現的問題，此階段數據質量問題的實施策略為：規范《學校信息標準》，系統建設時嚴格按照信息標準中主數據的標準定義系統數據項，并要求承建商提供數據字典。在數據采集時，既通過技術手段做到數據“應采盡采”，又通過培訓等多種形式宣傳數據準確的重要性，讓各系統操作人員把好數據質量第一道關。

（2）數據集成階段。各信息系統的主數據在這個階段進行匯集，數據項缺失和數據定義缺失也是在此階段暴露的。數據集成是信息中心核心工作之一，通過數據質量暴露的問題，追蹤數據質量背后的根本原因，對人員、業務流程、信息系統、集成過程等提出深入優化方案。

（3）數據使用階段。作為數據的最終使用者，在使用環節評估數據治理的成效，并反饋給信息中心作為下一階段數據治理的目標依據。

根據上述情況，建立數據責任人體系，分別明確數據所有者、數據管理者、數據使用者的工作職責，如圖3所示。數據所有者是數據的產生維護者，一般是業務部門工作人員，需要按照數據標準、數據質量要求提供可信的原始數據，并對缺陷數據進行修復；數據管理者是數據的集成維護者，多為信息中心數據管理員，負責數據集成，推動數據共享，及時做好數據備份，制定數據安全管理策略；數據使用者申請使用數據，發現數據質量問題，并根據需要進行數據分析。全面治理學生數據，以實現“狀態數據要準確，過程數據要連續，歷史數據可回溯”的目標。

圖3 數據責任者體系

經過數據治理，確定了學生基礎數據的權威來源，依據信息標準，規范學生主數據，通過數據交換平臺實現異構系統間數據的共享交換。數據使用中發現的數據質量問題及時反饋修復，最終形成數據閉環，如圖4 所示。學校各環節用戶都成為數據的生產者、維護者、使用者和受益者，打造了全量、高質量、標準化的數據生態，服務于人才培養、科學研究和學校運營。

圖4 數據共享交換閉環生態

2.新生數據共享交換和治理

為了讓數據在業務流上流動起來成為信息流，首先是實現對新生業務的數據共享交換，采用ETL 工具實現異構系統間的數據交換，具體共享交換方案如圖5 所示。

圖5 新生數據共享交換方案

數據共享交換遵從學校信息標準，根據權威數據來源，確保每個數據項只有一個出處，即“數據一次錄入多次使用”。信息中心負責數據的一致性，各業務部門負責數據的準確性、完整性、規范性。確定了數據產生的權威部門，數據隨著業務處理在業務流中動起來，下游數據使用部門驗證數據產生部門的數據質量，形成有效的采集、交換、共享、監督、反饋、溝通、整合數據閉環，不斷提升數據質量，為數據分析決策夯實基礎。

四、利用Python 實現招生主題數據分析

1.數據應用的三個層次

數據經過采集、轉換、清洗后，可以進行不同層次的利用和分析。對數據的利用可分為三個層次：

（1）數據報表、可視化：包括師生畫像，師生數據一張表，校情數據展示等。

（2）數據挖掘、關聯分析：對不同維度的數據進行挖掘應用。

（3）建立數據模型、預測。

對數據的利用，前提和基礎是實現數據共享交換。解決數據共享交換，消除信息孤島是一個持續的過程，新業務系統的建設或者舊業務系統的升級改造勢必會影響原有數據的共享交換規則，所以當前和未來一段時期，數據共享交換仍是高校數據工作的重點。目前各高校對數據的綜合利用多停留在數據報表可視化階段，只有個別高校實踐了數據的挖掘應用。

2.Python 簡介

利用Python 程序設計語言對數據進行可視化分析的優勢在于其強大的集成性和豐富的第三方庫，Anaconda 和PyCharm 可以幫助用戶實現Python 的高效開發，把數據讀取、數據清洗、數據分析和數據展示都集成在PythonIDE，無需添加額外的開發程序。Python 具有10 萬多個第三方庫，如Requests、BeautifulSoup 用于網絡爬蟲采集數據；Matplotlib 和Seaborn 有良好的作圖性能；Pandas 是基于Series 和DataFrame 兩種數據類型的數據分析庫。

3.招生主題數據可視化

本文數據可視化圖表均使用Python3.6 版本，集成環境使用Anaconda3。

數據采集時，既可以直接通過Python 連接數據庫，也可以將需要分析的數據從數據庫中導出成CSV 或Excel 格式。本文使用的數據統一在數據庫中用SQL 腳本執行查詢語句，然后導出。

Python 數據采集語句如下：

數據清洗是對數據進行重新審查和校驗的過程，清洗過程中對重復數據、非標準化數據、缺失值數據進行處理。利用Pandas 和NumPy 計算庫對數據進行聚合操作、清洗、標準化以及數據轉換等。比如，利用身份證號信息對某些性別為空的數據填充正確的“男”“女”值，代碼如下：

數據清洗和標準化處理后，進行可視化處理，使用Matplotlib 或Seaborn 繪制成圖。

圖6 是自主招生考生的考試情況分布餅圖，從圖中可以明顯看出，免試入學的考生占比將近一半，只免面試的人數占比24%，只免面試的人數較少，占比2.74%，參加雙考的人數占比為27.31%。根據此數據情況，教務處可以優化配置考場安排、筆試監考老師、面試官，以達到資源最優配置。

圖6 2019 年自主招生考生考試情況餅圖

利用Python 中的Bokeh 制圖可實現圖表的交互，如圖7 所示。該圖是各學院不同類別新生的錄取人數堆疊柱狀圖，橫坐標是學院維度，縱坐標是人數，顏色表示自主招生、中高職銜接、高招、貫通培養四類新生類別，柱子的高度表示人數的多少，當鼠標放在柱子上時，可顯示該學院各類別新生人數。從圖中可以看出，電信工程學院的自主招生人數最多，汽車工程學院的高考招生人數最多，藝術設計學院的中高職銜接轉段人數最多，根據此數據情況，結合各學院的招生專業計劃和實際師資配比，可以適當調整專業設置和專業計劃數，以突出特色專業，實現合理師資配比。

圖7 各學院各類別新生堆疊柱狀圖

另外，從生成的“各類別新生男女生年齡分布折線圖”中可以看出，貫通新生的年齡多在15、16 歲，極個別是14 歲或者18 歲，自主招生和高考統招新生年齡多在18 歲，極個別在17 歲或者21 歲以上。根據此數據情況，結合各年齡段孩子特點，優化配置輔導員和班主任。

對2013-2019 年學校自主招生計劃數和錄取數進行對比，繪制計劃數和錄取數分布圖，如圖8 所示。

圖8 2013-2019 年自主招生計劃數與錄取數對比

繼續對招生計劃數和錄取數進行相關性分析，利用Python 中的corr()函數，求得Pearson 相關系數為：0.949153，說明兩者有較強的正相關性。接著利用Sklearn 第三方庫中的LinearRegression 構建回歸模型，模型結果顯示，計劃數與錄取數存在線性關系。根據構建的回歸模型，當計劃數是1200 時，預測錄取數是1415。模型代碼如圖9 所示，計劃數與錄取數回歸擬合線如圖10 所示。

圖9 構建回歸模型代碼

五、結束語

模型的構建需要結合特定的背景，綜合考慮影響預測值的各個維度和各個因素。比如在上述的回歸模型中，歷年的數據積累會增加樣本數據量，樣本數據量的增加會使得預測結果更準確。另外，在模型中還需要考慮當年的招生政策、考生出生當年的人口出生率或當年各地生源的高三畢業生人數，多種因素綜合分析也會提升對預測結果的判斷力。

圖10 計劃數與錄取數回歸擬合

大數據時代，學校各個業務系統的數據只有進行統一源頭采集、標準規范清洗轉換、合理安全存儲、有效綜合利用的全生命周期，才能真正綻放高校教育數據資產的價值。流程是經脈，數據是血液，以師生為中心，梳理各個核心業務尤其是跨部門業務，是解決和消除數據孤島的重要途經。數據標準是基礎，數據治理是途徑，數據交換是核心，數據分析是結果，數據工作需要全校上下各部門聯動，打造學校、部門、個人三方共同參與、共同維護、共同使用、共同獲益的良好數據生態，將學校業務數據通過采集、處理、利用加以高效組織和科學管理，使其成果得以有效應用于學校的教學、科研和校務管理與決策過程，進而提升學校的核心競爭力。