楊眾 王旭東 叢玉正
摘要:隨著信息化技術的快速發展,高校的信息系統日趨完善,各種信息系統如學習平臺、教學和辦公應用系統都運行在數據中心,數據中心存儲了大量的業務信息。對高校數據中心存儲的各類應用數據進行抽取、轉化和處理,建立面向主題的數據倉庫。對系統數據進行挖掘和探索式分析,以可視化駕駛艙的方式直觀地展現學校的實際數據狀態,通過對數據的可視化分析可以為學校在辦學、人才培養和學生管理等方面提供數據支持和決策。
關鍵詞:數據中心;數據分析;數據倉庫;可視化;智慧校園
中圖分類號:TP393文獻標志碼:A文章編號:1008-1739(2021)17-65-4
0引言
自教育部發布《教育信息化十年發展規劃(2011—2020年)》以來,國內各高校對信息化建設大力投入,各類業務系統逐步建設完善,信息化服務水平不斷提高[1]。數據中心的建立有效地解決了各系統數據存儲分散、數據標準不一致和數據共享困難等信息孤島問題。下一步將圍繞如何發揮數據中心的數據價值進行研究,對數據中心存儲的大量業務數據進行有效挖掘,實現跨業務系統、高效的數據分析,讓數據“說話”,達到數據分析展現的統一歸口,實時展現學校各方面的數據狀態,為學校領導提供決策支撐。
教育數據挖掘(Educational Data Mining,EDM)是一門涉及計算機科學、教育學和統計學的交叉學科,它致力于分析學校教育環境下的獨特數據,目的是為了更好地了解學生及學校環境,從而提高學校教學成效[2]。
1技術路線
研究分析的數據來源于高校數據中心,數據中心通過與統一認證平臺、人事系統、科研系統、學生系統和一卡通等系統進行數據交換進而存儲大量的業務數據。通過對數據中心的數據源進行ETL(提取、轉化和裝載),將想要進行分析的主題數據進行高效的提取和處理,形成數據倉庫,進行建模分析。數據倉庫是專門為數據的統計分析和決策支持而設計的,存儲著需要進行分析的面向主題數據,數據具有穩定并隨時間變化等特點[3]。研究的技術路線情況如圖1所示。
1.1數據操作
采用的開發語言為Python 3,開發IDE為PyCharm 2020,數據庫為Oracle 12c。數據庫操作基本代碼如下:
1.2數據處理
由于數據中心的數據來源于不同系統,各個系統始建于不同時期,所用數據標準各不相同,導致數據質量參差不齊。要想對數據進行分析就需要對數據的質量問題進行處理。
Python中有著豐富的數據處理、分析和挖掘工具包。采用Numpy庫實現了多維數組與矩陣的高效運算,Pandas庫函數對數據的編碼問題、缺失值問題與異常值的問題進行有效處理,生成規整數據裝載進數據倉庫。比如用dropna函數對不規整數據進行刪除,fillna函數對空值進行替換等。
1.3數據展現
在數據展現方面,將對系統分析出來的數據通過Web可視化進行展現,這里采用Flask Web容器來部署pyechars技術。pyechars是Python語言中用于設計Echars圖表的類庫,對百度開源圖表庫Echars進行了封裝,實現了Java Script的圖表庫技術。相比于Matplotlib繪圖,pyechars有著可移植性強、展現直觀、生動、可交互、可高度個性化定制等特點[3]。下面采用pyechars繪制學生消費情況柱狀圖,代碼如下:
2數據分析設計實現
本研究對高校幾大核心業務系統數據進行整理和抽取,按照招生、教職工、學生消費和科研4個數據主題進行展示與分析。
2.1招生分析
招生作為高校人才培養的主要入口之一,生源質量的好壞和招生計劃是否合理都會影響學校的教學成果。本研究選取了學校近8年本科生招生數據進行研究分析,按照招生完成率、錄取情況、學生情況和地區招生情況進行了統計分析。各主題分析指標類型如表1所示。
通過調用Python機器學習第三方模塊Sklearn,對招生計劃數和實際錄取人數進行回歸分析。研究利用corr()函數對計劃和實際錄取人數進行相關性評估計算,得出分數為0.97,非常接近于1,這說明二者有明顯的線性相關性,也就是說招生計劃越多,實際招生人數也越多,招生情況回歸分析如圖2所示[4]。
利用最小二乘法對歷年的招生數據建立數據模型,在LinearRegression中調用fit()訓練方法進行數據模擬仿真[5]。采用score()函數對訓練出的模型進行打分,為0.98分,模型效果比較理想,使用predict()函數對未來招生的情況進行預測。預測結果為當招生計劃數增加至2 000人時,實際招生人數會達到1 957人。預測實現代碼如下所示:
2.2學生行為分析
隨著各應用系統及大數據中心的建設,學生在校內的學習和生活痕跡都會被系統記錄并存儲。通過抽取、整合學生數據和一卡通數據,按照以下幾個主題對學生日常行為數據進行分析展現,如表2所示。
圖書館和自習室是大學生主要的學習場所,對一年中30萬條學生進出圖書館和自習室的門禁記錄進行了統計分析,學生行為數據如圖3所示。
發現學生行為數據存在如下規律:
①在學習方面,學生進出圖書館的時間主要集中在每年的6月、7月、12月和1月,每年2月和8月圖書館的訪客最少,周末進出圖書館人數少于平時。從數據中可以分析出,學生在臨近1月和7月的期末考試前夕進入圖書館自習室學習的次數最多,側面反映出學生平時缺乏自主學習的能力。針對這種現象,建議學校增加學生階段性過程考試,培養在校學生養成良好的學習習慣。
②通過對學生在一天之中進出圖書館的時間進行分析,發現學校進圖書館的時間主要集中在7時、8時、12時和13時,離開圖書館的時間集中在18時,在6—7月時,學生離開圖書館的時間推遲至22時。從數據中可以分析出學生在一天之中學習集中的時段,由于期末學習任務較重,學生在圖書館自習的時間較晚,建議學校在期末前夕適當延長圖書館的閉館時間,為學生提供更多的學習時間。
在學生消費方面,統計出各年級和專業在校生的消費情況,包括平均消費和最低情況,為學校在評獎助學金和助學貸款方面提供消費數據支撐。
2.3教職工分析
教職工分析聯合人事、科研和教務業務系統數據進行分析。
教職工基本情況:展示教職工的年齡、工齡、學歷和戶籍信息,向學校展現教職工的基本情況信息。
教職工發展情況:教師的崗位、職務、職稱和編制類別等信息,分析各部門的崗位任職情況,為學校接下來的教師人才培養提供數據支撐。
博士教師情況:學校的博士教師情況和各部門博士人員數量,為學校申博和學科評估提供數據支撐。
人才引進/流失情況:學校每年招入和流出的人員信息,更有目的性地制定人才引進計劃。
2.4科研分析
各部門科研情況:學院各部門的科研成果情況,包括項目、論文、著作、專利和鑒定等。分析學院各職稱和各級別教師的科研成果情況:統計學校各專業科研成果,根據教職工的科研成果進行統計分析,按照專業和學科計算出科研分數,對科研分數進行統計分析,找出優勢學科[6]。
3結束語
通過對學校各方面的數據進行分析和挖掘,使原來數據中心和業務系統的數據重新發揮了巨大價值。將數據進行可視化分析可以發現數據中存在的問題和規律,對學校在教學或科研上出現的異常數據進行預警,使學校管理者在決策上由被動變為主動,大大提高了學校信息化的服務質量,向實現智慧校園邁進。
參考文獻
[1]王運武.中國教育信息化戰略規劃的世紀變遷[J].江蘇開放大學學報,2016,27(4):37-46,89.
[2]黃連強.大數據背景下高校教學信息化研究[J].電腦編程技巧與維護,2018(4):96-97,121.
[3]李蒙昭.數據可視化平臺圖表推薦系統的研究[D].武漢:華中科技大學,2019.
[4]王瑞昌.面向教職工的數據中心數據共享的研究與實現[D].成都:西南交通大學,2012.
[5]李天輝.基于python的數據分析可視化研究與實現[J].電子測試,2020(20):78-79.
[6]劉少楠.基于B/S模式的高校科研管理系統設計與實現[D].沈陽:東北大學,2015.