林德智,張柳
(北海職業(yè)學(xué)校,廣西 北海 536009)
隨著大數(shù)據(jù)技術(shù)和應(yīng)用不斷創(chuàng)新突破,人們漸漸認(rèn)識到大數(shù)據(jù)對于產(chǎn)業(yè)的升級和經(jīng)濟(jì)結(jié)構(gòu)調(diào)整的重要支撐作用。對于教育行業(yè)來說,大數(shù)據(jù)的引入推動了教育教學(xué)方式的改革,以數(shù)字化手段實(shí)現(xiàn)教育信息化。根據(jù)中共中央國務(wù)院印發(fā)的《深化新時(shí)代教育評價(jià)改革總體方案》的要求,學(xué)校要“創(chuàng)新評價(jià)工具,利用人工智能、大數(shù)據(jù)等現(xiàn)代信息籍?dāng)?shù),探索開展學(xué)生各年級學(xué)習(xí)情況全過程縱向評價(jià)、德智體美勞全要素橫向評價(jià)”。各高校積極響應(yīng)了國家的號召,利用大數(shù)據(jù)技術(shù)不斷全面深化教育改革,包括教育教學(xué)、教育管理中信息化系統(tǒng)的建設(shè)[1]。Picciano在他的論文中表示,大數(shù)據(jù)能幫助導(dǎo)師分析學(xué)生的學(xué)習(xí)情況,了解他們是否能掌握所學(xué)知識[2]。與此同時(shí),大數(shù)據(jù)的發(fā)展推動了教師個體的發(fā)展[3]。為適當(dāng)今信息化教學(xué)的新時(shí)代,教育工作者需要通過大數(shù)據(jù)了解學(xué)生學(xué)習(xí)情況,動態(tài)調(diào)整專業(yè)和課程的設(shè)置,以建立健全人才培養(yǎng)體系[4]。但是,在實(shí)際運(yùn)用信息系統(tǒng)處理學(xué)生的數(shù)據(jù)的時(shí)候,往往因平臺之間存在信息孤島,這些數(shù)據(jù)得不到充分挖掘和利用。因此,本文旨在利用大數(shù)據(jù)分析技術(shù)分析整合從教務(wù)系統(tǒng)中提取一學(xué)年的學(xué)生學(xué)習(xí)成績?yōu)槔ㄟ^使用python進(jìn)行分析,評估學(xué)生對知識的掌握情況,進(jìn)而引導(dǎo)各專業(yè)團(tuán)隊(duì)針對大數(shù)據(jù)分析的結(jié)果提升專業(yè)和課程建設(shè)的成效。
本文通過該校的教務(wù)系統(tǒng)獲取了全校學(xué)生2019-2020學(xué)年第二學(xué)期和2020-2021學(xué)年第一學(xué)期的大數(shù)據(jù)。這部分?jǐn)?shù)據(jù)存儲在不同的excel表格內(nèi),不僅涵蓋了教務(wù)系統(tǒng)本身提供的學(xué)生各項(xiàng)期末成績,還包括了從其他業(yè)務(wù)系統(tǒng)獲取的數(shù)據(jù),例如從學(xué)工系統(tǒng)獲取的綜合測評成績;從到夢空間獲取的第二課堂積分;從易班獲取的易班網(wǎng)薪經(jīng)驗(yàn)值;從圖書館獲取的借閱記錄等。
這些數(shù)據(jù)種類繁多,單獨(dú)分析并不能全面評價(jià)一個學(xué)生的在校表現(xiàn)情況,容易造成“一刀切”“唯分?jǐn)?shù)論”的教育教學(xué)局面。因此要秉承尊重學(xué)生個體差異的理念,注重“德智體美勞”的育人方向。從全局的高度利用大數(shù)據(jù)分析技術(shù)匯總、清洗和分析學(xué)生的各項(xiàng)數(shù)據(jù),朝著個性化教育的方向思考[5]。
工欲善其事必先利其器。由于教務(wù)系統(tǒng)中存儲的信息來自各個業(yè)務(wù)系統(tǒng),因此導(dǎo)出來的原始數(shù)據(jù)的大小、類型和結(jié)構(gòu)可能不盡相同,需要數(shù)據(jù)整合來對不同類型的數(shù)據(jù)進(jìn)行整合。Python的Pandas函數(shù)庫中提供了Join函數(shù),依據(jù)共有數(shù)據(jù)把兩個或者多個數(shù)據(jù)表格組合起來。通過pd.join指令,以學(xué)生的名字和學(xué)號作為索引,可將專業(yè)課成績、綜合測評成績和第二課堂成績等等合并到一個表格中。此外,本文按照分類思想將每個學(xué)生都看作一個獨(dú)立的對象并制作行索引標(biāo)簽,而其他信息等作為他們的屬性,通過loc方法獲取指定對象所在的行,即可查閱對應(yīng)的屬性。
通過調(diào)用Python的Pandas函數(shù)庫先對原始數(shù)據(jù)中的缺省數(shù)據(jù)進(jìn)行處理。因?yàn)榻虅?wù)系統(tǒng)中學(xué)生個人信息的數(shù)據(jù)采自數(shù)據(jù)中心,而數(shù)據(jù)中心的數(shù)據(jù)是人為錄入的,期間難免會出現(xiàn)漏填或錯填的情況。再加上學(xué)生在校期間可能會停學(xué)、休學(xué)和入伍,而數(shù)據(jù)中心是按學(xué)年為周期采集數(shù)據(jù)的,這樣一來就可能出現(xiàn)這部分?jǐn)?shù)據(jù)欄為空的情況。這部分?jǐn)?shù)據(jù)并不能反映客觀情況,故我們應(yīng)該把它們當(dāng)缺省值處理。使用Pandas中的np.NaN 表示缺省值,通過pd.isnull()和pd.notnull()來判斷原始數(shù)據(jù)中存在缺省的字段,再通過篩選刪除掉對應(yīng)行。
早在20世紀(jì)60年代,國外許多大型教育機(jī)構(gòu)(PISA、TIMSS)就開始采用多層線性模型、回歸模型、因子分析以及Apriori算法在內(nèi)的多種方式研究影響學(xué)生成績的因素。楊琴在2016年通過建立時(shí)空特征模型來分析采集自校園WIFI的學(xué)生行為數(shù)據(jù)[6]。因此為了最終實(shí)現(xiàn)可視化,首先要為標(biāo)準(zhǔn)化的數(shù)據(jù)設(shè)置數(shù)據(jù)模型和算法。邏輯回歸(Logistic Regression)是機(jī)械學(xué)習(xí)中的一種分類模型,是解決二分類問題的利器。以學(xué)生的易班網(wǎng)薪經(jīng)驗(yàn)值為例,設(shè)定默認(rèn)輸出的概率值為0.5,假設(shè)我們設(shè)定大于80分的概率值為屬于A(1)這個類別的概率值。現(xiàn)在有一個樣本的輸入到邏輯回歸的輸出結(jié)果是0.55,那么這個概率超過0.5,那么我們可以預(yù)測這個樣本就是A(1)類別。反之,如果輸出的值為0.3,那么預(yù)測結(jié)果我們可以歸為B(0)類別。
線性回歸算法(Linear Regression)是利用回歸方程(函數(shù))對一個或多個自變量(特征值)和因變量(目標(biāo)值)之間關(guān)系進(jìn)行建模的一種分析方式。線性回歸算法有兩種,一種是線性關(guān)系,另一種是非線性關(guān)系。我們用線性回歸算法處理專業(yè)課(PEC和PCC)。
PEC=a×ER+b×UP
PCC=a×ER+b×UP
其中,ER為考試成績Examination Result,UP為平時(shí)成績Usual Performance,由此我們通過設(shè)置權(quán)重a和b即可建立特征值ER和UP與目標(biāo)值PEC和PCC的關(guān)系。
聚類算法是一種典型的無監(jiān)督學(xué)習(xí)算法,主要用于將類似的樣本自動歸類到一個類別中。在聚類算法中根據(jù)樣本之間的相似性,將樣本劃分到不同類別中,對于不同的相似度計(jì)算,會得到不同結(jié)果,常用的相似度計(jì)算方法有歐式距離算法。在這里我們主要通過聚類算法實(shí)現(xiàn)數(shù)據(jù)的篩選排序。使用聚類算法可以篩選出經(jīng)過缺省處理過的數(shù)據(jù)進(jìn)行刪除;另外還可以實(shí)現(xiàn)將信息按學(xué)年、學(xué)院、專業(yè)等等字段分類顯示,方便使用Matplotlib獲取對應(yīng)字段進(jìn)行可視化[7]。
數(shù)據(jù)可視化是指直觀展現(xiàn)數(shù)據(jù),它是數(shù)據(jù)處理過程的一部分。借助數(shù)據(jù)可視化,能更直觀地理解數(shù)據(jù),有助于解釋數(shù)據(jù)中隱藏的模式,做分析時(shí)可以利用這些模式選擇模型。Matplotlib是Python變成語言的開源繪圖庫。它是Python可視化軟件包中最突出的,使用最廣泛的工具,可以創(chuàng)建主流的可視化類型-折線圖、散點(diǎn)圖、直方圖、條形圖、誤差圖、餅圖、箱型圖等。通過Matplotlib得到專業(yè)必修課和專業(yè)選修課的正態(tài)分布圖。

圖1 專業(yè)必修課的正態(tài)分布圖

圖2 專業(yè)選修課的正態(tài)分布圖
本文對教務(wù)系統(tǒng)的數(shù)據(jù)處理和可視化進(jìn)行了的研究和探索,初步驗(yàn)證了方法的可行性和可操作性,往后的工作包括利用主成分、相關(guān)性、聚類、關(guān)聯(lián)規(guī)則挖掘、多元線性回歸等分析方法優(yōu)化可視化圖表,進(jìn)一步提升此項(xiàng)目對專業(yè)課程建設(shè)和教學(xué)管理的指導(dǎo)性作用。