周夢 張海 楊絮


2015年8月31日國務院發布的《促進大數據發展行動綱要》指出“數據已成為國家基礎性戰略資源”,并在啟動的十大工程之一“公共服務大數據工程”中明確提出要建設教育大數據。如今教育大數據的重要程度已經上升到國家戰略層面,教育大數據對學習全過程的數據分析和精準數據評測學習成為主要的應用場景。通過宏觀和微觀兩方面建設,教育大數據已引起教育領域的廣泛關注和重視。
在過去的幾十年中,從大型數據集中提取有用和可操作的信息的方法已經將科學探究的領域相繼改變?!胺治觥币殉蔀檫^去幾年的趨勢,在應用于教育時,這些方法被稱為學習分析(LA)和教育數據挖掘(EDM)。
本文以澳大利亞的一項研究為例,介紹了澳大利亞學生從小學一年級到成功完成高中學業,然后進入大學的情況,評估了學生性別對澳大利亞教育完成率的影響,分析了學生的成功(和失?。┠J?,并深入了解可以采取哪些措施來改善教學成果,從而為我國應用教育數據挖掘來支持教育評價和教育教學決策提供參考。
● 研究問題的確定
澳大利亞的正規學校教育開始于預科課程(在一年級之前的一年),然后是12年的小學和中學教育。在高中階段(十一年級和十二年級),學生可以在畢業時獲得高中教育證書(通常稱為十二年級證書),這是進入大多數澳大利亞大學和職業教育培訓機構的條件,同時,它也是許多國際大學的敲門磚。
這個研究案例的目的是使用最新的澳大利亞教育數據來評估2004年至2015年(即一年級至十二年級)男性和女性畢業率的差異程度,并估計在2016年以后,十二年級畢業生進入大學的數量。針對此研究目標,墨爾本大學的學者B.M. Monjurul Alom和Matthew Courtney提出了以下四個研究問題(RQ)。
RQ1:對2004年入學的學生數量和2015年畢業的學生數量進行比較,學生性別是否是影響該結果的一個原因?
RQ2:對2004年入學的學生和2015年畢業的學生進行比較,學生所在地是否是影響該結果的一個原因?
RQ3:哪些州的學生性別比例看起來最趨近平衡?
RQ4:2015年十二年級畢業的學生總數與2016年進入大學的學生人數相比,情況如何?
● 分析工具的選取
許多數據挖掘工具都可開放獲取使用,如Wilson Calculator、Tanagra、Weka、KNIME、Orange和Rapid miner。研究者使用了名為Wilson Calculator的數據挖掘軟件和Orange軟件進行數據分析。Wilson Calculator是一個實用的元分析效果計算器,而Orange則是為給定數據集提供可視化和預測建模解決方案。Orange是一種基于組件的可視化編程軟件,用于數據挖掘、機器學習和數據分析。
分析中使用的數據集是公開可用的,并以Excel格式從澳大利亞統計局網站下載。數據準備階段需要將這些數據重新格式化為Orange中分析所需的常規數據結構。研究者利用數據可視化過程來呈現結果。在該過程中,根據男女學生的識別來測量相對頻率;利用散點圖技術衡量每個州的學生從入學到高中畢業的情況。
● 數據分析程序的設計
為了回答RQ1,關于性別對學業完成率的影響,研究者使用Wilson計算器(2乘2頻率;概率估計)來確定效應大小(Cohen's d)和與男性畢業率低相關的統計顯著性水平。
要回答RQ2,關于學生所在地對學業完成率的影響,研究者使用Orange可視化工具。下面對此過程進行詳細的說明:
下載并打開Orange Data Mining工具后,首先將csv數據文件鏈接到Orange程序;連接數據文件后,可以通過選擇適當的選項來執行所有分析和可視化技術(如圖1)。研究者使用可視化過程來創建圖形(參見Data下的第一個選項)。在可視化下,使用分布和散點圖技術繪制分別如圖2和圖3所示的圖形。需要注意的是,Orange中有多種數據挖掘選項:在Classify選項中,可以選擇識別最近鄰居;在回歸選項中,可以選擇單變量或多變量回歸;在評估選項中,可以選擇預測;在無人監督選項下,可以編寫自己的分析。
為了回答有關各州性別公平性的RQ3,研究者計算了十二年級畢業的男性百分比和女性百分比([N2004 - N2015] ×100),使用這種方法,可以解釋2004年至2015年期間比例失衡的男女移民問題(這里的假設是,各州的男性和女性移民學生人數相對平等)。在執行此程序后,可以將各州的情況整理成表格并按照十二年級女性畢業率從高到低進行排名。
為了回答關于2015年高中畢業人數和2016年大學新生人數做對比的RQ4,研究者對統計局報告的數字進行了簡單演繹邏輯來估計2015年高中畢業人數和2016年大學新生的數量之間的一致性,研究者還使用了基本的Excel圖形功能對2016年每個專業的新生所占百分比進行了說明。
● 研究結果的描述
RQ1:對2004年入學的學生數量和2015年畢業的學生數量進行比較,學生性別是否是影響該結果的一個原因?
根據澳大利亞統計局提供的數據,2004年開始上小學的國內學生總數為263,413人,而完成十二年級的總人數估計為233,358人。這些數字可以按性別細分,2004年共有135,199名男生從一年級入學,而2015年完成十二年級的有114,545名(缺口20,654人)。此外,2004年共有128,214名女生從一年級入學,而2015年完成十二年級的有118,812名(缺口9,402人)。通過數據分析程序的計算,估計男性的整體效果為d=-0.43(p<.001)(中等大?。Q芯拷Y果顯示男性輟學率更高;相反,女生的畢業率或成功率相對較高。相關結果在上頁圖2中以可視化的方式表示。
RQ2:對2004年入學的學生和2015年畢業的學生進行比較,學生所在地是否是影響該結果的一個原因?
運用以上的數據分析程序,生成上頁圖3中的散點圖。圖中直觀地反映出,對于大多數州而言,2015年的畢業率高于2014年的畢業率。
RQ3:哪些州的學生性別比例看起來最趨近平衡?
運用以上的數據分析程序,計算出了較高的女性畢業率的估計值。結果表明,在維多利亞州,男女畢業率差異較大(10.2%),而在澳大利亞首都直轄區,這種差異較小,僅為2.5%。
RQ4:2015年十二年級畢業的學生總數與2016年進入大學的學生人數相比,情況如何?
上頁表中的第一列數據是專業領域,描述了2016年澳大利亞大學新生選擇的專業領域。第二列列出了選擇該專業領域的學生占全體新生的百分比。第三列代表2015年至2016年每個專業領域的學生的比重變化。根據澳大利亞統計局提供的數據,可以知道2015年有233,358名學生完成了十二年級的學業。此外,有關入學人數的數據,在2016年的高等教育中,該局報告說,74%的學生是本科生,其中76%的學生被認定為國內學生,34%被確定為開學新生(第一年)。根據這些數字,估計有238,932名本科大學生在2016年入學。這顯示了澳大利亞高等教育(2016年)的趨勢,其中管理專業和商業的學生人數最多,農業最不受學生歡迎。
注:(a)在本財政年度使用12個月的數據進行平均;(b)對于釋放性別指標,澳大利亞根據新的基準程序,對2001—2002年度的勞動力估計數進行了修訂。
當一年級入學的新生(2004年:263,413人)和十二年級的畢業學生(2015年:233,358人)按性別群體分類時,結果顯示中度差異,表明男性傾向于不成比例地輟學。這種不成比例的程度似乎在各州之間分配不均。從長遠來看,國家可能缺乏公平性,看似很大比例的男性在第12年沒有繼續完成學業。當然,在這方面需要更多的研究來證實這些早期的結果。
與有資格入讀大學的十二年級學生人數相比,研究結果表明至少有相同或更多的學生進入高等教育。當然,在審查這些數字時,需要考慮間隔幾年重返學校的學生和定義為成年學生的比例。
將數據按性別分類,并顯示三個級別的教育:高中、??平逃⒎歉叩冉逃透叩冉逃ú话ú┦繉W位)。從上頁圖4中可以看出,不同國家的各個教育程度,女生的畢業率都高于男生。從上頁圖5中可以清楚地看出,澳大利亞女性的失業率高于男性,但女生的畢業率或學業成功率也相對較高,這可能是男性未畢業率更高的主要原因之一。
● 對我國教育管理研究的啟示
本文介紹了研究者借鑒公開可用的統計數據,演示了如何使用統計軟件程序Wilson Calculator和Orange來回答有關澳大利亞學生入學和畢業的四個研究問題。研究結果表明性別起著重要作用,2016年大學入學人數與2015年完成十二年級的人數相當。
伴隨著信息技術的發展和大數據時代的來臨,數據挖掘已經成為提高教學管理水平和教學質量的重要工具,但是數據挖掘在國內的教育管理中運用得并不普遍。本文通過介紹澳大利亞從小學到大學的一項教育研究案例,為我國數據挖掘技術支持指導學校教育工作,幫助學校進行教育決策提供了有利的參考。