許倩倩等
摘要:隨著數字化學習的唱響,相關網絡數據的不斷增多,網絡數據的挖掘與分析也在教育技術領域開始實施,旨在發現規律并運用于學習實踐。本文以江南大學繼續網絡教育學院留存的數據為基礎,開展數據分析,以期為今后的招生與學生的學習提供有效的建議。
關鍵詞:教育數據挖掘;相關分析;學習數據
中圖分類號:G434 文獻標識碼:A 論文編號:1674-2117(2015)18-0110-03
隨著網絡技術在教育中的普及與應用,數字化學習(E-Learning)逐漸進入教育者的視野并得到高校的歡迎和認可。數字化學習為高校的校園網站、網絡教學平臺的建設和使用提供了空前的便利和支持。同時,一些高校開設了繼續教育學院,為成人教育提供了更加便捷的學習平臺。繼續教育學院的學習基于網絡,學習數據全面,能夠量化地反映其中相關內容。因此,我們根據江南大學繼續網絡教育學院的3050位學生在網絡教育平臺上留存的數據,展開了一系列教育數據相關分析。
基本信息描述
3050位學生的基本信息為男性占48.7%,女性占51.3%。在21~40歲的學生人數占到了93%以上,是繼續網絡教育學院學生的主要群體。
從學生入學時間來看,2012年入學人數最多,占60%以上,這是由于網絡教育的普及導致2010-2012年入學人數呈現急劇增長的趨勢,但在2013年因為“網絡學憑熱”的逐漸退燒出現了回落。
從學生生源地來看,來自江蘇省的學生最多,其次為浙江省、福建省。如果將各地以較大的行政區區域來劃分,則華東地區一枝獨秀,學生人數占85%以上。
學生專業種類較多,共19種,包括理工類4種、漢語類3種、社法類2種、管理類4種、教育類3種、經濟類3種。
相關分析
我們將所得數據的類型分為三大類,即基本信息、個人表現與最終成績。并以這三類數據為基本分類依據,進行各類數據內與數據間的相關分析。
1.基本信息與個人表現、最終成績的關系
(1)性別與各類表現、成績之間的關系
數據分析后結果為學生的性別與其部分的表現及成績有微弱相關,而學生性別與已學課程平均成績達到0.116的顯著相關,這說明性別與課程平均成績有較小相關。
(2)年齡與各類表現、成績之間的關系
數據表明,年齡與全部的表現及成績都不存在0.1以上或小于-0.1的顯著相關。由于年齡與成績都是連續型數據,因而我們依據其中的數據,得到多張散點圖。如下頁圖1所示,在左上方呈現一個直角三角形的形狀,由此我們可以粗略推斷,學生年齡與入學成績存在一定的關系,年齡越大,成績越向高分處集中,說明年齡越大,對待考試越認真。然而,這也與年齡較大的人數較少有一定的關系。
既然年齡段的成績情況不盡相同,我們根據年齡對個案進行篩選,并重復以個人表現、最終成績內容為另一個因素進行相關分析,發現年齡在“≥30”“≥40”兩種篩選條件下,年齡與少部分成績出現了0.1以上的相關關系。在年齡段被分開的基礎上,我們對不同年齡段統考大學英語的通過率做了分析,發現年齡段越高,統考大學英語通過率越高。這個結論可能會受到年齡較大的人數較少的影響,但也在一定程度上證明了之前所獲得的年齡越大認真程度越大的結論。
(3)入學年份與各類表現、成績之間的關系
研究中,首先將入學年份作為雙因素分析的因素之一進行分析,得到入學年份與登錄平臺次數存在-0.53非常顯著的中度相關性;其次,入學年份與大學英語三、大學英語二分別存在0.248、0.179非常顯著的弱相關性。
接下來,我們對兩個中度相關的數據做進一步分析。發現學生入學年份與登錄平臺次數散點分布圖中每個年份上都有黑色較濃重的段落(如圖2),這說明年份內登錄平臺次數集中于一個次數段,因而入學年份與登錄平臺次數出現中度相關。然而,比較不同年份之間的黑色段落,可以發現有先上升后回落的趨勢。那么,將樣本以2011年為界進行分隔,能否發現更明顯的相關性?基于這樣的猜想,我們篩選出“入學年份≤2011”的樣本,并進行入學年份與登錄平臺次數雙變量相關分析。在這樣的篩選條件下,二者顯現出0.722非常顯著的較強相關;“入學年份≥2011”的樣本,二者顯現出-0.719非常顯著的較強負相關。
綜合上述分析結果,可以推斷:入學年份與成績的弱相關原因與該年所招收學生學習是否認真相關。當網絡教育還未達到熱潮時,進入學習的學生態度認真;而當網絡教育達到熱潮時,學生學習的興趣卻逐年下降。影響成績的因素較多,登錄平臺次數與學生的認真程度有著密切關系,分段入學年份與登錄平臺次數顯示的較強正相關、較強負相關基本能夠支持這種推論。同時,學生在登錄平臺時有次數要求,且不同年份具有次數要求不同的硬性規定導致該結果的出現。
(4)生源區域、專業種類分別與各類表現、成績之間的關系
本研究使用行政上的區域劃分來討論生源區域與學生表現成績的關系。我們將生源區域作為雙因素分析的因素之一進行分析,沒有發現其中的Pearson相關性大于0.1或者小于-0.1的相關關系。然而,其中“生源區域”與“入學測試大學英語”、“生源區域”與“學位英語”進行雙變量相關分析中,雖然相關性數值表現為0.007與-0.003的微弱相關,而兩者之間不相關的雙尾檢驗值為0.704與0.865,否定了其二者不相關的假設。所以,生源區域與入學測試大學英語、學位英語之間存在相關性。
在分析專業種類數據時,同樣出現類似于上述的結果,“專業種類”與“學位英語”、“專業種類”與“統考大學英語”的雙變量相關分析中,雖然相關性數值表現為-0.002與0.002的微弱相關,而兩者之間不相關的雙尾檢驗值為0.914與0.907,否定了其二者不相關的假設。所以專業種類與學位英語、統考大學英語之間存在相關性。
2.個人表現內的關系
入學測試計算機成績、入學測試大學英語、登錄平臺次數三者之間都存在中度以下的相關性。入學測試計算機成績與大學英語之間存在0.403的一般程度相關關系,顯著程度為非常顯著;入學測試計算機成績與登錄平臺次數之間存在0.2的弱相關關系,顯著程度為非常顯著。
從得到的結論中可以得出,后者的相關原因為計算機成績好的學生更愿意接納網絡教育模式,因而登錄平臺次數較多。因此,我們對入學計算機成績與登錄平臺次數做了散點分布圖,(如圖3所示),從圖中,可明顯看出入學計算機成績越高,學生平均登錄平臺的次數就越多。
由于專業側重不同,99%以上的學生在入學時,只進行了“入學測試高等數學”與“入學測試大學語文”二者其一的考試。因此,在開展與“入學測試大學數學”與“入學測試大學語文”兩列數據有關的相關性分析時,我們將相應的未考學生除去后進行了分析。統計人數為828人,這是在入學時選擇考“大學語文”的人數。在這些人中,入學大學語文與入學大學英語成績呈現0.289的較弱相關關系,顯著性為非常顯著。數據一定程度上證明了語言的同質性,即能夠掌握好一門語言的人,對其他語言也能夠較好地進行掌握與運用。
3.個人表現與最終成績的關系
研究中,我們將個人表現中的因素與最終成績中的因素依次進行相關分析,發現“大學英語二”與“已學課程平均成績”、“大學英語三”與“已學課程平均成績”分別有0.448、0.329的一般相關關系,顯著性都是非常顯著。由于大學英語二、大學英語三成績計入已學課程平均成績,且為網絡課程學習,課程成績基本取決于學生的知識基礎與認真程度,而在一門課程中表現良好的學生其他課程情況也不會太差,因此二者具有相關關系。
4.最終成績內的關系
研究的最后,對學生最終成績內的三個元素進行相關分析,發現其中的學位英語與統考大學英語存在0.415的一般程度相關性,顯著性為非常顯著。并在此基礎上,對二者相關情況做進一步研究,我們將學位英語成績劃分為大于等于60分的為“合格”與低于60分的為“不合格”。學位英語難度超過統考大學英語:未通過統考大學英語的學生在學位英語上幾乎全軍覆沒,并且通過了統考大學英語的學生中也有三分之一左右在學位英語考試中失利(如圖4)。因此可以說,二者確實存在一定的關系。
結論
在本次分析中,采用描述統計、相關分析與作圖的方法,對江南大學繼續網絡教育學院學生的基本信息、個人表現以及最終成績之間的關系進行了了解。雖然統計已經經過一定程度的篩選,但由于樣本數量較大以及分析者能力限制,所得結果還不夠確切。但是結果已經過推敲,在現有數據范圍內,發現了一定的規律,可以起到一些參考作用,在今后成人教育范圍內,可以給予招生與學習過程的督促、學生自我學習給予一定的參考。
參考文獻:
[1]葛道凱.E-Learning數據挖掘:模式與應用[J].中國高教研究,2012(3):8-14.
[2]Cristóbal Romero,Sebastián Ventura,Enrique García.Data mining in course management systems:Moodle case study and tutorial[J].Computers & Education,51(2008):368-384.
[3]李玉光,杜宏巍,黃永生.SPSS 19.0統計分析入門與提高[M].北京:清華大學出版社,2014.
[4]葛道凱,張少剛,魏順平.教育數據挖掘:方法與應用[M].北京:教育科學出版社,2012.