王 亮
(南開大學 現代遠程教育學院, 天津 300071)
?
學習分析技術 建立學習預測模型
王 亮
(南開大學 現代遠程教育學院, 天津 300071)
學習分析技術通過對各種相關數據信息的收集來研究學生在學習中的實際參與、表現和進展情況,并結合學生的某些傾向性特征對其最終學習結果進行預測。通過預測分析可以為大范圍和數量的學生提供預測結果,并實時向教學管理者提供相應的干預策略,來避免學生最終課程學習失敗。研究所討論的內容,是如何在大量的因素之中,找到對學生學習結果最具影響性的指標進行分析,從而建立起一個模型,并通過模型預測評估學生是否正在面臨課程無法通過的風險。預測的結果將可提供給導學教師,用以優先選擇高風險的學生進行主動干預并提供額外資源,最終確保更多的學生學業能順利完成。論文提供了預測模型的設計方法、對模型的統計學驗證以及技術應用最終的實施方案。
學習分析技術; 預測模型; 預測分析; Logistic回歸
分析學是一個學科門類的總稱,是指利用數據進行統計分析,對分析結果進行解釋并建立預測模型,最終獲得對某些復雜問題的見解及應對方法的一類學科。學習分析技術作為分析學的分支,旨在充分發揮數據挖掘工具在學習服務中的作用,以更好地理解動態學習環境所帶來的復雜性、多元性和信息的豐富性[1]。
這一技術應用的目的是利用對學習數據的分析結論,來指導包括教師、學生在內的過程參與者對學習進程進行必要的干預,同時為課程設計者提供實時改進課程、教學以及評價的依據,為學生提供個性化的學習環境,以提高學生的學習效果。
目前,絕大部分教育機構都已經擁有一些相對靜態的監控手段(如監控學生的上網學習時間等)來識別學生在學習中可能遇到的困境,然而,一個更為完善的,能為導學人員提供直接干預提示的預測信息系統,一直是相關教育技術研究的目標。本文即是對這樣一個模型的建立原理進行討論,包括模型建立的方法與對其驗證的手段。對相關領域的研究背景進行簡要概述,同時解釋如何選定包含在模型中的變量。之后將描述建立模型的方法,并對初期選擇的變量針對預測效果進行識別并討論,繼而驗證預測模型的有效性和準確性。最后,會針對該技術項目的下一步發展前景與拓展應用范圍提出討論。
2012年Learning Analytics and Knowledge conference(LAK12)會議上,與會研究者為學習分析做出了如下定義:學習分析技術是一種對學習者和其所處背景環境的數據進行測量、收集、分析和報告,以達成理解和優化學習過程本身以及學習發生環境目的的數據挖掘技術[2]。
學習分析應用設計時的關鍵決策之一是選定用哪些數據來作為預測學生學習進度的指標。在任何一個分析模型中,對數據選取的結果直接影響著分析預測的準確性和有效性。
在相關研究背景方面,Garman采用Logistic回歸分析的方法,主要基于學生在閱讀理解方面的評估結果,對學生在線數據庫課程進行預測[3]。根據對其方法的研究發現,當前學期課程的變量對模型的預測影響很小,可以忽略不計。Moore把學生當前課程活動的參與程度與之前課程的參與程度都作為關注分析的對象[4],研究表明,學生對課程的參與程度與其在課程中最終的表現呈現高度相關,而其他一些變量,如學生的高中排名、而入學考試成績等則沒有在結果上呈現顯著差異。
本文選擇的研究對象為筆者所在網絡教育學院之學生,對于這樣一種學習類型的課程來講,考察學生對課程的參與程度的有一個普遍認同的測量方式,即是對學生在課程論壇中的發帖數量進行統計[5]。有前期的研究工作表明,學生的最終成績不僅與學生在論壇上發帖或回帖的數量相關,而且還與其閱讀帖子的數量相關[6]。然而,還有一些研究發現學生在論壇的發帖數量并不能與學生最終的課程結果建立起明確的決定關系[7,8]。此外,Ramos的研究發現,與學生在論壇的發帖數量表現相比,其在學習平臺中的點擊數更具有預測影響力[9]。鑒于各類研究中對學生在課程論壇中的行為對最終結果的影響難以形成一致意見,本文采取在模型中引入相關變量的初始方案,并在回歸分析過程中驗證這一假設的有效性。
在對學生的個人屬性變量的研究方面,Martinez發現包括高中平均成績、年齡、性別、數學水平、民族、專業選擇以及工作時長在內的諸多變量都對學生課程通過與否有著不同程度的預測影響[10]。
2.1 預測模型中變量的選擇
對預測模型中有潛在影響的變量進行簡單分類,并在分類基礎上,根據研究對象的特點,進行變量組成選擇。縱觀這些指標變量,以其性質可以劃分為兩大類:① 帶有學生個人屬性特征的“傾向性指標變量”;② 學生在學習過程中體現的“行為表現指標變量”。
(1) 傾向性指標變量。對學生個人屬性和其所處的學習環境的描述。這些變量可以用來預測這個學生能否在未來積極對待課程學習并做好相應準備。如前文所述,這一類變量包括如年齡、性別、民族、此前學習經歷,個人財務狀況、甚至學生的心理學分析[11]等等。很多研究者認為,學生在高中階段的成績可以作為預測其在大學階段學習狀況的準確預測變量[12]。然而,針對本文的研究對象——網絡教育學生,其年齡、性別等屬性變量,可以較方便的從學生信息系統中獲取[13],但由于系統設計的局限,其高中學習成績等信息很難得到。鑒于此,本文在模型中初步選定的傾向性指標變量包括:性別、年齡、婚姻狀況、職業情況及地區分布。網絡教育的特點是地域覆蓋范圍大,這樣一個大地理跨度下的學生,必然存在很大地域差異性,因此在本文的模型中選擇將地區分布參數作為考察對象。在對此變量的處理上,本文采取了將所有地區劃分為東部、西部兩個集合的方式,屬于西部地區的學生此變量賦值為0,東部地區的賦值為1,將其代入Logistic回歸并觀測結果。
(2) 行為表現指標變量。學生在學習過程中所作出的學習行為和階段性表現。這類變量往往是量化數據,易于從教學教務管理系統中獲得。有一些研究還將這些變量做進一步分類:① 衡量學生成績表現的變量,這個變量分類關注的是學生實時的學習成果,例如作業成績和隨堂測驗成績等均屬于這一范疇;② 是比較不同學生之間主觀努力程度的差異,如學習平臺的登錄次數和頻率、在課程網站上花費的時間、課程論壇帖子的數量都屬于這一個分類[14]。本文在對數據集進行初步考察后發現,數據樣本中學生在論壇上發帖數量的差異并不明顯,因此,將這個變量替換為學生在論壇上的在線時長。這樣就能對學生參與論壇討論的投入程度進行全面評價,此外還可以兼顧變量的差異性。因此,本文選擇的行為表現指標變量包括:論壇在線時間、導學資料瀏覽時間以及平時成績3個內容。整體模型變量選擇結果如表1所示:
2.2 預測模型的建立
本文以所在遠程教育學院的學生數據集的有限子集建立預測模型,選擇的研究數據子集為選擇某年度同一門課程的1 019名學生。數據集以學生學號為唯一區分標識,選定的傾向性指標變量來自于學院學籍系統的學生個人信息,行為結果指標變量取自教學管理平臺的學習狀態監控數據。利用這些數據建立一個Logistic回歸模型來對學生的課程學習結果進行預測。

表1 模型初始變量
首先使用隨機算法從1 019個數據中抽取500作為模型的學習樣本,余下的519個作為測試樣本,并使用Logistic回歸對學習樣本的數據進行分析,以判斷所選擇的變量是否能成為預測學生課程通過與否的有效指標。在將數據帶入回歸計算并迭代50次后,可以得到一個穩定收斂的回歸系數結果。我們選擇使用兩個驗證方法來確認模型系數是否有效。
Omnibus Tests of Model Coefficients(模型系數的混合檢驗,見表2)主要是針對步驟、模塊和模型開展模型系數的綜合性檢驗。表中給出卡方值及其相應的自由度、P值即Sig.值。取顯著性水平0.05,考慮到自由度數目df=8,可以查出卡方臨界值為15.507。計算的卡方值21.227,大于臨界值,并且相應的Sig.值小于0.05,因此在顯著性水平為0.05 的情況下,檢驗通過。

表2 模型系數的混合檢驗
考慮到樣本數目的敏感性,本文還使用Hosmer-Lemeshow 檢驗作為補充和參照,Sig.值大于0.05,據此也可以判知檢驗可以通過。
最終可以得到收斂后的模型中的變量的回歸系數和置信度,具體數據見表3。

表3 最終回歸方程中的變量
3.1 對模型變量的結果分析
從表3的數據可以得到,以論壇在線時間、導學資料瀏覽時間以及平時成績3個行為表現指標變量的置信度均較高,分別為96%、92%和90%,符合文獻中對此類變量的普遍評價。通過模型分析可以肯定,作為衡量學生在課程過程中的主觀努力意愿和成績表現的標識,是預測學生課程成敗與否的重要信號。其中,平時成績變量的置信結果稍低,推測這與遠程網絡教育的特點有關。現代遠程教育采用的是網上業余學習的形式,面對的學生也以在職學生為主,考慮到在職學習的困難和障礙,網絡教育在對學生教學組織特別是平時作業的安排上,并不是過于強調難度和成績的區分效果。這就導致學生平時作業成績普遍較好,從而在模型中的差異性體現亦相應有所下降。
在傾向性指標變量范疇內,學生個人屬性的變量也具有顯著的預測影響性。特別是地區分布變量,其對模型的影響度是最高的,超過了國外文獻中普遍認可的行為表現指標變量,本文判斷這是由中國整體發展地區不均衡的特點決定的。由于經濟發展迅速和人口流動集中等原因,東部地區的學生在課程學習的表現上,明顯高于西部地區學生。此外,性別對學習的預測影響也超過此前預期,根據置信度和回歸系數結果判斷,女生的學習預期明顯好于男生。這個結果是普遍現象還是與所選擇數據集有直接關系,還需要進一步研究驗證。
另外值得注意的是,婚姻狀況和職業狀況的置信度都很低,對模型的影響很小,因此在下一步對模型的改進中,準備將這兩個變量從模型中剔除,再重新計算回歸系數。
3.2 對模型的改進
根據對前文結果的分析,本階段將婚姻狀況和職業狀況兩個變量從模型中去除,再次進行Logistic回歸迭代計算。檢驗方式同上,不再贅述。篩選后的變量系數與置信度見表4。

表4 改進后模型的回歸方程變量
在去除掉重要程度低的變量后,方程中各變量的置信度在穩定基礎上又有所集中,這表明改進后的模型在穩定性和抗干擾性方面都有所提升,性能令人滿意。鑒于各變量的相關參數沒有本質性改變,證明前文對結果的分析依然有效,此處不再重復進行結果的說明,直接將改進后的模型引入下一步的驗證運算。
3.3 對模型的驗證
根據收斂系數的回歸方程,將之前預留的519個測試樣本代入其中,對模型的預測準確率進行評估。首先建立線性關系如下:
z=-1.123+性別×(-0.583)+年齡×0.055+地區×1.096+論壇時長×0.221+ 資料時長×0.470+平時成績×0.008
將上面的關系式代入,
就可以帶入測試樣本對因變量課程通過的概率進行預測運算并與實際結果進行驗證。運算結果表明,在519個測試樣本中,通過預測模型運算得到的課程最終通過結果,有469個與實際結果相一致,不一致的有50個,預測的準確率為90.4%,模型的準確性和有效性良好。
3.4 模型的實際應用和意義
應該注意到,與驗證模型與實際數據的一致性相比,更重要的是驗證模型的實際應用性,應在提高和完善模型準確率的基礎上,將其投入到教學導學的實際應用中去。
本文提出的基于Logistic回歸分析的學習預測模型,在學生教學管理平臺中已經初步體現出了良好的實際應用價值。通過對教學平臺整合這一預測模型,可以從學生各項數據中,預測出學生通過某些課程的概率結果。并且,隨著學生學習過程的推進,包括作業成績、論壇討論參與度等主觀性行為數據也在不斷更新。因此,模型對學生的學習預測結果也是相應動態改變的。預測結果,會通過平臺中的可視化圖形頁面,即時向導學或督學教師公布。
本研究在模型的預測呈現中選用了最為直觀的三段風險評估描述,即“無風險、一般風險和較高風險”,將預測課程通過概率大于70%的學生定義為“無風險”,預測通過概率60%~70%定位為“一般風險”,低于60%的定義為“較高風險”。督學教師可以根據結果安排優先級對學生的學習進程進行干預,包括與高風險學生進行及時溝通,為其提供必要的資源引導或者其他的教學輔助服務。本研究選擇了選修同一門課程的學生作為測試對象,隨機選取一半學生進行預測模型的應用,對預測考核通過風險較高的學生進行人工干預,有效地影響了學生的學習狀態。最終,在課程考核的結果中,使用預測模型進行人工干預的學生考試通過率達到82%,而未使用模型預測并人工干預的學生通過率是75%。該預測模型的實際應用效果令人滿意。
目前來看,本文提出的預測模型仍舊有需要改進的地方。首先,預測模型的建立算法仍有改進空間,模型的預測準確性可再進一步提高;其次,對于預測結果的呈現仍舊比較單一,不夠具體、細化。最后,由于教學管理平臺上學生相關數據更新的階段性特點,在經歷人工干預后,最終學生反饋結果會存在一定的滯后,為后繼督學干預的操作帶來困難。因此,改進模型建立算法,探討如何為督學教師提供更有效的可視化預測結果,策劃高效合理的干預手段,將是下一步研究的主要方向。
本文完成了一個以遠程教育學生為研究對象的學習分析預測模型的設計,從眾多的影響因子中篩選出最佳預測效果的變量進行Logistic回歸分析,并對模型進行改進和優化,以達成預測準確率的最大化。根據對模型的測試樣本驗證,基本達到了預期的預測效果。并在教學管理平臺中對該模型進行了實際應用,通過“分析—干預—反饋”的機制對提高學生考核通過率起到了較好的促進作用。后續仍可數據集的數據全面程度和有效性、預測模型設計算法以及數據與預測實時性方面對預測模型進行改進。
一些研究證實,在教師與學生比例為“一對一”或“一對二”這類個性化教學模式下,學生的表現和成績明顯比班級批量教學水平好的多[15],但實施這樣的個性化教學系統投入的代價無疑太高。因此,學習分析技術的最終目標就是盡可能的模擬接近這樣的針對個體的教學環境,使教師和學校能夠為不同需要、能力水平的學生提供最適合的個性化學習環境和資源配置等教育服務,這將成為此項技術持續發展的潛力和動力。
[1] New Media Consortium and the EDUCAUSE Learning Initiative. Horizon Report 2012 Higher Education Edition[M]. Texas, ISBN 978-0-9846601-3-1, 2012.
[2] Society for Learning Analytics Research. Learning analytics’ definition[EB/OL].2012. http://www.solaresearch.org/about/.
[3] Garman G. A Logistic Approach to Predicting Student Success in Online Database Courses[J]. American Journal of Business Education, 2010, 3(12): 1-5.
[4] Moore R. Do Students Performances and Behaviors in Supporting Courses Predict Their Performances and Behaviors in Primary Courses[J]. Research and Teaching in Developmental Education, 2007, 23(2): 38-48.
[5] 張 波, 耿在丹, 杜保強. 基于數據倉庫的學生信息管理決策系統[J]. 實驗室研究與探索, 2009(12): 59-62.
[6] Wang A Y, Newlin M H. Characteristics of students who enroll and succeed in Psychology web-based classes[J]. Educational Psychology, 2000, 92(1): 137-143.
[7] Reisetter M, Boris G. What works: student perceptions of effective elements in online learning[J]. Quarterly Review of Distance Education, 2004, 5(4): 277-291.
[8] Sadik A, Reisman S. Design and implementation of a web-based learning environment: lessons learned[J]. Quarterly Review of Distance Education, 2004, 5(3): 157-171.
[9] Ramos C, Yudko E. “Hits” (Not “Discussion Posts”) Predict Student Success in Online Courses: A Double Cross-Validation Study[J]. Computers & Education, 2008, 50(4):1174-1182.
[10] Martinez D. Predicting student outcomes using discriminant function analysis, 2001[C]∥the 39thAnnual Meeting of the Research and Planning Group, Lake Arrowhead CA. 2001.
[11] Simon Buckingham Shum and Ruth Crick. Learning Dispositions and Transferable Competencies: Pedagogy, Modelling and Learning Analytics, 2012[C]∥Learning Analytics and Knowledge Conference, Vancouver, British Columbia, 2012.
[12] Tim McKay, Kate Miller, Jared Tritz. What to Do with Actionable Intelligence: E2Coach as an Intervention Engine, 2012[C]∥Learning Analytics and Knowledge Conference, Vancouver, British Columbia. April 29-May 2, 2012, 2.
[13] 邵蘭潔, 李光忠. Web 使用挖掘的數據采集技術探究[J]. 實驗室研究與探索, 2010(3): 225-229.
[14] Kimberly E. Arnold and Matthew D Pistilli. Course Signals at Purdue: Using Learning Analytics to Increase Student Success, 2012[C]∥Learning Analytics and Knowledge Conference, Vancouver, British Columbia. April 29-May 2, 2012, 1.
[15] Benjamin S Bloom. The 2 Sigma Problem: The Search for Methods of Group Instruction as Effective as One-to-One Tutoring[J]. Educational Researcher, 1984,13(6): 4-16.
Learning Analytics: Preliminary Study of Creating Course Predictive Model
WANGLiang
(Modern Distance Education College, Nankai University, Tianjin 300071, China)
Learning analytics is a combination of kinds of data collection tools and analytics, it studies the participation performance and progress academically of students by collecting relevant data, and predicts the course success through the dispositional indicators of every student. The current study is to create a model based on the analysis of the factors which affect the study results of the students most among a large number of factors, and predict the risk a student failing in a course through the model. The counselor could choose the high risk students to provide voluntary intervention according to the predictive results, and ensure more students complete their studies successfully. The current study demonstrates the design method of the predictive model, the statistical validation of the model and the implementation plans of the technique.
learning analytics; predictive model; predictive analytics; logistic regression
2014-02-18
王 亮(1982-),男,天津人,碩士,實驗師,主要研究方向為數據庫技術應用,軟件工程, Elearning技術研究應用。
Tel.:13821111005; E-mail:wanlian@nankai.edu.cn
TP 391
A
1006-7167(2015)01-0215-04