999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據學習分析的在線學習風險預測研究*

2018-09-04 07:58:48李建偉蘇占玖黃赟茹
現代教育技術 2018年8期
關鍵詞:分析模型課程

李建偉 蘇占玖 黃赟茹

?

基于大數據學習分析的在線學習風險預測研究*

李建偉 蘇占玖 黃赟茹

(北京郵電大學 網絡教育學院,北京 100088)

近年來大數據技術在全球各領域成為研究熱點,越來越多的教育研究者將大數據分析方法應用到在線學習中,并且力圖科學有效地分析學習過程中出現的問題。文章對國內外大數據學習分析的研究現狀進行了分析,提出研究問題:如何在課程學習的過程中預測學生期末成績不及格的風險。文章對比了四種研究二分類問題的機器學習算法,并使用真實的抽樣數據對算法的性能進行了評估,最終選擇了邏輯回歸算法。然后,文章設計了在線學習風險預測框架,并使用北京郵電大學網絡教育學院的真實學生數據,通過訓練得出了學習風險預測模型。最后,文章使用真實數據對模型的準確率進行了驗證,結果表明,模型能夠以接近80%的正確率預測學生是否存在期末成績不及格的學習風險,這種準確率已經達到大規模推廣使用的要求,可為進一步研究個性化的學習干預打下基礎。

大數據;學習分析;機器學習;風險預測

引言

近年來,大數據技術不斷深入到各個領域,讓許多行業都發生了改變,也讓我們更加了解到數據的深層意義。美國新媒體聯盟(The New Media Consortium,NMC)與北京師范大學智慧學習研究院合作的《2016 新媒體聯盟中國基礎教育技術展望:地平線項目區域報告》指出,大數據學習分析技術將在未來兩至三年成為極具影響力的教育技術,并表明有效運用學習分析技術可以設計更好的教學活動,讓學生積極主動地參與學習,準確定位處于危險中的學生群體,評估預測影響學生成功的因素[1]。

在線學習學生數量眾多,學習過程行為復雜,突破了傳統教學的時間、空間限制,而傳統方式教師只能通過作業成績、考試成績等結果來評判學生,而對于學生在學習過程中的其它行為并不了解,不能及時對學生進行全面的評價。利用大數據分析方法可以對學生的在線學習數據進行全面地收集、測量和分析,理解與優化教學過程及其情境,為教學決策、學業預警提供支持,真正實現個性化學習,提高教學效果,這是大數據學習分析在教育領域的價值所在[2]。本研究在大數據分析的技術背景下,以北京郵電大學網絡教育學院的真實學生數據為例,將大數據分析方法應用于在線學習結果預測中,以提高教學效果。

一 大數據分析國內外研究現狀

自學習分析的概念提出后,國內外研究者就不斷關注大數據學習分析,目前國內外利用大數據進行學習行為分析的研究主要包括三個方面:①用工具軟件追蹤和記錄學習行為;②關注學習者需求和在線學習環境;③尋找學習行為和學習績效的關系。

1 國外研究現狀

國外在線學習分析研究致力于分析學生本身的數據以及在學習過程中產生的數據,激發學生的學習興趣,優化學生的學習效率,從而改善學生的學習環境。2005年,美國佐治亞州大學的研究人員對高中學生的GPA(Grade Point Average)和SAT(Suite of Assessments)數學成績通過判別式分析,對他們的在線通識教育課程的完成情況進行預測[3]。Campbell[4]利用因子分析和邏輯回歸分析方法,對課程管理系統中的數據和學生人口統計信息數據進行分析,研究出一個能預測學生學習結果的預測模型。Romero等[5]利用數據挖掘技術,在Moodle平臺上進行分類、聚類和關聯規則挖掘研究。近年來,Agapito等[6]利用C4.5決策樹規則,對在線學習系統中的學習不佳表現進行判別分析。2007年,普渡大學提出了通過學生的素質評價和在線學習行為數據對學生的成績進行預測的預測模型,并在實際使用中取得了非常好的效果[7]。馬利斯特學院的Sandeep[8]在2012年對普渡大學的預測模型進行了擴展研究,提出了OAAI(Open Academic Analytics Initiative)預測模型,并利用大數據分析方法對學習數據處理,進一步提升了預測的精準度。Retalis[9]設計的CoSyLMSAnalytics分析工具可以通過學生的學習行為和習慣預測學生的學習特征和規律,并根據預測結果為學習者推薦學習路線。

2 國內研究現狀

武法提等[10]提出了基于學習者個性行為分析的學習結果預測框架,包括學習內容分析、學習行為分析和學習預測分析三個模塊,為后面個性化學習分析工具的設計提供理論指導。李彤彤等[11]構建了基于教育大數據和學習分析的、以干預引擎為核心的“狀態識別—策略匹配—干預實施—成效分析”四環節循環結構干預模型,并針對這四方面的狀態水平設計了具體的干預策略、干預時機以及干預方式。趙慧瓊[12]等利用多元回歸分析法判定影響學生學習績效的預警因素,在此基礎上構建了干預模型,將其應用于教學實踐中。

二 研究的問題與相關算法研究

本研究聚焦的問題是在某門課程的學習過程中,預測哪些學生存在期末總評成績不及格的風險,因此關注的是一個二分類問題。基于實際情況,本研究選擇了四種比較常見的分類算法進行對比:邏輯回歸、支持向量機(SVM/SMO)、J48決策樹和貝葉斯。

對機器學習中二分類訓練模型的預測性能評估,通常會使用一些參數:真正類(True Positive,TP)、假正類(False Positive,FP)、真負類(True Negative,TN)、假負類(False Negative,FN)。單純地用準確率或錯誤率來判斷一個模型的表現好壞是不準確的,不能反映模型的能力,還要關注其它度量標準。如精確度(Precision),公式為P=TP/(TP+FP),反映了被分類算法判定的正例中真正的正例樣本的比重;準確率(Accuracy),公式為A=(TP+TN)/(P+N)=(TP+TN)/(TP+ FN+FP+TN),反映了分類算法對整個樣本的判定能力,能將正的判定為正,負的判定為負;召回率(Recall),公式為R=TP/(TP+FN),反映了被分類算法正確判定的正例占總的正例的比重;誤報率(FP Rate),公式為FP Rate=1-TN/(TN+FP),反映了被分類算法錯誤判定的負例占總的負例的比重[8]。

四種分類算法分別使用本次實驗的25%、50%、75%、100%四種大小的樣本數據以及原始訓練集進行實驗,通過對每個算法的準確率、誤報率、精確度和召回率進行統計,得出如表1所示的算法性能比較數據。通過對表1中原始數據的機器學習結果和抽樣后平衡數據的機器學習結果進行比較,本研究發現精確度和召回率有大幅度的提升,且抽樣后的平衡數據相比于不平衡的原始數據訓練出來的模型精確度更高、效果更好。

表1 算法性能比較

邏輯回歸、貝葉斯和SVM/SMO在數據集總量變化時,表現穩定,指標變化很平緩;J48算法隨著樣本的變小,準確率下降,誤報率上升,表現不夠穩定,所以首先排除J48算法。另外,所有分類算法使用平衡數據集實驗后的召回率都很高,幾乎都超過80%,比原始不平衡數據經過實驗后的比率有明顯提升,但是誤報率較原始不平衡數據集試驗后的結果都有所上升。因此,通過重采樣產生的平衡數據集有助于分類器對有風險學生的預測,但增加了對無風險學生的錯誤預測,在實際操作過程中,很可能將一部分無風險的學生錯誤地預測為有風險。

通過對四種學習算法的數據進行比較,可知:總體而言,邏輯回歸優于其它算法,它具有較好的穩定性和高召回率、低誤報率。因此,本實驗選擇邏輯回歸算法來進行風險預測建模。

三 學習風險預測框架設計

基于對已有研究的綜合分析,本研究提出了學習風險預測框架,如圖1所示。學習風險預測框架包括數據清洗、訓練模型和預測應用三個階段:①數據清洗階段需要對數據源進行選取。數據源包含學生的基本信息和學習行為信息,通過對數據源中的數據進行選取后提取,接著進行數據清洗,將缺失值、異常數據等進行處理,最后將輸入數據分為訓練數據和測試數據兩種。②訓練模型階段首先將數據重抽樣,使數據類型平衡,再使用機器學習算法進行訓練,將得到的模型使用測試數據測試,不斷地調整模型的性能,直到最終完成模型。③在預測應用階段,對學生一段時間內的學習過程進行監控,將學生的學習數據利用模型進行預測,得到預測結果。

圖1 學習風險預測框架

四 學習風險預測模型構建及預測效果分析

北京郵電大學網絡教育學院有在讀學生5萬名左右,學生在學院提供的教務與教學系統上進行自主學習,并可在該系統中進行學習內容的閱讀觀看,完成線上測試,下載學習資料,提交作業,參加教師發起的實時遠程教學答疑輔導,以及和老師、同學討論問題。學生的期末考試均為線下考試,最終的總評成績在教務管理系統中可以查看。

學生的數據被分為學習行為數據和綜合信息數據。其中,學習行為數據包括課程學習時長、參加實時答疑次數、章測試成績、作業成績、論壇發帖次數等;綜合信息數據則包括學生ID、課程ID、生源地、類別、入學成績、所有已完成課程的平均成績等。本實驗選取2016年秋季學期7679個學習“數字通信原理”課程的學生數據進行實驗,學生特征屬性值比較如表2所示。

表2 學生特征屬性值比較

1 學生特征屬性值的選取原則

數據分析算法的好壞受到輸入數據的質量影響。如果數據質量很低,即使算法比較智能,也不能產生準確的模型。在提取系統數據時,發現有一些屬性的數據存在不同程度的缺失。使用20%設定為缺失數據的閥值,將丟失數據超過20%的屬性進行丟棄,對于包含缺失數據的其余屬性(未超過20%)進行保留。

課程學習時長、參加實時答疑次數、和論壇發帖次數三個特征值,因為學生使用的人數不足80%而被丟棄。根據調研,造成這種數據缺失結果有兩個原因:一是成人教育的特點是學生的年齡范圍覆蓋廣,學生的背景情況比較復雜,學生的自我約束力也比較差,導致參與課程在線學習的人數和頻率不高;二是教學模式采用自主學習,對學生只有作業提交的強制要求,其它學習活動不是必須和強制的環節,導致學生參與率不高。如每個學期每門課程都會安排2~3次實時答疑輔導課程,但是由于沒有強制要求學生必須參與,很多學生都放棄了與老師面對面交流的機會。

2 處理不平衡的數據分類

由于選取的真實數據中及格同學與不及格同學的比例相差過大——及格同學有7241個、不及格的同學有438個,導致類別不平衡,這會導致沒有辦法提供更多區別及格與不及格學生的信息。因此,本研究通過對訓練數據集使用分層抽樣的方法,平衡兩種類別數據的比例,來提高預測模型在預測過程中的性能。對數據進行抽樣,具體包括對類別占優的數據(及格同學數據)進行子抽樣、對類別劣勢的數據(不及格同學數據)進行重抽樣。子抽樣的過程為對及格同學的數據進行隨機抽樣,抽樣后的樣本比原先及格同學的樣本少;重抽樣的過程則利用 SMOTE采樣方法[8],對不及格同學的數據進行采樣。本實驗將通過采樣,分別創建訓練數據的 25%、50%、75%、100%四種大小的樣本數據來進行實驗。

3 構建學習風險預測模型

本實驗使用Weka 3.6.11版工具進行數據分析。Weka是一種Java語言編寫的數據挖掘機器學習軟件,是在GNU協議下分發的開源軟件。它是一套完整的數據處理工具、學習算法和評價方法,包含數據可視化的圖形用戶界面,同時該環境還可以比較和評估不同的學習算法性能。選擇75%重采樣的數據集進行邏輯回歸的建模,最終得到擬合方程式:

Logit(P)=-23.597+GPA_CUMULATIVE(所有已完成課程的平均成績)×0.214+COURSECOUNT(已完成的課程數)×0.197+AREA(生源地)×0.154+STYTYPR(學生類別)×0.123+ONLINETIME(課程學習平均時長)×0.038+GB_SCORE(作業成績)×0.014+BASESCORE(章測試成績)×0.006+APITITUDE_SCORE(入學成績)×0.001。

4 預測變量重要性分析

通常,建模工作需要專注于最重要的預測變量字段,并考慮刪除或忽略那些最不重要的變量。IBM SPSS Modeler 16.0版工具可以幫助實現這一點,它在模型估計中可以計算出每個預測變量的相對重要性。預測變量的重要性與模型精確性無關,它只與每個預測變量在預測中的重要性有關,而不涉及預測是否精確。

使用IBM的SPSS工具對本次實驗預測變量的重要性進行排序,得到的結果是:在所有的預測變量中,“已完成課程的平均成績”的相關性最高,接下來依次是“作業成績”、“已完成的課程數”、“生源地”、“學生類別”、“課程學習平均時長”、“章測試成績”和“入學成績”。

5 預測效果分析

最后,本研究利用一組測試數據對學習風險預測模型進行驗證。這組測試數據共有學習信息數據291條,其中40個學生為有風險,251個學生為沒有風險。隨后,本研究將學生的學習信息帶入模型后進行計算評判。

最終,結果為有風險的同學中,有10位同學被判定為無風險(FN=10),30位同學被判定為有風險(TP=30);無風險的同學中,有50位同學被判定為有風險(FP=50),201位學生判定為無風險(TN=201)。根據算法性能評估參數中準確率(Accuracy),公式為A=(TP+TN)/(P+N) = (TP+TN)/(TP+FN+FP+TN),計算得出模型的預測準確率為79.38%,即模型能夠以接近80%的正確率,預測某門課程學習過程中的學生是否存在期末總評成績不及格的學習風險。

五 結論

本研究對國內外相關的學習分析案例進行調研,探討了如何利用大數據分析方法對在線學習展開分析;選取了四種適合分類問題解決的機器學習算法進行對比分析,并利用真實數據對學習算法的性能進行了評估;提出了基于學習分析的在線學習風險預測框架,并利用網絡教育學院的教學平臺和教務系統的真實數據,選取了影響在線學習結果的特征屬性,構建了在線學習風險預測模型;最后,利用真實數據對模型進行了驗證,得出模型能夠以接近80%準確率預測學生學習結果的結論。下一步研究將根據在線學習風險預測的結果,一方面幫助教師全面了解教學中的問題,及時調整教學策略和內容,改善教學效果,為學生提供個性化的學習幫助;另一方面用雷達圖等可視化的工具為學生提供全面的學習分析,幫助學生在學習過程中及時發現自己的不足,降低期末成績不及格的風險。

[1]Johnson L, Liu D, Huang R, et al. NMC technology outlook for Chinese K-12 education: A horizon project regional report[R]. Austin, Texas: The New Media Consortium, 2016:26-27.

[2]趙慧瓊,姜強,趙蔚,等.基于大數據學習分析的在線學習績效預警因素及干預對策的實證研究[J].電化教育研究,2017,(1): 62-69.

[3]Libby V M, Shyan W, Catherine L F. Predicting retention in online general education courses[J]. American Journal of Distance Education, 2005,(1):23-36.

[4]Campbell J P. Utilizing student data within the course management system to determine undergraduate student academic success: An exploratory study[D]. United States of America: Purdue University, 2007:31-36.

[5]Romero C, Ventura S, Garcia E. Data mining in course management systems: Moodle case study and tutorial[J]. Computers & Education, 2008,(1):368-384.

[6]Javier B. Detecting symptoms of low performance using production rules[A].EDM’09 Group.The 2nd international conference on education data mining[C]. Spain:International Working Group on Educational Data Mining, 2009:31-40.

[7]José A, Ruipérez V. An architecture for extending the learning analytics support in the Khan Academy framework[A].ACM Group.The first international conference on technological ecosystem for enhancing multiculturality[C].Spain:International Conference on Technological Ecosystem for Enhancing Multiculturality, 2013:277-284.

[8]Sandeep M J. Early alert of academically at-risk students: An open source analytics initiative[J]. Journal of Learning Analytics, 2014,(1):6-47.

[9]Retalis S. Towards networked learning analytics——A concept and a tool[A]. Networked Learning 2006 Group.The fifth international conference on networked learning[C]. United Kingdom: Networked Learning 2006 Press, 2006:1-8.

[10]武法提,牟智佳.基于學習者個性行為分析的學習結果預測框架設計研究[J].中國電化教育,2016,(1):41-48.

[11]李彤彤,黃洛穎,鄒蕊,等.基于教育大數據的學習干預模型構建[J].中國電化教育,2016,(6):16-20.

Research of Online Learning Risk Prediction based on Big Data Learning Analysis

LI Jian-wei SU Zhan-jiu HUANG Yun-ru

In recent years, big data technology has become a worldwide research hotspot in all fields. More and more educators have applied big data analysis methods to online learning, and try to more scientifically and effectively analyze the problems in the learning process. This article first analyzed the current situation of domestic and foreign big data learning and analysis research, and then put forward the research focus—How to predict the risk of failing students' final grades in the course learning process? To this end, this article selected and compared four machine-learning algorithms for dichotomous problems and evaluated the performance of the algorithm using real sample data. After that, the logistic regression algorithm was chosen and applied in our present study. Meanwhile, an online learning risk prediction framework was developed and using the real student data from the Network Education Institute of Beijing University of Posts and Telecommunications, the learning risk prediction model was obtained through training. Finally, the real data was used to verify the accuracy of the model. The results showed that the model had a rate of nearly 80% accuracy on predicting the risk of students’ final exam failure. Such accuracy has reached the requirement of large-scale application, laying the foundation of further research on personalized learning interventions.

big data; learning analysis; machine learning; risk prediction

G40-057

A

1009—8097(2018)08—0078—07

10.3969/j.issn.1009-8097.2018.08.012

本文受2015年北京郵電大學院級項目“基于大數據分析的學生在線學習評價研究”(項目編號:2015WY003)和網絡系統與網絡文化北京市重點實驗室資助

李建偉,講師,碩士,研究方向為學習分析和網絡教學系統,郵箱為jwli321@126.com。

2018年3月23日

編輯:小西

猜你喜歡
分析模型課程
一半模型
數字圖像處理課程混合式教學改革與探索
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
軟件設計與開發實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
重尾非線性自回歸模型自加權M-估計的漸近分布
為什么要學習HAA課程?
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产美女在线观看| 91区国产福利在线观看午夜| 丁香亚洲综合五月天婷婷| 在线欧美a| 国产区免费| 欧美不卡视频在线观看| 午夜无码一区二区三区在线app| AV天堂资源福利在线观看| 美女内射视频WWW网站午夜 | 露脸国产精品自产在线播| 国产永久无码观看在线| 国产福利免费视频| 九九九国产| 久久人体视频| 亚洲综合天堂网| 国产精品三级av及在线观看| 9久久伊人精品综合| 国产在线精品99一区不卡| 一级毛片在线免费视频| 精品无码人妻一区二区| 91麻豆久久久| 热99精品视频| 一区二区三区四区精品视频| 91在线免费公开视频| 夜夜操天天摸| 日韩人妻无码制服丝袜视频| 无套av在线| 国产成人无码Av在线播放无广告 | 无码电影在线观看| 亚洲一区网站| 日韩无码精品人妻| 久久久精品久久久久三级| 亚洲一区毛片| 国产精品人成在线播放| 99re在线免费视频| a级毛片一区二区免费视频| 亚洲三级成人| 视频二区国产精品职场同事| 国产在线视频福利资源站| 亚洲欧美综合精品久久成人网| 午夜视频在线观看区二区| 亚洲精品国产成人7777| 免费在线成人网| 激情乱人伦| 2022国产91精品久久久久久| 青草免费在线观看| 亚洲床戏一区| 夜精品a一区二区三区| 国产精品亚洲日韩AⅤ在线观看| 久草视频一区| www.狠狠| 欲色天天综合网| 亚洲av综合网| 亚洲成人精品久久| 欧美亚洲香蕉| 国产精品欧美亚洲韩国日本不卡| 国产精品手机视频| 白丝美女办公室高潮喷水视频 | 在线播放国产99re| 毛片三级在线观看| 草草影院国产第一页| h网址在线观看| 真人高潮娇喘嗯啊在线观看| 国产精品视频第一专区| 国产精品网址你懂的| 精品在线免费播放| 午夜少妇精品视频小电影| 国产午夜不卡| 97国产一区二区精品久久呦| 欧美不卡视频在线| 国产原创演绎剧情有字幕的| 国产欧美精品专区一区二区| 国产成人精品无码一区二| 九九免费观看全部免费视频| 国产尤物jk自慰制服喷水| 精品国产自| 国产网友愉拍精品视频| 国产色伊人| 色爽网免费视频| 青青操国产视频| 亚洲天堂成人在线观看| 亚洲妓女综合网995久久 |