王宏志+熊風+鄒開發+劉哲敏


摘 要:當今社會已經進入了大數據時代,分析了大數據分析與傳統數據分析的不同, 綜述了在線教育大數據分析的研究現狀,并且介紹了基于大數據對在線教育學習者行為預測的研究成果。
關鍵詞:大數據;分析;教育;行為預測
一、大數據與大數據分析概述
隨著數據獲取、存儲等技術的不斷發展,以及人們對數據的重視程度不斷提高,大數據得到了廣泛的重視,不僅僅在IT領域,包括經濟學領域、醫療領域、營銷領域等等。例如,在移動社交網絡中,用戶拍照片、上網、評論、點贊等信息積累起來都構成大數據;醫療系統中的病例、醫學影像等積累起來也構成大數據;在商務系統中,顧客購買東西的行為被記錄下來,也形成了大數據。
時至今日,大數據并沒有特別公認的定義。有三個不同角度的定義:(1)“大數據”指的是所涉及的數據量規模巨大到無法通過人工在合理時間內達到截取、管理、處理并整理成為人類所能解讀的信息[1]。(2)“大數據”指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理的方法的數據[2]。(3)“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
通常把大數據的特點歸納為4個V,即數據量大(Volume)、數據類型多(Varity)、數據的價值密度低(Value)以及數據產生和處理的速度非常快(Velocity)。
對大數據進行分析可以產生新的價值。數據分析的概念誕生于大數據時代之前,但傳統的數據分析和大數據分析是不同的。傳統的數據分析往往是由客戶提出一個問題,分析者圍繞該問題建立一個系統,進而基于該系統解釋這個問題;而大數據分析有時候并沒有明確的問題,而是通過搜集數據,瀏覽數據來提出問題。
另一方面,傳統的數據分析是在可用的信息上進行抽樣,大數據分析則是對數據進行不斷的探索,通過全局分析連接數據,達到數據分析的目的。
傳統的數據分析的方法,往往是大膽假設小心求證,先做出假設,再對數據進行分析,從而驗證先前的假設;而大數據分析則是對大數據進行探索來發現結果,甚至發現錯誤的結果,之后再通過數據驗證結果是否正確。
因此,傳統的數據分析可以看成一種靜態的分析,大數據分析可以看成一種動態的分析。盡管如此,大數據分析和傳統數據分析也并非是涇渭分明的,傳統數據分析的方法是大數據分析的基礎,在很多大數據分析的工作中仍沿用了傳統數據分析的方法。
基于上述討論,我們給出“大數據分析”的定義:用適當的統計分析方法對大數據進行分析,提取有用信息并形成結論,從而對數據加以詳細研究和概括總結的過程。
大數據分析分為三個層次[3],即描述分析、預測分析和規范分析。描述分析是探索歷史數據并描述發生了什么(分析已經發生的行為),預測分析用于預測未來的概率和趨勢(分析可能發生的行為),規范分析根據期望的結果、特定場景、資源以及對過去和當前事件的了解對未來的決策給出建議(分析應該發生的行為)。例如,對于學生學習成績的分析,描述分析是通過分析描述學生的行為,如是否成績高的同學回答問題較多;預測分析是根據學生的學習行為數據對其分數進行預測,如根據學生回答問題的次數預測其成績;而規范分析則是根據學生的數據得到學生下一步的學習計劃,如對學生回答問題的最優次數提出建議。
大數據分析的過程可以劃分為如下7個步驟:(1)業務調研,即明確分析的目標;(2)數據
準備,收集需要的數據;(3)數據瀏覽,發現數據可能存在的關聯;(4)變量選擇,找出自變量與因變量;(5)定義模式,確定模型;(6)計算模型的參數;(7)模型評估。
我們以預測學生學習成績為例解釋上述過程。首先,我們的目的是根據學生的行為預測學習成績。接下來,對于傳統的方法來說,通過專家的分析確定需要什么數據,比如專家提出對學生成績有影響的數據,包括出勤率、作業的完成率等,可以從數據源獲取這樣的數據;大數據分析的方法有所不同,是找到所有可能相關的數據,甚至包括血型等,這些數據與成績之間的關系未必有影響,就算發現了關系也未必可以解釋,但是獲取盡可能多的數據有可能發現未知的關聯關系。
上面的步驟包括了很多因素,下面確定哪些因素會體現在模型中,可以通過可視化等方法發現哪些因素和我們的分析目標相關,也可以通過特征工程的方法選擇包含在模型中的變量,并排除一些相關的自變量,比如學生的起床時間和吃早飯的時間存在關聯,在模型中可以只考慮其中之一,加快計算速度。
再接下來是定義模型的模式,比如可以把上述問題定義為線性回歸,再通過一些算法確定模型中的參數,從而得到最后的模型。然后對模型進行評估,檢驗這個模型是不是真的有效,以及是否是可解釋的。有些有用的模型并不見得可解釋,例如發現了血壓對成績有影響,這個是有用的,但是未必有一個明確的解釋。
二、在線教育大數據分析研究現狀
在線教育大數據為教育研究的進行提供了非常好的途徑和機會,它構成了一個跨國家、跨文化、跨職業、跨階層的平臺,學習者的每個行為都為研究者貢獻了數據。而通過研究這些數據,我們可以發現新的規律,或是指導學習者的行為,例如預測學生的學習情況、課程的受歡迎程度以及發現新的學習方法等。利用平臺得到的數據,預測并回饋給平臺,從而可以達到改進平臺的目的,還可以為平臺發現新的業務。
當前在線教育大數據的研究已經開始,但是研究成果并不多,主要的研究對象是學生,集中在對學生學習行為的研究,而授課人員的行為和平臺的行為這兩個方面的研究比較少。我們將現有的主流研究內容進行歸類,分為多個方面,包括:
(1)學習者行為分析與預測;
(2)學習者學習效果分析與預測;
(3)平臺供應商數據分析。
學習者行為分析與預測的研究指的是,通過學習者在MOOC平臺上產生并積累的行為數據,采用量化學習者行為特征的方式,對其學習行為進行分析與預測。具體而言,文獻[4]研究了在MOOC平臺上有退課風險的學習者的早期預警問題,他們基于回歸分析的方法,提出了兩種遷移學習算法,通過增添正則項最小化連續不間斷學習周中的失敗概率。文中提出了三個方法,分別是LR-SEQ,LR-SIM與LR-MOV,其中在AUC指標上LR-SIM與LR-MOV效果更好,LR-SIM在開課前兩周的預測相對于其他方法更為出色。文獻[5]采用了機器學習的方法研究了學習者退課率的預測方法,他們僅利用了網頁瀏覽流數據,提出了基于支持向量機的機器學習模型以預測學習者的退課情況。他們的方法隨著課程的進行,預測準確率逐漸上升,但在開課前幾周的預測效果不夠理想。文獻[6]同樣研究了學習者退課預測的問題,他們采用的方法是構建精確的預測模型與數據的時態與非時態表達,得到了較為良好的AUC指標。文獻[7]則是采用了隱形馬爾科夫模型對學習者課程滯留情況進行了預測,他們通過簡單交叉乘積的方法,將連續特征編碼為單一離散可觀察狀態。文獻[8]同樣研究了退課問題,他們構建了時序模型,通過標簽的方法,采用了LSTM單元的RNN模型。他們得到的結果說明了在此問題上使用LSTM單元要比普通的RNN效果更好。文獻[9]研究了在MOOC平臺上的學習者行為預測模型的遷移學習,他們提出了學習者預測的實時方法,并提出了對于同一個預測問題,建立表達式以改變這些方法的參數設置,實驗證明了遷移學習可以使得兩種方法的效果等價。文獻[10]則首次針對中文MOOC中學習行為的特點將學習者分類以考察學習行為與效果之間的關系,這項工作使得人們可以有效判別一個學習者是否能夠或潛在能夠完成學習任務。文獻[11]通過學習者積累的作業文章與MOOC瀏覽流數據對學習行為進行了分析與預測。文獻[12]對學習者高風險退課進行預警。
學習者學習效果分析與預測旨在研究學習者通過完成何種學習過程達到了何種學習效果,建立學習過程與學習效果的關系。具體地說,文獻[13]預測了學習者在回答問題時,第一次是否可以回答正確。他們利用學習者觀看教學視頻的數據,結合了區間估計方法與支持向量機分類方法,建立了預測模型,并通過多項實驗證明了他們的方法比傳統預測算法更優。類似地,文獻[14]評價了觀看視頻表現行為與視頻內小測表現的關系,他們識別了學習者反復看視頻的行為,例如復習學習內容與重復跳過,對此,他們提出了兩種基于瀏覽流數據的方法,構建了流數據與獲得知識的相關模型,他們通過實驗發現這些行為和學習者第一次回答正確情況與非第一次回答正確情況極度相關。同樣,文獻[15]研究了預測學習者第一次問答是否正確的問題,他們在這個分類問題中應用了協同過濾算法,并在KDD Cup 2010競賽中取得了第三名的成績[16]。文獻[17]預測了學習者的學習成績,他們提出的增強學習預測算法可以同時用做回歸與分類。文獻[18]則是研究了對于預測結果通過增量交互分類的方法建立更為精確的分類模型是否可行。文獻[19]發現了MOOC平臺上那些通過建立多賬號以謀求獲得作業答案的學習者。
平臺供應商數據分析是指使用MOOC平臺供應商上積累的數據進行全局的分析,該項數據分析工作并不針對一種特定問題,而是針對某一類的問題。例如,文獻[20]綜合分析了多個MOOC平臺上的數據得出它們具有一些相同的數據屬性。文獻[21]通過平臺積累的教育信息對學習者提供動態的學習輔助材料。文獻[22]通過氣象數據與學習者方法日志數據通過建立回歸分析模型指出何種特征是有關聯的。
綜上,當前的研究有如下幾個熱點問題:
(1)學習者行為的定義。我們如何定義學習行為,提取什么樣的特征來描述這個學習行為。
(2)如何評價學習效果。建立什么樣的有效模型來描述學習效果,這是一個傳統教育學的問題,可以通過專家的評價來解決,由于在線教育平臺搜集了大量的學習行為數據,則完全可以通過學生的行為來描述學習效果。
(3)退課現象。在線課程目前的通過率是非常低的,通過大數據進行分析,研究為什么發生這樣的情況。
(4)學習者是否可以一次回答正確問題。由于小測問題通常較為基礎,該項研究可以驗證學習者是否認真學習。
除了以上問題,還有多種有關在線教育大數據的研究,例如針對不同身份的人群的學習者分析等[23]。總之,在線教育大數據研究工作近幾年方興未艾,出現了很多有價值的問題亟待研究與解決。
三、教育大數據分析的探索
通過以上的分析,我們認為,對學習者行為的研究可以通過提取學習的行為來實現,比如課程視頻的點擊、回看、做題做作業的行為、討論組里面的言論等,提取特征以后對行為進行描述可以定量和定性不同方式進行。定量描述包括回答了幾次問題、平均每個視頻看多長時間等;定性描述包括用戶在群里面對這個老師的評價是肯定的還是消極的,或者是這個學生是不是喜歡這門課,以及這個學生是否看到這個視頻的評價。
學習者的表現研究比如說學習成績、課程的熱度,這些特征也是可以提取的,同樣有定性、定量,同樣對這些數據進行整合,通過分析可以建立學習和行為者的表現關系。表現和行為之間是有因果關聯的,行為決定表現,但是這個事情我們只能觀察到一方面,另外一方面并不能有效觀察或者預測。我們可以通過分析來刻畫學習的過程,確定行為與表現的關系,比如用戶總是看視頻時間很短,決定了不太可能獲得好成績的結果,就可以通過建立這樣的關系進行預測。
我們通過累計的學習行為判斷用戶是不是退課,在各種學習行為以及退課行為之間我們探究是何種因素導致了退課的發生。此外,對于累計的教學行為和教學效果之間的關系,我們可以通過挖掘這些老師的教學行為來分析。
基于這些,我們對“中國大學MOOC”平臺上部分課程的后臺數據進行了采樣和清洗,提取了我們需要的特征,如表1所示。
我們統計了每個學習者在每個學習周的如上特征,之后經過多次測試,我們選定了雙向長短時記憶循環神經網絡(Bi-directional LSTM RNN)作為我們的學習模型,并使用這些數據作為模型的輸入。為了更全面地分析退課率的問題,我們將該問題細分為四個問題,如表2所示。
問題1直接預測了學習者在下一周的動態,而問題2則是預測了學習者學習的總體趨勢,除此之外,授課者有時可能更加關心學習者在最后一周以及考試周的表現,這也是我們定義了問題3和問題4的原因。我們將這四個問題作為模型的輸出,并以80%的數據對模型進行訓練,20%的數據進行測試。
通過對編號為45002的課程測試結果分析發現,問題1的準確率波動幅度較大,而實際上,學習者在下一周的行為也通常是不確定的,這給模型的預測帶來了較大的困難;而對于問題2,隨著教學周的進行,學習者的總體學習趨勢也越來越明顯,因此其準確率隨著教學周逐步上升;同理,問題3和問題4的結果也呈現出類似的趨勢。
實驗結果表明,我們所使用的模型具有較高的準確率,并且隨著教學周的進行,準確率會得到提升,這對于授課者掌握學習者的動態是有利的。但對于部分課程,由于課程性質問題,導致學習者較少,我們所能獲得的數據有限,便會降低模型的準確率。
參考文獻:
[1] 王克迪. 數據、大數據及其本質[N]. 學習時報,2015-09-14.
[2] 維克托·邁爾·舍恩伯格,肯尼斯·庫克耶. 大數據時代[M]. 盛楊燕,周濤,譯. 杭州:浙江人民出版社.
[3] G. Blackett. Analytics Network-O.R. Analytics. http://www.theorsociety.com/Pages/SpecialInterest/AnalyticsNetwork_anal%ytics.aspx, 2013.
[4] He J, Bailey J, Rubinstein B I P, et al. Identifying At-Risk Students in Massive Open Online Courses[J]. Aaai, 2015.
[5] Kloft M, Stiehler F, Zheng Z, et al. Predicting MOOC Dropout over Weeks Using Machine Learning Methods[A]. EMNLP 2014 Workshop on Analysis of Large Scale Social Interaction in Moocs. 2014:60-65.
[6] Taylor C, Veeramachaneni K, OReilly U M. Likely to stop? Predicting Stopout in Massive Open Online Courses[J]. Computer Science, 2014.
[7] Balakrishnan G, Coetzee D. Predicting student retention in massive open online courses using hidden markov models[J]. Electrical Engineering and Computer Sciences University of California at Berkeley, 2013.
[8] Fei M, Yeung D Y. Temporal Models for Predicting Student Dropout in Massive Open Online Courses[A]. IEEE International Conference on Data Mining Workshop. IEEE, 2015:256-263.
[9] Boyer S, Veeramachaneni K. Transfer Learning for Predictive Models in Massive Open Online Courses[M]// Artificial Intelligence in Education. Springer International Publishing, 2015:54-63.
[10] Tang S, Peterson J C, Pardos Z A. Deep Neural Networks and How They Apply to Sequential Education Data[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 321-324.
[11] 蔣卓軒, 張巖, 李曉明. 基于MOOC數據的學習行為分析與預測[J]. 計算機研究與發展, 2015, 52(3):614-628.
[12] Halawa S, Greene D, Mitchell J. Dropout prediction in MOOCs using learner activity features[J]. Experiences and best practices in and around MOOCs, 2014, 7.
[13] Brinton C G, Chiang M. Mooc performance prediction via clickstream data and social learning networks[A]. Computer Communications (INFOCOM), 2015 IEEE Conference on. IEEE, 2015: 2299-2307.
[14] Brinton C G, Buccapatnam S, Chiang M, et al. Mining MOOC Clickstreams: Video-Watching Behavior vs. In-Video Quiz Performance[J]. IEEE Transactions on Signal Processing, 2016, 64(14): 3677-3692.
[15] Toscher A, Jahrer M. Collaborative filtering applied to educational data mining[J]. KDD cup, 2010.
[16] KDD Cup 2010: Educational Data Mining Challenge - PSLC DataShop[EB/OL]. https://pslcdatashop.web.cmu.edu/KDDCup/.
[17] Meier Y, Xu J, Atan O, et al. Predicting grades[J]. IEEE Transactions on Signal Processing, 2016, 64(4): 959-972.
[18] Sanchez-Santillan M, Paule-Ruiz M P, Cerezo R, et al. Predicting Students Performance: Incremental Interaction Classifiers[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 217-220.
[19] Ruiperez-Valiente J A, Alexandron G, Chen Z, et al. Using multiple accounts for harvesting solutions in moocs[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 63-70.
[20] Pang Y, Wang T, Wang N. MOOC Data from Providers[A]. Enterprise Systems Conference (ES), 2014. IEEE, 2014: 87-90.
[21] Williams J J, Kim J, Rafferty A, et al. Axis: Generating explanations at scale with learnersourcing and machine learning[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 379-388.
[22] McBride E, Vitale J M, Gogel H, et al. Predicting Student Learning using Log Data from Interactive Simulations on Climate Change[A]. Proceedings of the Third (2016) ACM Conference on Learning@ Scale. ACM, 2016: 185-188.
[23] Kizilcec R, Halawa S. Attrition and Achievement Gaps in Online Learning[A]. Proceedings of the Second (2015) ACM Conference on Learning @ Scale. ACM, 2015:57-66.