文/徐艷艷 趙春,2 馬晨輝 沈富可
學習分析平臺告訴你:學生如何參與網上課程
文/徐艷艷1趙春1,2馬晨輝1沈富可1
2012年,國外MOOC(massive open online course)興起,2013年中國開始引入,給教學的模式帶來了極大的沖擊,傳統教學中,學生的學習數據都在試卷、作業等紙上,或是教師課堂上的捕獲,或是數據人為地錄入電腦(如成績的統計,學分的計算等)。隨著網絡的普及與發展,教學開始從課堂搬到網上,數據日趨豐富。教育也逐漸趨于量化,包括學習場景與過程的數據化,教育大數據的分析與可視化,智能化與個性化等等。由此,以大數據技術為基礎的學習分析平臺也相應而生。以下就國內外發展的現狀做相關介紹。
國外現狀
通過查閱多篇文獻,可以發現,國外對學習分析平臺的研究較多,在“學習行為分析”概念出現之前,與之相關的技術、工具及其應用研究已經開展起來?!秾W習分析工具比較研究》一文中總結了多種學習分析工具,所列出學習分析工具的發起者都來自于國外,文中提及的學習分析工具都需要人為提取數據到相關的工具或平臺中使用。隨著技術的發展與MOOC平臺廣泛的使用,真正結合教學平臺的學習分析平臺也開始出現。
2014年2月,哈佛大學與麻省理工學院推出了edX Insights交互式數據可視化工具。edX Insights平臺從學習者類型、學習者特征和學習者學習行為等多個角度對教育數據進行挖掘并統計分析,并于同年5月開放數據供全球研究者使用,2014年8月,平臺組織者在github(社交編程及代碼托管網站)上對代碼進行開源,供全球的開發者使用并提交代碼。這是目前全球最知名的開源學習分析平臺。

2014年5月,Coursera發展團隊中國區業務負責人伊萊在《MOOCs如何改變高等教育》一文中提出,以數據為基礎的教育能有效地幫助教學,Coursera平臺記錄學生的所有行為,行為數據可以直接通過平臺展現出來,并且該數據對不同的教育問題都有一定的研究意義。另一篇文獻《Engaging with Massive Online Courses》從Coursera平臺中的開課數據記錄分析不同的學生在學習過程中表現出的差異,并對如何提升課程論壇活躍度作出建議。
文獻《慕課中的學習評價——以Coursera和Udacity為例》中,也提到Udacity做好學習分析平臺。Udacity較早于Coursera平臺建立個人電子檔案,并不斷完善學習者的數據搜集與智能統計分析功能,這種電子檔案的形式能夠呈現出學習者在該教學平臺上的經驗,有助于學習者理清屬于自己的學習發展脈絡。
以上可以看出,國外幾大著名MOOC平臺包括edX、Coursera和Udacity都很關注數據對于教育的影響,也分別根據自身的平臺特點設計與開發出學習分析平臺。
國內現狀
在學習分析平臺的研究上,國內起步較晚,利用MOOC平臺的數據研究較少。受惠于國外學習分析平臺的研究基礎,近些年國內分析平臺發展很快,《MOOC學習者行為分析研究》一文詳細地介紹了國內MOOC平臺“愛課程”如何對學習者進行行為研究,目前“愛課程”平臺主要對學習者的選課、退課、課程參與、成績等幾個方面進行統計分析;香港教育大學也建立為期三年、名為“開發及評估學習分析平臺”的項目;國內另一發展較好的MOOC平臺“學堂在線”的技術負責人在2016年由教育部組織的“在線開放課程建設與應用管理培訓班”上也探討了學堂在線學習分析平臺的現狀,該分析平臺是基于開源的edX Insight的二次開發,在原有的基礎上豐富了很多分析點,增加了國內地理分析、學生觀看視頻行為等更多的詳細信息分析,加入了作業測試分析等等。此外,《基于“學習分析” 技術的學習平臺開發與應用研究》和《基于大數據技術的學習分析系統架構》等論文中,也都談到了學習分析平臺的架構與應用。
國內學習分析平臺的發展日趨完善,多個MOOC教學平臺基于國內教學背景,根據自身平臺所面向客戶的需求,開發出適合國人的學習分析平臺。
綜上所述,國外的對學習分析平臺的研究早于國內,國內的多種技術由國外引進。由于國內外的教學背景不一樣,所以分析的重點和數據的意義都不同、每個平臺各自的側重點與評價也不同,導致每個分析平臺的分析模型略有差異。例如,國外對證書和論壇活躍度等數據較為關注,國內對退課和學生課堂中的行為等數據較為關注。本課題主要研究國外的開源edX Insights平臺的相關技術來搭建定制化的分析平臺,以滿足校內教師和研究者來做相關研究的需要,并為他們提供技術支撐。

圖1 學習者類型
學習分析平臺總體功能
學習分析平臺是在MOOC發展火熱化及普遍使用的背景下開始提出的,MOOC產生的海量數據為學習分析提供了基礎。提出學習分析平臺的目的是在現有的學習資源的基礎上,為教師提供在線的第二課堂及觀摩平臺,以適應教師與學生在信息社會下的學習行為特性,幫助教師提高教學效率及效果,幫助學生查找學科弱點提高學習成績。無論是教師還是學生,研究者還是開發者,他們對于數據都是特別感興趣的,教師關注學生在這門課程中的學習狀態,課程內容是否可以改進;學生關注自己學習的成果與反饋數據;研究者希望這些數據能給他們的研究提供一定的支持,以期有新的發現;而開發者則對數據挖掘和可視化展示等感興趣。
學習分析平臺與教學平臺相連,獲取教學平臺數據,分析教學平臺上學習者類型、學習者特征以及學習者學習行為,并將這些數據可視化呈現。
在分析平臺中,使用數據分析方法,主要從學習者類型分析、學習者特征分析、學習者行為分析三個方面對教學平臺的使用者進行了研究,多維度展現學習者學習的實際情況。將這些數據能夠以直觀的形象呈現給各個領域的研究人員,以便提高教學效率和教學效果。
學習者類型分析
學習者分為四個類別:注冊學習者、一般學習者、積極學習者、獲得證書者等。
僅注冊者:僅注冊課程,但沒有其他學習行為。
一般學習者:注冊課程并訪問了課程課件。
積極學習者:注冊課程并訪問了大于1/2的課件章節內容。
獲取證書者:獲得課程證書的學習者。
如圖1所示。通過這些數據可以看出平臺真正使用的用戶,可以看出哪些課程是真正被學習者所接受的等等。
學習者特征分析
學習者特征包含學習者的學歷、年齡、性別以及學習者所在地。研究這些學習者的基本數據可以得出各種不同的結論,如:學習平臺使用者主要集中的年齡段,使用者的學歷水平,學習平臺受歡迎的國家或地區,選擇某一門課程的男生和女生的比例等等,這些都具有重要的研究意義。
學習者學習行為分析
學習者行為分析則是教師真正關心的數據,它包含了學生在一門課程中的所有行為,登錄時長、視頻播放次數、學習章節數以及論壇發帖數,這些數據能直接地反映出學習者的個性以及教學內容的安排,教學管理人員可以將這些結果用于預測教學并指導和調整教學,使課程更加個性化,滿足不同學習者的需求。
學習分析平臺技術架構
官方的edX insights從教學平臺的tracking log中挖掘信息,讀取教學平臺的數據庫,將這些信息統計分析后以可視化的效果呈現。作為一個獨立的分析平臺,edX insights包含三個部分:edxanalytics-pipeline,edx-analytics-dataapi,edx-analytics-dashboard。
其中,Pipeline主要運用Hadoop和MapReduce技術,連接數據庫,通過Mapper和Reducer導出數據;Data-api將數據導出,轉換成JSON格式,并存入分析數據庫;Dashboard連接數據,以圖表的形式呈現統計結果。
學習分析平臺關鍵技術
1.Hadoop MapReduce
edX平臺大規模課程應用將產生海量數據,為學習分析與教育數據挖掘研究提供了基礎。這些數據由于數據量大,數據種類豐富,且數據的產生是實時的,因此這些數據可稱得上大數據。解決大數據最好的技術是Hadoop技術,Hadoop生態系統是大數據的基礎。MapReduce是Hadoop生態系統中的一個重要的組件,Hadoop MapReduce也是解決大數據的一個重要技術,根據Apache Founction上對MapReduce的介紹,Hadoop MapReduce是一個軟件框架,該框架能夠編寫應用程序,使這些應用程序能夠運行在由上千個商用機器組成的大集群上,并以一種可靠的,具有容錯能力的方式并行地處理上TB級別的海量數據集。它包含Map函數和Reduce函數,Map函數主要負責從非結構化數據中提取相應的信息,并生成鍵—值對的新的表,Reduce函數獲取Map函數的輸出,最終生成開發者想要的表。
在edX Insights中,edx-analyticspipeline主要運行于Hadoop MapReduce之上,負責日志的讀取,并根據想要的形式輸出正確的格式,是以task的形式運行。Pipeline已經成功的運行在Hadoop1.X和Hadoop2.X版本上(配置稍有不同)。
2.Hive
Hive是一個面向批處理的數據倉庫層,它構建在Hadoop的核心元素HDFS和MapReduce之上,提供了一套輕量級SQL實現——HiveQL,可以通過SQL語句訪問結構化數據,不同于絕大多數數據倉庫,Hive的設計目的并不是快速響應查詢。Hive更適合用來進行數據挖掘和深入分析等對實時性沒有要求的,依賴于Hadoop基礎,具有可擴展性、可伸縮性和彈性。
由于edX平臺中產生的數據有很多為非結構化,Hive可以集成MapReduce腳本將這些數據提取轉化加載為用戶熟悉的格式,并可以通過SQL查詢,同時也允許熟悉MapReduce的開發者自定義mapper函數和reducer函數來處理一些無法完成的復雜的分析工作。
3.Sqoop
edX教學平臺與分析平臺是兩個獨立的平臺,兩者使用的數據庫不一樣,edX Insights運行在Hadoop上,而edX教學平臺不是,所以在統計分析edX平臺上的數據時,需要將edX中的數據轉移到Hadoop上,Sqoop(SQL-to-Hadoop)就是這樣一種能夠從非Hadoop數據存儲中提取數據,然后將數據轉化為Hadoop可用的數據,并將其裝載到HDFS中的工具。將數據轉入Hadoop是使用MapReduce處理數據的重要步驟,在edX Insights中,是將數據從edX平臺中轉入Insights中,并用Hive對數據進行讀取分析。Sqoop對MapReduce和HDFS等都有較高的依賴性。
綜上所述,Insights分析平臺通過一定的配置連接到edX教學平臺,使用Oauth2.0協議通過認證登錄,與教學平臺使用相同的用戶數據庫認證登錄,認證成功之后,顯示用戶登錄信息和用戶相關的課程信息。Pipeline是運行在Hadoop集群之上,通過一定的配置,讀取教學平臺的用戶信息、課程信息和事件日志,根據數據報表需求,運用MapReduce等技術導出數據,最后得到分析之后的數據庫;Data-API通過API接口查看統計好的數據;Dashboard主要從3個方面以圖表的形式呈現學生的整體分布和學生的學習情況。
教學平臺上數據庫中的數據能實時讀取且正確地顯示在分析平臺中,分析日志數據是分析平臺的重要任務,Pipeline起到了關鍵的角色,每天都有固定的時間從LMS端讀取當天的日志信息,然后在Hadoop上運行task對日志進行分析統計,得到分析好之后的最新數據,寫入數據庫。

圖2 基于年齡的統計

圖3 基于教育程度的統計
edX Insights平臺是一個較獨立的平臺,雖然是為edX平臺開發,也可以用于其他教學平臺。用于其他教學平臺還需要在認證登錄和日志上做一定的修改與匹配。
本案例中分析平臺是連接了校內定制化后的edX教學平臺。由于校內edX教學平臺上數據的限制,目前只統計分析了學習者特征和學習者行為的一部分。
學習分析平臺與學習平臺的對接
在edX Insight平臺點擊登錄之后,會跳轉到edX教學平臺的登錄界面,用edX CMS的賬號和密碼點擊登錄成功以后,會跳轉到edX Insight平臺,并顯示用戶對應的課程的相關信息。所列出的課程為登錄賬號的教師所教的課程的列表,課程列表的信息格式為:課程組織/課程代碼/開課時間。
學習者特征分析的應用
學習者特征包括學習者年齡、教育程度、性別和地理位置。
基于年齡的統計如圖2所示,橫坐標表示課程中學習者的年齡,縱坐標表示年齡的人數,圖中可以看出,這門課的學習者年齡主要分布在25周歲以下,且選修這門課的人數較少。因此可以得出這門課的主要面向對象以及開設的范圍和必要性。
基于教育程度的統計如圖3所示,橫坐標表示教育的程度,如無教育程度、小學、初中、高中、準學士、學士、碩士、博士和其他等等,縱坐標表示所占的比例。圖中,選修這門課的學習者中,50%學歷為高中,50%學歷為準學士。由這些數據,可以得出這門課程的面向對象為大學生或準備就讀大學的高中生。如果教師預先設定的教學對象僅僅為在讀的大學生,通過這個統計結果發現還會有高中生選修,那么教師可以在預備知識中增加基礎知識,更多地照顧到高中生,為他們提供更好的學習體驗。
基于性別的統計如圖4所示,橫坐標表示男生、女生或者其他,縱坐標表示所占的比例。圖中,選修這門課女生的比例明顯多于男生比例,可以考慮此門課程為藝術類課程或者此門課程開設范圍為師范類學校,而師范類學校的特征是女生比例高于男生。教師在研究男女的比例后可以根據他們的特性適當地調整課程,以達到更好的教學效果。研究者可以從這些數據中得出男女使用在線教學平臺的愛好。
基于地理位置的統計如圖5所示,從地圖中可以很直觀地看到選修這門課的學習者來自于哪個國家,哪個國家使用者較活躍,哪些地區使用的人更多等等。教師可以利用這些數據,并依據不同的國情來微調課程,研究者可以利用這些數據來分析每個國家在線教學的發展程度等等。
學習者行為分析的應用
學習者行為包括學習者的注冊情況、學生參與度與活躍度、學習者在一門課程中回答問題的統計分析等。
每門課中每日學生選課數如圖6所示,橫坐標表示日期,縱坐標表示選課學生的數量。圖中,3月31日選課的學生為5人,且過去一周選課數無變化。此數據可能跟課程截止日期有關,也可評價出課程對選修者的吸引程度等,或者更多的意義等待研究。
學生每周對課程的投入程度如圖7所示,圖中橫坐標表示日期,縱坐標表示人數。一共有三條線,紫色線表示這門課程中每天活躍的學生,綠色線表示每天觀看的視頻數,橙色線表示每天回答的問題。這三條線詳細地記錄了一門課中學生的活動信息。例如在5月13日到6月5日這一周中,活躍的學生有642人,一共觀看了441個視頻,嘗試回答了590個問題。教師通過這些數據可以判斷學生的活躍程度和學習進度,并根據學習進度來調整學習內容,如果一周中觀看視頻很少,學生活躍數也很少,那么教師可以推斷,這一周學生是否過于繁忙,適時地將課程延期。

圖4 基于性別的統計

圖5 基于地理位置的統計

圖6 每日學生選課數量

圖7 學習者行為分析
基于數據的教育對提高教學效率和教學效果有著極大的影響力,這些數據的統計和分析為教學者和研究者提供了寶貴的資源。這些數據的統計存在的問題包括:1.缺少對學習者的選課和退課情況的統計,缺少對學習者完成課程的情況進行統計,這樣難以統計出學習者在一門課程中的學習類型;2.統計了詳細的學生信息,但仍缺少投入的時間、點擊量、作業測試等詳細的數據,因此還無法對學生的學習進度、學習交互等進行深入分析;3.edX Insights來自國外,但是國內開發使用,基本的面向對象為國內,其地理信息的統計缺少國內城市的統計,不能對地理信息進行分析;4.分析模型來自國外,缺少國內教育背景下的分析模型。
未來,我們會增加這些詳細信息的統計,為學習分析提供更加可靠的數據,并對學習分析作出一定的調研,研究出適合的分析模型。而在教育技術不斷發展的時代,我們在技術的算法和分析上還需更深入的研究。
通過學習分析平臺在edX教學平臺上的應用,可以看到分析平臺運行時相應的數據流方向如下:學習者與教學平臺交互產生各種數據;這些數據依照特定的規則進行必要的記錄;根據數據挖掘和分析模型提煉出需要分析的數據;可視化地展現出分析好的數據;最后,得出分析的結論給需要的用戶。平臺上,教師可以根據事先定制好的模型對學生的數據進行分析,操作簡單方便,結論更加直觀。
本文的應用只使用了簡單的分析模型進行統計分析,展示了分析平臺的架構以及未來可擴展的可能性。未來的分析平臺可以在此基礎上做更多的擴展:首先,完善分析模型;其次,增加學生使用的界面;最后,總結分析結果得出反饋信息,盡可能地實現更多的智能化,如給學生推薦學習路徑,提醒教師教學重點和難點。
(作者單位:1為華東師范大學信息化辦公室,2為華東師范大學教育學部教育信息技術學系)