李 培
(1.西安郵電大學 計算機學院, 陜西 西安 710121;2.西安郵電大學 陜西省網絡數據智能處理重點實驗室,陜西 西安710121)
隨著互聯網的發展,借助網絡來進行教學的方式已經被廣泛地應用于各大高校。最具代表性的就是網絡視頻授課,更多的學生可以隨時隨地學習各大高校的課程,從而促進教育水平,提升學生的能力。雖然網絡視頻教學的興起讓老師的教學方式和學生的學習態度有了極大的改變,但是缺點也同樣存在,例如,學生所謂的“刷課”凸顯的最主要的問題就是,老師不能確保學生是否在學習前觀看視頻,觀看的視頻是否認真等。因此,關于網絡視頻教學的改革和完善是一個值得關注的問題,而借助實際的網絡教學平臺用戶數據進行的研究,將是解決這個問題最有利的工具。
目前使用最多的網絡教學平臺為慕課平臺,很多高校為本校的學生安排了基于慕課平臺的線上學習課程,并且還將自己學校的特色專業課程制成視頻,放到慕課平臺上供其他人學習。在校學生比例占了慕課平臺觀看者相當大的比重,學生用戶的后臺學習數據很大程度上代表了網絡學習者的情況。
之前對慕課平臺上學習數據的分析僅限于一些客觀因素的簡單統計分析,或依靠分析者的主觀判斷,而本文的研究是以學生用戶在慕課平臺全程的學習數據作為研究對象,借助數據挖掘算法,發現相關因素之間的聯系,特別是分析不同因素對最終學習效果的影響,通過直觀的圖表和專業的分析,對慕課平臺的課程建設者和任課教師使用慕課平臺評估設置規則提供客觀準確的參考意見[1-3]。
決策樹是通過對數據進行處理,找出最優分裂點,形成可以供新數據集分類預測的二叉樹,樹中的每一個節點代表的就是選取研究數據集的屬性,分支代表的是符合節點的數據集,所有的葉子節點都是一類數據集合。
對一個數據集進行決策樹的建立,根節點是整個數據集中最具有代表性的屬性,通常依據根節點就可以得出非常大的信息量。當決策樹建立成功之后,就可以用類似于樹的遍歷,從根節點開始,根據條件進行遍歷,直到葉子節點,而葉子節點正是我們所判定的分類結果。
決策樹是數據挖掘應用中容易實現,并且可讀性較高的分類工具。在處理數據時速度快,這里也包括前期對數據的處理,只需要提供可靠的屬性數據集即可,免去了去掉空白的或者多余的屬性。并且它的準確率高,在決策樹完成后對數據的分類效果明顯,不需要重復構建二叉樹。
決策樹建立的基本過程如下[4]:①遍歷所有的數據集合,將其看作節點;②對所有的節點所屬的屬性進行分裂,找出最優分裂點;③依據所選最優屬性的條件,繼續分裂成兩個或者多個節點;④重復上述②—③步,直到每個葉子節點是純集合為止。
在這個過程中,關鍵就是最優分裂點的選擇問題,在各種屬性里面找出最適合分裂的點,讓分裂后的分支數據集合盡可能單一,這個過程中會遇到3種情況:①離散分布,最終生成的是二叉決策樹,使用劃分的子集X來測試;②離散分布,最終生成的是非二叉決策樹,使用分支Y來測試;③屬性的分布是連續的,則需要確定一個標準Flag進行劃分。
在最優分裂點的選擇中,決策樹是通過對數據集的信息量計算,確定信息熵的大小,進一步求得分裂前后的信息增益,從而找出最適合分裂的那一個屬性,此屬性代表了最高的不確定值。只有數據純度較高的時候,不均值才會高,此時信息熵最大。在進行過一次分裂后,如果信息熵的差值大,那么說明分裂后的數據集的信息量比分裂前的更均勻。
通過ID3算法對此次實驗數據進行處理,可以確定最優分裂點的選擇。
ID3算法是實現構造決策樹的算法之一,具有速度快、數學性強的特點,核心思想是概率。通過對不同分類的數據在此集合中出現的概率與分裂后在子集合中出現的概率進行計算,得出信息增益,從而確定最優分裂點。
學生在觀看完成所有視頻課程之后進行考試的最終學習效果,除了根據考試成績衡量之外,其他的屬性也應該起到作用。例如,兩個成績相仿的學生,一個觀看視頻時間長,另一個少,那么客觀地說,觀看視頻時間長的學生應該得到更優異的成績。因此,采用決策樹分類的方法對一個學生觀看視頻學習的結果進行分類評價。
表1是分類標準。

表1 成績判定
在學生看完慕課平臺的課程,完成相應的作業、測驗以及考試之后,學生的成績都可以在慕課平臺的后臺查詢并且下載。除了用已有的Excel進行數據查看外,并沒有其他方法可以對數據進行整理分析。此外,因為學生都是利用業余的時間觀看視頻,這種學習方式對于老師評判平時分是十分不利的。
因此,此次系統為了方便老師的工作,讓老師對學生觀看視頻后取得的成績有更清晰的認識和了解,提供圖表方式以查看學生的成績分布、成績趨勢以及學生之間的成績對比,在對成績進行決策樹分類后,確定平時分的評分標準[5]。
這次主要采用Python機器學習庫中的Sklearn中的一個功能來進行數據挖掘,從而實現決策樹分類。Sklearn是數據挖掘中十分有效且方便的工具[6],它封裝了大部分的機器學習算法,如分類、回歸、聚合,還包括了監督學習、非監督學習、數據交換。它的官方API十分周全,上手容易,內置大量數據集,處理數據的效率極高,是在進行數據挖掘時首先考慮的工具之一[7]。本次采用了Classi fication的Sklearn.tree決策樹方法,完成對Spoc的分類,對學生的成績做進一步的評定,系統運行的后臺框架采用的是Python手下的Flask框架[8]。
考慮到數據的拓展性和半結構化特性,采用的數據庫是Mongodb為主[9]。Mongodb是將數據存儲成文檔的樣子,類似于字典,一個屬性對應一條數據,方便操作。
(1)成績統計與分析。對課程的每一次作業、測驗以及Spoc成績都進行了數據統計,計算其平均分和及格率。
使用柱狀圖查看分數的分布情況,點擊某一區間,即可顯示具體的成績和人數,如圖1;在各區間的具體成績下,點擊左下角導出成績并下載,可以查看此區間的學生成績信息。

圖1 成績分布
(2)成績權重。統計一個學生某課程的所有情況之后,需要對其成績進行權重的計算。在下拉框可以選擇作業與測驗各占的比例,進行計算顯示結果,并可導出。
(3)數據對比。在作業、測驗和Spoc成績屬性較多的情況下進行數據對比,可以清晰地評價學生觀看視頻的效果,選擇兩位學生的成績,點擊對比,作業測驗和Spoc信息的對比情況如圖2所示,可以看到3個類型的顯示結果。
(4)學生信息管理。學生信息是在導入成績的時候自動添加的,主要顯示的是學校、姓名和學號三大信息。也可以進行查詢。

圖2 信息對比
點擊操作中的詳情按鈕,顯示的是這個學生作業和測驗的折線圖,得分情況和狀態起伏一目了然。如圖3所示。

圖3 學生詳情
(5)作業、測驗和Spoc成績管理。作業、測驗和Spoc成績數據都在系統中存在,在搜索框輸入學號或者姓名,可查看個人成績。
系統可對各項數據進行導入。在錄入的時候,如果時間和課程名與已有信息完全相同,則不予錄入。
借助系統中整合的數據,采用數據挖掘算法完成了數據的分析。
1)成績與視頻觀看時長。
由圖4可知,從視頻觀看學習的數據分析看,并不是觀看視頻時間越長,成績就越高,二者非線性相關。

圖4 成績與時長
2)視頻觀看個數與次數。
從圖5中可以看到,在進行視頻學習的過程中,沒有一個學生會進行視頻的重復觀看,都是一個視頻只看一遍,完全沒有回顧的現象。可能這個學生會在某一段時間頻繁觀看。但是,知識需要不斷地回顧復習,在這里視頻學習并不具備有用性。

圖5 視頻個數與觀看次數
3)視頻觀看個數與總時長。
由圖6可知,并非一個學生看視頻的個數越多,總時長就越長。有些雖然看的多,但是總時長卻短。說明這些學生并沒有認真去觀看,有可能他們只找時間短的視頻,盡量完成視頻學習的任務而已。

圖6 視頻個數與總時長
4)平均分標準分類。
圖7是根據平均分的分類,可以看到,視頻觀看時長是次于成績的關鍵影響因素。

圖7 平均分下的決策樹
5)中位數標準分類。
從圖8中可以看到,中位數是除了是視頻觀看個數的第二關鍵影響因素,可以看到,關于A標準的數量要少于平均數。因此,在更嚴格的給分情況下,可以根據中位數來評判。
本文從研究學生觀看慕課平臺視頻的學習數據出發,選取了學生的課程觀看時長,學習期間完成的作業、測驗以及考試等因素進行研究分析。這些數據不僅有成績屬性,還有其他如視頻觀看時長等屬性,因此在分析成績之外,還可以對其他屬性進行研究。

圖8 中位數下的決策樹
實驗數據來源真實可靠,選取整班學生全程學習數據,對需要研究分析的數據點進行列舉,在Spoc數據中,完成了視頻觀看時長與Spoc成績的分析、視頻觀看個數與次數的分析,最關鍵的是,進行決策樹分類之后對Spoc學習的最終成績判定做了研究;在作業、測驗數據中,完成了查看成績分布、導出對應數據以及成績權值的計算。此外,還完成了學生數據對比的研究,可以借助對比結果進行打分。
研究對象具有針對性,研究方法多樣,可視化效果好,同時用明確的數據說明和解決問題。
從研究分析的結果來看,最終學習的效果評判并不能僅看考試成績,而是需要統一參考視頻觀看以及個數時長。有的學生雖然看的視頻多,但是并沒有認真學習內容,那么成績肯定不理想。在決策樹分類的結果中,有中位數和平均數的選取差別。新的學習方式固然有其優勢,但是改進仍然是必不可少的。總的來看,要想真正提高成績,還需要提高視頻質量,改進視頻觀看體驗,以避免學生的視頻學習流于表面形式。
本論文的研究意在說明如何提高慕課平臺視頻的質量,特別是吸引力,同時采用一些技術手段,保證對視頻觀看的全程監控。保證觀看的實際質量是提高慕課平臺學習效果的重要研究要素,當然,對于選取慕課平臺進行教學改革的任課教師來說,也明確了對線上視頻學習所應做出的必要要求,建議從考核手段等多方面著手,促進視頻觀看效果的提高。