王慧敏 陳澤宇 王敏娟 張 弛
【摘要】基于對近千名高等教育移動學習者進行大規模調查所收集到的數據,研究者使用C5.0算法分別生成男女生群體關于課件使用滿意度的決策樹,然后比較從中提取的不滿意規則進行性別差異研究。實驗結果表明:在移動學習中,女生對學習資料有更高的要求,女生對學習資料要求的個體差異高于男生,女生使用課件時更容易受外界因素干擾。
【關鍵詞】移動學習;決策樹;學習者滿意度;性別差異
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2009)05—0030—04
一 引言
移動學習(m-learning)是繼網絡學習(e-learning)后出現的一種新的學習模式,國內外大量研究文獻已經對此進行了諸多研究。從當前移動學習研究的現狀看,人們對它的研究已經走過了最初的探索期,開始從早期的實驗研究,向著融入主流學習方式的方向發展。Minjuan Wang博士[1]已進行了一系列的移動學習研究,階段研究結果表明“移動學習能有效促進學生的學習過程,使其從被動學習者轉變為主動學習者,提高學習者的學習績效”,并明確指出“下一階段的研究重點在于學習資料的個性化。”由此可見,個性化研究是移動學習的一個重要研究領域。個性化的內涵非常廣泛,其中,性別差異研究可作為個性化研究的一個很好的切入點。與此同時,學習者對學習資料的滿意度是非常關鍵的,這直接影響到移動學習的進一步開展。 綜上所述,本文圍繞課件使用者滿意度來研究移動學習的性別差異是有一定研究價值和現實意義的。
為了實現更大規模的移動學習實踐,我們開發了智能手機插卡播放技術,把課程按照知識點制作成移動學習課件,學習者可以通過手機下載課件隨時隨地地進行學習。針對移動學習課件使用情況,我們通過在線調查,收集學習者使用課件后的反饋信息。由于收集到的數據信息規模較大,我們沒有像大部分移動學習研究文獻那樣采用一般局限于小樣本數據的傳統統計分析方法,而是運用決策樹技術進行移動學習的研究。我們使用C5.0即ID3的改進算法,分別推導出男生、女生群體關于移動學習課件使用滿意度的決策樹,通過比較從中提取的不滿意規則來進行移動學習性別差異研究,期待產生更豐富、更深層次的知識發現,進而有針對性地改進現有的移動學習資料,滿足學習者的個性化需求。
二 決策樹與C5.0算法
決策樹是數據挖掘領域數據探查、分類和預測的常用工具。按照特定算法生成的決策樹從根到每個葉子節點都有一條路徑,一條路徑就是一條規則,因此可以從決策樹中提取可理解的規則。決策樹各種算法都具有相同的基本過程:針對目標變量,分割出來的子結點比其父結點具有更高的純度,通過這種方式,可將大規模數據記錄集分割為樹型結構的彼此越來越相似的小記錄集。一般,用于評價可能拆分的度量是純度,不同的算法就在于衡量純度的度量不同。如Quinlan 于1986年提出的ID3 算法,就是使用信息論中的信息熵來評價拆分分類目標變量的純度度量。有關決策樹原理及其應用的更多介紹可見參考資料[2]。
C5.0算法是Quinlan在ID3版本上演化和精修多年的最新版本。它的主要改進是選擇能帶來最佳信息增益率的字段拆分數據記錄集,并增加了推進和修剪枝方法(詳見參考資料[3])。第一次拆分確定的數據記錄子集隨后再次拆分,這一過程重復直到數據記錄子集不能拆分為止。最后,重新檢查最低層次的拆分,那些對于模型值沒有貢獻的數據記錄子集被剔除或者修剪。
三 實驗環境與數據獲取
我們開發了智能手機插卡播放技術,把課程按照知識點制作成移動學習課件并發布在移動學習資源網上。為了進一步推進移動學習研究,我們制作了課后調查問卷,并把它整合到網站中供學習者使用課件后提交反饋信息(詳見圖1)。

網站運行1年多以來,我們共制作五大類的移動學習課件,主要以語言類為主,另包括經濟管理、計算機等,截至目前共有2887個課件放上網,下載總次數達36581次。系統共收集到課后調查問卷(涉及內容見表1)反饋信息930條,其中學習者使用課件后表示“滿意”和“不滿意”的典型數據記錄571條,我們使用這部分數據進行分析。

四 運用決策樹技術研究移動學習的性別差異
1 數據分析流程
我們使用C5.0算法分別生成男女生群體關于課件使用滿意度的決策樹。在我們的實驗中,輸出變量為學習者滿意度(“滿意”、“不滿意”),輸入變量為年齡、課件長度偏好、課件形式偏好、學習地點。我們把編碼預處理后的數據通過性別選擇、目標變量均衡化、設定輸入輸出變量、劃分訓練和測試集一系列操作后,按照不同修剪純度(pruning severity)訓練決策樹模型,并通過測試集驗證比較生成樹的正確率,確定最后使用的最佳決策樹。男女群體處理步驟完全相同,數據分析流程見圖2。

2 最佳決策樹
我們最終的目標是分析比較從決策樹中提取出來的男女生群體關于課件使用滿意度的不滿意規則,簡潔的規則更容易理解,因此希望決策樹在正確率能夠得到保證的前提下盡量簡潔。我們主要通過調整修剪純度來達到這個目的。修剪純度決定生成決策樹被修剪的程度。提高純度值將獲得更小,更簡潔的決策樹;降低純度值將獲得更加精確的決策樹。[4]較高修剪純度還能縮短訓練時間和避免過度訓練。我們以最精確的決策樹(即修剪純度為0)為參照(下面稱為V樹),不斷提高修剪純度來產生不同的決策樹,直到最簡潔決策樹(即修剪純度為100,下面稱為S樹),通過對比決策樹收益圖和相合矩陣來判斷新生成樹的正確率是否可以接受。因為男女生群體操作過程完全相同,這里我們僅就女生群體最佳決策樹產生過程做詳細說明。
我們使用收益圖(Gains chart)來快速評估和比較不同樹的優劣。收益圖的橫坐標通常為分位點(按置信度降序),縱坐標是累計收益,定義為:分位累計命中數/總命中數×100%。通常從左端到右端以0%為起點,以100%為終點。對于一個好的模型來說,收益圖表將陡峭地升到100%然后漸漸變的平緩。而一個沒有提供任何信息的模型將從較低的左端以斜對角線形狀上升到較高的右端。[4]我們從圖3中可知,S樹與V樹在收益圖上表現差別不大。實際上,經過后期計算,S樹與V樹在測試集數據驗證下正確率僅相差7%,分別為81%和74%。

由于決策樹正確率是包含不滿意預測與滿意預測正確率的加權和,因此我們可進一步查看它們的相合矩陣(Coincidence matrices),單獨比較兩棵樹不滿意預測的正確率。相合矩陣顯示對于符號型目標變量的每個被生成的(被預測的)字段和它的目標字段之間匹配的模式。它用一個表格表示,行被定義為實際值,列被定義為預測值。

查看表2可發現對于不滿意預測而言,V樹正確率為98%,而S樹卻達到100%。因此我們更確定S樹即是用來提取不滿意規則的最佳樹。最終決定采用的女生決策樹見圖4。

3 從樹中提取規則進行比較
根據女生群體產生的決策樹,我們可從0節點開始分別到2、4、8葉子節點的路徑來提取女生3條不滿意規則,同理,我們從男生決策樹提取了1條不滿意規則,見表3。

*支持度:符合該條規則的人數占該群體總人數百分比
首先,從“不滿意”規則數量上來看,女生有更多的不滿意規則,這說明女生對學習資料的要求更高。
其次,每條規則的符合條件如果超過一項(如1、3、4號規則),實質上反映了該群體在使用者滿意度方面的一次分化。女生分化地更嚴重,這說明女生對學習資料要求的個體差異比男生高。
對于2號規則。男生同等條件下不會表示不滿意,這說明女生比男生在上班時對學習資料有更高要求。
對于3號規則,在移動交通工具上,周圍環境一般比較嘈雜,外界干擾因素多。斯坦福大學實驗室在一項移動學習實驗中指出“研究移動學習資料設計應注重開發最適合零碎時間免受外界干擾的學習資料。” [5]盡管我們按照知識點組織學習資料盡量克服周圍干擾,但仍有大齡女生表示不滿意,這說明大齡女生使用移動課件時更容易受外界干擾而影響其使用課件的滿意度。
對于1和4號規則,兩者支持度都較高。我們發現男女生都有“在家中”這個條件。在家中,學習者完全可以使用網絡課件,網絡課件在呈現視頻形式和長時間的課件上更令人滿意。這說明移動學習尚不足以完全取代網絡學習。我們仍然要堅持兩套學習資料的開發,適宜學習者不同的需要。
五 結語
本文基于對近千名高等教育移動學習者進行大規模調查所收集到的數據,使用C5.0算法生成男女生群體關于課件使用滿意度的決策樹,然后比較從中提取的不滿意規則進行性別差異研究。實驗結果表明:在移動學習中,女生對學習資料有更高的要求,女生對學習資料要求的個體差異高于男生,女生使用課件時更容易受外界因素干擾。研究結果提示我們在制作移動學習資料時要更關注女性群體需求。本文所存在的問題在于對于應用決策樹技術而言樣本數量仍顯不夠且數據中目標變量分布不均衡。雖然經過均衡化處理加以彌補,但可能引入大量噪聲,這樣會導致產生的規則有偏差。盡管如此,研究過程和結果仍說明決策樹技術是研究該類問題的強有力工具,繼續積累數據再次重復挖掘將會取得更好的結果。
移動學習相比其它學習方式帶有更加明顯的個性化。不符合其個性化的學習資料將令學習者產生挫折感,破壞其對移動學習的信任進而減少學習。移動學習的個性化研究是一個廣泛的研究領域,本文所涉及的性別差異研究只是拋磚引玉,相信隨著更多研究者的參與,我們能夠在復雜多維的個性化差異中找到更多規律,最終使得移動學習滿足學習者的個性化需要。
參考文獻
[1] Minjuan Wang, Ruimin Shen, Daniel Novak, et al.The impact of mobile learning on students' learning behaviours and performance:Report from a large blended classroom[DB/OL].
[2] Michael J.A.Berry,Gordon S.Linoff,別榮芳等譯.數據挖掘技術:市場營銷、銷售與客戶關系管理領域應用[M].北京:機械工業出版社,2006:111-131.
[3] Quinlan, J.R.C4.5: programs for machine learning[M].San Mateo:Morgan Kaufmann Publishers,1993.
[4] 謝邦昌.數據挖掘Clementine應用實務[M].北京:機械工業出版社,2008:173-179,195-198.
[5] Keegan D.The future of learning: From elearning to mLearning[EB/OL].