





摘要:在線學習是近年來隨著互聯網的發展而逐漸興起的一種學習方式,它的便捷性和豐富的學習資源吸引了越來越多的學習者。隨著在線學習平臺日益普及,海量的用戶數據也隨之產生。如何從這些數據中提取有價值的信息,促進教育教學質量提升是當前值得思考的重要課題。文章介紹了基于K均值聚類算法(K-means Clustering Algorithm,K-means)的在線學習行為聚類分析方法,為在線學習平臺提供了重要的數據分析和應用支持,幫助教師及平臺管理者及時調整教學模式和教學策略,以提升學習者的在線學習效果。
關鍵詞:在線學習;行為聚類分析;K-means算法;忠誠度
中圖分類號:TP181" 文獻標志碼:A
0 引言
近年來,隨著互聯網技術的發展,在線學習已經成為一種廣受歡迎的學習方式。線上教育教學已經成為教學育人的新形式。這一定程度上打破了傳統教學的空間限制[1]。它不僅具有便捷性,還擁有豐富的學習資源。因此,研究在線學習行為對于提高在線學習的效率具有重要意義。在線學習行為的研究主要集中在2個方面:一方面,研究在線學習者的學習效果,如學習成績、學習滿意度等;另一方面,研究在線學習者的學習行為特征,如學習時長、學習頻率等。本文主要關注的是在線學習行為特征。目前,在線學習已經產生了大量的學習行為數據,怎么利用這些數據來提高在線學習的效果。本文用K-means聚類方法,對學生的學習行為進行分類,以便對每個類別的學生提供個性化學習指導。
1 K-means算法
K-means算法是一種基于距離的聚類算法,也是一種常用的無監督學習算法。該算法的基本思想是通過不斷的迭代,使得給定的數據點聚到具有相似特征的聚類中[2]。K-means算法的具體流程如下:(1)對給定的數據,隨機選擇K個數據點作為聚類的K個中心點。(2)計算數據中每一個點與K個中心點的距離,并將其分配到距離最近的聚類中。(3)根據分配的數據點,更新每一個聚類的中心點。重復步驟2—3,直到聚類中心點不再發生變化或達到最大迭代次數。
2 在線學習行為聚類分析
在線學習行為聚類分析是通過聚類分析在線學習者的學習行為的歷史數據,以識別不同的學習行為類型并進行分析。這項研究旨在探討在線學習者學習的影響因素及學習進展,區分在線學習平臺中學習者的行為類別。根據在線學習平臺用戶學習行為數據,本文借鑒了客戶價值劃分(Recency Frequency Monetary,RFM)分析方法,構建了在線學習行為分類指標,并使用數據挖掘中的聚類算法,對從在線學習平臺中提取的學習者行為的歷史數據進行分析,得出在線學習者學習行為分類結果及對課程的忠誠度情況。
2.1 在線學習行為分類指標確定
有關客戶分類方法的研究,代表者為Hughes提出的RFM分析方法[3]。通過近度R(Recency)、頻度F(Frequency)、值度M(Monetary)3個行為指標來區分客戶,其中R指上次購買時間至目前的時間間隔,F是指某一時間段內的購買的次數總和,M為某一時間段內的購買累計金額。這種方法主要適用于傳統的銷售場景,對于在線學習平臺的學習者分類需要重新設計相關指標。通過分析在線學習中學習者的行為數據,設計了在線學習者分類RFL[4]指標體系。其中,R(Recency)是指學習者最后一次在在線學習平臺的學習時間點至當前時間的間隔天數,被稱為學習近度;F(Frequency)是指學習者在在線學習平臺中學習的行為記錄的總和,這些行為記錄包括互動答題、觀看課程視頻、留言交流、做電子筆記等學習行為,被稱為學習頻度;L(Length)是指學習者通過在線學習平臺中進行學習行為累計的分鐘數,被稱為學習長度。
2.2 K-means算法聚類
在構建出分類指標體系的基礎上,本文采用K-means算法對行為進行聚類分析。具體步驟包括數據標準化處理、確定學習者行為特征權重以及K-means算法聚類。
數據標準化處理。數據標準化處理的目的是消除數據的差異性和不一致性,提高數據的質量和可用性。本文采用離差標準化的方法對各指標進行標準化處理。在本文的RFL數據中,由于指標F和L的數據與在線學習穩定程度正向相關,而指標R與在線學習穩定程度負向相關,因此在進行標準化處理時需要注意這一點。
確定學習行為特征權重。本文所構建的在線學習行為分類指標個數不多并且指標取值相近。為了確保指標權重確定的準確性以及消除主觀因素,本文采用客觀方法中的熵值法來確定在線學習行為分類指標的特征權重。
K-means算法聚類。K-means算法聚類是本文采用的方法,通過對在線學習行為進行聚類分析,可以將學習者分為不同的類別,并進一步分析各類別的特征和忠誠度情況。
2.3 學習者忠誠度等級劃分
為了分析在線學習平臺中的哪些類別的學習者對課程具有較高的忠誠度,哪些類別的學習者存在較低的課程忠誠度,本文根據學習者對在線課程的學習情況來劃分學習者的忠誠度等級。通過計算每一類別中各指標的權重,并按照給出的在線課程忠誠度公式計算出學習者對課程的忠誠度得分[5]。這有助于教師和在線學習平臺管理人員及時采取相應的教學策略和教學模式,來提高用戶在線學習的穩定程度。在線學習行為的忠誠度計算公式如公式(1)所示。
3 在線學習行為分析過程
3.1 數據處理
對江蘇航運職業技術學院在線學習平臺進行實踐觀察,最終選取平臺中的“計算機應用基礎”課程作為具體研究對象。課程開設時間為2022年9月1日至2022年12月30日這段時間內的學習數據。為保證實驗研究樣本的客觀及有效,從中隨機選取1 000名學習者。分別統計出每位學習者的學習近度(R)、學習頻度(F)、學習時長(L)指標對應的數據。部分統計結果如表1所示。
本文采用機器學習庫sklearn中的K-means方法對數據進聚類分析,在進行聚類之前,首先要進行標準化的數據預處理,采用離差標準化方法,將數據歸一化到0到1區間內。使用sklearn.preprocessing下的MinMaxScaler進行標準化處理后的數據如表2所示。
3.2 聚類分析
對標準化后的數據,K-means方法對數據進聚類,聚類的個數從2到10,用方差比準則(Calinski-Harabasz)方法分別計算出聚類個數2到10的得分。得分可視化結果如圖1所示,橫坐標是聚類的個數,縱坐標是每種個數相應得分。
從圖1中可以看出,分為6類得分最高,即將學生在線學習行為的數據分6類最為合適。用K-means方法將學生在線學習行為數據分為6類,并計算每個類別的平均分。因為數據被標準化到0~1區間的數值,對這區間的數值進行均值計算后,并不能體現出原來的數據,所以對聚類后每一類的均值要進行反向標準化。劃分的6個類別如表3所示。
依據公式(1),要計算每個類別的忠誠度,需要確定R、F、L的權重值α、β、γ,這里采用客觀方法中的熵值法確定指標權重[6],通過計算得出學習近度指標權重為0.218、學習頻度權重為0.325、學習長度權重為0.457,根據公式(1)可以計算出每個類別的忠誠度,依據忠誠度的得分情況,6個類別分別為專注學習者、持續學習者、堅持學習者、暫停學習者、偶爾學習者和放棄學習者。圖2(a)與圖2(b)分別展示了每個聚類的人數分布比例以及每個類別的忠誠度得分。
聚類分析結果以及學習者對課程忠誠度的情況可以幫助教師及平臺管理者制定出合理教學策略,下面針對各類別的行為特征做具體分析。
3.2.1 專注學習者
這類學習者具有很高的學習時長和頻率,而且最近一次在線學習時間距離當前時間相當短。他們通常非常專注于學習,并且會在學習過程中持續投入大量時間和精力。為了讓他們保持專注并獲得更好的學習效果,教師可以為他們提供更深入的學習資料、挑戰性的學習任務和更多的反饋,以激發他們的興趣和動力。
3.2.2 持續學習者
這類學習者的學習時長和頻率較高,但最近一次在線學習時間距離當前時間較短。他們通常是有一定學習目標的,并且會盡力保持學習的連續性。為了幫助他們實現學習目標,教師可以為他們提供具有清晰目標和可行計劃的學習任務,并鼓勵他們制定學習計劃和時刻記錄學習進度,以保持學習連續性。
3.2.3 堅持學習者
這類學習者的學習時長和頻率較高,最近一次在線學習時間距離當前時間也不算太久。他們通常會在空閑時間或者需要學習的時候進行在線學習。為了幫助他們更好地利用學習時間,教師可以為他們提供多樣化的學習資源和靈活的學習方式,并鼓勵他們制定合理的學習計劃和規劃學習時間,以提高學習效率。
3.2.4 暫停學習者
這類學習者曾經具有較高的學習時長和頻率,但目前處于暫停狀態,最近一次在線學習時間距離當前時間較久。他們通常是由于某些原因暫時中斷了學習,并有可能繼續學習。為了幫助他們重新開始學習,教師可以為他們提供一些幫助和支持,例如:重新分配學習任務、提供個性化的學習計劃、提供心理支持等,以促進他們重新投入學習。
3.2.5 偶爾學習者
這類學習者的學習時長和頻率較低,而且最近一次在線學習時間距離當前時間也比較久。他們通常有一定的學習需求,但可能受到其他因素的影響而無法持續在線學習。為了幫助他們更好地學習,教師可以為他們提供靈活的學習資源和學習方式,并嘗試了解他們的學習需求和限制,并針對性地提供支持和幫助,以幫助他們更好地學習。
3.2.6 放棄學習者
這類學習者的學習時長和頻率極低,而且最近一次在線學習時間距離當前時間非常久。他們通常曾經進行過在線學習,但由于某些原因已經放棄了學習。為了鼓勵他們重新投入學習,教師可以為他們提供一些刺激和鼓勵,例如:提供一些有趣的學習任務或挑戰、提供一些實用的學習資料、提供個性化的學習計劃等,以重新激發他們對學習的興趣和動力。
4 結語
本研究通過使用K-means算法對在線學習行為數據進行聚類分析,證明了該算法是一種有效的聚類算法,能夠對在線學習行為數據進行有效的分析。聚類結果表明,在線學習行為存在明顯的分類規律,不同的學習行為類型具有明顯的特征差異。因此,基于K-means算法的在線學習行為聚類分析有助于更好地理解學習者的學習行為,為特定的在線學習者提供相應的指導措施,幫助教師及平臺管理者制定出合理教學策略,為今后在線學習行為的研究提供有力的支持。
參考文獻
[1]王雨晴,萬時樂.網絡教育背景下高校思想政治教育“全員育人”的實現路徑[J].江蘇航運職業技術學院學報,2022(3):84-87.
[2]鄭凱東,任輝.基于PSO的K-means聚類優化[J].信息技術與信息化,2023(2):77-80.
[3]魏玲,李陽.基于RFL的MOOC學習者細分與忠誠度研究——以“怪誕行為學”課程為例[J].現代教育技術,2016(11):67-73.
[4]李陽.大數據環境下在線學習行為分析模型研究[D].哈爾濱:哈爾濱理工大學,2017.
[5]陳來,張華.基于聚類算法的學生學業表現分析預測模型[J].山西警察學院學報,2020(2):114-118.
[6]張霞,何南.綜合評價方法分類及適用性研究[J].統計與決策,2022(6):31-36.
Research on clustering of online learning behaviors based on the K-means algorithm
Abstract: Online learning is a learning method that has gradually emerged in recent years with the development of the Internet. Its convenience and rich learning resources have attracted more and more learners. With the increasing popularity of online learning platforms, massive user data is also generated. How to extract valuable information from these data and promote the improvement of education and teaching quality is an important topic worth thinking about at present. This paper introduces the clustering analysis method of online learning behaviors based on the K-means clustering algorithm algorithm, and empirically proves the effectiveness of this method, providing important data analysis and application support for online learning platforms, and helping teachers and platform managers to adopt teaching strategies and teaching modes in a timely manner to improve the effectiveness of user online learning.
Key words: online learning; behavioral clustering analysis; K-means algorithm; loyalty