中圖分類號:G642
文獻標識碼:A DOI:10.16400/j.cnki.kjdk.2025.17.008
Research on Network Learning Behavior Analysis and Teaching Strategies Based on Data Mining
WANG Chenpei
(Jilin Police College, Changchun, Jilin 130000)
AbstractThe article uses data mining technology to mine and analyze various behavioral data generated by learners inthe processofonline leaming,revealing learners'learning behavior paterns,leaming rules,andkey factors affecting learning effectiveness.Basedonthis,scientific and effective teaching strategiesare formulated to provide teachers with more targeted teaching guidance,learners with leaming support that meets their own needs,and to provide experience and reference for promoting the high-quality development of online learning.
Keywordsdata mining; network learning behavior analysis; teaching strategies
在信息技術飛速發展的當下,互聯網已深度融入人們的生活,網絡學習作為一種新興的學習方式正逐漸改變著傳統的教育格局。當前,網絡學習憑借其便捷性、靈活性和豐富的資源打破了時間和空間的限制,使學習者能夠隨時隨地獲取所需的知識和信息,滿足不同人群的學習需求,受到了廣泛的關注和青睞。中國互聯網絡信息中心(CNNIC)發布的第52次《中國互聯網絡發展狀況統計報告》顯示,截至2023年6月,我國在線教育用戶規模達4.25億,較2022年12月增長1250萬,占網民總數的 40.5% 0這一數據直觀地反映出網絡學習在我國的普及程度和廣泛應用。在網絡學習蓬勃發展的背景下,運用數據挖掘技術對網絡學習行為進行分析,進而制定科學合理的教學策略對于提高教學質量、促進學習者的學習和發展具有重要的現實意義。
1數據挖掘與網絡學習行為相關理論闡述
1.1數據挖掘技術概述
數據挖掘作為一門融合了統計學、機器學習、數據庫等多領域知識的交叉學科,能從海量、復雜的數據中發現潛在的、有價值的信息和模式。其概念最早可追溯到20世紀80年代末,隨著信息技術的迅猛發展,數據量呈爆炸式增長,傳統的數據處理和分析方法已難以滿足需求,數據挖掘技術應運而生。數據挖掘的常用算法豐富多樣,涵蓋分類、聚類、關聯規則挖掘等多個領域,每種算法都有其獨特的原理和適用場景,C4.5算法是決策樹算法的杰出代表,它以信息增益率為核心指標,在決策樹的構建過程中能夠比較不同屬性的信息增益率,選擇信息增益率最大的屬性作為節點分裂的依據,從而構建出高效的決策樹模型。
1.2網絡學習行為的內涵與要素
網絡學習行為是指學習者在網絡環境下,借助各類網絡學習平臺和資源,為實現學習目標而進行的一系列活動的總和。網絡學習行為與傳統教學方式相比,其教學方法、教學思路、學習內容均存在相當明顯的差異[。其涵蓋了學習者與學習內容、學習平臺、教師以及其他學習者之間的交互行為,是一種具有自主性、交互性、靈活性等特點的新型學習行為模式。網絡學習行為包含多個關鍵要素,這些要素相互作用、相互影響,共同構成了網絡學習的生態系統。學習者是網絡學習行為的核心主體,他們帶著各自的學習目標、學習動機、學習風格和知識基礎參與網絡學習。教師在網絡學習中扮演著引導者和促進者的角色,盡管與傳統課堂教學相比,教師的角色和作用發生了一定的變化,但他們仍然是網絡學習過程中不可或缺的因素。
2網絡學習行為數據的收集與預處理過程
2.1數據來源與收集方法
本研究以國內某知名在線學習平臺為數據來源,該平臺涵蓋了豐富多樣的課程資源,包括計算機科學、語言學習、職業技能培訓等眾多領域,擁有龐大的用戶群體,每日活躍用戶數達數萬人。平臺具備完善的學習記錄功能,能夠詳細記錄學生在學習過程中的各種行為數據,為研究提供了豐富的數據基礎。在數據收集方面,系統日志記錄是平臺收集數據的重要方式之一。平臺服務器端設置的日志記錄模塊可以對學生的每一次操作進行詳細記錄。依托數據挖掘技術,教師可找出影響學生學習效果的重要數據,為開展好教學工作提供有力依據[。學生登錄平臺的時間、訪問的課程頁面、在每個頁面的停留時間、點擊的鏈接等信息都會被準確記錄在系統日志中。這些日志數據以時間序列的形式存儲在服務器的數據庫中,為后續的分析提供了原始的數據素材。教師通過對系統日志的分析可以了解學生的學習路徑和學習習慣,例如,當發現學生在學習某門課程時經常反復查看某個知識點的頁面,則表明該知識點對學生來說具有一定的難度,需要教師在教學中給予更多的關注。
2.2數據預處理步驟
在數據收集完成后,由于原始數據中往往存在噪聲、缺失值、重復值等問題,直接用于分析可能會影響結果的準確性和可靠性,因此需要對數據進行預處理。筆者采用數據清洗、數據轉換的方法對收集到的數據進行預處理來提高數據質量。數據清洗是數據預處理的重要環節,其目的是去除數據中的噪聲和錯誤,糾正數據中的不一致性,填補缺失值,處理重復數據,從而提高數據的準確性和完整性。在數據清洗過程中,首先要檢查數據的完整性,查看是否存在缺失值。可嘗試使用Python的pandas庫中的is1O函數,對收集到的學生學習行為數據進行缺失值檢查。在學生的成績數據中,發現有部分學生的某門課程成績存在缺失值,針對這些缺失值可采用均值填充法進行處理,即計算該課程所有學生成績的平均值,用平均值來填充缺失值。數據轉換是將數據從一種格式或類型轉換為另一種格式或類型,以滿足數據挖掘算法的需求。在本研究中,筆者主要進行了數據標準化和數據離散化等操作。數據標準化是將數據的特征值轉換為統一的尺度,消除不同特征之間的量綱差異。為此可以采用Z-Score標準化方法,通過計算每個特征值與均值的差值除以標準差并將數據轉換為均值為0,標準差為1的標準正態分布。對于學生的學習時長、作業得分等特征數據,使用Z-Score標準化方法進行處理,使具有不同特征的數據具有可比性。
2.3數據質量評估
數據經過預處理后,需要對數據的質量進行全面評估來確保數據能夠滿足后續數據挖掘和分析的需求。數據質量評估主要從準確性、完整性和一致性等多個關鍵指標展開,這些指標相互關聯,共同反映出了數據的可靠性和可用性。準確性是衡量數據質量的重要指標之一,它主要考查數據是否真實、準確地反映了客觀事實。在網絡學習行為數據中,準確性體現在數據記錄的真實性和數據值的正確性。而完整性是數據質量評估的另一個重要方面,它關注數據是否存在缺失值、重復值或不完整的記錄。在實踐中,經過數據清洗和預處理后,數據的完整性得到了有效保障。然后繼續使用Python的pandas庫對數據進行統計分析,計算數據集中每個屬性的缺失值比例。在學生的基本信息數據中,筆者發現性別屬性的缺失值比例為0.5% ,經過進一步分析,這些缺失值是由于學生在注冊時未填寫導致的。對于這些缺失值,筆者采用了根據學生姓名推測性別的方法進行填補,填補后數據的完整性得到了提升。而對于重復值,要使用drop_duplicates函數對數據進行去重處理,以確保數據的唯一性和完整性。
3基于數據挖掘的網絡學習行為分析
3.1分類分析,識別不同學習類型的學生
分類分析是數據挖掘中的重要技術,其能夠根據已有的數據特征將數據對象劃分到不同的類別中,從而實現對數據的有效組織和理解。網絡學習行為分析中的分類分析可以準確識別出不同學習類型的學生,為個性化教學提供有力支持。筆者運用決策樹算法,以學生的學習活躍度、參與度等多維度數據為基礎對學生進行分類,具體分為積極主動型、中等參與型和消極被動型三類,并深入分析各類學生的行為特點。決策樹算法是一種基于樹結構的分類算法,它利用對訓練數據的學習,能夠構建出一棵決策樹。決策樹的每個內部節點表示一個屬性上的測試,分支表示測試輸出,葉節點表示類別。在構建決策樹時,算法會根據信息增益、信息增益率、基尼指數等指標來選擇最優的屬性進行分裂,使得劃分后的子集盡可能地屬于同一類別。在具體實踐中,筆者選用典型的C4.5決策樹算法對學生進行分類,C4.5算法以信息增益率為度量,選擇信息增益率最大的屬性作為當前節點的分裂屬性,從而構建出決策樹模型。
3.2聚類分析,挖掘相似學習行為的群體
聚類分析作為數據挖掘的重要手段,可以做到將具有相似特征的數據對象歸為同一類,從而發現數據的內在結構和規律。在網絡學習行為分析中,聚類分析有助于教師深入了解不同學生群體的學習行為模式,為個性化教學和精準指導提供有力依據。筆者運用K-Means算法對學生進行聚類,深入剖析不同聚類群體在學習行為上的相似性和差異性。K-Means算法是一種基于劃分的聚類算法,其基本思想是將數據集中的樣本劃分為K個簇,通過不斷迭代更新簇中心,使得每個樣本都被分配到距離其最近的簇中心所在的簇中,從而實現簇內樣本相似度高、簇間樣本相似度低的聚類效果。此次研究的聚類結果顯示,不同聚類群體在學習行為上呈現出了明顯的相似性和差異性。第一類群體為“高效自主學習型”。此類學生平均每周學習時長達到15小時以上,登錄次數頻繁,每周登錄次數超過10次,課程完成率高達 90% 以上,作業得分也相對較高,平均得分在85分以上。第二類群體為“中等努力型”。此類學生的學習行為表現處于中等水平,平均每周學習時長在8一12小時之間,登錄次數每周5一8次,課程完成率在 70%-80% 左右,作業得分平均在 70-80 分之間。這類學生能夠按照課程要求進行學習,但在學習的主動性和積極性方面還有一定的提升空間。第三類群體為“學習困難型”。此類學生的學習時長較短,平均每周學習時長不足5小時,登錄次數較少,每周登錄次數少于3次,課程完成率較低,不足 50% ,作業得分也相對較低,平均得分在60分以下。對于這類學生,教師需要給予更多的關注和支持,幫助他們分析學習困難的原因,提供針對性的學習指導和幫助。
3.3關聯規則挖掘,探索學習行為與學習效果的關系
關聯規則挖掘能夠揭示數據集中各項之間的潛在關聯關系,深入探究學習行為與學習效果之間的內在聯系,為優化教學策略、提高教學質量提供有力的依據。在關聯規則的挖掘中筆者采用Apriori算法來對學生的學習行為數據進行挖掘,揭示學習行為與學習效果之間的關聯規則。筆者仍以某在線學習平臺上學生的學習行為數據為基礎,詳細記錄學生的登錄次數、學習時長、作業完成情況、參與討論區的次數、考試成績等信息。然后利用Apriori算法挖掘這些學習行為與學習效果(以考試成績為衡量指標)之間的關聯規則,并設定最小支持度為0.2,最小置信度為0.7,以篩選出具有實際意義的關聯規則。經過算法的運行和分析,發現了以下一些具有代表性的關聯規則:如果學生每周的學習時長超過10小時,且作業完成率達到 80% 以上,那么他們在考試中取得良好成績(80分以上)的置信度為0.85,支持度為0.25。這表明,學習時間和作業完成情況與學習成績之間存在著較強的正相關關系,網絡學習情況對學生的考試成績具有顯著性影響,網上學習情況良好的學生其考試成績比網上學習情況較差的學生好。為此,教師可以根據這一規則,鼓勵學生合理安排學習時間,認真對待作業,提高學習效果。
4基于分析結果的教學策略制定
4.1個性化教學策略
基于前文對學生網絡學習行為的深入分析,不同類型的學生在學習過程中展現出了各自獨特的特點和需求。為了滿足這些多樣化的學習需求,提高教學質量和學生的學習效果,教師應制定個性化教學策略。在制訂個性化教學策略時,教師需要根據學生的個體差異,為他們提供量身定制的學習資源和學習路徑來促進其全面發展。第一,對于高效自主學習型學生,他們學習熱情高、自主性強,具備較強的學習能力和探索精神。針對這類學生,教師可以提供具有挑戰性的拓展學習資源,如學科前沿的研究論文、專業領域的經典書籍、相關的學術講座視頻等,以滿足他們對知識深度和廣度的追求。第二,中等努力型學生在學習上表現出一定的積極性,但在主動性和學習方法上還有待提高。為此,教師可以為他們提供一些針對性的學習指導,幫助他們改進學習方法,提高學習效率。根據他們的學習進度和知識掌握情況,推薦一些與課程內容緊密相關的輔導資料、在線課程或學習工具,幫助他們鞏固所學知識,拓展知識面。第三,學習困難型學生往往學習動力不足,參與度較低,可能在學習過程中遇到了較多的困難和障礙。教師對于這類學生需要給予更多的關注和支持,幫助他們克服困難,樹立學習信心。
4.2互動型教學策略
在網絡學習環境中,部分學生存在互動參與度低的問題,為了提高其互動積極性,增強學生之間以及學生與教師之間的互動交流,教師可以采取互動教學策略以激發學生的參與熱情。首先,增加討論環節是促進學生互動的有效方式之一。教師可以在課程學習過程中根據教學內容設置多樣化的討論主題,引導學生積極參與討論。比如在講解某個歷史事件時,教師可以提出“該歷史事件對當時
科教導刊
社會的經濟、政治、文化產生了哪些深遠影響?”“如果該歷史事件沒有發生,歷史的發展可能會有怎樣的不同?”等開放性問題,組織學生在討論區進行深入討論。其次,小組合作學習也是互動教學的重要分支。教師可根據學生的學習能力、性格特點、興趣愛好等因素,將學生合理分組,每組人數以4一6人為宜,確保每個學生都有充分參與的機會。然后,為每個小組布置具有挑戰性和合作性的學習任務,譬如小組項目、案例分析、小組競賽等。在小組項目中,學生需要共同完成一個綜合性的學習任務,在這個過程中,小組成員需要明確各自的分工,相互協作,共同完成任務。除了上述策略,教師還需要建立良好的互動氛圍來鼓勵學生積極參與互動。教師要尊重學生的觀點和想法,對學生的發言給予充分的肯定和鼓勵,即使學生的觀點存在錯誤或不足,也應采用委婉的方式進行引導和糾正,避免打擊學生的積極性。
4.3學習引導策略
學習行為與學習效果之間存在緊密的聯系,而數據挖掘分析所揭示的關聯規則能夠為教師引導學生調整學習行為、培養良好學習習慣提供有力的依據。因此,教師要充分利用這些分析結果,有針對性地對學生進行學習引導,幫助學生提高學習效果。
第一,在學習時間管理方面,教師可根據關聯規則中學習時間與成績的關系,引導學生合理安排學習時間。建議學生制定詳細的學習計劃,明確每天、每周的學習任務和時間分配。對于學習時間較短的學生,鼓勵他們逐步增加學習時間,養成每天定時學習的習慣,確保每周的學習時長達到一定的標準。每天安排至少2一3小時的集中學習時間,避免學習時間過于碎片化。教師可以利用學習管理系統,實時監控學生的學習時間投入情況,及時提醒學生調整學習計劃。如果發現某學生連續幾天的學習時間都低于建議時長,教師要及時通過平臺發送消息提醒學生,幫助他們合理安排時間,提高學習的連貫性和穩定性。
第二,針對作業完成情況與學習效果的關聯,教師應強調認真完成作業的重要性。要求學生按時、獨立完成作業,注重作業的質量而非數量。教師在布置作業時可以根據學生的學習水平和能力,分層布置作業,使每個學生都能在完成作業的過程中有所收獲。對于學習能力較強的學生,教師可布置一些拓展性、挑戰性的作業,培養他們的綜合能力和創新思維。對于學習基礎較弱的學生,可布置一些鞏固基礎知識、強化基本技能的作業來幫助他們打牢基礎。教師應及時批改學生的作業并給予詳細的反饋和評價,指出學生作業中存在的問題和不足之處并提供針對性的建議和指導,幫助學生改進學習方法,提高作業完成質量。
第三,在學習過程中,教師要引導學生養成定期復習和總結的習慣。根據艾賓浩斯遺忘曲線,知識的遺忘是有規律的,隨著時間的推移,遺忘的速度會逐漸加快。為此,教師要第一時間提醒學生定期復習所學知識,每周可安排一定的時間對本周所學的知識點進行回顧和總結來強化記憶,加深理解。
第四,教師可鼓勵學生制作思維導圖,將所學知識進行系統梳理并構建知識體系,提高學習的系統性和條理性,定期開展學習經驗分享活動,邀請學習成績優秀、學習習慣良好的學生分享自己的學習經驗和方法,為其他學生提供借鑒和參考,最終促進所有學生的共同進步。
5結語
本研究借助數據挖掘技術深度剖析了網絡學習行為。在理論層面,明晰了數據挖掘原理及網絡學習行為的內涵要素,展現了其在分析學習行為時處理多樣數據、多維度探究的優勢。在實踐中,從某知名在線平臺收集數據,經清洗、轉換、集成等預處理保障數據質量并運用決策樹、K-Means、Apriori等算法,精準識別出積極主動型、中等參與型、消極被動型學生,挖掘不同學習群體的特征及學習行為與效果的關聯。基于此,制定了個性化、互動、學習引導等有針對性的教學策略,為網絡學習教學優化提供有力支撐,進而推動網絡學習高質量發展。
★基金項目:2025年吉林省高等教育教學改革研究課題“基于數據挖掘的網絡學習行為分析及其教學策略研究”(JLJY202541275564);吉林警察學院院級課題“大數據環境下人工智能技術在教學中的應用研究”(JYKYYB202424)。
參考文獻
[1]孫琳.數據挖掘技術支持下的大學生網絡學習行為探討[J].信息與電腦(理論版),2023,35(24):184-186.
[2]張瑜.數據挖掘技術在高職網絡教學平臺中的應用[J].無線互聯科技,2021,18(5):69-70.
[3]楊杉.基于聚類算法和決策樹算法的網絡學習行為研究[J].電腦知識與技術,2021,17(10):213-216.