王乙先++楊絮++張海


互聯網和通信技術的發展,使基于互聯網的遠程教育與數字學習得到了迅速發展。而學習者在數字學習過程中會產生大量的數據資源,分析這些數據資源能夠幫助教育工作者更好地了解學習者及其需求,進而改進數字學習系統。
時至今日,在數字學習系統中整合數據挖掘的探索仍處于初級階段,但在過去的幾年中,這方面的學術研究已有了很大進展,其中大部分涉及聚類方法的設計和應用。因此,筆者在本文回顧了最近應用于數字學習的聚類研究海外案例,期望能夠通過對其基本算法和案例的介紹,為數字學習研究者和從業者提供借鑒。
● 教育數據挖掘中的基本聚類算法
數據挖掘是一種從數據收集、預處理和建模到過程評估與實施的數據分析的過程,為生物醫學、工程學、經濟學等多樣化領域中的問題提供分析解決方案。教育數據挖掘可以通過分析用戶生成的數據形式的可用信息,從數字學習系統中提取有用的知識。數據聚類分析是研究數字學習中最常使用的分析方法,以最簡單的方式說,數據聚類是將N個數據項中的每一個數據分配給K個可能的集群中的一個。接下來,筆者將進一步詳細地描述一些常用的聚類技術。
1.k-均值聚類算法
k-均值算法是最著名的并且使用最廣泛的聚類算法之一,其主要特征是易于實施、簡潔、高效。k-均值算法旨在將一個數據集D= {x1,…, xn}分為k個不相交的群集,C={C1,…,CK},其中每個數據xi都被分配給一個唯一的集群Ck。……