999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類集成的學生群體畫像構建

2022-09-26 12:47:06王惠惠董永權和文斌范斐然
關鍵詞:特征學生

王惠惠, 董永權, 和文斌, 范斐然

(江蘇師范大學 智慧教育學院(計算機科學與技術學院),江蘇 徐州 221116)

0 引言

近年來,隨著在校學生人數的增加,班級規模增大,使得傳統的班級教學模式難以兼顧全部學生需求,比如:對于學習能力相對較強的學生,課堂教學內容可能“難以吃飽”;而對于學習能力相對較弱的學生,課堂教學內容可能“難以消化”[1].為此,研究者提出了分類教學方法.分類教學能夠突破傳統班級教學困境,立足學生差異,促進學生的個性化發展[2].

學生群體畫像采用機器學習方法挖掘學生的屬性特征,形成數據化、語義化的特征標簽,并對擁有共同特征的群體進行劃分,是大數據時代實現分類教學的方法之一[3-4].它不僅能輔助教師實施差異化教學策略,而且能緊密跟蹤、精準分析不同類別學生的學習情況[5],是當前教育領域研究的熱點之一.已有的對于學生群體畫像的研究多采用單一聚類方法,自動挖掘學生行為屬性進行分類,如:Dinh等[6]采用KMeans算法識別具有相似學習動機和學習策略的群體,并畫出5類不同特征的學生群體畫像;肖君等[7-8]發現,KMeans算法能夠幫助教師及管理者識別不同學生群體,并為學生提供個性化的學習過程評價或效果評價;喬惠[9]利用KMeans聚類方法識別具有高風險流失的學生群體畫像;王萍[10]研究了不同國家學生的學習行為和特征,采用DBSCAN聚類算法將學生分為4類學習者;張弛等[11]使用GMM算法對學生的基本信息和學習偏好進行聚類分析;羅楊洋等[12]分別采用GMM、KMeans和DBSCAN 3種聚類算法對清華大學學生的學習行為進行群體畫像分析.然而,單一聚類算法難以準確反映各類數據結構,且不同算法的聚類結果具有差異性.基于此,本文提出一種基于聚類集成的學生群體畫像方法.通過分析學生的基礎數據和行為數據,建立合理的學生群體畫像特征標簽,并運用KMeans、KModes和GMM 3種聚類方法構建基聚類器;最后,通過投票法對基聚類器的結果進行集成處理,并根據輪廓系數選取合適的類數構建學生群體畫像;同時,分析每個群體的主要特征,為后續教師制定分類教學手段和策略提供參考.

1 構建框架

學生群體畫像的構建框架主要包括數據采集與處理、群體畫像特征標簽構建、基聚類器構建、聚類集成、群體特征分析及學生群體畫像6個部分(圖1).

圖1 學生群體畫像構建框架

2 數據采集與處理

數據集采用阿里云天池“數智教育”大賽某中學高一至高三年級的學生成績及行為數據(https://tianchi.aliyun.com/competition/entrance/231704/information),比賽任務是對學生基本信息和行為數據進行可視化分析.數據集共涉及學生基本信息表(student_info,已脫敏)、學生考勤表(kaoqin)、學生考勤類型表(kaoqintype)、學生成績表(chengji)、考試類型表(exam_type)和學生消費表(consumption)6張表,表關系結構如圖2所示.由于學生在校行為所產生的數據結構復雜且數量龐大,因此,必須先對各表中字段格式和內容進行清洗,減少噪聲影響.數據清洗包括去除邏輯錯誤數值和填補數據缺失值,然后整合成統一標準的數據格式.

圖2 表關系結構

3 學生群體畫像的特征標簽構建

從數據中挖掘和提煉學生的屬性特征,并將屬性特征標簽化.學生群體特征包含顯性特征和隱性特征,其中顯性特征包括學生的性別、政治面貌、民族、住宿情況和出生地等,隱性特征包括違紀情況、月消費金額等.通過建立學生顯性和隱性特征的標簽維度,利用聚類算法將他們劃分為不同特征的群體,精準分析他們的情況.在聚類算法中,特征選取直接影響聚類效果,因此,需要選擇與學生成績相關的重要特征[13].隨機森林算法作為學生畫像的特征選擇工具,既具有良好的魯棒性又能很好地處理異常數據[14].因此,將隨機森林算法特征重要性排名前3的學生違紀情況(X1)、學生住宿情況(X2)和學生月消費總額(X3)作為學生群體畫像的特征標簽.

4 聚類集成

聚類作為無監督學習的一種算法,依據數據的自身特性可劃分為不同類別[15].常用的聚類算法主要包括基于劃分的聚類(如KMeans、KModes)、基于密度的聚類(如DBSCAN)和基于模型的聚類(如概率模型GMM)等[16].由于學生數據規格一致,離散程度較大,不適合使用密度聚類算法[13].因此,本文運用KMeans、KModes和GMM 3種聚類算法構建基聚類器,通過投票方法對基聚類器的結果進行集成.

4.1 KMeans聚類算法

KMeans算法是目前應用最為廣泛的一種基于劃分的聚類方法,通常采用歐氏距離作為衡量數據間相似性的指標,相似性越大,距離越小.其核心思想是隨機設置K個初始聚類中心,依據每個數據對象與聚類中心之間的相似程度,不斷地更新聚類結果,直至收斂[17].KMeans聚類算法簡單、運算快速,適用于連續屬性的數值型數據,對各種大規模、高頻率的數據挖掘具有很強的擴展性.

KMeans聚類算法的偽代碼描述如下:

輸入:K:number of clusters,D={d1,d2,…,dn}:a data set

輸出:Kclusters:C={C1,C2,…,CK}

1:center = initClusterCenter(K)

2:while center does not change do

3:C=assignPoint2Center(D,center)

4: center=reComputeClusterCenter(C)

5:end while

6:returnC

4.2 KModes聚類算法

作為KMeans算法的一種擴展,KModes聚類算法在處理離散屬性的數據點中表現較好,很好地降低了噪聲數據的影響,并減少了孤立點的敏感性[18].其核心思想是隨機設置K個初始聚類中心,依據每個數據對象與聚類中心的不同屬性個數重新劃分數據對象,不斷更新聚類結果,最終以每類的眾數作為新中心點獲得聚類結果.KModes聚類算法具有劃分原理簡單、操作簡單、執行速度快等特點.

KModes聚類算法的偽代碼描述如下:

輸入:K:number of clusters,D={d1,d2,…,dn}:a data set

輸出:Kclusters:C={C1,C2,…,CK}

1:center = initClusterCenter(K)

2:while center does not change do

3:C=assignPoint2Center(D,center)

4: center=reComputeClusterMode(C)

5:end while

6:returnC

4.3 GMM聚類算法

GMM算法是一種基于概率模型的聚類算法,其核心思想為預先假設存在K個聚類中心,且每個聚類均服從混合高斯分布,計算每個數據對象與聚類中心之間的分布概率、權重和方差,得出最大似然函數值,最終將數據點所屬概率最大類作為其聚類結果.GMM算法采用概率方式,使不同數據自適應訓練獲取參數,增強了算法的泛化能力.它不僅能依據不同數據自適應訓練獲得模型相關參數[19],而且能快速地解決泛化能力差、群協遲鈍等問題[20].

GMM聚類算法的偽代碼描述如下:

輸入:K:number of component,D={d1,d2,…,dn}:a data set

輸出:Kclusters:C={C1,C2,…,CK}

1:P=φ

2:μ,π,Σ=initClusterParameter(K)

3:whilePis convergence do

4: fori=1 tondo

5: fork=1 toKdo

6:r(i,k)=computeComponent(di,k)

8:Σk=computeVariance(r(i,k),di,μk)

9:πk=computeWeight(|Dk|/|D|)

10:P=computeLikelihoodFunction(μk,Σk,πk)

11: end for

12: end for

13:end while

14:C= assignClassByMaxLikelihood(P)

15:returnC

從巢湖流域綜合土地利用動態度數值(圖2)可知,1985-2000年,土地利用綜合動態度為0.08,2000-2016年,土地利用綜合動態度為0.12。可以看出巢湖流域的土地利用程度呈上升趨勢,表明區域內土地利用變化加劇。根據巢湖流域的單一土地利用動態度變化圖(圖1)可分析區域內各土地利用類型的變化程度。

4.4 聚類集成算法

運用KMeans、KModes和GMM 3種聚類算法構建基聚類器,使用聚類集成算法(clustering ensemble algorithm,CEA)進行數據挖掘.CEA算法的核心思想是:依次采用KMeans、KModes和GMM算法對數據對象進行聚類計算,分別得到3個聚類結果,之后通過投票法,選取次數出現最多的類作為該樣本的類,以提高聚類結果的精確性和魯棒性.算法流程圖如圖3所示.

圖3 CEA集成算法流程圖

CEA聚類集成算法的偽代碼描述如下:

輸入:K:number of clusters,D={d1,d2,…,dn}:a data set

輸出:Kclusters:C={C1,C2,…,CK}

1:Lt=φ(t=1,2,3),Ck=φ(k=1,2,…,K)

2:L1=KMeans(D,K)

3:L2=KModes(D,K)

4:L3=GMM(D,K)

5:fori=1 to len(D) do

6: res=getBaseClusterClasses(di,L1,L2,L3)

7:j=getMaxOccurenceClass(res)

8:Cj=Cj∪{di}

9:end for

10:returnC

5 實驗及分析

5.1 評價指標

1)輪廓系數

輪廓系數用來衡量類內樣本的聚集程度[16].樣本點di的輪廓系數Si的計算公式為

其中:ai表示di和類內其他點之間的平均距離,bi表示di與最近類中所有樣本點之間的平均距離之和.輪廓系數Si越大,聚類效果越好.最佳聚類個數在輪廓系數最大時取得.

2)誤差平方和

誤差平方和衡量聚類算法中聚類劃分結果的精確度[16].計算公式為

其中:di為樣本點,ck為第k個聚類中心,d為樣本點到類的歐氏距離.誤差平方和越小,表明精確度越高,聚類效果越好.

3)信息熵

信息熵是依據聚類結果中某個類別出現的概率衡量算法魯棒性的指標[16].第i個類別的樣本集Di隨機出現的信息熵H(Di)的計算公式為

其中:di為樣本點,p(di)表示di隨機出現的概率分布值.信息熵越小,表明聚類算法魯棒性越好.

5.2 實驗環境

Windows 10 操作系統;CPU,Intel core i5;32 GB內存.

5.3 聚類算法分析

為獲取最佳的聚類個數,分別選取KMeans、KModes和GMM算法對實驗數據集進行輪廓系數分析.圖4為聚類中心點k取值2~9時的聚類輪廓系數圖,可以看出,聚類個數為3時效果最佳.

圖4 聚類輪廓系數圖

為驗證聚類結果的精確性,采用KMeans、KModes、GMM和CEA算法分別計算數據集的誤差平方和,比較算法的聚類性能,結果如表1所示.可以看出,GMM算法的誤差平方和最大,而CEA算法的誤差平方和最小,精確性最好.

為驗證聚類結果的魯棒性,采用信息熵比較4種算法的性能.由于聚類算法初始聚類中心均為隨機產生,因此,需要通過多次運行判斷聚類結果的魯棒性.本文對每個算法各運行10次,統計聚類結果的信息熵,結果如表1所示.可以看出,相比于其他3種算法,CEA算法的信息熵最小,魯棒性最好.

表1 4種聚類算法的誤差平方和和信息熵

5.4 學生群體畫像及分析

選取學生違紀情況(X1)、學生住宿情況(X2)和學生月消費總額(X3)作為聚類特征.在聚類之前,使用Scikit-learn庫中MinMaxScaler方法對所選特征進行最大最小歸一化處理,以消除特征維度差異的影響.使用CEA算法對2018—2019年第1學期791名學生進行中心點k為3的聚類分析,得到3類不同特征的群體.為便于教師對學生群體進行識別,依據學生的具體特征和學習效果分為“自控型學習者”“常規型學習者”和“消費型學習者”3種類型.統計分析發現,“自控型學習者”中有13名學生的行為存在嚴重異常,將其定為離群點,并作刪除處理.學生群體畫像的聚類分析結果如表2所示.

表2 學生群體聚類分析結果

可以看出,在3類學習者中,“自控型學習者” 占14.01%,各項指標均表現最好:違紀次數最少,在校住宿,月消費水平最低,學期平均總成績最高.

“常規型學習者”占70.95%,在各項指標上均表現一般:“違紀情況”在3類學習者中最高,月消費總額處于居中層次,學期平均總成績處于中等水平.說明此類學習者自我約束性不高,沒有將全部精力投入到課程學習中.針對此類學生,在紀律方面,學校應加強違紀違規情況的管理,并深入開展政治思想工作、德育工作,培養學生的自律能力和自育能力;在學習層面,教師應不定期與學生交流情感,聚焦學生需求,解決學生遇到的問題,并及時給予反饋.

“消費型學習者”占比15.04%,在各項指標上表現都相對較差:雖然在校住宿,學校違紀次數較少,但月消費總額在3類學習者中最高,學期平均總成績最差.這可能是由于此類學生長期住宿,缺少家長的關愛和教導,沒有形成正確的消費觀念,自我約束性較差.針對此類學生,在消費層面,家長和教師應主動關心,引導其形成正確的消費觀念;在學習層面,教師應給予足夠的關愛與耐心,分析其存在的問題,從學習方法、策略等方面進行針對性的指導,促使其學習成績有較大幅度的提升.

6 結語

為實現分類教學,本文通過對學生的基本信息和行為數據進行分析,提出基于聚類集成的學生群體畫像方法,分析不同群體的學習特征,從而找到提高學生成績的關鍵點,輔助教師制定更科學的分類教學策略,將因材施教落到實處.今后,還可以把學生群體畫像和學習資源相結合,分析不同類型學生所需的學習資源,進行相應的學習資源推薦研究.

猜你喜歡
特征學生
抓住特征巧觀察
快把我哥帶走
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
《李學生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
趕不走的學生
抓住特征巧觀察
學生寫話
學生寫的話
主站蜘蛛池模板: 国产91av在线| 国产丝袜第一页| 日本91在线| 伊人久久综在合线亚洲2019| 99视频在线观看免费| 麻豆精品在线| 毛片网站观看| 喷潮白浆直流在线播放| 五月天在线网站| 91无码人妻精品一区| 国产在线小视频| 四虎成人精品| 国产一区二区三区在线精品专区| 中文字幕亚洲专区第19页| 无码高潮喷水在线观看| 青青久视频| 亚洲国产精品无码AV| 国产电话自拍伊人| 91九色视频网| 3D动漫精品啪啪一区二区下载| 亚洲自拍另类| a级毛片毛片免费观看久潮| 免费不卡视频| 日韩精品成人在线| 久久久久夜色精品波多野结衣| 日韩欧美色综合| 国产91在线|中文| 丁香综合在线| 亚洲综合18p| 久久青草精品一区二区三区 | 亚洲视频免| 国产毛片基地| 免费可以看的无遮挡av无码| 亚洲人成网址| 久久99精品久久久久久不卡| 手机永久AV在线播放| 中文字幕第1页在线播| 美女无遮挡免费视频网站| 久久特级毛片| 久久久亚洲色| 人妻一本久道久久综合久久鬼色| 国产va在线| 亚洲国产91人成在线| 色有码无码视频| 国内老司机精品视频在线播出| 中文字幕不卡免费高清视频| 55夜色66夜色国产精品视频| 国产精品妖精视频| 亚洲免费黄色网| 精品亚洲国产成人AV| 91无码视频在线观看| 中文字幕在线欧美| 国产综合精品日本亚洲777| 在线观看免费黄色网址| 无码有码中文字幕| 中文字幕资源站| 精品无码国产自产野外拍在线| 国产色婷婷| 欧洲高清无码在线| 在线免费观看a视频| 91在线精品免费免费播放| 一区二区三区国产精品视频| 精品国产电影久久九九| 亚洲AV无码久久天堂| 五月天丁香婷婷综合久久| 亚洲欧美在线综合一区二区三区| 狠狠色噜噜狠狠狠狠色综合久| 国产精品网曝门免费视频| 日韩精品一区二区三区swag| 97视频精品全国免费观看| 美美女高清毛片视频免费观看| 婷婷色中文网| 成人在线观看一区| 亚洲精品国产精品乱码不卞| 国产激情第一页| 国产在线拍偷自揄拍精品| 蝴蝶伊人久久中文娱乐网| 日韩精品久久久久久久电影蜜臀| 久久不卡精品| 国产亚洲欧美在线中文bt天堂 | 国产成人免费高清AⅤ| 成人亚洲视频|