999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進DBSCAN特征聚類的學習者類畫像方法*

2022-05-10 07:26:56郝耀軍
計算機與數字工程 2022年4期
關鍵詞:特征提取特征

李 靜 郝耀軍 楊 瑜

(忻州師范學院計算機系 忻州 034000)

1 引言

隨著信息化時代教育變革的深化,在線學習群體日益增長,面對海量的在線學習行為數據,如何從中挖掘學習者的群體學習特征,優化教師的信息化教學行為,已成為人們關注的熱點問題。用戶畫像技術[1~2]的發展過程一直與互聯網環境下的行為研究關系密切,因此利用用戶畫像進行用戶信息或群體特征的挖掘是實現學習者類特征描述的一種有效解決方案。聚類分析是將沒有分類標簽的數據集,分為若干個簇的過程,是一種無監督的分類方法[3],有效表達了類內的相似性與類間的排他性,在學習者群體特征描述方面得到了廣泛應用。

近年來,在學習者群體聚類領域已出現了多種聚類算法,如基于劃分、基于密度和基于層次的聚類等[4~6]。基于劃分的聚類算法將距離作為相似性的度量指標,認為簇是由距離相近的對象組成,算法簡捷高效,適合對大規模數據進行聚類[7],但存在依賴初始聚類中心、對噪聲樣本點敏感、只能處理數值型數據等問題[8~10]。基于密度的聚類方法將各目標簇定義為基于密度可達關系的高密度相連樣本的最大集合,可以識別任意形狀的聚類簇[11]。但在面臨密度不均勻的多密度數據集時,聚類質量較差。基于層次的聚類算法通過構建具有一定親屬關系的系統樹圖實現聚類,不需要確定初始簇數,可解釋性好[12~13]。但聚類過程中各個步驟聯系緊密,時間復雜度較高。之后,隨著智能化技術的普遍應用涌現出一些智能聚類算法,如:人工神經網絡聚類實現了層次化的非線性特征聚類[14~15],基于深度學習的深度聚類算法實現了特征學習和聚類的聯合優化[16~20],從不同角度提升了聚類算法的性能,但該類算法適合處理大規模高維非結構化的數據,確定性先驗信息的缺失是模型存在的問題。隨著教育信息化進程的推進,學習空間多元化、學習時間多樣化、學習環境無縫化等都為學習者的學習行為增加了更多不確定的因素,導致上述傳統聚類算法在進行學習者群體劃分時聚類質量會下降,傳統的聚類算法面臨新的挑戰。

針對上述問題,本文提出了一種新的用于解決學習者類劃分的S-DBSCAN聚類算法。經過充分分析學習者的行為特點,利用改進的PCA-GRBM算法提取學習者數據的多維特征,在此基礎上采用基于密度的DBSCAN算法進行學習者群體特征聚類,并針對誤判的噪聲數據引入多重聚類的步驟,使其重新歸入相應的簇,實現改進的S-DBSCAN聚類算法,以提高聚類質量。

2 改進的S-DBSCAN特征聚類算法

2.1 多維特征提取算法PCA-GRBM

為了使得原始的無標簽數據集具有更明顯的類別特征,本文提出了一種改進的PCA-GRBM多維特征提取算法。采用無監督學習的PCA算法降維提取線性特征;GRBM算法提取非線性特征,并將兩種特征進行拼接,形成多維特征。這樣既降低了線性特征的計算復雜度,又能充分利用神經網絡的非線性逼近能力,最終實現對數據集類別特征的有效表達。多維度特征提取算法PCA-GRBM分為兩個部分:PCA特征轉換和GRBM特征學習,算法描述如下。

算法1基于PCA的線性特征轉換

輸入:學生學習行為數據集DataFrame(形如d ata={x1,x2,…,xm})

1)數據預處理。對清洗后的各數據特征進行標準差標準化:X←(data-data.mean()/data.std())。

6)計算降維后的數據集,即轉換得到的新特征。樣本矩陣與投影矩陣相乘得降維后的數據集X1'=X·W。其中X為n×m,W為m×d′,d′<m。

算法2基于GRBM的非線性特征學習

輸入:學生學習行為數據集向量X(形如d ata={x0,x1,x2,…,xi}),可見層神經元個數i,隱藏層神經元個數j,學習率ε,訓練周期N。

輸出:學習到的新特征

1)數據預處理。對數據進行清洗及標準差標準化,假設初始訓練數據集X~N(μ,σ2)。

2)模型初始化。可見層神經元中輸入樣本數據集X,即v0=x0,v1=x1,…,vi=xi;W,b隨機賦為較小的值。

3)訓練階段。

f or j=0,1,2,…,j-1#根據式(1)獲取隱藏層神經元的狀態值

根據條件分布P(h1j|v1)采樣h1j的二元數值;

f or i=0,1,2,…,i-1#根據式(2)獲取可見層神經元的狀態值

其中,N(.|μ,σ2)表示均值為μ,方差為σ2的高斯概率密度函數。

根據條件分布P(v2i|h1)采樣v2i的實值數據;

f or j=0,1,2,…,j-1#根據式(3)獲取隱藏層神經元的狀態值

根據條件分布P(h2j|v2)采樣h2j的二元數值;

根據對比散度算法,按式(4)更新模型參數。

4)網絡穩定后,隱層神經元的輸出即為學習到的新特征X'2。

最后,將PCA算法提取到的線性特征與GRBM算法提取到的非線性特征進行橫向拼接,得到數據集的多維特征

2.2 多重聚類算法S-DBSCAN

DBSCAN聚類算法把簇定義為由密度可達關系導出的最大密度相連的樣本集合,可以識別任意數量和形狀的簇,而且聚類過程可以發現噪聲數據。但由于學習者數據存在多樣性和個性化的特點,導致數據集的密度不均勻,傳統的DBSCAN算法聚類得到的噪聲數據較多。本文改進了傳統的DBSCAN算法,提出一種S-DBSCAN多重聚類算法。首先使用DBSCAN算法初步生成聚類分組和噪聲點,針對誤判的噪聲點,計算其與其他學習者多次章節測試答題情況的斯皮爾曼(spearman)相似度,并以此作為學習者間距離的衡量標準,進而將誤判的噪聲點重新進行劃分,實現多重聚類,以提高聚類質量。S-DBSCAN多重聚類算法過程如下。

算法3S-DBSCAN多重聚類算法

其中,di分別為噪聲點xi和xm的答題情況向量間的等級差。

7)將xi歸入相似度最大樣本所在的簇,得到新的簇劃分C。

3 學習者類畫像的構建

基于PCA-GRBM算法進行多維度特征提取后,使用改進的S-DBSCAN多重特征聚類算法實現學習者類畫像的構建,具體步驟如圖1所示。

圖1 學習者類畫像構建流程

1)對采集到的學習者數據進行預處理,存儲于CSV文件中,用于特征提取、聚類以及學習者類畫像的構建。

2)對文件中的學習者數據使用PCA算法提取線性特征,使用GRBM算法提取非線性特征,將提取到的兩種特征進行拼接,生成多維特征矩陣。

3)在特征聚類階段,將步驟2)生成的多維特征矩陣輸入DBSCAN算法中,初步生成聚類分組,提取噪聲數據,并刪除真實噪聲點。

4)計算誤判的噪聲數據與其余樣本點多次章節測試結果的答題相似度,并將噪聲數據歸入與其相似度最大的樣本點所在的簇,形成新的聚類簇。

5)依據改進的S-DBSCAN多重聚類算法構建學習者類,分析各類型學習者的特點,并進行畫像結果的可視化輸出。

4 實驗與結果分析

4.1 實驗環境和數據源

本文采用Python 3.7作為實驗平臺,操作系統為Windows 10,CPU為CoreTM i7-9750H。實驗數據來源于超星學習通平臺,共收集到《計算機專業英語》課程兩年四個學期322名同學的線上學習數據,分為學生基本屬性數據和學習行為數據兩部分。其中,基本屬性數據包括學號、入學年份與性別。學習行為數據包括任務點完成比例、課程視頻進度、觀看視頻的平均反芻比、章節測試進度、任務點完成數、視頻觀看時長、參與討論次數、章節學習次數、章節測試平均成績、綜合成績及成績等級。

4.2 PCA-GRBM多維特征提取

1)基于PCA的線性特征轉換

結合采集到的學習者數據,計算各特征維度的累積貢獻率可知,8個主成分即可表達原始數據98%以上的信息,故提取轉換后的8個特征作為數據集的線性特征,累積分布圖如圖2所示。

圖2 PCA特征累積分布圖

2)基于GRBM的非線性特征學習

經多次實驗比較,本文選用含20個隱層神經元的高斯-伯努利受限玻爾茲曼機進行特征學習,學習率為0.1,經30次迭代,網絡收斂,均方誤差為12.37,網絡訓練過程如圖3所示。

圖3 GRBM網絡訓練過程

記錄網絡輸出結果,得到GRBM學習到的20個新特征,與PCA轉換得到的8個線性特征進行拼接,產生多維特征提取后的322×28特征矩陣。繪制原始數據與PCA-GRBM算法多維特征提取后數據的三維散點圖如下所示。

可以看出,由于學習者學習行為多樣性和個性化的特點,原始數據集的類別特征并不明顯,當進行多維特征提取后,有了較為明顯的類別特征。同時,基于原始數據分布特點,很難確定初始聚類中心,不適合采用基于劃分的聚類算法,故本文采用基于密度的聚類算法DBSCAN。

4.3 S-DBSCAN多重特征聚類

基于經典的DBSCAN聚類算法,對多維特征提取后的學習者數據進行初步聚類,Eps鄰域半徑為2,核心點閾值為5,得到4個聚類簇及噪聲數據(紫色點),如圖4(b)所示。由圖可知,DBSCAN算法聚類后,得到的噪聲數據較多,其中很大一部分是誤判噪聲。故本文提出在初步聚類后,再次進行聚類操作,將真實噪聲點刪除,計算誤判噪聲點與其它學習者在24次章節測試答題中的斯皮爾曼相關系數,作為相似性度量的依據,將誤判噪聲數據重新劃歸到與其相似度最高的樣本所在的簇,實現特征的多重聚類。S-DBSCAN算法進行多重聚類后的結果如圖5所示。

圖4 學習者數據分布圖

圖5 S-DBSCAN聚類結果

4.4 算法性能比較

為驗證算法的性能,本文在采集到的學習者數據集上進行了4組實驗,分別是進行多維特征提取前直接使用DBSCAN算法進行聚類的基線模型;進行多維特征提取后,使用Kmeans,DBSCNA及改進的S-DBSCAN算法進行聚類的后三種模型。在聚類簇數為4時,對比各種模型的DBI指數,實驗結果如表1所示。

表1 不同聚類算法DBI指數比較

戴維森堡丁指數(DBI)是評估聚類算法優劣的一個重要指標,是指簇內所有點到該簇質心點的平均距離之和與兩個簇質心間距離比值的最大值。DBI值越小,表示類內距離越小,類間距離越大,聚類效果越好。從表1可以看出,特征提取前的基線模型DBI指數最大,聚類效果較差。進行多維特征提取后,三種模型的DBI指數都有所減小,說明PCA-GRBM特征提取算法有效。由于學習者行為的個性化與多樣性特點,基于密度的DBSCAN算法比基于劃分的Kmeans算法DBI指數減小了24.6%。而改進的S-DBSCAN算法在經典DBSCAN聚類的基礎上,使用相似性度量進行了多重聚類,DBI指數比DBSCAN算法減小了3.5%,實驗取得了較好的效果。

4.5 學習者類畫像分析

依據改進S-DBSCAN算法產生的聚類結果,在數據集上構建4個學習者類,每類學習者人數統計如圖6所示。在任務點完成率、觀看視頻進度、觀看視頻平均反芻比等八個特征上各學習者類的學習行為平均分布情況如圖7所示。

圖6 各學習者類人數統計

圖7 各學習者類學習行為平均分布情況

可以發現,簇1學習者類具有最大的學習者比例,占學習者總數的54%。該類學習者在任務點完成、視頻觀看進度、章節測試完成方面表現較好,但完成率并不是最高。觀看視頻反芻比最高,說明在反復觀看知識重難點。參與線上討論次數最高,說明學習具有積極性和主動性,最終綜合成績是最高的,此類學習者可定義為高效學習者。

簇0學習者類在任務點完成、視頻觀看進度及章節測試完成方面表現是最好的,章節測試平均成績也最高。反映出該類學習者在課程學習上花費時間較多,具有扎實的基礎知識。但視頻觀看反芻比及參與討論次數略低于簇1類學習者,體現其積極思考及主動學習能力欠缺,所以綜合成績也低于簇1類學習者,將此類學習者定義為優秀學習者。

簇2學習者類各項內容完成情況最低,但偏好進行章節測試,測試成績也較高,考慮到章節測試成績會作為課程平時成績的一部分,該類學習者在成績驅動下進行學習,不能充分發揮主觀能動性,未能很好地掌握知識點并學以致用,將此類學習者定義為低水平學習者。

簇3學習者類各項任務完成率并不是最低的,但章節測試完成情況最差,測試平均分最低,綜合成績最低。該類學習者在學習過程中存在困難,缺乏針對性練習,是教學過程應重點關注的人群,將其定義為高風險學習者。

5 結語

本文對基于改進S-DBSCAN聚類算法的學習者類畫像方法進行了深入的探討,研究了如何在PCA-GRBM算法提取多維特征的基礎上,使用S-DBSCAN算法進行多重聚類,并將其應用于學習者類構建中。在學習者數據集上實現了準確的群體劃分,改善了聚類算法的性能。實驗結果表明,提出的多維特征提取算法更精準地發掘了數據集的類別特征。而多重聚類算法能充分利用同類學習者間的答題相似性,提高聚類的準確性。相對于經典的DBSCAN聚類算法,DBI指數最低,獲得了很好的性能,充分體現了改進算法在學習者類別描述過程中的有效性。

猜你喜歡
特征提取特征
抓住特征巧觀察
特征提取和最小二乘支持向量機的水下目標識別
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
抓住特征巧觀察
Bagging RCSP腦電特征提取算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产aaaaa一级毛片| 国产美女在线免费观看| 午夜精品久久久久久久99热下载 | 囯产av无码片毛片一级| 亚洲欧美另类中文字幕| 天堂在线www网亚洲| 亚洲综合精品香蕉久久网| 性做久久久久久久免费看| 国产丝袜91| 久久五月天综合| 色网站免费在线观看| 热久久综合这里只有精品电影| 欧美亚洲欧美区| 色综合天天操| 久久精品中文字幕免费| 九九热免费在线视频| 在线欧美日韩国产| 欧美中文一区| 久久国产精品波多野结衣| 国产综合精品日本亚洲777| 亚洲精品第五页| 日本免费新一区视频| 精品精品国产高清A毛片| AV熟女乱| 97在线视频免费观看| 国产成人无码综合亚洲日韩不卡| 日日拍夜夜操| 国产欧美日韩专区发布| 亚洲色图综合在线| 一级毛片网| 在线亚洲精品自拍| 久久99国产精品成人欧美| 中文字幕 91| 欧美精品在线免费| 亚洲三级a| 欧美一级99在线观看国产| a亚洲视频| 精品一区二区三区水蜜桃| 色网站在线免费观看| lhav亚洲精品| 欧美在线一二区| 国产在线视频导航| 欧美三級片黃色三級片黃色1| 中文无码日韩精品| 亚洲国产成人自拍| 日本福利视频网站| 性欧美在线| 99久久精品久久久久久婷婷| 欧美日韩国产综合视频在线观看| 夜夜操狠狠操| 国产一级妓女av网站| 国产95在线 | 97在线国产视频| 蜜芽国产尤物av尤物在线看| 亚洲伊人天堂| 在线观看精品国产入口| 尤物精品视频一区二区三区| 国产午夜精品鲁丝片| 国产免费精彩视频| 五月综合色婷婷| 国产日韩精品一区在线不卡 | 色噜噜综合网| 欧洲成人免费视频| 亚洲欧美另类中文字幕| 91精品在线视频观看| 亚洲热线99精品视频| 中文字幕在线日韩91| 天堂成人在线视频| 91成人在线免费观看| 国产又大又粗又猛又爽的视频| 久久6免费视频| 97成人在线观看| 国产成人亚洲毛片| 精品人妻系列无码专区久久| 成人国产免费| 欧美午夜理伦三级在线观看| 国产精品第页| 在线观看国产网址你懂的| h网址在线观看| 国产精品自在在线午夜区app| 亚洲大尺码专区影院| 久久亚洲美女精品国产精品|