999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于全局K-means算法的高校學(xué)生成績(jī)分析

2019-11-23 08:46:50谷欣超徐福祥楊勇曲福恒
關(guān)鍵詞:方法學(xué)生

谷欣超,徐福祥,楊勇,曲福恒

(1.長(zhǎng)春理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,長(zhǎng)春 130022;2.長(zhǎng)春師范大學(xué),長(zhǎng)春 130032)

在當(dāng)代大學(xué)中,成績(jī)對(duì)于學(xué)生非常重要,分?jǐn)?shù)高可以為評(píng)選獎(jiǎng)學(xué)金評(píng)選加分,也可以在找工作時(shí),比其他人更加容易吸引招聘公司的注意力,所以,為了提高高校學(xué)生學(xué)習(xí)成績(jī),應(yīng)該對(duì)學(xué)生成績(jī)進(jìn)行分析,從中挖掘出影響學(xué)生成績(jī)的主要因素,針對(duì)學(xué)生的缺點(diǎn)培養(yǎng)學(xué)生,為學(xué)生構(gòu)建一套合理且高效的教學(xué)方法。常用的成績(jī)分析方法包括聚類分析[1-2]方法、決策樹算法、關(guān)聯(lián)規(guī)則等。聚類分析方法是目前最具應(yīng)用前景的成績(jī)分析方法之一,該方法的優(yōu)點(diǎn)在于其結(jié)論形式簡(jiǎn)明、直觀,容易從中發(fā)現(xiàn)隱含的規(guī)律。K-means[3-4]算法是一種重要的聚類算法,由McQueen在1976年提出。K-means算法的目標(biāo)是將N維的M個(gè)點(diǎn)劃分為K個(gè)簇,使準(zhǔn)確率和召回率達(dá)到最大值。K-means算法主要有兩個(gè)缺點(diǎn):(1)對(duì)簇的數(shù)目進(jìn)行先驗(yàn)固定;(2)隨機(jī)選擇初始聚類中心。本文將全局K-means算法應(yīng)用于成績(jī)分析中,全局K-means算法改進(jìn)了初始類簇中心的確定過程,減少了初始聚類中心的篩選對(duì)于K-means算法產(chǎn)生的負(fù)面影響。應(yīng)用于學(xué)生成績(jī)分析中,能夠得到更加準(zhǔn)確的聚類效果。

1 聚類分析方法

在學(xué)生成績(jī)分析[1]中主要應(yīng)用聚類分析[5]方法。常用的聚類分析方法包括K-means[6]算法、K-中心點(diǎn)[7]、OPTICS[8]、FCM[9]算法和 SOM[10]算法等。聚類分析是將大量的數(shù)據(jù)對(duì)象,按照數(shù)據(jù)之間性質(zhì)的差異,分成多個(gè)類或簇,每一個(gè)類簇中的數(shù)據(jù)具有較高的相似度,不同類簇之間,存在一定的差別。聚類分析方法主要分為四種方法,在文中簡(jiǎn)單介紹基于劃分和基于層次的兩種聚類方法。

基于劃分[11]的聚類方法,能夠?qū)崿F(xiàn)同一類的數(shù)據(jù)點(diǎn)之間的距離足夠近,不同類的數(shù)據(jù)點(diǎn)之間的距離足夠遠(yuǎn)的聚類效果。首先確定要?jiǎng)澐值臄?shù)據(jù)種類K,然后選擇幾個(gè)聚類中心,作為初始劃分;在此基礎(chǔ)上,依據(jù)預(yù)先確定的啟發(fā)式算法對(duì)數(shù)據(jù)進(jìn)行迭代重置,最后獲得K類數(shù)據(jù)以實(shí)現(xiàn)算法預(yù)計(jì)的聚類效果。該方法中常用于成績(jī)分析的算法包括K-means算法、K-medoids[12]算法等。

基于層次[13]的聚類方法,其主要原理是先將每個(gè)對(duì)象看作一個(gè)簇或類,然后將這些簇或類進(jìn)行合并,得到較大的簇或類,所合成的類簇達(dá)到算法設(shè)定的結(jié)束條件后停止。通常,層次聚類屬于凝聚型層次聚類,簇間相似度的定義決定了類與類之間的差異。層次聚類的主要優(yōu)點(diǎn)在于不需要預(yù)先定義聚類數(shù),在聚類時(shí),能夠發(fā)現(xiàn)數(shù)據(jù)之間的層次關(guān)系。這一聚類方法的缺點(diǎn)在于計(jì)算量太大,而且在聚類的過程中會(huì)聚類成鏈狀。

2 全局K-means聚類

K-means算法是目前最常用的聚類算法之一。該算法主要的優(yōu)點(diǎn)在于容易實(shí)現(xiàn)且高效,能夠得到局部最優(yōu)解;但缺點(diǎn)也很明顯,需要聚類的對(duì)象數(shù)目越多,收斂速度越慢,而且傳統(tǒng)的K-means算法在聚類過程中,使用隨機(jī)選擇的初始聚類中心,隨著迭代過程的進(jìn)行,會(huì)產(chǎn)生明顯的聚類偏差。K-means算法可以將數(shù)據(jù)中相似的對(duì)象歸到同一集群中,且K-means算法不受集群對(duì)象的限制。對(duì)象的性質(zhì)相似性越高,算法的聚類效果越好。在使用K-means算法進(jìn)行聚類分析時(shí),先隨機(jī)選擇K個(gè)點(diǎn),作為初始聚類中心;然后將其他數(shù)據(jù)點(diǎn)劃分到距離K個(gè)初始聚類中心最近的簇中,完成一次迭代過程;每次迭代后,計(jì)算每一類數(shù)據(jù)點(diǎn)的均值,更新類簇中心。重復(fù)前兩步操作,直至得到的聚類中心點(diǎn)不再變化,則完成聚類過程。

本文使用一種全局K-means算法分析學(xué)生成績(jī)。全局K-means算法是在K-means算法的基礎(chǔ)上,改進(jìn)了初始聚類中心的選擇過程,優(yōu)化傳統(tǒng)的K-means算法。全局K-means算法的主要原理是基于遞增來實(shí)現(xiàn)全局最優(yōu)化。該算法選取的聚類中心點(diǎn)不需要依賴于初始值,而是計(jì)算已知聚類中心點(diǎn)與其他數(shù)據(jù)點(diǎn)的聚類平方誤差函數(shù)值,然后選擇函數(shù)值最小的數(shù)據(jù)點(diǎn),作為下一簇最佳初始聚類中心。在全局K-means算法中,一次迭代過程需要運(yùn)行N次(N表示數(shù)據(jù)量)K-means算法搜索數(shù)據(jù)集,以找到一個(gè)數(shù)據(jù)點(diǎn)使聚類平方誤差函數(shù)值最小,并將此數(shù)據(jù)點(diǎn)作為下一個(gè)簇的初始聚類中心。而K-means算法使用隨機(jī)選取的初始聚類中心點(diǎn),隨著迭代過程的進(jìn)行,聚類結(jié)果中產(chǎn)生的聚類誤差會(huì)越來越大。全局K-means算法以犧牲時(shí)間為代價(jià),為每一個(gè)簇選擇最佳的初始聚類中心點(diǎn),減少了迭代過程中產(chǎn)生的聚類誤差。

全局K-means聚類算法,簡(jiǎn)化了聚類過程,將一個(gè)問題,劃分成多個(gè)子問題。該算法使用一種增量的方法,在每一次迭代過程中計(jì)算下一個(gè)簇的初始聚類中心點(diǎn)。其算法描述如下:

Step1[初始化]計(jì)算出樣本集的質(zhì)心,將其作為第一個(gè)最佳聚簇中心,設(shè)置i=1;

Step2[結(jié)束條件]i=i+1,當(dāng)i> K 時(shí),算法終止;

Step3[查找下一簇最佳初始聚類中心]當(dāng)前已知 i-1個(gè)最佳聚類中心,為m1,m2,…,mi-1,可以將剩余樣本作為最佳聚簇中心,然后計(jì)算它們與已知的i-1個(gè)最優(yōu)聚類中心的誤差平方準(zhǔn)則函數(shù)。使此函數(shù)最小的樣本點(diǎn),被選為第i個(gè)最佳聚簇中心,即 K=i的最佳聚類中心為b1,b2,…,bi-1,運(yùn)行K-means算法。誤差平方準(zhǔn)則函數(shù)如下:

Step4 讓 mj=bj,j=1,2,…,i,轉(zhuǎn)到Step2;

全局K-means算法的流程圖如圖1所示。

圖1 全局K-means算法流程圖

3 聚類有效性

聚類有效性[14],是指使用聚類有效性評(píng)價(jià)函數(shù)評(píng)估每次迭代過程中聚類效果的方法,來衡量算法的聚類效果的優(yōu)劣。本文使用I Index[15]聚類有效性驗(yàn)證指標(biāo)作為聚類有效性函數(shù),來衡量全局K-means算法在高校學(xué)生成績(jī)中的聚類效果。I Index指標(biāo)通過計(jì)算各聚類中心距離的最大值,來度量組間的分離度;使用聚類中各成員與聚類中心點(diǎn)的距離之和度量組內(nèi)的分離度,且I Index取值愈大,則分組效果愈佳。I Index主要原理可以由公式(2)表示:

式中,M表示聚類數(shù);s表示第i聚類組的法向單位向量;CMi表示第i聚類的中心向量;d(s,CMi)表示向量s和CMi的歐幾里得距離。

4 基于全局K-means的學(xué)生成績(jī)分析

全局K-means算法是在K-means算法的基礎(chǔ)上,改進(jìn)了K-means算法選擇初始類簇中心的過程,減小了算法聚類的偏差,能夠得到更加準(zhǔn)確的聚類結(jié)果。鑒于全局K-means算法的原理和特點(diǎn),采用全局K-means算法分析學(xué)生的表現(xiàn),從而獲得簡(jiǎn)潔、直觀、準(zhǔn)確的聚類結(jié)果。此外,在全局K-means算法的聚類分析過程中,聚類個(gè)數(shù)需要提前確定,為解決此問題,本文使用I Index有效性函數(shù),衡量算法在不同聚類數(shù)情況下聚類效果的優(yōu)劣,選擇對(duì)應(yīng)于最優(yōu)聚類結(jié)果的聚類數(shù)來對(duì)學(xué)生成績(jī)進(jìn)行分析。

基于全局K-means算法進(jìn)行學(xué)生成績(jī)分析的具體流程如下:

算法輸入:待聚類數(shù)據(jù)集X={x1,x2,…,xn},xi∈RD(1,2,…,N)

算法輸出:最佳聚類數(shù)M及聚類中心(k1,k2,…,kbest)。

(1)初始參數(shù):生成聚類數(shù)的搜索范圍[1,Mmax],令M=1;

(2)設(shè)置終止條件:令M=M+1,若M>Mmax,則完成迭代過程;

(3)使用基于全局K-means算法將X聚類為M類,并得到聚類中心點(diǎn)(k1,k2,…,kbest);

(4)利用聚類中心點(diǎn)(k1,k2,…,kbest)求出聚類數(shù)M對(duì)應(yīng)的(2)式中的有效性指標(biāo)I(M)的值。

(5)選擇最大的有效性指標(biāo)對(duì)應(yīng)的聚類數(shù)M,作為最佳聚類數(shù)。

本文選擇處理的數(shù)據(jù)為某校學(xué)生四個(gè)學(xué)科的期末成績(jī),人數(shù)100人,其中部分?jǐn)?shù)據(jù)如表1所示。

表1 100名學(xué)生四個(gè)學(xué)科期末成績(jī)

將所有學(xué)生數(shù)據(jù)以csv文件存儲(chǔ),在程序中讀入csv文件,使用基于全局K-means算法對(duì)數(shù)據(jù)進(jìn)行聚類分析,得到聚類數(shù)、聚類中心以及聚類中的樣例數(shù),如表2所示。

表2 100名學(xué)生四科期末成績(jī)初始聚類中心(保留整數(shù))及樣例數(shù)

圖2 聚類分析結(jié)果柱狀圖

根據(jù)表2和圖2可以看出,算法將100名學(xué)生的四門課程成績(jī)分成四類。四類結(jié)果在分?jǐn)?shù)上表現(xiàn)出了很明顯的層次感。在聚類中心1中,課程成績(jī)均偏低,且低于其它三類,但與同組數(shù)據(jù)相比,差異相對(duì)較小。聚類中心2、3處,課程成績(jī)屬于中等及偏上層次,每一聚類中,課程成績(jī)相近。聚類中心四中,總體成績(jī)高于其他三個(gè)聚類中心。所以,根據(jù)上表結(jié)論,針對(duì)聚類中心1中的學(xué)生,應(yīng)該修改教學(xué)方法,并可借鑒聚類四中學(xué)生的學(xué)習(xí)方法,培養(yǎng)學(xué)生,讓其在自己成績(jī)較差學(xué)科中找到更加適合自己學(xué)習(xí)方法。并且,針對(duì)有些同學(xué)部分課程成績(jī)較高,但存在成績(jī)非常低的課程,學(xué)校應(yīng)該針對(duì)這類偏科的同學(xué),設(shè)計(jì)針對(duì)性的培養(yǎng)方案,讓其能在偏科的科目中發(fā)現(xiàn)感興趣的知識(shí),以此引導(dǎo)該學(xué)生主動(dòng)去發(fā)現(xiàn)、去學(xué)習(xí)。

為了對(duì)比全局K-means算法與傳統(tǒng)的K-means算法的聚類效果,對(duì)兩種算法在進(jìn)行學(xué)生成績(jī)聚類分析時(shí)的聚類中心坐標(biāo)和簇內(nèi)平均距離進(jìn)行對(duì)比,如表3所示。

表3 算法參數(shù)對(duì)比

對(duì)比試驗(yàn)主要比較兩種算法的類內(nèi)平均距離,以達(dá)到對(duì)比聚類效果的目的。兩種算法進(jìn)行對(duì)比試驗(yàn)使用的數(shù)據(jù)為某校學(xué)生四個(gè)學(xué)科的期末成績(jī),人數(shù)100人。通過表3能夠知道,使用全局K-means算法對(duì)學(xué)生成績(jī)進(jìn)行聚類分析時(shí),類內(nèi)數(shù)據(jù)的平均距離要小于傳統(tǒng)K-means算法的類內(nèi)數(shù)據(jù)的平均距離,說明利用全局K-means算法進(jìn)行聚類分析得到的聚類結(jié)果中,數(shù)據(jù)之間的距離更近,數(shù)據(jù)的分布更加緊密。所以全局K-means算法的聚類效果要優(yōu)于傳統(tǒng)的K-means算法。

5 結(jié)論

學(xué)生成績(jī)分析作為評(píng)價(jià)學(xué)生學(xué)習(xí)方法、學(xué)習(xí)態(tài)度的一個(gè)重要過程,衡量學(xué)校教學(xué)質(zhì)量的主要方法,隨著教育信息化的發(fā)展,實(shí)現(xiàn)高效、準(zhǔn)確的學(xué)生成績(jī)分析,對(duì)于學(xué)生成績(jī)?cè)u(píng)價(jià),具有非常重要的應(yīng)用價(jià)值。本文使用全局K-means算法與I Index算法相結(jié)合,來執(zhí)行無監(jiān)督的學(xué)生成績(jī)分析,且聚類個(gè)數(shù)由聚類有效性指標(biāo)自動(dòng)確定。在實(shí)驗(yàn)中,通過對(duì)100名學(xué)生的四門期末成績(jī)進(jìn)行實(shí)驗(yàn),驗(yàn)證了算法的可行性,得到了簡(jiǎn)明直觀的聚類效果,并且聚類算法對(duì)學(xué)生成績(jī)的分析結(jié)果反應(yīng)出學(xué)生當(dāng)前的學(xué)習(xí)計(jì)劃以及學(xué)習(xí)方法不當(dāng)。可以通過對(duì)學(xué)生成績(jī)的分析,為了提升學(xué)生成績(jī),制定更加合理的學(xué)習(xí)計(jì)劃和教學(xué)方案。

猜你喜歡
方法學(xué)生
快把我哥帶走
學(xué)習(xí)方法
《李學(xué)生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
趕不走的學(xué)生
學(xué)生寫話
學(xué)生寫的話
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲国产欧美国产综合久久| 97成人在线观看| 欧美a网站| www.youjizz.com久久| 波多野结衣AV无码久久一区| 亚洲青涩在线| 国产三级精品三级在线观看| 2020国产免费久久精品99| 欧美三级不卡在线观看视频| 成人午夜久久| 国产成人精品男人的天堂下载| 国产高清在线观看| 丁香婷婷激情网| av大片在线无码免费| 久久成人18免费| 亚洲成人在线免费| 亚洲动漫h| 久久男人资源站| 国产91高清视频| 国产无遮挡猛进猛出免费软件| 在线国产毛片| 国语少妇高潮| 国产欧美在线观看精品一区污| 国产成人AV综合久久| 亚洲欧洲自拍拍偷午夜色| 欧美另类视频一区二区三区| 亚洲成年人片| 国产一级做美女做受视频| 国产日本一线在线观看免费| 久久午夜夜伦鲁鲁片无码免费| 久久综合激情网| 亚洲中文字幕久久精品无码一区| 蜜桃视频一区二区三区| 美女一级毛片无遮挡内谢| 91视频青青草| 色婷婷视频在线| 亚洲色无码专线精品观看| 99久久精品无码专区免费| 永久成人无码激情视频免费| 伊人成人在线| 日本一本在线视频| a国产精品| 欧洲亚洲欧美国产日本高清| 2020最新国产精品视频| 欧美伦理一区| 黄色网页在线播放| 五月天综合网亚洲综合天堂网| 色AV色 综合网站| 九九免费观看全部免费视频| 国产1区2区在线观看| 天堂va亚洲va欧美va国产 | 国产成人欧美| 99国产精品一区二区| 国内精自线i品一区202| 国产成人夜色91| 国产福利免费视频| 日本高清视频在线www色| www.国产福利| 亚洲日本韩在线观看| 中文字幕 91| 国产一级毛片网站| 亚洲成人在线免费观看| 精品国产91爱| 国产女人18毛片水真多1| 亚洲网综合| 亚洲VA中文字幕| 美女被躁出白浆视频播放| 中文字幕66页| 97视频精品全国在线观看| 丰满人妻中出白浆| 国产精品美乳| 欧美曰批视频免费播放免费| 亚洲91在线精品| 亚洲激情99| 免费一级全黄少妇性色生活片| 国产制服丝袜无码视频| 欧美高清国产| 一区二区三区四区日韩| 亚洲IV视频免费在线光看| 无码精品国产VA在线观看DVD| 91小视频版在线观看www| 91在线一9|永久视频在线|