顧寶程 王明艷



摘要 針對(duì)校園無(wú)線網(wǎng)對(duì)大學(xué)生學(xué)習(xí)行為的影響,通過采集的校園無(wú)線網(wǎng)行為數(shù)據(jù),挖掘分析評(píng)估學(xué)生課程興趣度,更好地輔助教學(xué)管理。本文基于DBSCAN聚類算法評(píng)估了學(xué)生群體課程學(xué)習(xí)興趣度。并通過實(shí)驗(yàn)驗(yàn)證了DBSCAN聚類算法在大學(xué)生課程興趣度分析的有效性,實(shí)驗(yàn)分析結(jié)果可為學(xué)校學(xué)生管理提供了有效決策依據(jù),研究方法也可為其他高校解決類似問題提供了參考。
【關(guān)鍵詞】數(shù)據(jù)挖掘 DBSCAN算法 聚類算法興趣度分析
隨著高等教育信息化的發(fā)展,越來(lái)越多的高校應(yīng)用無(wú)線網(wǎng)絡(luò)進(jìn)行信息化教學(xué)管理,校園無(wú)線網(wǎng)里面蘊(yùn)藏著大量的用戶上網(wǎng)數(shù)據(jù)。對(duì)高校大量的學(xué)生上網(wǎng)數(shù)據(jù)加以挖掘分析,發(fā)現(xiàn)學(xué)生上網(wǎng)行為特征,對(duì)校園無(wú)線網(wǎng)的調(diào)整和學(xué)生上網(wǎng)行為有著積極的引導(dǎo)作用。目前,基于校園無(wú)線網(wǎng)絡(luò)的數(shù)據(jù)利用比較多,主要是進(jìn)行考勤分析的,入侵檢測(cè),流量監(jiān)控,后勤管理等方面的研究分析。文獻(xiàn)[2]通過對(duì)基于無(wú)線網(wǎng)對(duì)學(xué)生的出勤率來(lái)分析學(xué)生的學(xué)習(xí)興趣,文獻(xiàn)[3]通過最小關(guān)聯(lián)挖掘的技術(shù),從學(xué)生選課數(shù)據(jù)庫(kù)中來(lái)分析學(xué)生的學(xué)習(xí)行為。通過挖掘?qū)W生上課時(shí)的上網(wǎng)流量總和對(duì)學(xué)生課程興趣度分析研究較少。本文主要針對(duì)校園網(wǎng)無(wú)線網(wǎng)對(duì)大學(xué)生學(xué)習(xí)行為影響,采用DBSCAN(Density-BasedSpatial Clustering of Applications with Noise)算法來(lái)進(jìn)行聚類分析,對(duì)學(xué)生上網(wǎng)數(shù)據(jù)進(jìn)行挖掘分析,分析學(xué)生上課用網(wǎng)的時(shí)長(zhǎng)和流量總和來(lái)分析體現(xiàn)學(xué)生對(duì)課程的喜愛程度,從而輔助高校教育教學(xué)管理。
1 算法原理
DBSCAN是一種典型的基于密度的聚類算法,將足夠高密度的區(qū)域劃分為簇,在帶有“噪聲”的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類,由Erman等人[5]第一次將其運(yùn)用到流量分類中,并證明了DBSCAN算法對(duì)未知流量的識(shí)別準(zhǔn)確率優(yōu)于同是聚類算法的K- means算法。在DBSCAN算法中,有兩個(gè)基本的鄰域參數(shù),分別是ε領(lǐng)域和MinPts。其中£領(lǐng)域表示的是在數(shù)據(jù)集D中與樣本點(diǎn)xi的距離不大于£的樣本即:Nε(xi)={xj∈D|dist(xi,xj)≤ε},如圖1。
在DBSCAN算法中將數(shù)據(jù)點(diǎn)分為核心點(diǎn)(Core Points)、邊界點(diǎn)(Border Points)、噪音點(diǎn)(Noise)。核心點(diǎn)、邊界點(diǎn)和噪音點(diǎn)如圖2,直接密度可達(dá)、密度可達(dá)如圖3。
2 實(shí)驗(yàn)及結(jié)果分析
數(shù)據(jù)來(lái)自校園無(wú)線網(wǎng)的計(jì)費(fèi)數(shù)據(jù)庫(kù),學(xué)生或者老師每天使用的日志都被記錄下來(lái)。其數(shù)據(jù)庫(kù)的存儲(chǔ)形式如表1。
實(shí)驗(yàn)的環(huán)境采用Python機(jī)器學(xué)習(xí)科學(xué)計(jì)算庫(kù)Scikit leam,簡(jiǎn)稱skleam。通過獲取學(xué)院軟件工程專業(yè)4個(gè)班級(jí)127名學(xué)生在10-11兩個(gè)月學(xué)生上專業(yè)課程的上網(wǎng)信息。分別對(duì)《計(jì)算機(jī)組成原理》、 《計(jì)算機(jī)網(wǎng)絡(luò)原理》、《程序語(yǔ)言與設(shè)計(jì)》3門專業(yè)課學(xué)生上課時(shí)上網(wǎng)行為數(shù)據(jù)進(jìn)行分析。為了客觀公正根據(jù)實(shí)際上課的考勤情況去除缺課學(xué)生的數(shù)據(jù),通過DBSCAN的算法進(jìn)行分析。數(shù)據(jù)統(tǒng)計(jì)結(jié)果如圖4、5、6所示(圖中橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示這段時(shí)間累計(jì)的流量的總和)。
首先對(duì)不同課程所有班級(jí)進(jìn)行分析,如圖4-6,學(xué)生學(xué)習(xí)《計(jì)算機(jī)組成原理》大部分學(xué)生使用手機(jī)的時(shí)長(zhǎng)和流量總和遠(yuǎn)高于其他兩門課程,可以發(fā)現(xiàn)學(xué)生對(duì)<計(jì)算機(jī)組成原理》的興趣不是很大。因此任課老師可適當(dāng)?shù)母倪M(jìn)課堂教學(xué)方式,增加學(xué)生互動(dòng)環(huán)節(jié),提高課堂趣味性來(lái)增加學(xué)生的對(duì)課堂的粘合度,讓更多的學(xué)生參與到課堂中去,提高學(xué)生的積極主動(dòng)性。通過圖6和圖4、5比較可以發(fā)現(xiàn)學(xué)生聽課認(rèn)真程度遠(yuǎn)高于其他兩門課程,可以發(fā)現(xiàn)手機(jī)使用情況兩極分化比較嚴(yán)重, 《程序語(yǔ)言與設(shè)計(jì)》是一門邏輯性比較強(qiáng)的課程,有些學(xué)生沒有能夠掌握好正確學(xué)習(xí)這門課的方法,開始選擇放棄。因此任課的老師可以適當(dāng)?shù)娜リP(guān)注這學(xué)生,給與學(xué)生一些幫助。圖5反映的是《計(jì)算機(jī)網(wǎng)絡(luò)原理》的上課時(shí)學(xué)生的狀態(tài), 《計(jì)算機(jī)網(wǎng)絡(luò)原理》是偏向理論比較抽象的課程,因此任課老師在講課時(shí)可以適當(dāng)增加學(xué)生討論互動(dòng)環(huán)節(jié),讓學(xué)生更好地融入課堂。
接著運(yùn)用DBSCAN聚類算法對(duì)同一門課程不同的班級(jí)的上課狀態(tài)進(jìn)行分析。以《計(jì)算機(jī)網(wǎng)絡(luò)原理》課程為例,為客觀公正根據(jù)實(shí)際上課的考勤情況去除缺課人的數(shù)據(jù),四個(gè)班的《計(jì)算機(jī)網(wǎng)絡(luò)原理>為同一個(gè)任課老師時(shí)學(xué)生上網(wǎng)流量情況統(tǒng)計(jì)如圖7-10所示。
圖7-10可以發(fā)現(xiàn)軟件4班的學(xué)習(xí)氛圍最好,而軟件1班的學(xué)習(xí)狀態(tài)不是特別好,大部分人的上課對(duì)課堂的粘合度比較低,整體班級(jí)的學(xué)習(xí)氛圍以及學(xué)習(xí)方法需要進(jìn)行適當(dāng)?shù)恼{(diào)整。教師及輔導(dǎo)員在生活和課堂中多花精力來(lái)進(jìn)行引導(dǎo)管理,讓學(xué)生及時(shí)發(fā)現(xiàn)自身的問題所在并及時(shí)解決。圖8、10的結(jié)果相對(duì)比較接近,可以發(fā)現(xiàn)這兩個(gè)班級(jí)的學(xué)習(xí)氛圍相對(duì)比較穩(wěn)定少部分的學(xué)習(xí)態(tài)度有問題,需要積極進(jìn)行引導(dǎo)。
3 結(jié)論
通過采集的校園無(wú)線網(wǎng)行為數(shù)據(jù),將DBSCAN聚類算法應(yīng)用在學(xué)生行為分析中,以計(jì)算機(jī)學(xué)院軟件專業(yè)學(xué)生為例,挖掘分析了學(xué)生課堂上手機(jī)上網(wǎng)流量情況,評(píng)估分析學(xué)生對(duì)課程的興趣度,從而對(duì)學(xué)生管理提出相應(yīng)的教學(xué)管理對(duì)策,該方法可為高效解決類似問題提供一種新的解決問題的辦法,從而輔助高校
參考文獻(xiàn)
[1]王法玉,閏小芹,王勁松,大數(shù)據(jù)時(shí)代下的教育管理信息化建設(shè)實(shí)踐與探索[J].中國(guó)教育信息化,2016.
[2]王法玉,姜妍,基于自組織神經(jīng)網(wǎng)絡(luò)和模糊聚類的校園無(wú)線網(wǎng)戶學(xué)習(xí)興趣度行為分析[J/OL].計(jì)算機(jī)應(yīng)用研究,2018,35 (01).
[3]姜永超,基于數(shù)據(jù)挖掘的學(xué)生選課及學(xué)習(xí)行為分析算法研究[J].現(xiàn)代電子技術(shù),2016, 39 (13):145-148.
[4]安計(jì)勇,韓海英,侯效禮.一種改進(jìn)的DBSCAN聚類算法[J].微電子學(xué)與計(jì)算機(jī),2015,7 (07).
[5] Eerman J,Mahanti A,Arlitt M.Internettraffic identification using machinelearning [C]. Global TelecommunicationsConference, GLOBECOM, SanFrancisco, 2006: 1-6.
[6]楊憶,李建國(guó),葛方振,基于Scikit-Learn的垃圾短信過濾方法實(shí)證研究[J].淮北師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016, 37 (04): 39-41.