999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于高校學生行為數據的成績預警聚類分析

2023-06-25 11:15:52鄧鈞元梅軼驊
現代信息科技 2023年6期

鄧鈞元 梅軼驊

摘? 要:隨著校園信息化建設的不斷深入,校園內各應用系統逐漸增多,運用數據挖掘技術可以從海量的數據中提取潛在有用的信息用于分析高校學生的日常行為與成績方面的相關性。對一卡通系統、圖書館管理系統、教務系統等多維數據進行采集,基于密度聚類算法,在初始聚類中心選擇的基礎上結合了距離的度量,重新定義核心點、孤立點、邊界點等概念,構建一個改進的密度聚類算法進行數據挖掘分析,達到對學生學習成績的預警,避免出現掛科、留級等嚴重的學業問題。

關鍵詞:數據挖掘技術;密度聚類算法;多維數據;成績預警

中圖分類號:TP391? ? 文獻標識碼:A? 文章編號:2096-4706(2023)06-0035-04

Clustering Analysis of Achievement Early Warning Based on Behavior Data of College Students

DENG Junyuan, MEI Yihua

(Guilin Medical University, Guilin? 541199, China)

Abstract: With the continuous deepening of campus information construction, the application systems in the campus are gradually increasing. The data mining technology can be used to extract potential and useful information from massive data to analyze the correlation of college students' daily behavior and achievement. This paper collects the data from one card system, library management system, educational system and other multidimensional data, based on the density clustering algorithm, combines the measurement of distance on the basis of the initial clustering center selection, redefines the concepts of core point, isolated point, boundary point and so on, and builds a improved density clustering algorithm for data mining analysis, so as to achieve early warning of students' academic achievement and avoid serious academic problems such as fail and retardation.

Keywords: data mining technology; density clustering algorithm; multidimensional data; achievement early warning

0? 引? 言

學習成績是評估一個學生綜合素質的重要指標,也是學校教學質量改進的重要依據。目前傳統的教學管理模式并沒有對學生成績進行相關的成績預警分析,無法準確的關注到學生成績動態。通過研究分析學生多維數據并利用數據挖掘技術,構造聚類分析模式,對學生成績進行聚類分析,可以很好的尋找出影響高校學生學習成績的主要原因。

1? 應用概況

隨著高校信息化不斷發展,學校設有雙數據中心互為容災,通過專用光纖通道實現高效地數據傳輸。同時隨著近些年智慧校園的不斷升級,各業務系統累積的數據越來越多,某高校已部署了成熟的數據交換中心平臺,現已與各個部門業務系統實現了數據對接工作,可抽取各業務系統數據進行挖掘分析,同時基于多節點超融合計算資源池,大大提高了數據挖掘分析的效率,如圖1所示。

2? 算法選擇

本文主要使用聚類算法進行研究分析,該算法主要將樣本分成若干個簇類,使得簇內之間的樣本相似度較高,不同簇之間的樣本相似度較低,從而提取出有價值的信息。聚類算法有基于劃分、基于層次、基于密度、基于網格的類型。在初始聚類中心選擇問題上,傳統的基于密度的聚類算法可以過濾一定的離群點,當簇中對象的密度高于一定閾值時則可以劃分一類。如果初始聚類中心是又系統隨機選擇的話,就樣會出現以下兩個問題:一是會有概率選擇到孤立點,孤立點作為初始聚類中心,就會直接影響聚類結果質量;二是每次隨機選取就會導致聚類的效率和結果不同,非常影響聚類效果的穩定性??紤]到傳統基于密度的聚類算法對孤立點噪聲數據非常敏感,本文在初始聚類中心選擇上結合了密度與距離的度量,下面將介紹改進的基于密度的聚類相關概念:

(1)密度參數θ。假設數據集中隨機選取某一個點作為參考對象,該點的密度就是以該點為中心,以ε大小作半徑畫圓,該半徑內的所有點數(包括該點本身)稱為該參考對象的密度,其中半徑內包含的點數越多則說明密度越大,反之則密度越小。

(2)ε鄰域。數據對象的鄰域是由距離度量函數所決定的,假設Sε (i)表示點i的ε半徑內的點集合,即:

Sε (i)={ j| j∈D,D (i, j)≤ε}

其中D (i, j)表示i對象和j對象間的距離,使用的是歐幾里得距離:

(3)MinPts。在ε鄰域內,規定判斷核心點、邊界點、孤立點的最小鄰接點數。

(4)核心對象。這些點是在密度的簇內部的,它的判斷是由領域值ε和MinPts最小鄰接域點數決定的,如果一個對象的在ε鄰域內且包含數量大于MinPts的鄰接域點數,則稱為核心對象,其示意圖如圖2所示。

傳統基于密度的方法判斷孤立點對象,往往是只重視孤立點周圍的稀疏性,而忽視了與聚類中心的位置;如果基于距離來判斷孤立點對象,卻只關注了孤立點對象與聚類中心的位置,只要該點與聚類中心的距離大于其余數據點到聚類中心的平均距離就判定為孤立點,卻忽視了孤立點對象周圍的稀疏性。這兩種研究方法往往會將孤立點對象和邊界點對象搞混淆,所以將密度和距離的概念相結合用于判斷邊界點對象和孤立點對象,進而選出合適的初始聚類中心。改進后的孤立點和邊界點的定義如下:

(1)改進的孤立點。在實際應用中該點的密度參數最小,且與聚類中心的距離大于其余點到聚類中心距離的均值,則該對象稱為孤立點。

(2)改進的邊界點。在密度概念的基礎上,該對象所包含的點數小于鄰接域點數值MinPts,且仍然包含于半徑內,但是該對象與聚類中心的距離小于其余點到聚類中心距離的均值。改進后的邊界點對象的特征是,與聚類中心近,但是密度值小。

為了驗證改進后的基于密度聚類算法,本文基于UCI的數據集的實驗驗證,UCI是一個給研究者們提供用于機器學習的數據庫,本節將采用UCI數據庫中的iris(鳶尾花)對改進的算法進行實驗,此數據集是一個很常用的數據集,iris(鳶尾花)有三個亞屬性,分別是山鳶尾(Iris-setosa)、變色鳶尾(Iris-versicolor)和弗吉尼亞鳶尾(Iris-virginica),每類有50個數據值,其中每個數據值有4個特征變量,分別為花萼長度、花萼寬度、花瓣長度、花瓣寬度,按照這4個不同的特征變量,將數據集進行分類。通過實驗分析,如圖3、圖4所示。

通過對比原算法可以很清晰地看出中心點周圍密度高,且聚類效果緊湊。改進后密度聚類算法提高了聚類的準確率,避免了在實驗測試中給研究者們帶來不便,特別是幫研究者們解決了隨機初始中心導致不同聚類結果的問題。

3? 學生多維數據與成績相關性預警分析

3.1? 數據采集

本研究數據主要從某大學一卡通系統、圖書館系統、教務系統,從中抽取一個年級的學生數據。校園一卡通系統抽取學生姓名、學號、院系專業、消費記錄、消費時間等字段;圖書館系統抽取入館時間、離館時間、被借閱圖書等字段;教務系統抽取學生成績點字段。

3.2? 數據清洗

由于采集的數據源為多個業務系統且數據量較大,存在一些“空數據”和“異常數據”,需要消除這些原始數據中的噪聲從而提高數據挖掘的質量。針對“空數據”一般采用均值和臨近值插補的方式進行修復,但這種情況適用于非時間序列的數據。但在圖書館系統中需要分析出入館時間,屬于時間序列數據類型,則需要采用數理插值法進行處理,主要采用拉格朗日插值法,建立合適的插值函數f (x),空值就由對應點求出近似函數值。

3.3? 數據集成

此過程需要將三個系統抽出來的數據進行有效集成。本研究抽取的一卡通系統、圖書館系統、教務系統中的數據格式、屬性、類型都不一樣,因此通過全連接等方式要將這些數據導入到同一個數據庫中,將數據編碼統一改成GBK模式。

3.4? 數據變換

通過將集成后的數據進行數據轉換,可以統一數據格式和數據屬性,使得數據挖掘分析的數據更加規范。由于數值間的單位和大小差距很明顯,不進行數據變換的話可能會影響到數據分析的結果,本節將使用“0-1標準化”進行數據變換,去除數據單位不同的限制。

3.5? 基于密度聚類算法的學生數據與成績預警分析

在通過數據預處理以后,將采用改進的密度聚類算法進行數據挖掘分析,通過運行密度聚類算法后,計算出不同K值情況下的輪廓系數,輪廓系數是聚類效果好壞的一種評價方式。該值區間是[-1,1],越趨近于1代表內聚度和分離度都相對較優,整體輪廓系數如表1所示。

根據整體輪廓系數可知,當K值等于5時其聚類效果最好,其聚類分析出的plot圖如圖5所示,不同人群之間的行為特點如表2所示。

群體0。消費水平和消費頻次正常,說明在校園內生活較為健康和規律,能長時間夠堅持到圖書館自習以及查詢資料,借閱書量也較多,可以看該類學生勤奮努力,自控能力較強,幾乎沒有出現掛科的情況,此類學生成績能得到“優”,占總體樣本的10.11%。

群體1。消費水平較高且頻次較多,可能其家庭條件較好,屬于學校中的高消費類別群體,但到圖書館自習次數較少,借閱書量也不多,此類學生成績能得到“優”,占總樣本數的3.66%。此類學??赡芟矚g在教室或者宿舍進行學習學習,但此類學生學習和生活也較為自律,屬于比較特殊的群體,需要學生管理工作人員關注其消費習慣問題,避免落入高消費和享樂主義的陷阱。

群體2。消費水平中等 消費頻次較高,消費規律非常正常,到圖書館自習較多、借閱圖書量一般,此類學生成績能得到“良”,成績屬于中上水平,占總樣本數的19.91%。此類學生與群體0的行為軌跡較為相似,如若能提高學習效率,學習成績也許能達到“優”等。

群體3。消費水平和頻次穩定,處于中等水平,出入圖書館自習頻次與借閱圖書次數較高,此類學生成績能得到“中”,占總樣本數的60.66%。此類群體學生占比是樣本中最多,各方面表現屬于“隨大流”,成績較為平庸,學習和生活上不夠積極主動,缺失個人目標感同時學習方法可能不夠正確。學生管理工作者可以針對此類學生進行個性化管理,發掘每個人身上的特點和興趣愛好,激發其學習的積極性,改善其學習方法。

聚類4。該群體每月花銷額較低,消費頻率也較低,沒有去圖書館自習學習的習慣,可以看出學習生活不規律,可能有不吃早餐、經常賴床、逃課、沉迷網絡及其他不自律的生活習慣,此類學生成績能得到“差”,占總樣本數的5.66%。需要相關人員重點關注其生活規律,提高其自控能力,同時也需要關注該類學生家庭經濟和心理健康情況,是否學習和生活上遇到困難,及早干預,使其盡快進入學習狀態,避免出現掛科留級等情況出現。

4? 結? 論

學生學習和生活習慣越健康和規律,則成績越好,同時消費習慣也與成績成正比。反之,如果行為習慣和消費習慣不規律,出現了飲食不規律、逃課、沉迷網絡的情況出現,則成績大概率會較差。在研究中還發現部分學生學習習慣和消費習慣也較好,但學習成績還不是很理想,學生管理人員可多關注其學習方法是否正確,循循善誘,提高其學習效率。通過基于密度的聚類算法對學生多維數據進行挖掘分析,得到了影響學生成績的相關因素,可以看出學生在校的相關行為習慣與成績息息相關,此次研究為學生管理工作提供了一個很好的客觀依據,在將來的研究中還可以采集更多的學生數據進行分析,完善學生的行為畫像。

參考文獻:

[1] 高盛軒.基于Apriori算法的高校學生日常行為與成績的關聯性研究 [D].沈陽:沈陽師范大學,2022.

[2] 劉金憶.數據挖掘技術在高校學生成績分析中的應用 [J].信息記錄材料,2021,22(7):165-167

[3] 劉愛萍.基于數據挖掘技術的高校學生成績預測模型構建 [J].長春工程學院學報 :自然科學版,2020,21(2):98-101.

[4] 蘇錦.數據關聯分析與挖掘技術在學生信息中的應用研究 [D].南寧:廣西大學,2019.

[5] 陳佳明,駱力明,宋潔.大學基礎課課程成績加權投票預測模型研究 [J].現代電子技術,2020,43(1):93-98.

[6] 郭鵬.基于校園一卡通數據的學生消費行為與成績的關聯性研究 [D].楊凌:西北農林科技大學,2019.

作者簡介:鄧鈞元(1995.08—),男,苗族,廣西桂林人,網絡工程師,本科,研究方向:數據庫工程;梅軼驊(1978.07—),男,漢族,廣西桂林人,助理工程師,本科,研究方向:網絡工程、信息安全。

收稿日期:2022-10-31

主站蜘蛛池模板: 国产精品片在线观看手机版| 人人艹人人爽| 午夜视频免费一区二区在线看| 久久精品国产国语对白| 欧美日韩一区二区三区在线视频| 中文字幕在线播放不卡| 国产真实乱了在线播放| 国产在线视频二区| 午夜小视频在线| 久久这里只有精品66| 日本免费高清一区| 91青青在线视频| 欧美国产视频| 国产精品福利在线观看无码卡| 久久成人18免费| 欧美精品黑人粗大| 亚洲无码A视频在线| 国产性爱网站| 色综合天天视频在线观看| 亚洲午夜天堂| 91色在线观看| 国产精品自在自线免费观看| 欧美色视频网站| 国产在线精品99一区不卡| 亚洲成人精品在线| 亚洲精品无码久久毛片波多野吉| 看你懂的巨臀中文字幕一区二区| a在线亚洲男人的天堂试看| 免费一级成人毛片| 91精品啪在线观看国产91| 91精品国产丝袜| 国产美女精品人人做人人爽| 日本少妇又色又爽又高潮| 亚洲日本中文字幕乱码中文| 精品午夜国产福利观看| 欧美一级特黄aaaaaa在线看片| swag国产精品| 一本一本大道香蕉久在线播放| 毛片在线看网站| 国产精品自在在线午夜区app| 素人激情视频福利| 欧美精品aⅴ在线视频| 亚洲大尺码专区影院| 久久不卡国产精品无码| 久久久波多野结衣av一区二区| 久操中文在线| 97国产在线播放| 九九热在线视频| 成人福利在线免费观看| 一级爆乳无码av| 国产亚洲精品91| 国产日韩欧美精品区性色| 欧美激情视频二区| 69综合网| 成人a免费α片在线视频网站| 熟女成人国产精品视频| 久久综合婷婷| 国产91av在线| 亚洲综合天堂网| 激情六月丁香婷婷| 99精品热视频这里只有精品7| 国产成人无码Av在线播放无广告| 国产swag在线观看| 热99精品视频| 国产在线观看成人91| 亚洲三级网站| 亚洲AV电影不卡在线观看| 91精品福利自产拍在线观看| 欧美性久久久久| 国产精品男人的天堂| 成人国产免费| 热re99久久精品国99热| 日本久久网站| 日本高清在线看免费观看| 亚洲国产AV无码综合原创| 亚洲综合香蕉| 国产亚洲视频播放9000| 婷婷久久综合九色综合88| 欧美精品xx| 成人欧美在线观看| 欧美精品H在线播放| 亚洲日韩每日更新|