999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聚類和關聯算法在學生學業分析中的應用

2022-02-16 12:19:56羅錦光
無線互聯科技 2022年23期
關鍵詞:規則課程學生

蘇 錦,羅錦光

(廣西電力職業技術學院,廣西 南寧 530007)

0 引言

自我國高職院校開始信息化建設以來,各院校的信息系統中存放著每屆學生的各類數據。由于高職生活相比起高中、中職的生活要相對自由,學生在來到高職院校后對學習方法、自我管理有可能會做不到位,導致了每學期均會出現部分學生考試不及格的現象發生,影響了學生的正常發展。通常當學生在課程學習中投入的學習時間不足、方法不對,往往成績較差,當學生在課程學習之中積極努力,課程成績通常較好,付出的努力往往與學業成績成正比,即俗語中的“一分耕耘一分收獲”。此外,課程與課程間也存在相互關系,如果在關聯性較強的課程學習中,一門課程學不好,可能導致與該門課程有聯系的相關課程都學不好的結果。本文利用數據挖掘對學生學習過程中的相關數據加以分析,驗證“一分耕耘一分收獲”的科學依據,找出課程間的關聯,為提升高職院校的教學方法、改善學生的學習方式和降低學業預警提供了一定的參考。

1 算法原理

1.1 改進型KMeans算法

聚類挖掘可以在大量的數據中,把具有相似特征的數據進行子集劃分,不同子集之間擁有盡可能遠的距離,即同一子集數據相似,不同子集數據相異的原則,將數據集分割為若干子集,方便觀察者了解數據分布情況。聚類的過程不需要對數據進行標記,由算法自動完成數據聚類過程,因此聚類也稱無監督歸納。常用的聚類算法有利用數據分布密度聚類、利用數據分層聚類、基于劃分聚類等。聚類挖掘在生物工程領域,根據基因功能獲取生物種群的結構特征,在市場分析領域,常用在識別不同客戶群體的消費特征,在互聯網領域,能夠對Web信息進行分類管理,提升客戶搜索效率。

KMeans算法作為聚類算法中最經典的算法,屬于基于劃分的聚類挖掘方法。KMeans算法利用隨機的k個焦點作初始數據集子類的中心點,依據其他各點到各子集中心點的歐幾里得距離,將其他各點各自分配到最近的中心點所在子集,然后對形成的子集內部的點重新計算出距離平均值求出新的中心點,進而再次計算其他各點到新的各中心點距離,再次將各點歸納到距離最小的新中心點形成子集,如此迭代,直到形成的各子集不再發生變化則終止[1]。KMeans算法作為一種數據預處理方法使用時,通常k的數值不會選擇太大,具有算法復雜度低、伸縮性較好、容易理解等優點。但是傳統的KMeans算法當隨機中心變化時,對于最終子集的形成也有較大差別,因為聚心以距離均值方式計算,易受離群極值點的影響,極有可能導致局部最優解等缺點,因此需要進行改進。

改進型KMeans算法主要針對傳統KMeans算法的初始中心點選擇進行改進。其核心思想是初始子集中心間距離盡可能地相距較遠[2]。先隨機選擇數據集中一個點作為中心點c1,計算數據集中其他點到已知中心點的距離D(x)大小,選取D(x)最大的點作為第ci個聚類子集中心點,重復計算數據集中其他點到已知中心點的距離D(x)大小,并選取D(x)最大的點作為第Ci+1個聚類子集中心點,直到選出k個聚類子集中心點,之后就使用標準KMeans算法,劃分子集。

1.2 Apriori算法

關聯挖掘可以在數據集中找出數據單元與單元之間的相互關系,挖掘出由單元A發生的情況下推導出單元B發生的概率或是影響,進而用以描述數據單元同時發生的規律[3]。關聯規則常用于電商廣告,用以推送用戶感興趣的商品,也常用于氣象因素分析等領域。

Apriori算法可以用來挖掘強關聯規則,是最常見的關聯算法之一。算法的核心是通過設置最小支持度和最小置信度,掃描數據庫,產生頻繁項集和生成規則,假定有一條規則的支持度和置信度大于等于預設的最小支持度和最小置信度,則認為該規則是強關聯規則[4]。假設有一個由A、B、C、…若干事務組成的數據集合D,其中支持度是可以表示為A事務在數據集D中出現的計數記為,SupportA=P(A),A事務和B事務的支持度則是A事務和B事務同時出現在數據集D中的計數,記為Support(A&B)=P(A&B),支持度主要體現事務的有效性;置信度是同時包含有A事務和B事務的計數占全部A事務計數的比例,記為Confidence(A&B)=P(A&B)/P(A),置信度主要體現事務的確定性;提升度是“同時包含A事務和B事務計數與A事務計數的比例”和“B事務計數”的比值,記為Lift(A&B)=P(A&B)/P(A)/P(B),提升度體現A事務和B事務的相關性,提升度大于1表明A事務與B事務正相關,提升度小于1表明A事務與B事務負相關,提升度等于1表明A事務與B事務無關。

Apriori算法主要由以下幾個步驟組成:

步驟1:預設最小支持度和最小置信度;

步驟2:掃描數據庫累進計算數據項出現的計數,獲取大于等于最小支持度計數的項,形成頻繁1項集;

步驟3:在頻繁1項集基礎上,繼續累進計數,獲取大于等于最小支持度計數的頻繁2項集,如此執行,直到不能繼續形成頻繁k項集;

步驟4:依據最小置信度生成強關聯規則。

2 學生學業數據挖掘與分析

學生在高職院校就讀時,關于學生的課程成績、圖書借閱信息、網絡在線學習時長、個人消費信息等會被學校各部門的信息系統記錄,隨著時間的推移,可以獲取到學生在完整就讀過程的詳細數據,依據這些數據開展研究。本文主要分析兩個問題:一是挖掘學生學習方式、升學形式對學業的影響,驗證俗語“一分耕耘一分收獲”;二是挖掘學生課程成績間的相互關系,找出課程間的關聯關系。

2.1 學生學業數據獲取

本文的學生相關數據取自某高職院校教務管理系統和招就辦相關數據系統中關于2015—2019級電子與信息工程系學生的各科課程成績、在線網絡平臺學習時長、在線網絡平臺討論次數、發帖數量、升學形式等信息。其中,針對問題一主要選取了2015—2019級電子與信息工程系學生大一到大二共4個學期中涉及線上線下混合型課程且課程線上學時一致的課程成績計算加權平均值和學生在線網絡平臺學習時長、討論次數、發帖數量以及升學形式、個人信息連接為一個綜合數據集,共計2 133條信息。問題一部分原始數據如表1所示。針對問題二選取2015—2019級計算機應用專業學生大一到大二4個學期課程成績,共計1 239條信息。問題二部分成績信息如表2所示。

表1 問題一部分原始數據表

表2 問題二部分成績信息

2.2 學生學業數據預處理

問題一和問題二中獲取的學生數據有極小量學生因為退學、入伍、休學等原因,有一定缺失,對于這部分的數據條目將其刪除,合并刪除了與本文挖掘無關的學生學號與姓名。對有極個別因轉專業,導致學生課程成績缺少的現象,以該課程的成績平均值進行了填充。問題二中涉及2015—2019級5屆學生的成績,因為每屆學生的人培方案有一定區別,課程名稱上有所區別,但是授課的主要內容一致,如2019級Java面向對象編程與2015級的Java程序設計、2019級PHP編程基礎與2015級PHP程序設計實質為同一課程,對這類課程統一以2019級學生的課程名稱進行統一,即將2015級的Java程序設計改為Java面向對象編程、2015級PHP程序設計改為PHP編程基礎。因課程數量較多,本文主要選擇了專業課。

針對問題一和問題二獲取的數據,除學生升學形式以外,其余的數據為連續型數據,不適合接下來的Apriori算法挖掘,需要將其轉化成為離散型數據。雖然選擇的是線上學時一致的混合式課程,但是每位學生線上學習時長、討論次數、發帖數量等數據均存在差異,如果使用基于確定值的區間劃分方法,可能導致不同區間中數據不均勻的現象出現,同時也缺乏相應標準進行參考。此外,學生成績由各科目授課教師批閱評卷而得,不同科目的難度不同且不同教師的評卷標準存在差異,如果按照傳統的區間分布進行離散劃分,即90~100為優、80~89為良、70~79為中、60~69為及格、60以下不及格,可能會導致各科目成績分布不夠均勻,一些課程的成績在一個區間段較多,一些課程的成績在另一區間段較多的問題。因而本文選用改進型KMeans算法對數據進行預處理。將問題一中線上學習時長、討論次數、發帖數量、成績加權平均值用KMeans算法按三類進行聚類后結果如圖1—4所示。

圖1 在線學習時長與人數直方

圖2 討論次數與人數直方

圖3 發帖數量與人數直方

圖4 成績加權平均值與人數直方

其中線上學習時長的聚心分別為{1 341,3 723,6 933},時長區間是[1 100,3 050),[3 050,6 000),[6 000,8 011];討論次數的聚心分別為{10,43,63},次數區間是[1,34],(34,60],(60,68];發帖數量的聚心分別為{0.5,10,27},次數區間是[0,2),[2,15](15,58];成績加權平均值的聚心分別是{69,79,86},平均值區間是[63,73),[73,83],(83,89]。問題二中的專業課成績也用KMeans算法進行聚類處理,選擇按五類進行聚類,其中以“Java面向對象編程”課程為例的成績點狀圖如圖5和直方圖如圖6所示。“Java面向對象編程”課程的聚心是{62,69,78,85,90},規定其所屬等級從低到高分別為E、D、C、B、A,其中等級E對應區間[0,65],等級D對應區間[66,73],等級C對應區間[74,82],等級B對應區間[83,88],等級A對應區間[89,100]。用聚類處理后的不同聚心所屬數據,特征更為明顯,更易看出其中的差異。

圖5 “Java面向對象編程”課程數據聚類結果點狀

圖6 “Java面向對象編程”課程數據聚類結果直方

2.3 學習方式對學習影響的挖掘與分析

用Apriori算法針對問題一,對離散化處理后的線上學習時長、討論次數、發帖數量、成績加權平均值以及升學形式進行挖掘,經過反復測試,將支持度設置為0.16,置信度設置為0.7,共挖掘出77條強規則,部分規則如表3所示。在線學習時長可以體現學生對學習的投入程度和自我管理能力;發帖數量體現學生在學習中發現問題、提出問題的能力;討論次數反映學生對學習問題的主動解決能力和參與度;升學方式體現學生的來源;成績加權平均值一定程度上體現了學生對知識的掌握程度。據此分析規則1—3,對于綜合成績處在中游的學生在學習過程中,學習時長可能不足,升學形式為高職對口招生與成績中游有關系,可能是部分學生在中職階段是計算機相關專業學生畢業生,因而具有一定基礎,但其學習方式沒有進一步提升,這部分學生的學習參與度相對積極,能主動解決問題并與同學們討論分享,發現問題、提出問題的能力與成績有較強關系,提升這部分學生對知識的進一步探索精神,加強學生的自我管理能力將有助于其提升成績。分析規則4不難發現,對成績處在下游的學生,與學習時長不足,學習參與度較低,發現問題能力較弱均有關系,調動他們的學習主動性,增加對學習的投入,提升其探索精神很有必要。分析規則5,對于成績上游的學生不論是在學習時長、發帖數量、討論次數上都超過成績下游的學生,具備學習投入時間較長,積極參與學習討論分享,主動發現問題、提出問題的能力較強等特點,證實了學習投入與學習產出成正比,驗證了“一分耕耘一分收獲”的說法。

表3 學習方式對學習影響部分強規則

2.4 課程間關聯挖掘與分析

針對課程間關聯挖掘,將Apriori的支持度設置為0.055,置信度設置為0.5,共有295條強規則,以“網頁設計與制作”作前項為例,其相關規則如表4。

表4 以“網頁設計與制作”作前項的關聯規則

其中,規則6表明該課程直接影響到大二下學期的“移動應用交互設計”,該課程學習成績為A的,“移動應用交互設計”成績也為A,這和開發中網頁設計作為移動應用的結構、樣式基礎有關系,前者的基礎打好后對于后者取得好成績有幫助。規則1、7、8、9、11、12、14、15、16是“網頁設計與開發”與其他專業課聯合影響“移動應用交互設計”,反映了移動應用是一門綜合性課程,需要綜合前、后端開發技術才能學好,前期課程學好了,學生的學習壓力較小,能取得較好成績,也反映了課程開設的漸進性,值得關注的是規則7,“技術實施框架”是C的情況下,只要網頁設計是A,移動應用仍有可能是A,表明移動應用課程雖有前后端技術,但在考察時仍會相對注重前端的設計。規則2因數據庫、網頁設計與Linux系統的課程內容相對獨立,通過提升度可看出,前兩者對后者的正面影響并不是太大,前兩門課程成績一般,Linux系統成績也一般可能是學生學習方法上的原因,與課程間關聯較小。規則3、5網頁設計、移動交互與富客戶技術成績好,軟件工程成績也好,軟件工程主要任務是將復雜的客戶需求描述成通過計算機編程可實現的計算模型,有了網頁設計、移動交互與富客戶技術的綜合應用基礎,對將客觀世界的需求抽象描述成計算機模型的能力便能提升。規則4反映了數據庫和網頁設計成績一般會導致移動互聯網站設計成績也一般的結果,移動互聯網站設計考查學生前后端綜合應用的課程,數據庫相對是后端的內容,而網頁設計是前端的內容,學生兩門課都需要加強學習,才能提升移動互聯網站設計的成績。規則10中“網頁設計與制作”和“網頁編程”課程學習相對較好,“軟件測試技術”成績為A,反應前兩門課程對網頁開發中美觀需求要通過反復耐心的修改和討論才能實現,而軟件測試中發現軟件缺陷所需要的素質與細心、耐心、合作是一致的。規則13因“富客戶端技術基礎”開課在第3學期,移動應用交互開課在第4學期而無意義。

對“網頁設計與制作”課程關聯規則分析可知,“網頁設計與制作”作為在大一上學期就開設的第一門編程類課程,該課程相對基礎,對后期的網頁開發類課程會產生較大影響,應加大對該課程的重視。教師應對該課程落后的學生給予積極的指導和幫助,避免學生因該課程沒學好對后續學習造成不良影響,學生也應強化自己在該課程學習上的投入。

3 結語

高職院校在長期的信息化建設中,各部門的信息系統積累了大量有關學生的數據。本文獲取了網絡學習平臺的學生在線學習時長、發帖提問數量、參與討論次數和升學形式以及課程成績。通過改進型KMeans算法對在線學習時長、發帖數量、討論次數等沒有明確基于數值區間劃分標準的連續型數據進行了聚類,并對學生的成績加權平均值和各科成績分別進行聚類,減小了因為授課教師評分標準和課程難易度不同對成績的影響,強化了不同成績等級的特征。采用Apriori算法對聚類離散化處理后的在線學習時長、發帖數量、討論次數、升學形式、成績加權平均值進行挖掘,證實了學生學習努力與課程成績成正比,驗證了俗語“一分耕耘一分收獲”的正確性,并對離散化處理后的各科成績進行了挖掘,找出了課程間的關系,并以“網頁設計與制作”課程為例進行了分析,對提升高職院校的教學方法與改善學生的學習方式提供了一定的參考。

猜你喜歡
規則課程學生
撐竿跳規則的制定
數獨的規則和演變
數字圖像處理課程混合式教學改革與探索
軟件設計與開發實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
為什么要學習HAA課程?
趕不走的學生
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
學生寫話
學生寫的話
主站蜘蛛池模板: 一本视频精品中文字幕| 久久熟女AV| 五月天婷婷网亚洲综合在线| 伊人中文网| 不卡国产视频第一页| 成人日韩欧美| 久操线在视频在线观看| 亚洲欧美不卡视频| 国产网友愉拍精品视频| 国产精品真实对白精彩久久 | 91成人免费观看| 免费va国产在线观看| 99精品久久精品| 久久a毛片| 秋霞一区二区三区| 欧美成人二区| 高潮爽到爆的喷水女主播视频| 日本高清视频在线www色| 99这里只有精品在线| 99久久国产精品无码| 伊人五月丁香综合AⅤ| 欧类av怡春院| 亚洲国产91人成在线| 婷婷色丁香综合激情| 97se亚洲综合不卡| 日本不卡在线视频| 国产欧美在线观看一区| 国产精品99久久久久久董美香| 日韩免费毛片| 亚洲婷婷六月| 最新国产精品第1页| 国产精品流白浆在线观看| 亚洲欧美激情小说另类| 国产精品尹人在线观看| 色综合成人| 无码粉嫩虎白一线天在线观看| 高清无码手机在线观看 | 国产精品免费电影| 国产视频大全| 国产精品99在线观看| 欧美久久网| 色综合成人| 九色91在线视频| 久久亚洲国产最新网站| 亚洲天堂在线免费| 亚洲综合极品香蕉久久网| 激情网址在线观看| 国产成人精品视频一区视频二区| 国产国语一级毛片在线视频| 无码中文字幕乱码免费2| 日韩国产亚洲一区二区在线观看| 免费毛片a| 久久精品电影| 自慰高潮喷白浆在线观看| 国产欧美日韩精品综合在线| 国产91色| 色综合天天娱乐综合网| 久久精品人人做人人爽| 操操操综合网| 国产99视频精品免费观看9e| 日本人真淫视频一区二区三区| 色综合中文字幕| 国产成人超碰无码| 欧美影院久久| 色悠久久久| jizz在线观看| 日韩精品少妇无码受不了| 欧洲亚洲欧美国产日本高清| 在线欧美日韩国产| 福利在线免费视频| 97国产在线视频| 91精品国产91欠久久久久| 精品国产自在在线在线观看| 国产尤物jk自慰制服喷水| 亚洲国产系列| AV网站中文| 国产亚洲精品91| 91美女在线| 少妇高潮惨叫久久久久久| 中文字幕欧美日韩| 精品成人一区二区三区电影| 亚洲无码高清视频在线观看|