摘要:在目前學校傳統的教學模式中,針對學生各科成績進行深層次的分析應用的不多,傳統的成績分析也有一定的局限性,分析結果缺少創新點,本文介紹了利用Microsoft聚類算法,將學生英語一級成績數據進行預處理和集成,利用Microsoft SQL Server BI平臺進行聚類,對學生成績數據進行挖據分析。通過試驗結果分析,打破原有成績分析得局限,使現有數據體現更好的價值,從而輔助教學管理者做出相應決策,更好地提高教學質量。
關鍵詞:數據挖掘;Microsoft聚類算法;成績分析
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2019)09-0001-02
1 引言
以前我們日常教學中各種科目的成績數據沒有得到利用,沒有將數據潛在的特征挖掘出來,在信息化大數據時代,數據挖掘能把這些數據,經過篩選和預處理,使用算法進行分析根據數據分析,找出相關聯的特征,將有相近特征的數據進行分類,通過研究各類的特征,有助于發掘出潛在規律,對教學和老師具有指導作用。本文利用聚類分析方法能從數據中找出相關的特征或模式,可以幫助學校針對不同學生的學習狀況,制定針對性的教學策略,輔助學校進行教學管理。
2 Microsoft 聚類分析算法
數據挖掘中聚類是對數據信息分組,把相似屬性的數據信息放在一個類別里。
Microsoft SQL Server BI數據挖掘智能平臺中,應用聚類分析算法有兩種選擇,這兩種算法的選擇可以通過CLUSTERING_METHOD參數設置來完成,一種是EM算法。另外一個算法就是K-means算法。
Microsoft聚類分析算法支持多種處理優化方法,通過設置 CLUSTER_COUNT 參數的值可以確定聚類的數目,也就是分類的數量。這個數量確定了聚類結果的精確性,其默認值是10,在這次實驗中,采用默認值聚類分析后數據相似性很大,類比之間差異度就減弱了,因此默認值10的實驗結果參考價值不大。經過反復論證,結合學校專業特征和學生特征,嘗試參數值為7,聚類結果發現類3和類1專業基本一致,類2和類5中的專業基本一致,這樣特征類似不具備分析價值,缺少差異性。設置CLUSTER_COUNT 參數為3,進行聚類分析,發現會計和計算機這兩個專業的學生一般都是分開進行教學的,而聚類要求同一個簇當中的對象必須要具有足夠的相似性,所以這個聚類太過籠統,需要重新進行分類。通過實驗對比,對最后的聚類結果數據統計對比分析,結合多年的學生管理的工作經驗判斷,當類的初始值為5時效果比較理想,所以本文設定類的初始值為5。
3 聚類算法在學生成績分析中的應用
3.1 數據采集轉化
本文研究的是英語一級考試成績和學生其他因素之間的關聯關系。因此,把英語一級成績當成研究指標,為了讓實驗結果完整和精確,試驗數據抽取了我們學校五個專業不同層次的學生三年在校的各科成績,經過預處理保留有效信息1354條。針對預處理后的學生原始成績數據,結合試驗需求,對原始的數據進行集成和轉化,轉化為專業課平均成績、公共課平均成績、英語平均成績、英語一級成績、英語一級考試學期、專業類別等試驗所用的數據信息。
3.2 構建英語一級合格客體的聚類分析模型
將預處理后一級通過的815個信息利用SQL Server BI數據挖掘向導創建和使用聚類分析,通過挖掘模型查看器,可以看到該分類下,各個屬性和屬性值的發生概率,以此來觀察分類的特征情況,對英語一級合格群體聚類后的分類特征圖如下:
3.2.1 類1特征如圖1所示。
對類1特征圖進行分析,軟件與信息服務專業學生在高一的第二學期或者高二第一學期通過英語一級較為普遍,從特征圖明顯看出該部分學生的入學成績、公共基礎課、專業課程的成績都比較高。而數控專業學生在高二的兩個學期通過英語一級考試的群體有明顯的特征就是學生的公共課成績和英和英語課程平時期末的平均成績屬于中等水平,并且群體比例和他們專業三二分段班級人數數量接近。
特征圖中看到媒體傳播專業學生的英語一級成績普遍較低,大部分是在高二開始才能通過,大部分是在高二第二學期通過,這部分學生的英語平均成績大部分處于60分上下這個階段,專業課、公共基礎課以及入學成績也是中等水平,該專業能在高二第一學期通過英語一級的學生,他們的專業課程和公共課成績整體水平較高。
3.2.2類3特征如圖2所示。
從類3特征圖分析,汽修專業學生在高二第二學期和高三第一學期通過英語一級的這部分學生,他們的各科成績都是普遍較低,能在高二第一學期就通過英語一級的學生,他們的專業課程反而是比較好。這就說明這部分學生學習能力較強,學科成績均衡。
綜上所述,觀察合格群體分類特征圖,分類特征比較明顯,主要分析學生英語一級的通過學期和專業兩個變量屬性值,媒體傳播、汽修、數控三個專業通過學期在3.0-5.0這一個范圍的概率較大,軟件與信息服務和會計顯示的通過學期在2.0-3.0這個范圍概率較大。
對合格各類分析類簇內的共性和類簇之間的差異性,比較每一類各變量的值,橫向角度找出英語一級成績和其他變量的關聯關系。發現通過學期的值越小,入學成績和公共課程成績越高,跟專業課程關聯度不大,反而汽修、數控專業部分學生入學成績和公共課成績不高,但是專業課成績較高。
4 結果分析及建議
依據聚類結果的分析,具體建議如下:
1)我們學校軟件與信息服務專業、數控專業的部分班級是“三二分段”中高職連貫培養,該部分學生入學整體分數較高,因此,教務科可以對“三二分段”中高職連貫培養班級入學成績在中等以上學生可以鼓勵他們在高一第二學期報考英語一級考試,對于入學成績在合格或者以下的學生建議他們在高二第一學期報考英語一級考試,以此提高英語一級通過率。
2)針對汽修、數控、媒體傳播和會計專業學生,入學成績和英語平均成績低于合格水平的,學校在第一學期開始,針對數控和汽修專業非“三二分段”中高職連貫培養班級可以增加英語課時量,利用課余時間安排英語選修課程班,集中培訓,強化知識,在第三學期報考,提高通過率,減少他們報考次數。
3)媒體傳播專業和會計專業由于學生女生較多,他們入學成績中等,有一定基礎,安排教學能力較好的教師,并且在第二學期可以適當增加英語課時量,在報考前進行篩選,提高英語學習能力保證一級通過率。
4)針對“三二分段”中高職連貫培養班級中入學成績和公共課程以及專業課程比較優秀的學生,第二學期通過英語一級后,鼓勵他們在第三學期報考二級,并且引導他們參與競賽活動,擴展知識的深度和廣度,取得更大進步。
5 結語
綜上所述,SQL Server BI數據挖掘向導下的聚類分析,通過實驗結合實際,設定參數為5類,提高聚類的精確性。依據聚類結果分析,結合學生的實際專業情況和對英語不同的掌握情況,選擇不同的方式方法來對其英語能力進行提高。聚類分析的結果不僅讓學生自身了解到自己在班級或年級中的位置,而且能總結出某類學生在共性上的不足之處,進而教育者采取相應的教育手段,可以很好地做到注重學生的個性化教育和輔導,因教學需求而動態調整課程,以此提升學生成績和教學質量,讓更多的學生通過英語一級考證。
參考文獻:
[1] 李杰.數據挖掘技術在學生成績分析中的應用研究[D].西安: 西安石油大學,2010.
[2] 周濤.數據挖掘中聚類算法研究進展[J].計算機工程與應用,2012,48(12):100-110.
[3] 陶彬賢.聚類算法分析及其在學生成績分析中的應用[D].安徽師范大學,2011.
[4] 張貴元.數據挖掘技術在中職學生成績分析中的應用研究[D]. 廣東技術師范學院,2018.
【通聯編輯:光文玲】