全同貴





摘要:隨著大數據時代的快速發展,數據挖掘輔助教育決策成為了熱門的研究課題。全國計算機等級考試,積累了大量報名、學習、考試相關數據。該文基于湖南省某高校2247個學生真實的數據,采用Clementine數據挖掘工具中的Apriori模型,進行學生成績關聯規則數據挖掘;研究結果表明,學生參加考前操作考試訓練、課前觀看視頻預習對提高計算機過級成績至關重要。研究進一步發現學生程序學習興趣度對過級成績有較弱的影響。本來興趣應該是強關聯項,可是在應試教育下,目標才是學生學習的壓力,動力來自壓力。這為深化素質教育改革提供了參考依據。
關鍵詞: 數據挖掘;關聯規則;NCRE;數據倉庫
中圖分類號:G642 ? ? ? ?文獻標識碼:A
文章編號:1009-3044(2021)30-0041-03
Research on Mining Computer Rank Examination Score of College Students Based on Apriori Model
QUAN Tong-gui
(Hunan University of Medicine, Huaihua 418000, China)
Abstract: With the rapid development of the era of big data, data mining has become a hot research topic in the decision-making of supplementary education. National computer level examination, accumulated a large number of registration, study, examination-related data. Based on the real data of 2247 students in a university in Hunan Province, this paper uses the Apriori model in the Clementine data mining tool to do data mining on the rules of student achievement association. The study further found that students' interest in program learning had a weak effect on grade achievement. Originally, interest should be a strong correlation, but in test-based education, the goal is the pressure of students to learn, motivation from pressure. This provides a reference for deepening the reform of quality education..
Key words: data mining; association rules; NCRE; the data warehouse
1 引言
數據在當今信息化時代以幾何級數爆炸增長,面對海量積累的歷史數據[1],如何發現隱藏其中的有用的規律、規則、模式、約束等知識,以服務于決策,數據挖掘 (Data Mining, DM) 因運而生,它是通過一定算法從海量數據中發現隱藏的模式和知識的過程[2], 自誕生以來,在國內外迅速發展,方興未艾,正逐步解決從海量的歷史數據中挖掘知識為科學決策服務,在銀行、醫療、教育等領域已得到了廣泛的應用[3]。
全國計算機等級考試,積累了大量報名、學習、考試相關數據。如何利用這些數據分析出影響學習效果的主要因素,以期幫助學校管理者調整決策、老師改進教學、學生明確不足是一個非常有意義的研究問題。數據挖掘運行在數據倉庫的平臺上[4]。本研究首先建立學生成績數據倉庫結合高校教務管理系統學生成績相關數據庫、調查問卷、拷貝相關文件、整理歷史資料等多個異構數據源,補全數據。在已有數據倉庫的基礎上,基于湖南省某高校2247個學生真實的數據,采用Clementine數據挖掘工具中的Apriori模型[5],進行學生成績關聯規則數據挖掘,實驗表明:⑴全體學生中48.865%的學生觀看了視頻預習、參加考前操作考試訓練且通過了過級考試。觀看了視頻預習且參加考前操作考試訓練的學生99.636%通過了過級考試。⑵全體學生中58.879%的學生參加了考前操作考試訓練且通過了過級考試。參加考前操作考試訓練的學生96.145%通過了過級考試。⑶全體學生中57.677%的學生觀看了視頻預習且通過了過級考試。觀看了視頻預習的學生92.901%通過了過級考試。是否參加考前操作考試訓練、是否課前觀看視頻預習對提高計算機過級成績至關重要。在全國高校促進大學生自主學習具有很好的推廣意義
2 學生成績數據倉庫構建
2.1 數據采集
猶如巧婦難為無米之炊,沒有數據采集就不能做數據預處理。本文中,學生基本信息:學號,教師號,課程號,姓名,身份證號、平時成績、應用基礎成績直接來源于教務管理系統。VB過級成績由省教育廳考試中心下發。諸如算法初步高考題是否得分、是否課前觀看教學視頻預習、程序學習興趣度、是否參加題庫訓練、是否購買資料等等,通過調查問卷獲得,并及時輸入電腦。課外上機時間,每個學生都有一個賬號,在多媒體閱覽室復制每個學期末的匯總數據。教師基本信息:教師號,課程號,教師姓名,職稱,學歷,授課班級號等,來源于教務系統。課程基本信息:課程號,教師號,課程名稱,課程類型,學分等,同樣來自教務系統。關于調查問卷的統計工作,為了節約時間,使表格填寫規范,盡量減少缺失值與噪聲數據,用Excel編制調查問卷表,由任課老師利用上計算機實驗課時間在學校機房的局域網上組織學生填寫。為了避免學生隨心所欲填寫調查問卷,利用Excel數據有效性檢查,將Salgorithm、Sview、Strain、Sbuy設置成選擇序列“是/否”,Sxqd設置為選擇序列“愛好/一般/反感”,這樣可以有效地避免了無效數據的產生。
2.2數據清洗
教務管理系統積累的數據以及外界補充的數據,來源不同,具有不完整性和不一致性,可能有缺失值,或者含有噪音,不能直接進行數據挖掘。數據清洗是獲得高質量數據的必經之路,是數據挖掘的前奏[6]。以數據缺失處理為例處理具有大量缺失值的列的方法是直接刪除。通過Clementine的Filter節點把具有大量缺失值的字段Salgorithm過濾掉。操作界面如圖1所示,運行結果如圖2所示。
2.3 數據集成
使用Clementine對數據庫中學生成績做數據集成。以集成具有相同結構的兩個表的記錄合并為例,把全校以班為單位的工作表文件合并成一個總文件。Clementine操作節點設計界面如圖3所示,運行結果如圖4所示,此時記錄數為60,字段數不變。
3 學生計算機等級考試成績挖掘
3.1 提出問題
制約學習成績好壞的因素有哪些?
1)興趣是學習的動力,對程序設計感興趣,是否意味著計算機等級考試穩操勝券呢?
2)是否購買教育部考試中心指定的教材、資料,影響學生過級嗎?
3)是否在課前觀看計算機新課教學視頻預習,影響過級嗎?
4)是否參加考前操作考試訓練,影響過級嗎?
5)女生編程學習不如男生,所以女生考試通過率低,對嗎?
想要回答這些與學生成績相關的問題,僅僅靠統計手段是很難回答問題的,必須借助于數據挖掘技術。關聯規則數據挖掘對大量樣本進行關聯分析后得到的強關聯規則可以探討性地回答上述問題。
3.2 學生成績挖掘方案與步驟
大學生計算機等級考試成績挖掘的方案以教務系統數據庫為基礎,通過調查問卷、復制相關數據文件等措施,補充完善數據,建立健全學生成績數據庫。以學生成績數據庫為對象,應用SPSS Clementine 12.0 中的Apriori模型作為數據挖掘工具[7],對影響成績的幾個可能的因素進行關聯分析,找出強關聯規則,指導教學活動。
1)確定分析對象與目標。本實驗確定討論“算法初步高考題是否得分字段Salgorithm”“程序學習興趣度字段Sxqd”“是否購買教材資料字段Sbuy”“是否在課前觀看教學視頻預習字段Sview”“是否參加考前操作考試訓練字段Strain”“性別字段Ssex”共五個因素對“是否過級字段Spass”有沒有強關聯關系。
2)數據準備。經過數據采集、數據預處理建立學生成績數據倉庫。選擇湖南省某高校2247個學生的統考成績,數據預處理后得到供關聯分析的文件2012ncreA.xls。
3)選定模型。從Clementine提供數據挖掘模型中選擇Apriori模型。
4)建立模型。
3.3 模型評估與挖掘結果分析
根據建立好的模型,把Salgorithm、Sxqd、Sbuy、Sview、Strain、Ssex六個字段的方向設為In,把Spass字段設為Out,其余無關字段設為None。設置Apriori結點模型參數Min_sup=40%、Min_conf=75%如圖5所示,執行數據流,得到可視化結果。如圖6所示。
從圖6可視化挖掘結果輸出關聯規則可以得出如下結論:
結論1:全體學生中48.865%的學生觀看了視頻預習、參加考前操作考試訓練且通過了過級考試。觀看了視頻預習且參加考前操作考試訓練的學生99.636%通過了過級考試。
結論2:全體學生中58.879%的學生參加考前操作考試訓練且通過了過級考試。參加考前操作考試訓練的學生96.145%通過了過級考試。
結論3:全體學生中57.677%的學生觀看了視頻預習且通過了過級考試。觀看了視頻預習的學生92.901%通過了過級考試。
調整Apriori結點模型選項設置,將Min_sup降低到32%,Min_conf不變,執行數據流,得到一個新的關聯規則,Salgorithm^Strain Spass,Support=33.912%,Confidence=96.457%如圖7所示,可得出如下結論:
結論4:全體學生中33.912%的學生算法高考題得分、參加考前操作考試訓練且通過了過級考試。算法高考題得分且參加考前操作考試訓練的學生99.636%通過了過級考試。
調整Apriori結點模型選項設置,將Min_sup降低到28%和10%,Min_conf不變。執行數據流,得到一個新的關聯規則,如圖8所示,可得出如下結論:
結論5:“程序學習興趣度”對過級成績有較弱的影響。
結論6:性別和“是否購買資料”是不會影響過級的。
3.4 挖掘結論
結論1~3充分說明:是否參加考前操作考試訓練、是否課前觀看視頻預習對提高計算機過級成績至關重要。對于操作考試訓練,很多同學臨考前,重理論,輕操作,是考試掛科的一個重要原因。紙上得來終覺淺,要知此事須躬行。應讓學生在學習過程中充分認識到程序設計是一門理論和實踐并重的學科。同時,要注意循序漸進。平時只聽課,不參加操作考試訓練,臨考前匆匆忙忙做幾套卷,是不會僥幸過關的。
結論4:“算法高考題是否得分”對過級成績有一定的影響。由于大學程序設計教學實行的是零起點教學,“算法高考題是否得分” 對過級成績影響應該不大。結論有一定偏差。究其原因,“算法高考題是否得分”很可能是間接反映了學生的學習能力,從而對過級成績有一定影響。或者,數據在調查問卷填寫時,出現偏差。通過這個問題,拓寬來看中國的計算機教育,小學信息技術課與中學脫節,中學計算機教學與大學不接軌,浪費了中國青少年多少寶貴的青春年華。能否在大學程序設計課的教學計劃里,安排幾個課時,先復習中學所學的算法初步,教學承前啟后,不再做沒有意義的重復教學,留出時間多訓練一下學生的編程技能。
結論5:“程序學習興趣度”對過級成績有較弱的影響。本來,興趣是學習成績的強關聯項,可是在應試教育下,目標才是學生學習的壓力,壓力轉化為動力。這個結論說明:我們的大學計算機教學及過級考試仍然是典型的應試教育模式。這個研究結論為深化中國素質教育改革提供了理論參考依據。
結論6:性別和“是否購買資料”是不會影響過級的。這很好地回答了兩個問題:⑴女生不用擔心性別差異影響計算機學習,造成不必要的心理恐慌。⑵在多媒體學習的時代,應當盡量少用紙質教材、資料,多建設共享的電子教材,逐步取消紙質書籍,允許學生自主選擇購買教材,把高年級學生的教材回收再利用。
4 總結
本文以教務管理系統為基礎,采用調查問卷、從學生檔案管理系統轉錄、復制學生課外上機記錄數據庫、收集省教育廳考試中心轉發的歷屆NCRE考試成績表文件等形式建立健全學生成績數據庫,經數據清理和集成后,創建學生成績分析數據倉庫。然后根據數據倉庫中的相關數據選擇可能影響學習成績的因素六個:課前是否看視頻預習、是否參加考前操作卷的訓練、算法初步高考題是否得分、性別、興趣度、是否購買資料,以基于關聯規則的數據挖掘算法對2247名學生的計算機等級考試成績進行挖掘,探討了影響學生成績的因素。實驗分析結果可以作為教師教學過程的指導和學生學習過程的建議。基于數據挖掘的影響學生成績因素的分析研究還存在很多問題。在今后的研究中,進一步完善學校成績數據倉庫的建設,?為每個學習者建立畫像,嘗試更多的數據挖掘方法以達到能更好的為教師提供教學反饋,為學習者提供學習反思。
參考文獻:
[1] 米允龍, 米春橋, 劉文奇. 海量數據挖掘過程相關技術研究進展[J]. 計算機科學與探索,2015,9(6):641-659.
[2] 王麗珍, 周麗華, 陳紅梅. 數據倉庫與數據挖掘原理及應用[M]. 北京:科學出版社,2009.
[3] 毛曉菊. 基于模糊關聯規則的海量數據挖掘方法研究[J]. 微電子學與計算機, 2018,35(2):89-93.
[4] 李雯娟, 曾照芳, 陳睿. 基于醫學信息數據倉庫模型的數據挖掘[J]. 生物信息學, 2009,7(2):146-149.
[5] 朱晴. 融合關聯規則挖掘算法的信息化教學管理系統設計[J]. 現代電子技術, 2020,43(23):159-163.
[6] 張婷婷. 基于關聯規則數據挖掘技術在音樂分類中應用[J]. 現代電子技術, 2020,43(1):99-101,106.
[7] 張靜端. 基于Clementine的數據挖掘技術對學科隱形關聯的研究——以東華大學紡織學科為例[J]. 現代情報, 2013,33(9):145-149.
【通聯編輯:王力】