方林 于燕平


關鍵詞:數據挖掘;Apriori算法;專業設置;關聯性分析
1引言
隨著“互聯網+”時代的到來,各行各業高速積累的數據流填滿了每個社會參與者的時空環境,挖掘海量數據中的有用信息是各行各業研究者孜孜不倦的追求目標。本文利用Apriori算法對鐵道供電技術專業學生往年的成績數據進行數據挖掘,找出各課程之間的關聯性,為科學規劃和設置專業課程體系提供參考依據。
2研究背景
鐵道供電技術專業旨在培養從事電氣化鐵道供電系統及其設備的運行、檢修、維護與施工等的高素質技術技能型人才。開設公共基礎課、專業基礎課、專業核心課、專業主干課、專業限選課等5類課程,其中專業核心課是鐵道供電技術專業課程體系中最核心、最重要的課程,專業基礎課是為專業學習奠定必要基礎的課程。即便近年來專業課學時一再地縮減,這兩類課程的學時也維持不變或少量增長,由此也說明專業基礎課和專業核心課在專業人才培養中的重要性。
專業課程設置遵循專業建設指導委員會的意見和建議,但在課程落實到具體專業后,各專業也會根據本專業師資、實驗實訓條件等適當調整課程學時、學分等,而調整的依據一般僅依靠本專業教師的經驗,缺乏科學依據。本文的研究目的是通過對鐵道供電技術專業的基礎課程和專業核心課程成績的數據挖掘,發掘出專業核心課與專業基礎課潛在的關聯性,為課程建設、專業人才培養方案的制定等提供更科學的決策依據。
3Apriori算法
Apriori算法是挖掘產生布爾關聯規則所需頻繁項集的基本算法。該算法利用了一個層次順序搜索的循環方法來完成頻繁項集的挖掘工作。這一循環方法就是利用k項集來產生k+1-項集,即首先找出頻繁1項集,記為Li;然后利用Li來挖掘L2,即頻繁2一項集;不斷如此循環,直到無法發現更多的頻繁項集為止。挖掘出所有的頻繁項集后,產生滿足最小支持度和最小信任度的強關聯規則。
Apriori算法可分為兩個步驟:(1)通過迭代,檢索出數據庫中的所有頻繁項集,即支持度不低于用戶設定的閾值的項集;(2)利用頻繁項集構造出滿足用戶最小信任度的規則。
4基于Apriori算法的課程關聯性分析
4.1數據準備
本次研究采集了柳州鐵道職業技術學院2016級、2017級鐵道供電技術專業6門課程的學生期末成績,其中包含2門專業基礎課,4門專業核心課。因為數據庫中的學生成績是以數值形式表示的,不便于進行數據挖掘,所以需要對各科成績進行離散化處理。本文采用了以下兩個步驟進行數據預處理。
(1)以離散字符替代課程名稱。以離散字符D1,D2,D3,D4,D5,D6分別替代表示“電路分析與測試”“電子技術基礎”“變電所運行與維護”“電力線路運行檢修與施工”“接觸網運行檢修與施工”“電氣化鐵路供電系統運行與管理”六門課程。
(2)對連續型數據進行離散化分類。設定90分以上為優秀,70~89分為良好,60~69分為合格,60分以下為不合格。將以上分段分別以A-優秀、B-良好、C——合格、D-不合格四個等級替代表示。經過預處理后的學生成績如表1所列,其中學生總人數為275人,分別對應275條記錄。
4.2結果與分析
4.2.1挖掘結果
本文采用Microsoft SQL Server 2008軟件進行數據挖掘,將預處理好的、已滿足Apriori算法要求的數據導人,即可直接使用Apriori模型進行分析。關聯規則如表2所列。
通過挖掘分析,分別獲得:(I)D1-D2;(2) D1,D2-D3,D4,D5,D6;(3) D3,D4,D5-D6的關聯規則表,如表3~表5所列。
4.2.2結果分析
挖掘的關聯規則并不是所有條目都具有實際意義,接下來我們進一步地對挖掘出的規則進行分析,得出有意義的知識。
(1)學習“電路分析與測試”課程是學習“電子技術基礎”課程的基礎,如果“電路分析與測試”課程學習基礎打不好,在學習“電子技術基礎”課程時就會受影響較大。
在表3中,D1電路分析與測試=D-D2電子技術基礎=D,支持度0.517,置信度0.6458。電路分析與測試和電子技術基礎同時是D的概率為51.7%,電路分析與測試為D中64.58%的人電子技術基礎也為D,說明如果“電路分析與測試”課程基礎未打牢,“電子技術基礎”課程也較難學好。
(2)學好“電路分析與測試”“電子技術基礎”兩門專業基礎課是學好專業核心課(“變電所運行與維護”“電力線路運行檢修與施工”“接觸網運行檢修與施工”)的基礎。如果專業基礎課基礎打不牢,也會影響后面專業課的學習。表4數據說明,“電路分析與測試”和“電子技術基礎”課程學不好,51.61%的人可能也學不好“電氣化鐵路供電系統運行與管理”課程。
(3)專業核心課“變電所運行與維護”“電力線路運行檢修與施工”“接觸網運行檢修與施工”的學習與“電氣化鐵路供電系統運行與管理”的學習關聯性較強。
從表5可以看出.D6電氣化鐵路供電系統運行與管理成績的好壞很有可能與D3變電所運行與維護、D4電力線路運行檢修與施工、D5接觸網運行檢修與施工三門課程成績有關。D4電力線路運行檢修與施工、D3電所運行與維護同時為A,D6電氣化鐵路供電系統運行與管理也為A的支持度0. 813,置信度0.99894;D5接觸網運行檢修與施工、D3電所運行與維護同時為A,D6電氣化鐵路供電系統運行與管理也為A的支持度0.769,置信度0.9462; D5接觸網運行檢修與施工、D4電力線路運行檢修與施工同時為A,D6電氣化鐵路供電系統運行與管理也為A的支持度0.75.置信度0.9723。這表明前三門課程成績優異,很有可能電氣化鐵路供電系統運行與管理課程成績也優異。但如果D3電所運行與維護、D4電力線路運行檢修與施工同時為D,D6電氣化鐵路供電系統運行與管理也為D的支持度0.8,置信度0.5589; D3電所運行與維護、D5接觸網運行檢修與施工為D,D6電氣化鐵路供電系統運行與管理為D的支持度0.72,置信度0.5726。即前三門D3,D4,D5課程成績不及格,也有可能導致D6課程成績不及格。
(4)本次挖掘結果表明:選取的2門專業基礎課與專業核心課之間存在較強的依賴關系。課程設置時盡可能保持專業基礎課的學時、學分不縮減。另外,“電氣化鐵路供電系統運行與管理”課程的綜合性較強,需要以其他課程作為基礎,應考慮將其放在其他理論課程學完后的學期進行開設。
5結束語
利用關聯規則中的Apriori算法對鐵道供電技術專業的2門專業基礎課和4門核心課成績進行關聯性挖掘,從而探究各課程之間存在的內在聯系,并將挖掘結果應用于該專業課程設置,可以為專業設置提供更可靠的理論依據。后續也可以將該方法應用于專業的其他課程,為專業建設,甚至是學生學習、教師的教學提供更科學的指導。