摘要:高等教育自學考試(自考)是我國高等教育的一種重要形式,考生流失是自考的一種普遍現象。流失原因分析對自考管理方法的改革有著重要的意義。文章嘗試采用聚類分析中K-Means方法對北京市自考考生流失的多重因素進行分析,揭示出自考考生流失的一些規律。
關鍵詞:數據挖掘;K-均值;高等教育自學考試;考生流失;聚類
引言
數據挖掘(Data Mining)指的是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘與知識發現技術是計算機領域一個非常有活力的研究課題,其研究成果已廣泛應用于金融、醫療保健、零售、制造業、工程與科學等行業。考生流失是自考的一種普遍現象,分析流失原因對自考管理方法的改革有著重要意義。一些研究人員采用分類統計等研究方法,從公共課成績入手分析流失的規律,對該問題進行了基礎性的研究。本文采用數據挖掘中的聚類分析方法尋找高等教育自學考試考生各種屬性和考生流失之間的聯系,希望能為相關機構提供濃縮的數據歸納結果和有效的建議,更好地服務于教育機構,服務于考生。
1、流失定義與流失考生數據提取
自學考試的考試時間完全可以由考生自己選擇,學制沒有明確的期限,考生流失既不需要到相關部門認定,也不保證以后不會再來參加考試。也就是說不再參加考試的考生在學籍中不會有記載,而且過了很長時間(2、3年)后也許會重新參加考試。因此研究自學考試考生流失就必須對流失考生加以明確定義。
首先定義兩個概念:“跨度”和“暫停期”?!翱缍取倍x為考生參加第一門課程考試與參加最后一門課程考試的時間間隔(單位為月);“暫停期”定義為考生兩門課程考試間隔的最大時間(單位為月)。
圖1、圖2分別是北京市12658名自考已畢業的考生“跨度”和“暫停期”的統計數據,其中???859人,他們中99.5%以上的畢業生跨度為66個月,94.1%以上的畢業生的暫停期為24個月;本科3799人,他們中99.3%以上的畢業生跨度為66個月,95.0%以上的畢業生的暫停期為24個月。因此在研究中定義66個月和24個月作為“跨度”和“暫停期”的流失閾值A和B。
自考考生流失的定義:跨度大于等于A(66個月)且最后一門課程考試距當前最近一次考試時間大于等于B(24個月)的考生即為流失考生。
根據上述定義,從還未畢業的18050名考生中篩選出12545名流失考生??偭魇蕿?9.5%。其中??屏魇蕿?2%,本科流失率為54.3%。(注:其中專本同時報考的考生人數為1275人。)
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文