999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在高校成績分析中的應用

2017-05-30 13:08:23周國福
寧波職業技術學院學報 2017年6期
關鍵詞:分類

周國福

摘 要: 數據挖掘技術已經成功地運用到商業中,但是它在高等教育行業中的應用還有待于進一步深入研究。數據挖掘技術是為了從數據中識別和提取新的和潛在的有價值的知識。以福建省高校為例,利用數據挖掘技術對高校學生成績進行了分析并建立了數學模型。提出了一種基于數據挖掘技術的學生成績分析算法,基于學生在課程中的歷史表現對學生未來成績進行預測。同時,利用本文方法對本校水電與建筑專業的部分學生成績抽樣進行分析。結果表明:執行早期的階段評估是有效的,對影響學生成績因素進行分析預測,從而能夠對成績不理想的學生采取必要的補救措施,以此提升學生的學習方法,從而提高教學效率。

關鍵詞: 數據挖掘技術; 分類; 預測; 高校學生成績分析

中圖分類號: TP 391.1 文獻標志碼: A 文章編號: 1671-2153(2017)06-0090-04

0 引 言

數據挖掘可用于從大量數據中提取隱藏的有用信息,常用于預測知識的模式。對省高校學生成績的分析能夠預測學生的表現,通過定期收集學生成績的數據和信息,并進行數據處理和分析,有利于保證省高校教學質量。在教育過程中應用數據挖掘技術可以滿足每個參與者在教育過程中的具體需求:根據分析結果為學生推薦有助于改善學習的材料和課程;老師可以根據反饋意見因材施教;高校的行政人員根據分析結果進行課程設置的調整等。

1 研究方法

本研究數據是通過問卷調查的形式收集的,調查對象是水電與建筑專業的學生,統計關于計算機應用基礎課程的相關數據,消除不完整的數據后,樣本的數量是257份。將257份有效樣本作為輸入,每一個樣本信息的序號、屬性以及取值類型如表1所示。

課程中學生成績的分布如圖1所示。圖1中,橫坐標是學生分數,縱坐標是人數。將成績按照式(1)的規則進行離散化,即

分數等級=A, 95≤分數B, 85≤分數<95C, 75≤分數<85D, 65≤分數<75E, 55≤分數<65F, 分數<60 。 (1)

將輸出分為兩類:第一類是優秀,即分數等級為A;第二類是一般,即分數等級為B,C,D,E以及F。這兩類輸出的比例如表2所示。

2 數據挖掘算法

數據挖掘技術中有許多不同的分類器,但是并不存在最好的分類器,因為它們在許多方面有所不同,例如:學習率,訓練數據量,分類速度,魯棒性等。本文應用C4.5[1]和樸素貝葉斯[2]這兩種數據分析算法來產生分類模型。

2.1 樸素貝葉斯分類器(NBC)

假設向量x=(x1,x2,,x3,x4,x5,x6,x7,x8,x9,x10,x11,x12)是屬性向量。其中:x1是代表性別屬性;x2是代表家庭人數屬性;x3是代表住所與學校的距離屬性;x4代表高中類型屬性;x5代表績點屬性;x6代表高考成績屬性;x7代表獎學金屬性;x8是課程學習時間屬性;x9代表復習材料屬性;x10代表使用網絡屬性;x11成績重要性屬性以及x12代表收入屬性。C1代表輸出類別中的“優秀”;C2代表輸出類別中的“一般”。根據貝葉斯定理[3],可以得到以下公式:

式中:p(C1|x)是指某樣本屬于C1的概率;p(C2|x)是指某樣本屬于C2的概率。觀察式(2)和式(3),只有分子部分含有變量Ck,將p(x)看成常數,那么式(1)就等價于p(Ck,x1,x2,…,x9)。于是有:

假設向量x中的屬性都是互相獨立的,于是有:

根據式(3)可以得到樸素貝葉斯分類器,即

2.2 C4.5

C4.5是ID3[4]算法的升級版,C4.5生成的決策樹可以用于分類,為此C4.5通常被稱為統計分類器。C4.5的算法如表3所示。

3 結果及分析

為了更好地了解輸入變量的重要性,通常會分析輸入變量在學生成績分析預測期間的影響,對模型的某些輸入變量對輸出變量的影響進行了分析。使用3個測試進行測試,用于評估輸入變量:卡方檢驗[5]、信息增益測試和增益比檢驗。使用以下度量來監測每個測試的結果:屬性(屬性名稱),優點(良好度量),優點開始(偏差,即品質偏差的度量),排序(屬性占據的平均位置),排序和dev(偏差,偏差取屬性位置)。不同的算法提供不同的結果,即每個算法以不同的方式考慮屬性的相關性。將所有算法的平均值作為屬性排序的最終結果。表4為數據屬性的測試結果。

由表4可以看出,屬性5(即績點)對結果的影響最大,在四項測試中效果最好。屬性6,屬性9和屬性8對結果也有較大的影響。對結果影響最小的分別是屬性1,2和3。

表5和表6為評估NBC算法和C4.5算法在預測學生成績性能的結果。

由表5可以看出,NBC的正確率稍稍高于C4.5算法。NBC的卡巴統計量要遠高于C4.5算法,說明了NBC的分類結果與隨機分類的差異度較大,因此性能更好。同時,NBC的平均絕對誤差、均方根誤差小于C4.5算法,說明NBC的準確率比較高,分類的性能比較穩定。由表6可以看出,NBC的分類精度稍稍高于C4.5算法。

4 結 論

本文的目的是利用數據挖掘技術來進行省高校成績分析模型的探討,提出了一種基于數據挖掘技術的學生成績分析算法,基于過去學生在課程中的歷史表現的來對學生未來成績進行預測。利用本文方法對本校水電與建筑專業的學生成績進行分析研究,實驗結果表明,樸素貝葉斯分類器表現突出。本研究基于傳統的課堂環境,數據采集后應用數據挖掘技術。這種方法可以幫助老師提高學生的成績,采取合適的措施來提高學習質量。由于學習是一個積極的過程,師生之間的交互是影響學生滿意度和表現的一個基本要素。

參考文獻:

[1] 黃秀霞. C4.5決策樹算法優化及其應用[D]. 江南大學,2017.

[2] 王俊華,左萬利,閆昭. 基于樸素貝葉斯模型的單詞語義相似度度量[J]. 計算機研究與發展,2015,52(7):1499-1509.

[3] CICCHETTI D. Bayes' Theorem[M]//The Encyclopedia of Clinical Psychology. John Wiley & Sons,Inc,2015.

[4] 王永梅,胡學鋼. 決策樹中ID3算法的研究[J]. 安徽大學學報(自科版),2011(3):71-75.

[5] SHARPE D. Your Chi-Square Test Is Statistically Significant:Now What?[J]. Practical Assessment Research & Evaluation,2015,20:10.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 色噜噜综合网| 国禁国产you女视频网站| 中文字幕欧美成人免费| 四虎在线高清无码| 香蕉视频在线精品| 欧美人人干| 国产精品一线天| 国产成人超碰无码| 无码aaa视频| 久久人与动人物A级毛片| 欧美亚洲激情| 亚洲国产高清精品线久久| 精品国产免费观看一区| 国产三级精品三级在线观看| 国产亚洲精品97AA片在线播放| 精品91在线| 欧美成人午夜视频免看| 精品久久蜜桃| 天堂成人在线| 亚洲国产中文在线二区三区免| 呦视频在线一区二区三区| 伊人中文网| 国产精品亚洲一区二区三区在线观看| 国内精品久久久久久久久久影视 | 欧美a级在线| 国产亚洲精品91| 久久久国产精品免费视频| 国产精品30p| 中文字幕丝袜一区二区| 强奷白丝美女在线观看| 中文字幕在线一区二区在线| AV不卡在线永久免费观看| 久久久久青草大香线综合精品| 免费国产福利| 欧美一区福利| 午夜啪啪网| 亚洲永久色| 麻豆国产在线观看一区二区| 亚洲日本韩在线观看| 国产乱子伦手机在线| 狼友av永久网站免费观看| 久久午夜夜伦鲁鲁片无码免费| 国产精女同一区二区三区久| 久久精品视频亚洲| 国产高清无码第一十页在线观看| 国产免费黄| 国产精选小视频在线观看| 免费人成黄页在线观看国产| 日韩国产黄色网站| 国产精品美女自慰喷水| 五月婷婷丁香综合| 69av在线| 无码免费的亚洲视频| 欧美日韩精品在线播放| 天堂成人在线| 国产精品密蕾丝视频| 精品人妻系列无码专区久久| 国产成人一区免费观看| 狠狠色成人综合首页| 国产亚洲高清视频| av一区二区无码在线| 国产欧美精品专区一区二区| 日韩人妻少妇一区二区| 精品少妇人妻一区二区| 在线观看精品国产入口| 色妺妺在线视频喷水| 99国产精品免费观看视频| 亚洲国产天堂久久综合| 日本高清有码人妻| 亚洲乱强伦| 亚洲精品国产首次亮相| 91丝袜美腿高跟国产极品老师| 日韩A级毛片一区二区三区| 国产精品亚欧美一区二区| av在线人妻熟妇| 2021国产精品自产拍在线| 丝袜国产一区| 亚洲床戏一区| 亚洲综合天堂网| 成人免费一级片| 激情爆乳一区二区| 人人澡人人爽欧美一区|