999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘在大學英語成績預測中的應用研究

2016-05-16 01:57:05欒紅波文福安
軟件 2016年3期
關鍵詞:數據挖掘大學英語

欒紅波+文福安

摘要:“數據驅動學校,分析變革教育”的大數據時代已經來臨,數據挖掘這一技術在教育行業隨之誕生。隨著社會對英語的應用日益增加,英語學習日益重要,大數據及數據挖掘技術在英語教學與學習中的應用與研究將成為新的發展趨勢。本研究是基于大學英語技能訓練系統產生的教學數據進行的挖掘分析,選取和學生成績相關的數據作為特征,以學生考試成績為目標,運用GBDT模型進行模型訓練,實現了學生成績的預測,經過評估、分析發現用數據挖掘技術可以比較準確的預估學生成績,驗證了數據挖掘技術在大學英語學習中的應用,以及GBDT模型對結果預測的影響,對學生學習和教師教學有很大的指導作用和使用價值。

關鍵詞:數據挖掘;大學英語;預測

中圖分類號:TP391.1 文獻標識碼:A DOI:10.3969/j.issn.1003-6970.2016.03.017

0引言

近年來,教育改革一直是社會關注的重點問題之一。隨著社會的不斷進步,高端科學技術、產品在社會的各個領域中得到了廣泛應用,使得人們生活質量在不斷提高。同樣,教育行業的教學質量也隨之在不斷地提升,教學方法、手段不斷、教學環境等處于更新換代過程中。隨著互聯網的快速發展,大數據隨之而生,使數據挖掘技術在教育領域中不斷地得到應用,為學校、教師、學生都提供了便利的教學條件,而對于數據挖掘技術在教育領域的應用也受到廣泛的關注。在英語學習過程中,影響學生學習英語的因素很多,需要對各因素進行綜合分析。在大數據時代,如何從大量數據中找出有價值的信息并利用這些信息預測未知的或未來值的過程變得愈加重要,數據挖掘技術就是通過構建相關模型,探索信息之間的相關關系。

1數據挖掘技術理論

1.1數據挖掘概念

數據挖掘(data mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含其中的、事先未知的、但又具有潛在價值的信息和知識過程。數據挖掘是一門由多個學科交叉與融合而形成的新興學科,集成了眾多學科中成熟的工具和技術,包括數據庫技術、統計學、機器學習、模式識別、人工智能和神經網絡等。

數據挖掘的技術有很多種,按照不同的分類有不同的分類法。一般分為有監督算法和無監督算法,其中有監督算法主要有邏輯回歸、決策樹等,無監督學習主要包括聚類、最鄰近距離、支持向量機等。從應用角度上可以分為分類算法、回歸算法、聚類分析算法、關聯規則、時序和偏差檢查算法。

1.2 GBDT算法簡介

決策樹是一個具有樹狀結構的模型,可以看成if-then的規則結合,從根節點開始在每個節點上按照給定標準選擇測試屬性,然后按照相應屬性的所有可能取值向下建立分枝、劃分訓練樣本,直到一個節點上的所有樣本都被劃分到同一個類,或者某一節點中的樣本數量低于給定值時為止,這一階段最關鍵的操作是在樹的節點上選擇最佳劃分方式。最佳劃分結點方法的選擇標準有信息增益、基尼指數等。

GBDT的全稱是Gradient Boosting Deeision Tree,其中Gradient Boosting和Deeision Tree是兩個獨立的概念。Boosting是用一些弱分類器的組合來構造一個強分類器,GBDT即通過迭代多棵樹來共同決策。其核心就在于每一棵樹都是之前所有樹結論和的殘差,這個殘差就是一個加預測值后能得真實值的累加量。因此,GBDT是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結論累加起來做最終結果。GBDT是一個應用很廣泛的算法。本文主要應用GBDT算法做回歸。

2英語考試成績預測的實現

本研究運用GBDT算法對大學英語技能訓練系統中學生成績進行預測,歷經了數據提取、數據預處理、特征選擇、訓練模型、預測未知數據等關鍵步驟,如圖1。其中,數據提取、預處理及特征選擇是處理訓練數據集的過程,模型訓練階段及參數調整是個不斷優化、反復執行的過程,直到得到預期的結果。

2.1數據提取和預處理

本研究主要從大學英語技能訓練系統中提取學生信息,分別選取了2013至2014年春、秋季四個學年中一、二年級學生數據,最終的數據文件類型選擇以純文本形式存儲表格數據的CSV格式。

數據預處理是在數據挖掘前的數據準備工作,數據的好壞是預測結果好壞的前提條件,其目的是去除與目標不相關的數據屬性和內容,為數據挖掘提供干凈、準確、更有針對性的數據,減少挖掘算法的數據處理量,提高挖掘效率和最終結果的準確度。數據預處理的方法有很多,主要有數據選取、數據清理、數據屬性取值一致化、數據集成、數據轉換和數據簡化等。

本次實驗按照上面所述的數據預處理規則進行相應處理,最終得到8000條數據作為訓練樣本。

2.2特征選擇

特征選擇是選擇獲得相應模型和算法最好性能的特征集,在數據挖掘中占有相當重要的地位。本次研究通過使用scikit-learn的MINE工具計算各個特征與預測目標的相關性,得到每個特征的相關性后對所選特征進行排序,經過對數據各維度進行選取,特征主要分為兩種,一種為數值型特征,如答題時長、自評分數等,另一種為類別型特征,如性別、題型等。特征確定后,對每個特征進行編碼,將每個無序特征轉化為數值向量,就是所謂的詞向量模型。變換后的向量長度對于詞典長度,每個詞對應于向量中的一個元素。

本次實驗通過特征處理,確定了對挖掘學生成績預測比較重要的特征,如學號、姓名、性別、答題時長、題型等18個維度。下表1列出了部分特征及數據。

2.3模型訓練

模型訓練是根據已知數據尋找模型參數的過程,通過給定數據和模型假設空間,可以構建出優化問題,確定相關參數使得預測目標最優化,即模型訓練的過程是不斷的調試,直至最優。

本次研究使用K-fold交叉驗證法,將數據訓練集隨機劃分為訓練和測試兩部分,通過Python語言、seikit-learn及其它相關第三方庫進行模型訓練。

輸入訓練集,使用GBDT模型,選擇損失函數、樹的最大深度、最小葉子節點個數及其它相關參數,反復調整、優化參數,使之經過數據挖掘技術預測的目標——學生英語成績最接近真實的數據。

輸入測試數據,確定預測的目標是否接近真實英語成績,驗證所選模型及相關參數的正確性、合理性。

3預測結果及分析

本研究采用數據挖掘回歸方法GBDT模型,以大學英語技能訓練系統中兩個學年的學生英語考試的相關數據為訓練數據,在Python及相關的學習包數據挖掘環境中,通過對相關屬性的不斷精簡,最終構建了大學英語考試學生成績的預測模型,并實現了學生成績的預測,從而得到與學生真實成績比較相近的分數。該模型以題型、答題時間、自評成績等18個特征最終為GBDT的形成因素,構建決策樹6課,最小樣本葉子結點6個,最大深度為5。下表2為訓練數據的部分真實成績與預測成績,其中滿分為50分。

實驗結果使用MAE(Mean Absolute Error)進行評估,MAE表示預測值與真實值之間的差距,其值越小越好,最終得到所有數據集的MAE為0.7,其中79.86%的數據誤差為0,即預測的準確度為79.86%。對比真實成績與預測成績曲線圖,發現兩條曲線很相近,說明預測的分數很接近真實分數。

上實驗結果表明,GBDT模型能夠對大學英語考試成績進行比較準確預測,通過數據挖掘技術,對學生考試成績進行分析評估,提取出各個層次的學生對教學過程中英語知識的掌握程度,進行有針對性的教學。

4結論

本文用大學英語技能訓練系統中和成績相關特征的數據,使用GBDT模型實現了學生成績的預測,通過實驗證明數據挖掘技術在英語成績的預測的準確性、可行性。數據挖掘技術在教育行業中得到很好的應用,在大數據時代,運用數據挖掘技術必將改變教育的傳統面貌。本研究對大學英語成績的預測有助于學生英語學習,以及教師對考試結果的深入了解。

猜你喜歡
數據挖掘大學英語
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
論大學英語教學改革與實用翻譯人才的培養
大學英語創造性學習共同體模式建構案例研究
校園網絡背景下大學英語大班教學的缺陷探究
考試周刊(2016年77期)2016-10-09 11:19:12
情感教學法在大學英語課堂教學中的應用
大學教育(2016年9期)2016-10-09 08:29:59
非英語專業《大學英語》課程中語音教學現狀與重要性簡析
科技視界(2016年20期)2016-09-29 12:20:03
淺析支架式教學模式下大學英語教師的角色定位
科技視界(2016年20期)2016-09-29 12:18:36
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产黄色视频综合| 日韩久久精品无码aV| 亚洲男人在线天堂| 成人中文字幕在线| 3D动漫精品啪啪一区二区下载| 中文无码精品A∨在线观看不卡| 青青国产成人免费精品视频| 国产成人亚洲欧美激情| 精品视频免费在线| 无码精品一区二区久久久| 久久婷婷国产综合尤物精品| 成人无码一区二区三区视频在线观看| 国产呦精品一区二区三区网站| 久久永久免费人妻精品| 亚洲性一区| 国产aaaaa一级毛片| 亚洲精品午夜天堂网页| 日韩av手机在线| 在线观看亚洲天堂| 国产欧美日韩va另类在线播放| 国产精品漂亮美女在线观看| 全部毛片免费看| 亚洲成人精品在线| 在线观看精品自拍视频| 在线人成精品免费视频| 天堂在线www网亚洲| 亚洲视频四区| 国产高清免费午夜在线视频| 国产91无码福利在线| 欧美区日韩区| 91精品啪在线观看国产91九色| 国产va免费精品| 久久精品国产电影| 日韩毛片免费观看| 国产一区二区网站| 国产成人三级| 粉嫩国产白浆在线观看| 综合色亚洲| 久久国产拍爱| 免费一级全黄少妇性色生活片| 成人亚洲天堂| 最新亚洲av女人的天堂| 国产一区二区三区夜色| 精品欧美日韩国产日漫一区不卡| 欧美精品色视频| 第九色区aⅴ天堂久久香| 久久精品欧美一区二区| 91口爆吞精国产对白第三集| 91精品伊人久久大香线蕉| 97久久免费视频| 婷婷六月在线| 99久久国产综合精品2023| 亚洲国产亚综合在线区| 欧美成人看片一区二区三区| 亚洲国产系列| 中文字幕有乳无码| 久久影院一区二区h| 天天躁夜夜躁狠狠躁躁88| 制服丝袜国产精品| 色播五月婷婷| 超碰色了色| 国禁国产you女视频网站| 欧美三级自拍| 亚洲无码精品在线播放| 久久精品国产在热久久2019| 欧美不卡二区| 国产另类视频| 不卡的在线视频免费观看| 无码人中文字幕| 四虎亚洲国产成人久久精品| 中文字幕亚洲无线码一区女同| 亚洲va视频| 国产一级毛片网站| 波多野结衣国产精品| 伊人久久大香线蕉成人综合网| 精品久久久久成人码免费动漫| 国产呦视频免费视频在线观看| 992tv国产人成在线观看| 欧美中文一区| h网站在线播放| 91成人免费观看在线观看| 69精品在线观看|