石慧 宋世濤 肖揚



摘? 要:伴隨著我國教育大數(shù)據(jù)研究的全面開展,學生表現(xiàn)受多方面影響,傳統(tǒng)方法面向單尺度、單方面對學生表現(xiàn)進行模型建立與預測分析具有一定片面性,由于影響因素往往來源于不同尺度不同特征因素,因此本文綜合學生、教師、成績等多方面進行特征融合提取,建立多尺度特征融合預測模型對學生表現(xiàn)進行預測,取得較好的效果。
關鍵詞:教育大數(shù)據(jù)? 眼科? 成績預測? 學生行為特征
中圖分類號:G642? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)11(c)-0214-05
Research on Big Data of Multiscale Feature Fusion for Student of Ophthalmology Performance Prediction in Education
SHI Hui1? SONG Shitao2? XIAO Yang2
(1. The First Hospital of Jilin University, Changchun, Jilin Province, 130021 China;? 2.Jilin Jianzhu University, Changchun, Jilin Province, 130118 China)
Abstract: With the comprehensive development of education big data research in China, student performance is affected by many aspects, and the traditional method of modeling and prediction analysis of student performance on a single scale and unilaterally has a certain one-sidedness. As the influencing factors often come from different scale and different feature factors, this paper integrates the characteristics of students, teachers, grades and other aspects for feature fusion extraction, and establishes a multi-scale feature fusion prediction model to predict the performance of students, achieving good results.
Key Words: Big data on education; Ophthalmology; Performance prediction; The characteristics of students' behavior
近年來,隨著信息產(chǎn)業(yè)的飛速發(fā)展,各行業(yè)數(shù)據(jù)量也成幾何級數(shù)增長,在這些海量數(shù)據(jù)中蘊藏著無數(shù)寶貴的資源和價值信息,而人工分析、手動提取的方法已經(jīng)逐步退出歷史舞臺,而隨著機器學習、大數(shù)據(jù)挖掘技術的快速崛起,如何智能化、科學化、將這些信息資源進行有效的整合、提取、分析,并作為各種決策、改革的有效數(shù)據(jù)支撐已經(jīng)成為各行業(yè)熱門的研究方向,而作為各行業(yè)的基石-高等教育如何挖掘學生、教師、學科、成績等方面的關聯(lián)性成為教育改革、發(fā)展的重要需求和急需解決的首要問題。我國也早在2015年就提出要大力發(fā)展建設教育大數(shù)據(jù)平臺,而其他發(fā)達國家也先后針對教育數(shù)據(jù)挖掘和分析提出了相關的要求和政策扶持,以致越來越多的高校和教育研究機構把教育大數(shù)據(jù)的分析成果引入到教學改革與教學管理之中[1-2]。
1? 存在問題
教育行業(yè)關心的首要問題就是教學質量,而學生的學業(yè)表現(xiàn)是反映教學質量的首要指標,我校作為國內外知名大學近年來學生人數(shù)不斷增多,課堂規(guī)模、授課形式逐步擴大,而作為一線教師,面向眾多學生和教學任務、科研任務的情況下,除了在完成日常教學工作和科研任務很難做到追蹤并了解每位學生的學習情況,甚至及時、有效、有針對性地調整授課計劃,優(yōu)化教學策略,配置教學資源、改進教學方法,以致于出現(xiàn)部分學生突然成績下滑、留級、退學等現(xiàn)象,這在一定程度上影響了我校的教學質量,因此利用機器學習和大數(shù)據(jù)分析構建學生學習表現(xiàn)預測模型就尤為重要,通過預測模型提前對“風險學生”進行預警并關注,避免學生失去學習興趣以致最終無法繼續(xù)學業(yè)成為重要的研究課題[3-4]。
2? 研究現(xiàn)狀
針對學生成績表現(xiàn)預測國內外眾多學者已有一定成果,例如早期數(shù)據(jù)來源多采用調查問卷的形式,并且調查內容也主要從教育學和心理學角度,包括學生的學習動機、性別、年齡、家庭背景等方面,Poropat[5]提出的人格因素與學生表現(xiàn)的相關性。隨著教學手段的不斷發(fā)展,產(chǎn)生了眾多的慕課、微課等教育平臺,信息逐漸偏向收集學生的在線課堂表現(xiàn)如在線時間、在線次數(shù)、完成作業(yè)情況、在線討論等數(shù)據(jù)特征提取,Ren、Macfady[6-7]等學者在這方面做出了一定的研究成果。隨著機器學習的飛速發(fā)展很多學者如蔣卓軒[8]等采用機器學習分類方法預測學生是否能夠順利完成學業(yè)。Huang[9]等人綜合90個學生信息采用決策樹的分來方法預測學生后續(xù)課程的完成度,但此類研究多受數(shù)據(jù)體量和種類所限,很難將眾多數(shù)據(jù)進行多尺度融合進行綜合分析,這在一定程度上影響了預測結果的可信度,而本研究得到學校的支持,通過已經(jīng)建立的大數(shù)據(jù)分析平臺,很多復雜的工作得到簡化,數(shù)據(jù)內容大量增加,數(shù)據(jù)格式統(tǒng)一減少了前期數(shù)據(jù)處理的巨大工作量,使得實驗能夠順利進行。
3? 學生表現(xiàn)模型構建
3.1 樣本表達
由于教育大數(shù)據(jù)研究方向和研究內容較多,本文主要針對建立學生綜合表現(xiàn)(GPA即平均成績點數(shù))建立學生表現(xiàn)預測模型,從而研究并預測學生的學習狀態(tài)并為后續(xù)教學改革提供數(shù)據(jù)支撐。學生樣本表示直接關系到模型的特征提取,是構建準確預測模型的重要前提,傳統(tǒng)的學生表現(xiàn)預測方法只考慮本門課程或本學期課程的特征信息,沒有考慮課程之間的關聯(lián)性,以及課程、教師與學生行為之間的關聯(lián)性忽略三者之間存在的內在聯(lián)系,影響最終預測精度,而本文提出一種面向多角色、多角度的學習算法實現(xiàn)多種數(shù)據(jù)統(tǒng)一在同一模型框架下進行統(tǒng)一建模能夠進一步提高預測的可信度。
本研究以吉林大學白求恩醫(yī)學部臨床醫(yī)學專業(yè)4屆學生共980人作為研究對象,數(shù)據(jù)來源包括線上、線下、校園一卡通3部分構成,線下數(shù)據(jù)主要是多年積累的線下數(shù)據(jù)包括學生個人基本信息(包括性別、年齡、家庭情況、民族、生活收入水平、生源省份、學習動機、是否為第一志愿等)、課堂表現(xiàn)信息(包括出勤、課堂討論、隨堂測試等)、成績信息(入學成績、各學期單科平時成績、期末成績、英語等級考試成績、計算機等級考試成績等)、學生校園行為信息(主要圖書借閱信息、圖書管等場所的出入信息、食堂就餐信息、超市消費信息等)、專業(yè)課程信息(包括專業(yè)課程開設的學期、課程學分、課程性質、課程開設順序等)、相關專業(yè)教師信息(包括教師學歷、職稱、年齡、性別、所學專業(yè)、科研情況、教齡等)。線上數(shù)據(jù)包括今年疫情期間進行的線上教學信息、多年來學生在吉林大學網(wǎng)課平臺的學生活動日志等統(tǒng)計信息(包括視頻觀看時間、相關專業(yè)課程觀看種類、觀看次數(shù)、討論數(shù)量、線上測驗成績、登錄時長等),由于篇幅所限僅列出表1中部分數(shù)據(jù)。
本研究對象由于分析目標對象特征類型較多,所以首先采用皮爾森相關系數(shù)分析法從4類標簽中分別提取對學生表現(xiàn)相關特征影響最大的,生成高相關特征的數(shù)據(jù)集,然后利用Kaggle平臺上表現(xiàn)優(yōu)異的Xgboost框架進行模型構建,最后結合特征工程處理,取得良好的訓練預測效果。對照組中將學生、教師、課程等因素聯(lián)動性影響因素融合原數(shù)據(jù)生成訓練集,完成特征擴充。
3.2 特征提取
數(shù)據(jù)集由37個特征和4個標簽構成,由于目標對象的復雜性導致很難用單標簽的方式進行直接分類和解釋,所以采用多標簽分類原理模型。由于多標簽問題的復雜性一般從待預測值關系可分為依賴關系和獨立關系兩類,本研究4個標簽之間存在依賴關系,所以采用的策略轉換為Classifier Chains,此方法的核心思想是將多標簽分類問題進行分解,將其轉換成一個二元分類鏈的形式,后一個分類是在前一個分類的基礎上進行的,即后一個輸入時前一個分類的輸出,模型公式如下所示
X,Y=[y1,y2,y3,y4](1)
shuffle:X,Y=[y2,y3,y4](2)
然后在構建下一個模型
shuffle_sorted{1,2……,m}? ? ? ? ? ? ? ? ? ? ? ?(3)
對m個分類進行打亂
(4)
(5)
評估標準與相關系數(shù)計算
本文利用Pandas中的corr()方法,其中常見的方法有圖示法、Pearson相關系數(shù)Sperman相關系數(shù)法,由于樣本數(shù)據(jù)不滿足連續(xù)數(shù)據(jù),正態(tài)分布,線性關系,所以本研究采用Sperman相關系數(shù)是最恰當,該算法通過衡量預測值和實際值的Spearman相關性,如果計算結果為[0,1]之間的值,值越大,表示越相關,預測就越準確。那么對于普通樣本模型之間沒有相同秩序采用如下公式
(6)
而對于有相同秩序存在,就需要計算秩序之間的Pearson的現(xiàn)行相關系數(shù),公式如下所示。
(7)
4? 實驗過程
實驗過程包括數(shù)據(jù)預處理、拆分、訓練、預測與評估幾個主要步驟。
4.1 數(shù)據(jù)預處理
(1)首先將采集的數(shù)據(jù)源結構化。對于簡單的數(shù)據(jù)類型例如學生性別、學位英語等級、課程性質等直接采用0表示yes,1表示no將文本數(shù)據(jù)量化,例如課程性質為必修課表示為1,選修課表示為0;而對于一些多種類的文本型字段,如期末成績、學分、教師職稱、家庭收入等可以結合業(yè)務場景來抽象,比如說如果教師職稱高級就表示為1,其他職稱表示為0,抽象后這個特征的意義就是表示教師教學水平相關程度。對于部分復雜目標列,我們按照多等級抽象分為1,2,3….,擬通過訓練找出相關度高的進行擬合訓練。
(2)此外預處理還包括部分屬性缺失,由于本文采用的是xgboost框架算法,可以有效地處理對特征影響不大的缺失值并自動進行填充,默認將缺失值設置成missing=-9999。
(3)通過人工篩查和describe方法對單個屬性分析清洗部分非相關性屬性數(shù)據(jù),分析結果包括平均值,最值,標準差等。
4.2 數(shù)據(jù)歸一化
由于本研究對象屬性眾多內容復雜,需將已有數(shù)據(jù)進行歸一化,將所有的字段都轉換成0~1之間,去除字段間大小不均衡帶來的影響,部分結果如表2所示。
4.3 訓練集和驗證集拆分
將數(shù)據(jù)集按照7:3拆分,70%用來訓練模型,30%的用來預測。
4.4 各屬性與成績的相關性分析
常用的編碼方式分為標簽編碼方式和獨熱編碼,對于只有2個唯一值得特征采用標簽編碼,如果分類變量具有許多類多個值則采用獨熱編碼方式,本研究采用后者,然后分別計算各個屬性與最終預測值Y學生表現(xiàn)的相關性,將相關性高的屬性進行保留作為模型訓練的數(shù)據(jù)輸入。
4.5 預測模型訓練
最終選取框架提供的六種模型,分別為:線性回歸、ElasticNet回歸、隨機森林、極端隨機數(shù)、支持向量機(SVM)、梯度提升樹,進行預測模型訓練對比效果如表3所示。
5? 結語
本研究采集了線下學生信息、學生個人情況屬性信息、線上學習統(tǒng)計信息、學生行為特征和教師行為特征等數(shù)據(jù)作為研究對象的特征,運用特征分析和特征選擇,選取了37個特征構成的特征子集表示每一個研究對象。最終利用xgboost框架算法,采用6種機器學習算法,構造了不同的學習成績預測模型。通過比較模型的準確度、召回率、F值,誤分類樣本數(shù)量和精確度,通過分析,發(fā)現(xiàn)影響學習成績的主要因素是學生行為特征、教師行為特征、基礎課程的成績表現(xiàn),為提高學生表現(xiàn)GPA,教學過程中應該隨時關注學生行為特征相關屬性的變化,并配合教師行為特征進行適當?shù)氖谡n計劃調整,激發(fā)學生教師的內在動力,積極關注基礎課程的學生成績變化,預測學生的學習表現(xiàn),并針對預測結果實施相應的授課計劃調整,為教學改革提供參考。
參考文獻
[1] 蘇國曦.基于特征表示的終身機器學習算法研究[D].廣州:華南理工大學,2018.
[2] 肖逸楓.數(shù)據(jù)挖掘技術用于高校學生留級預警的研究[D].重慶:重慶大學,2018.
[3] 謝娟英,張宜,陳恩紅. 學生成績關鍵因素挖掘與成績預測[J].南京信息工程大學學報:自然科學版, 2019,11(3):316-325.
[4] 馬玉玲.基于機器學習的高校學生成績預測方法研究[D].濟南:山東大學,2020.
[5] Arthur E Poropat. A meta-analysis of the five-factor model of personality and academic performance[J]. Psychological Bulletin, 2009, 135(2): 322.
[6] Leah P. Macfadyen,Shane Dawson. Mining lms data to develop an early warning system for educators: A proof of concept[J]. Computers & Education, 2010, 52(2):588-599.
[7] Zhiyun Ren,Huzefa Rangwala,Aditya Johri, Predicting performance on mooc assessments using multi-regression models[C].//In Proceedings of the 9th International Conference on Educatinal Data Mining, 2016.
[8] 蔣卓軒,張巖,李曉明. 基于mooc數(shù)據(jù)的學習行為分析與預測[J].計算機研究與發(fā)展,2015,52(3):614-628.
[9] Shaobo Huang,Ning Fang. Predicting student academic performance in an engineering dynamics course :A comparison fo four types of predictive mathematical models[J]. Computers &Education, 2013,61(1):133-145.