楊素婷



摘要:CET-4成績及通過率是考察大學生英語能力水平和高校英語教學質量的重要指標。針對CET-4成績預測問題,提出一種基于支持向量回歸算法的預測方法,按照數據預處理、關鍵特征提取、預測模型構建的步驟完成CET-4成績回歸預測模型設計。以重慶旅游職業學院近年來多批次CET-4成績數據和學生平時學習過程數據為基礎,完成模型試點應用和模型評估,發現優化模型具有更好的可解釋性和更高的泛化精度。
關鍵詞: CET-4;回歸預測;SVR;特征相關
中圖分類號:TP393? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)18-0026-03
開放科學(資源服務)標識碼(OSID):
Research on CET-4 Score Prediction Model Based on SVR
YANG Su-ting
(Chongqing Vocational Institute of Tourism, Chongqing 40900 China)
Abstract:CET-4 scores and pass rate are important indicators to evaluate college students' English proficiency and College English teaching quality. Aiming at the problem of CET-4 performance prediction, a prediction method was proposed based on support vector regression algorithm. The regression prediction model of CET-4 was designed according to the steps of data preprocessing, key feature extraction and prediction model construction. Based on the CET-4 score data and students' learning process data in recent years, the pilot application and model evaluation of the model were completed. It is found that the optimized model has better interpretability and higher generalization accuracy.
Key words:CET-4; Regression prediction; SVR; Feature correlation
1 引言
大學英語四級考試(CET-4,College English Test Band 4)是由教育部高等教育司主持的全國性英語考試,CET-4成績及通過率是考察大學生英語能力水平和高校英語教學質量的重要指標[1]。隨著教育信息技術和數據挖掘技術的發展與應用,基于學生的英語學習過程數據和CET-4分項數據,運用機器學習算法針對CET-4通過情況開展成績預測模型研究,分析CET-4成績的影響關鍵因素,對優化英語教學實施、提升英語教學質量具有重要意義。
本文針對CET-4成績預測問題,提出一種基于支持向量回歸算法(SVR,Support Vector Regression)的預測方法,按照數據預處理、關鍵特征提取、預測模型構建的步驟完成CET-4成績預測模型設計,并以重慶旅游職業學院2017-2019年5批次CET-4成績數據和學生平時學習過程數據為基礎,完成模型試點應用,并以2019年下半年CET-4成績為主要測試數據集,評估預測模型。
2 SVR算法
CET-4成績預測是典型的連續數據值預測,可參考的特征屬性數據包括歷史CET-4的各分項成績,學生日常學習的過程數據,以及相關學生基礎信息,目標屬性為CET-4的總成績,因此選用線性預測模型具有較好的適用性[2]。機器學習算法中常見的線性預測模型包括多元線性回歸、嶺回歸、Lasso回歸和SVR算法等,其中,SVR算法能夠充分運用已經采集的大量基礎數據、過程數據和分項成績,通過核函數有效控制預測模型復雜度,對非線性時間序列情況下也具有較好預測效果[3]。因此,本文使用SVR算法作為基礎算法開展CET-4成績預測模型研究。
線性回歸模型是構建形如y=f(x)=Wx+b的預測函數,其中x為特征屬性,y為目標數據,f(x)為回歸函數,包括兩個參數W為各特征屬性的權重向量,b為函數常量。SVR是將原來的支持向量機SVM的分類模型轉化為回歸模型,將原來訓練數據集的數據點遠離自己類別一側的支持向量,轉為每個數據點擬合到線性模型y=Wx+b中[4-6]。
SVR定義一個偏差常量?,對于任意數據樣本x,當絕對誤差|yx-f(x)|,認為樣本x可以用f(x)=Wx+b進行回歸預測,即以Wx+b為中心構建了寬度為2?的間隔帶,落入該空間的樣本數據(x,y)點,均認為成功預測。
SVR預測模型的關鍵是圍繞絕對誤差|yx-f(x)|的最小化,求回歸函數f(x)的參數W和b。
據此,構建SVR回歸模型的目標函數為:
[minW,b||W||2,s.t.|y-Wx-b|<=ε]? ? ? ? ? ? ? (1)
該目標函數為在樣本點落入隔離帶時,控制W最小化,即模型復雜度最低,從而有效控制預測模型的泛化能力。
引入拉格朗日乘子求極值情況下參數,目標函數轉化為:
[Lw,b,a=12w2-k=1NakukwTxk+b-1+ε+Ck=1Nεk-k=1Nεμk]? ? ?(2)
對L(w,b,a)對W,b,a分別求偏導并令偏導為0,從而得到:
[w=k=1Nukakxkk=1Nukak=0C=μk-ak]? ? ? ? ? ? ? ? ? ? ? ? (3)
目標函數進一步優化為:
[minw,b,?Lw,b,a=k=1Nak-12k=1Nl=1NxTkxlulakukal]? ? ? (4)
該情況下,使用SMO序列最小化算法,得到預測函數參數一個解為:
[w*=k=1Nuka*kxkb*=ul-k=1Nuka*k(xk?x1)]? ? ? ? ? ? ? ? ? ? ?(5)
此時,得到基于支持向量的預測回歸函數為:
[f(x)=k=1N(a*k-ak)K(x,xk)+b]? ? ? ? ? ? ? ? ? ? ? (6)
其中,[K(x,xk)]為核函數。因此,SVR模型構建主要探索使用[K(x,xk)]將數據樣本降維和關鍵參數W,b的計算[7]。
3 基于SVR的CET-4預測模型
構建基于SVR的CET-4預測模型,主要按照數據預處理、關鍵特征提取、預測模型構建三步實現,其中數據預處理主要完成與CET-4成績相關數據的采集、清洗、規整等,關鍵特征提取主要對相關數據針對目標屬性進行主成因分析,提取其中關鍵特征,降低數據維度,控制復雜度,預測模型構建按照SVR模型構建方法,選取核函數和計算參數,完成預測模型構建。
3.1 數據預處理
數據預處理是數據挖掘分析的基礎,主要分析數據來源,對數據進行采集、清洗、規整,實現對數據的規范化,為后期數據挖掘分析打下良好數據基礎[8]。對于CET-4成績預測問題,主要采集三個方面數據:(1)學生基礎數據,包括性別、年齡、生源地、專業、參考次數等;(2)學習過程數據:包括高考英語成績、前導課程學習成績等;(3)歷史CET-4成績分項成績,包括聽力、閱讀、寫作三類的分項成績,對于多次參考學生,主要研究上次考試分項成績。
針對上述采集的數據,需要對數據進行進一步處理,包括:
(1)離散數據數值化:將定序、定類、字符串等離散數據轉化為數值型數據,如將性別男、女轉為0和1;專業按照英語相關專業為0,非英語專業為1;生源地城市按照經濟發展程度綜合考慮,劃分為一線、二線、三線、四線和五線城市共5類,轉化為數值1-5。其他相關離散數據參照轉化。
(2)統一標準規范化:將不同量綱的數據統一到同一標準內,一般采用最大-最小規范化方法轉化到[0,1]區間[9],具體轉化公式為:
[xn=x-xminxmax-xmin]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (7)
(3)異常數據正常化:針對數據采集中的空缺值、重復值、異常值問題采用平均數填充、刪除重復項等方法,將相關異常數據合理化處理。如上次CET-4分項成績均為0的棄考學生成績,應當作為異常數據清除。
在采集學生基礎數據、過程數據和歷史數據基礎上,按照數值化、規范化和正常化的步驟完成數據預處理,形成了學生相關數據表,結構為:學生(學號,性別,生源地,專業,參考次數,高考英語成績,英語課程成績,上次等考聽力成績,上次等考閱讀成績,上次等考寫作成績,本次等考成績),其中學號為標識碼,中間9項為特征屬性,分別標注為F1-F9,本次等考成績為目標屬性,標定為F0。由于需要依托上次等考成績為訓練數據屬性,因此,主要針對學校多次參考CET-4的學生進行預測分析,首次參加考試不做預測,這也符合英語教學和CET-4考試的實際情況。
3.2 關鍵特征提取
關鍵特征提取是根據特征之間的關聯程度和對目標屬性的支持程度,選取部分特征作為特征集合建立與目標屬性的關系。對于學生表(ID,F1,F2,F3,F4,F5,F6,F7,F8,F9,F0),對于特征F1-F9中任意的兩個特種Fi和Fj之間,數據樣本在其上的數據分布為X和Y,那么特征Fi和Fj之間的協方差rij為:
[rij=covX,Y=i=1nXi-XYi-Yn-1]? ? ? ? (8)
其中,Xi為第i個數據樣本取值,[X]為數據樣本均值,n為樣本數。
從而構建F1-F9的特征矩陣R,其中,m為特征數,取值9:
[R=covX=XX'm-1=r11……r1m…………rm1……rmm]? ? ? ? ?(9)
計算矩陣R的特征向量為[λ]=[[λ1,λ2……λm]],[λi]表示了特征Fi在整個特征矩陣R中的主導地位,那么Fi在整個特征集合F1-F9的權重,可以表示為:
[wi=λij=1mλj]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (10)
按照權重從大到小排序,確保前N項提取特征的權重高于設定閾值,如0.8或0.75,即完成了F1-F9特征的關鍵特征提取。
3.3 預測模型構建
根據第2節SVR模型構建的方法,在數據預處理和關鍵特征提取的基礎上,主要完成核函數的選取和關鍵參數的計算。
(1)核函數選取
SVR模型中核函數主要是將高維特征空間降維到低維空間,常見的核函數包括線性函數,多項式函數和徑向基核函數(RBF)。其中,徑向基核函數能夠解決高維特征數據集,并很好轉化為線性可分,具有廣泛適用性。因此,使用RBF函數作為核函數構建SVR回歸模型:
[Kx,xk=e-||x-xk||22σ2]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (11)
(2)參數計算
在SVR模型中求公式(2)和(3)中的參數C、參數[μ]和參數[ε],分別為模型復雜度、回歸模型線性程度和模型誤差容忍度。選擇最優的SVR模型參數方法包括:基于遺傳算法方法、基于交叉驗證方法、基于神經網絡等方法。
對于CET-4成績預測問題,在關鍵特征提取基礎上進行回歸預測,選取一組參數,其中C偏大,選定更少更優的特征,[μ]偏小,促進模型更加平滑,[ε]偏小,提高預測波動范圍。在初始參數基礎上,按照網格法得到最優參數組,以0.1為步長構建參數網格,以2020年上半年CET-4成績為測試數據集,設定誤差閾值e,當ave|f(x)-y| 根據公式(5)、(6)的推導,得到SVR回歸模型: [fx=SV(a*i-ai)?exp (-||xi-x||22σ2)+b]? ? ? ?(12) 4 模型應用與評估 使用我校2017-2019學年的等考成績為訓練數據集,以2019年下半年CET-4成績為測試集,研究本文的基于特征相關的SVR優化模型,得到以累加權重為0.8,得到關鍵特征集為{上次等考聽力成績,上次等考寫作成績,英語課程成績,專業,高考英語成績}五個特征,可以發現在本校中聽力和寫作能力培養非常關鍵,課程學習和英語基礎上也發揮重要作用,特別注意由于高職院校對CET-4沒有強制要求,因此英語相關專業學生更加重視備考和參考,因此分數會更高。 通過基于特征相關的SVR優化模型構建的回歸預測函數,同線性回歸模型方法、普通SVR模型進行比較,分別分析三種模型在訓練數據集和測試數據集上的均方誤差。 根據三種回歸模型,本文提出基于特征相關的SVR模型在數據集上具有更好的預測精度,同時,隨著數據集的積累,在測試集上具有更優的泛化精度。 5 結語 CET-4是考核學生英語能力和評價學校英語教學質量的重要指標。針對CET-4成績預測問題,本文提出一種基于支持向量回歸算法的預測方法,按照數據預處理、關鍵特征提取、預測模型構建的步驟完成CET-4成績回歸預測模型設計。以重慶旅游職業學院2017-2019學年5批次CET-4成績數據和學生平時學習過程數據為基礎,完成模型試點應用和模型評估,發現本文的優化模型比線性回歸和普通SVR模型具有更好的可解釋性和更高的泛化精度。 參考文獻: [1] 韓魯峰.數據挖掘在大學英語四級成績預測中的應用研究[J].電腦知識與技術,2018,14(24):1-3. [2] 王欣欣,湯軍.學生成績預測模型的對比分析[J].電腦知識與技術,2020,16(1):199-202. [3] 陳榮,梁昌勇,謝福偉.基于SVR的非線性時間序列預測方法應用綜述[J].合肥工業大學學報(自然科學版),2013,36(3):369-374. [4] 李永娜.基于支持向量機的回歸預測綜述[J].信息通信,2014,27(11):32-33. [5] 陳博,鄭凱東,王家華.多核支撐向量回歸方法研究[J].智能計算機與應用,2019,9(1):188-191. [6] 羅學科,何云霄,劉鵬,等.ARIMA-SVR組合方法在水質預測中的應用[J].長江科學院院報,2020,37(10):21-27. [7] 肖建,于龍,白裔峰.支持向量回歸中核函數和超參數選擇方法綜述[J].西南交通大學學報,2008,43(3):297-303. [8] 羅長銀,陳學斌,宋尚文,等.數據預處理技術在異構數據中的應用[J].軟件,2020,41(5):6-13. [9] 孔欽,葉長青,孫赟.大數據下數據預處理方法研究[J].計算機技術與發展,2018,28(5):1-4. 【通聯編輯:唐一東】