●王宏利 邊 帥,2 孫全亮 呂震宇
在高考志愿填報(bào)中,精準(zhǔn)預(yù)測(cè)一所高校的錄取分?jǐn)?shù)可以有效避免志愿填報(bào)的盲目性。由于歷年高考試題在難易度上有所不同,高考分?jǐn)?shù)也會(huì)隨之上下浮動(dòng),因此無(wú)法根據(jù)某高校前幾年度錄取分?jǐn)?shù)直接估計(jì)出當(dāng)年錄取分?jǐn)?shù)。目前,各省考試院都會(huì)公布諸多高考數(shù)據(jù),包括分批次、分文理科的高校錄取最低分、平均分、錄取人數(shù)信息、分文理科一分一檔表、省控線信息等。目前比較流行的高校錄取分?jǐn)?shù)預(yù)測(cè)方法包括線差法、等效分法、平均排位法等,都是通過(guò)對(duì)高考信息的某種線性變換實(shí)現(xiàn)的。然而高校錄取人數(shù)的變化、歷史數(shù)據(jù)年份的長(zhǎng)短等因素以某種不可預(yù)知的非線性關(guān)系也在影響高校錄取分?jǐn)?shù),因此需要一種能夠充分吸納這些非線性因素的新預(yù)測(cè)方法,以實(shí)現(xiàn)更為精準(zhǔn)的高校高考錄取分?jǐn)?shù)預(yù)測(cè)。
目前對(duì)高校高考錄取分?jǐn)?shù)預(yù)測(cè)的主流方法包括線差法、等效分法、平均排位法、修正的平均排位法、組合預(yù)測(cè)模型、神經(jīng)網(wǎng)絡(luò)等。
線差法是用“當(dāng)年省控線+上年錄取分與省控線的差值(線差)”作為預(yù)測(cè)錄取分?jǐn)?shù)的一種方法。該方法計(jì)算簡(jiǎn)便,但預(yù)測(cè)精度較低,尤其是距離省控線越遠(yuǎn)預(yù)測(cè)精度越低。等效分法首先根據(jù)上年一分一檔表將上年錄取分映射為排名,再根據(jù)當(dāng)年一分檔表將排名反向映射成預(yù)測(cè)錄取分的一種方法。該方法預(yù)測(cè)準(zhǔn)確度相對(duì)較高,但未考慮考生總?cè)萘亢褪】鼐€變化對(duì)預(yù)測(cè)的影響。平均排位法是一種改進(jìn)的等效分法,它使用前n-1 年最低錄取分排名平均值預(yù)測(cè)第n 年的錄取分,同樣存在預(yù)測(cè)精度不高、受考生總?cè)萘亢褪】鼐€變化的影響等問(wèn)題。修正的平均排位法使用上年高校排名和當(dāng)年錄取人數(shù)增減變化修正平均排位法結(jié)果,能夠部分提升排名靠前的高校錄取分預(yù)測(cè)精度。
組合預(yù)測(cè)模型是通過(guò)各種不同的單項(xiàng)預(yù)測(cè)模型所組成的一種模型。周帆①將三種不同的單項(xiàng)預(yù)測(cè)模型組合在一起,通過(guò)最小二乘法運(yùn)算得出所需要的最優(yōu)變權(quán)重的系數(shù),最后再利用常用的誤差平方和做對(duì)比驗(yàn)證。通過(guò)2002——2008 年重慶市文科二批錄取分?jǐn)?shù)實(shí)驗(yàn)得出,組合模型的預(yù)測(cè)精度高。但此模型并未能解決高考分?jǐn)?shù)線受題目難易程度的影響等因素。李敬文②等采用能用數(shù)學(xué)思維闡述不分明現(xiàn)象的模糊數(shù)學(xué)和需要較少觀測(cè)數(shù)據(jù)的灰色預(yù)測(cè)模型相結(jié)合的方式構(gòu)建模糊灰色模型,此模型綜合考慮省控線、招生計(jì)劃人數(shù)、學(xué)生對(duì)學(xué)校的喜好程度等因素。通過(guò)蘭州大學(xué)和蘭州交通大學(xué)2006——2011 年的數(shù)據(jù)進(jìn)行分析檢驗(yàn),得出此模型的預(yù)測(cè)精度相對(duì)較好,但此模型所選取的實(shí)驗(yàn)數(shù)據(jù)較為單一,不能更好說(shuō)明模型預(yù)測(cè)的精準(zhǔn)度。賈妮③采用神經(jīng)網(wǎng)絡(luò)模型,將三年西安工業(yè)大學(xué)數(shù)據(jù)進(jìn)行處理,通過(guò)主成分分析進(jìn)行降維來(lái)實(shí)現(xiàn)影響因素的歸一化處理,最終由BP 反向傳播算法計(jì)算最佳的權(quán)重值,提高了預(yù)測(cè)精度,此方法依舊存在測(cè)試樣本集較少問(wèn)題,不具有代表性。
綜上,只有充分考慮歷年分?jǐn)?shù)、排名、省控線、招生人數(shù)等因素以及相互之間的非線性影響,才能更為精確地預(yù)測(cè)高校高考錄取分?jǐn)?shù)。
1. 線上百分位。線上百分位是一種綜合考慮省控線和排位的錄取水平測(cè)度,其取值在0%到100%之間。0%表示錄取分與省控線相同;100%表示錄取分達(dá)到上一批次省控線(本科二批或高職專科批)或全省排名第一(本科一批)。
設(shè)r=f(c,s,k,y)為成績(jī)映射為排名的函數(shù),c=g(r,s,k,y)為將排名反向映射為成績(jī)的函數(shù),其中,r 為考生排名,c 為考生成績(jī),s 為考生所在省份,k 為文理科,y 為高考年份。在s,k,y 相對(duì)固定的情況下(后續(xù)內(nèi)容均在此假設(shè)基礎(chǔ)之上),上述映射可以簡(jiǎn)化為:r=f(c),c=g(r),可通過(guò)查詢當(dāng)年一分一檔表獲得。
設(shè)c1為本科一批分?jǐn)?shù)線,c2為本科二批分?jǐn)?shù)線,則考生成績(jī)c 對(duì)應(yīng)的一本線上平均百分位或二本線上平均百分位分別為:

使用線上百分位作為高校高考錄取分?jǐn)?shù)高低的測(cè)度可以有效的化解因考試題目難易程度而引起的分?jǐn)?shù)不同問(wèn)題,同時(shí)也間接實(shí)現(xiàn)了LSTM模型數(shù)據(jù)輸入前的歸一化問(wèn)題。
2.平均排位法。平均排位法是通過(guò)對(duì)高校前n-1 的投檔分?jǐn)?shù)對(duì)應(yīng)的全省排名的平均值所對(duì)應(yīng)的分?jǐn)?shù)即為這一年度高校錄取投檔分。
3. 長(zhǎng)短時(shí)記憶(LSTM)神經(jīng)網(wǎng)絡(luò)。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory,LSTM)作為一種特殊存在的循環(huán)網(wǎng)絡(luò)④結(jié)構(gòu),它能夠較好的處理神經(jīng)網(wǎng)絡(luò)中的長(zhǎng)期依賴情況。由Sepp Hochreiter 和Jurgen Schmidhuber 在1997 年提出。LSTM⑤鏈?zhǔn)浇Y(jié)構(gòu)示意圖,如圖1。

圖1 LSTM 的鏈?zhǔn)浇Y(jié)構(gòu)圖
LSTM獨(dú)特之處在于擁有三扇“門”⑤分別為輸入、遺忘和輸
出門,門的作用主要是依靠sigmoid 激活函數(shù)神經(jīng)網(wǎng)絡(luò)層和點(diǎn)乘來(lái)實(shí)現(xiàn)。本文所構(gòu)建的LSTM神經(jīng)網(wǎng)絡(luò)模型,如圖2 所示。

圖2 LSTM 模型
其中本文選取最低分線上百分位、平均分線上百分位作為輸入變量,輸出變量為最低線上百分位。用四年的數(shù)據(jù)預(yù)測(cè)下一年的錄取分?jǐn)?shù),再經(jīng)過(guò)全鏈接神經(jīng)網(wǎng)絡(luò)最終輸出第五年預(yù)測(cè)最低分線上百分位。
1. 數(shù)據(jù)集的采集與歸一化處理。本文采集的數(shù)據(jù)⑥包括:2010—2017 年各高校在河北省招收本科一、二批文理科學(xué)生的錄取平均分和最低分,并以此計(jì)算得到對(duì)應(yīng)的最低分線上百分位和平均分線上百分位,將數(shù)據(jù)歸一化處理。其中高校數(shù)據(jù)采集輸入、輸出數(shù)據(jù)如表1 所示。

表1 部分高校數(shù)據(jù)采集表
滾動(dòng)選取前n-1 年數(shù)據(jù)作為輸入,第n 年數(shù)據(jù)作為預(yù)測(cè)輸出,即用2010—2013 數(shù)據(jù)預(yù)測(cè)2014 錄取成績(jī);2011—2014 數(shù)據(jù)預(yù)測(cè)2015 錄取成績(jī)。訓(xùn)練樣本集數(shù)據(jù)取自2010—2016 年各高校在河北省本科一、二批文理科錄取分?jǐn)?shù)的最低線上百分位、平均線上百分位和2017 年本科一批文科錄取分?jǐn)?shù)的最低線上百分位。測(cè)試樣本集數(shù)據(jù)取自2013—2017 河北省本科一批理科錄取成績(jī)。在輸入數(shù)據(jù)選取過(guò)程中,首先剔除年份殘缺的不完整數(shù)據(jù),得到5078 個(gè)訓(xùn)練數(shù)據(jù),同時(shí)為了確保線上百分位較高的院校錄取分?jǐn)?shù)預(yù)測(cè)精度,將清華大學(xué)、北京大學(xué)等481 個(gè)輸出最低線上百分位在95%以上的訓(xùn)練數(shù)據(jù)重復(fù)加入訓(xùn)練數(shù)據(jù)集,最終得到訓(xùn)練樣本集數(shù)據(jù)5559 個(gè),測(cè)試樣本集數(shù)據(jù)251 個(gè)。
2.參數(shù)設(shè)置。搭建LSTM神經(jīng)網(wǎng)絡(luò)⑦模型,將前四年的最低分線上百分位和平均分線上百分位作為輸入變量,即輸入為4 個(gè)cell,8 個(gè)變量,將預(yù)測(cè)當(dāng)年的最低分線上百分位作為輸出變量,即輸出為1 個(gè)變量。將LSTM模型隱藏維度(hidden dimention)設(shè)為32,mini-batch 設(shè)為200,學(xué)習(xí)率(learning Rate) 設(shè)為0.0001,采用誤差平方和作為損失函數(shù)。表2 顯示了訓(xùn)練epoch從1200 到12000 時(shí)測(cè)試數(shù)據(jù)集上的誤差平方和。

表2 訓(xùn)練epoch 數(shù)與測(cè)試數(shù)據(jù)集誤差平方和的對(duì)照關(guān)系
可以看出,隨著訓(xùn)練次數(shù)epoch 的增加,LSTM預(yù)測(cè)的最低分誤差平方和逐漸減小,當(dāng)epoch 超過(guò)12000 時(shí),LSTM的最低分誤差平方和未出現(xiàn)明顯下降趨勢(shì),反而略有上升。隨epoch 增加而變化的LSTM最低分誤差平方和變化趨勢(shì)如圖3 所示:

圖3 LSTM 最低分誤差平方和變化趨勢(shì)圖
3.模型求解。將LSTM神經(jīng)網(wǎng)絡(luò)模型輸出的預(yù)測(cè)分?jǐn)?shù)與實(shí)際分?jǐn)?shù)、傳統(tǒng)的平均排位法預(yù)測(cè)分?jǐn)?shù)進(jìn)行對(duì)比分析,如表3。

表3 部分高校LSTM 預(yù)測(cè)與平均排位法2017 年預(yù)測(cè)的結(jié)果表
通過(guò)對(duì)2017 年本科理科一批各院校的錄取成績(jī)預(yù)測(cè)結(jié)果分析,用誤差平方和比較平均排位法與LSTM模型兩種方法的預(yù)測(cè)準(zhǔn)確度。其中平均排位法最低分的誤差平方和為36681,LSTM 最低分的誤差平方和為17424,LSTM 預(yù)測(cè)的準(zhǔn)確度遠(yuǎn)高于平均排位法。
通過(guò)對(duì)錄取分?jǐn)?shù)的預(yù)測(cè)結(jié)果⑧分析,得到如下結(jié)論:
(1)LSTM預(yù)測(cè)結(jié)果準(zhǔn)確度明顯高于平均排位法預(yù)測(cè)結(jié)果。在LSTM的預(yù)測(cè)結(jié)果中,可以看出大多數(shù)高校錄取分?jǐn)?shù)的預(yù)測(cè)值準(zhǔn)確度都高于或等于平均排位預(yù)測(cè)值。但在招生人數(shù)存在明顯變化的高校中,LSTM的預(yù)測(cè)值準(zhǔn)確度遠(yuǎn)高于平均排位法的準(zhǔn)確度。如表4、表5、圖4。

表4 部分高校招生人數(shù)變化表

表5 部分招生人數(shù)變化高校兩種方法預(yù)測(cè)2017 年成績(jī)結(jié)果對(duì)比表

圖4 部分高校招生人數(shù)與最低百分位對(duì)應(yīng)關(guān)系圖
(2)對(duì)于錄取分?jǐn)?shù)較高的個(gè)別院校錄取成績(jī)預(yù)測(cè),LSTM 的預(yù)測(cè)值不如平均排位法精準(zhǔn)。如表6。

表6 個(gè)別錄取分?jǐn)?shù)較高的院校平均排位與LSTM 2017 年預(yù)測(cè)結(jié)果對(duì)比表
本文在實(shí)驗(yàn)中考慮到此項(xiàng)問(wèn)題,并通過(guò)重復(fù)增加高分院校的樣本數(shù)量進(jìn)行訓(xùn)練,以達(dá)到充足的樣本數(shù),確保實(shí)驗(yàn)訓(xùn)練結(jié)果。
(3)LSTM能預(yù)測(cè)出錄取最低分的趨勢(shì),從而使預(yù)測(cè)精準(zhǔn)度進(jìn)一步提升,如表7、圖5、圖6、圖7。

表7 部分院校平均排位與LSTM 2017 年預(yù)測(cè)分?jǐn)?shù)對(duì)比表

圖5 北京體育大學(xué)錄取最低、平均線上百分位分布圖

圖6 華南師范大學(xué)錄取最低、平均線上百分位分布圖

圖7 沈陽(yáng)建筑大學(xué)錄取最低、平均線上百分位分布圖
通過(guò)平均排位法和LSTM方法預(yù)測(cè)分?jǐn)?shù)對(duì)比,LSTM最低分誤差平方和小于平均排位法最低分誤差平方和,說(shuō)明LSTM預(yù)測(cè)更準(zhǔn)確。通過(guò)歷年高校錄取最低、平均線上百分位分布圖得出LSTM方法能較為準(zhǔn)確地預(yù)測(cè)出錄取分?jǐn)?shù)趨勢(shì),進(jìn)一步提高預(yù)測(cè)準(zhǔn)確度。
1.LSTM方法可以有效預(yù)測(cè)高校錄取分?jǐn)?shù),并且預(yù)測(cè)準(zhǔn)確度遠(yuǎn)高于傳統(tǒng)的平均排位法。
2.LSTM能較為準(zhǔn)確地預(yù)測(cè)到高校錄取分?jǐn)?shù)的未來(lái)趨勢(shì),進(jìn)一步提高錄取分?jǐn)?shù)預(yù)測(cè)準(zhǔn)確度。
3.本文LSTM方法在未考慮招生人數(shù)變化的情況下,對(duì)于擴(kuò)招院校錄取分?jǐn)?shù)預(yù)測(cè)的結(jié)果好于傳統(tǒng)的平均排位法,若將招生人數(shù)變化情況考慮到模型中,預(yù)測(cè)結(jié)果是否提升有待進(jìn)一步實(shí)驗(yàn)研究。
注釋:
①周帆.變權(quán)重組合預(yù)測(cè)法預(yù)測(cè)重慶市高考分?jǐn)?shù)線[J].科教文匯(上旬刊),2009(9):287- 288
②李敬文.組合預(yù)測(cè)模型在高考數(shù)據(jù)預(yù)測(cè)中的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(7):259~292
③賈妮.大數(shù)據(jù)處理技術(shù)在錄取分?jǐn)?shù)線預(yù)測(cè)中的應(yīng)用[J]研究?jī)r(jià)值工程,2016.200- 201
④Deng L,YuD.Deep learning:methods and applications[J].Foundations and Trends in Signal Processing,2014,7(3/4):197- 387
⑤Hochreiter S, SchmidhuberJ.Long short- term memory[J].Neural Computation,1997,9(8):1735- 1780
⑥河北省教育考試院.全國(guó)普通高校在河北招生錄取分?jǐn)?shù)分布統(tǒng)計(jì)[M].石家莊:河北人民出版社,2016
⑦白盛楠,申曉留.基于LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)的PM_(2.5)預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(01):73- 76+110
⑧吳強(qiáng),方睿,韓斌,賈川,浦東.基于決策樹- LMBP 神經(jīng)網(wǎng)絡(luò)的學(xué)生成績(jī)分析及預(yù)測(cè)模型的研究[J].成都信息工程大學(xué)學(xué)報(bào),2018,03:274- 280