□ 王詩(shī)語(yǔ)(青島經(jīng)濟(jì)技術(shù)開發(fā)區(qū)第一中學(xué) 山東 青島 266580)
基于非線性回歸和BP神經(jīng)網(wǎng)絡(luò)的奧運(yùn)會(huì)獎(jiǎng)牌預(yù)測(cè)模型
□ 王詩(shī)語(yǔ)(青島經(jīng)濟(jì)技術(shù)開發(fā)區(qū)第一中學(xué) 山東 青島 266580)
本文通過考察各國(guó)上一屆獎(jiǎng)牌數(shù)、總?cè)丝凇⑷司鵊DP、社會(huì)制度和東道主等5個(gè)因素對(duì)奧運(yùn)獎(jiǎng)牌獲得能力的影響,并建立多元非線性回歸模型,經(jīng)參數(shù)優(yōu)化獲得最佳預(yù)測(cè)模型。同時(shí)在這些分類匯總數(shù)據(jù)的基礎(chǔ)上,建立BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,最后實(shí)現(xiàn)對(duì)2020年?yáng)|京奧運(yùn)會(huì)獎(jiǎng)牌榜前十位的預(yù)測(cè)。
奧運(yùn)獎(jiǎng)牌預(yù)測(cè) 多元非線性回歸 人工神經(jīng)網(wǎng)絡(luò)
2016年8月,第三十一屆夏季奧林匹克運(yùn)動(dòng)在巴西里約熱內(nèi)盧成功舉行,中國(guó)代表隊(duì)取得了金牌第三,獎(jiǎng)牌榜第二的好成績(jī)。奧運(yùn)會(huì)期間,獎(jiǎng)牌榜排名成為人們關(guān)注的焦點(diǎn),而在奧運(yùn)會(huì)開賽之前,很多數(shù)學(xué)家、經(jīng)濟(jì)學(xué)家以及體育數(shù)據(jù)統(tǒng)計(jì)公司紛紛推出各自預(yù)測(cè)模型和虛擬獎(jiǎng)牌榜。
達(dá)特茅斯大學(xué)塔克商學(xué)院的研究者發(fā)布了一份關(guān)于2016年里約奧運(yùn)會(huì)各代表團(tuán)奪金、銀牌數(shù)的預(yù)測(cè)報(bào)告,其在Bernard-Busse模型的基礎(chǔ)上并根據(jù)國(guó)家(或地區(qū))人口、財(cái)富的相對(duì)水平、歷屆奧運(yùn)會(huì)表現(xiàn)和主辦國(guó)的加成實(shí)現(xiàn)獎(jiǎng)牌榜預(yù)測(cè)。而國(guó)內(nèi)在奧運(yùn)獎(jiǎng)牌預(yù)測(cè)領(lǐng)域也有著廣泛的研究,董琦等采用支持向量機(jī)非線性擴(kuò)展樣本對(duì)時(shí)間序列模型定階,通過分析新樣本加入訓(xùn)練集后支持向量集變化的情況,從而構(gòu)建一種支持向量機(jī)的奧運(yùn)金牌預(yù)測(cè)的模型。該模型的預(yù)測(cè)效果和傳統(tǒng)時(shí)間序列模型預(yù)測(cè)相比,具有主觀度低,預(yù)測(cè)精度高,預(yù)測(cè)穩(wěn)定性更好的優(yōu)點(diǎn)。郭愛民等基于灰色理論預(yù)測(cè)里約奧運(yùn)會(huì)金牌榜次序,張玉華等基于線性回歸動(dòng)態(tài)模型對(duì)里約奧運(yùn)會(huì)獎(jiǎng)牌數(shù)進(jìn)行預(yù)測(cè)。通過對(duì)2020年?yáng)|京奧運(yùn)會(huì)獎(jiǎng)牌的科學(xué)預(yù)測(cè),可以提高各項(xiàng)體育工作的預(yù)見性,促進(jìn)訓(xùn)練工作的科學(xué)化。
在 Wikipedia(維基百科)All-time Olympic Games medal table詞條下,獲取到歷屆奧運(yùn)會(huì)的獎(jiǎng)牌數(shù)據(jù),用VLOOKUP函數(shù)進(jìn)行獎(jiǎng)牌數(shù)據(jù)的分類整理,從世界銀行數(shù)據(jù)庫(kù)獲得各國(guó)歷年的總?cè)丝跀?shù)和人均GDP數(shù)據(jù),而對(duì)數(shù)量級(jí)較大的數(shù)據(jù)需進(jìn)行對(duì)數(shù)處理。
首先將上述分類匯總后奧運(yùn)獎(jiǎng)牌數(shù)據(jù)整理成時(shí)間序列形式,通過自回歸分析來求解模型參數(shù)。再根據(jù)回歸分析結(jié)果中R2(擬合優(yōu)度)、SSE(殘差平方和)Significance F、P value(顯著性水平)等參數(shù)以及通過測(cè)試集獲得的ρ(相關(guān)系數(shù))和MSE(均方差)兩個(gè)指標(biāo)進(jìn)行權(quán)衡,對(duì)預(yù)測(cè)模型進(jìn)一步的調(diào)優(yōu)。
利用Microsoft Excel軟件進(jìn)行回歸分析,建立模型如式1所示。

式中A為各國(guó)獲得獎(jiǎng)牌的能力(獎(jiǎng)牌數(shù)占總獎(jiǎng)牌數(shù)的比例),A0為各國(guó)獲得獎(jiǎng)牌的能力,b為截距,P為總?cè)丝冢珿為人均GDP,S為社會(huì)制度,H為東道主,其中 S和 H均采用虛擬變量(0,1),P和G均取對(duì)數(shù)形式。
首先根據(jù)自回歸分析的結(jié)果分析:從表1,可以看出log(G)和S的P-value值都遠(yuǎn)大于0.05,log(P)的P-value值小于 0.05但大于0.01,擬合優(yōu)度R2的值為0.9313,結(jié)果不夠理想。

表1 自回歸分析結(jié)果Table1 The results of autoregressive analysis
因此,通過減少相關(guān)性弱的模型參數(shù)來考察模型預(yù)測(cè)性能的變化,結(jié)果如下表2。

表2 模型變量的增減對(duì)模型性能的影響Table2 The effect of model variables on model performance
從上表可以看出,舍棄變量log(G)、log(P)和S后,模型性能測(cè)試的相關(guān)系模型性能測(cè)試的相關(guān)系數(shù)略增大,均方差略增大。
由于選取是排名前30位的國(guó)家,人均GDP水平和奧運(yùn)獎(jiǎng)牌獲得能力相關(guān)性不好(相關(guān)系數(shù)0.23),相比之下,總?cè)丝诤蛫W運(yùn)金(獎(jiǎng))牌獲得能力相關(guān)性較好(相關(guān)系數(shù)0.65),同時(shí)隨著全球化的趨勢(shì),社會(huì)制度對(duì)奧運(yùn)奪金(獎(jiǎng))能力影響日益減小,而且排名前三十的國(guó)家僅有兩個(gè)社會(huì)主義國(guó)家,因此從模型的穩(wěn)定性和拓展性上,考慮舍棄變量log(G)、S,保留變量log(P)。
經(jīng)過參數(shù)優(yōu)化后的預(yù)測(cè)模型如式1-2所示:

在模型參數(shù)方面,選用上一屆獲金(獎(jiǎng))牌數(shù)據(jù),總?cè)丝跀?shù)、人均GDP、社會(huì)制度和東道主來衡量各個(gè)因素對(duì)金(獎(jiǎng))牌總數(shù)的影響,經(jīng)過模型參數(shù)的優(yōu)化,舍棄了人均GDP、社會(huì)制度兩個(gè)參數(shù),整體預(yù)測(cè)效果良好。

圖1 模型預(yù)測(cè)結(jié)果Fig1 The results of model prediction
從預(yù)測(cè)結(jié)果來看,里約奧運(yùn)會(huì)上,中國(guó)顯然沒有取得預(yù)期的成績(jī),俄羅斯由于禁賽事件,也未能達(dá)到預(yù)期,第十三位的巴西充分發(fā)揮東道主的優(yōu)勢(shì),取得了高于預(yù)期的成績(jī)。
人工神經(jīng)網(wǎng)絡(luò)作為一種智能算法,它對(duì)于那些變量之間相互關(guān)系不清楚,很難用簡(jiǎn)單的線性或非線性數(shù)學(xué)模型進(jìn)行描述的復(fù)雜問題,具有獨(dú)特的優(yōu)越性,且有容易擴(kuò)充的優(yōu)點(diǎn)。
BP神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括輸入層、隱層和輸出層,如圖2所示。該BP網(wǎng)絡(luò)采用訓(xùn)練方法是動(dòng)量的梯度下降法。

圖2 BP神經(jīng)網(wǎng)絡(luò)模型Fig2 BP neural network model
(1)數(shù)據(jù)預(yù)處理。
主要包括的樣本數(shù)據(jù)的采集、分析和預(yù)處理。將匯總的120組數(shù)據(jù)隨機(jī)分為訓(xùn)練集和預(yù)測(cè)集兩組,同時(shí)為了提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率,需要對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,使數(shù)值分布在[0,1]的區(qū)間上。
(2)網(wǎng)絡(luò)的創(chuàng)建。
將上一屆獲獎(jiǎng)牌能力、總?cè)丝凇⑷司鵊DP、社會(huì)制度和東道主等五個(gè)變量作為輸入變量,將本屆獲金(獎(jiǎng))牌能力作為輸出變量,隱層神經(jīng)元數(shù)為4,確定包括網(wǎng)絡(luò)層數(shù)的確定、網(wǎng)絡(luò)神經(jīng)元數(shù)確定、傳遞函數(shù)選取Sigmoid函數(shù)中的tansig函數(shù)、初始權(quán)值以取[0,l]之間的隨機(jī)數(shù)、學(xué)習(xí)率為0.1等。構(gòu)建一個(gè)5-4-1型的三層BP神經(jīng)網(wǎng)絡(luò)。
(3)網(wǎng)絡(luò)的訓(xùn)練。
采用訓(xùn)練集數(shù)據(jù),對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練函數(shù)選為traingdm,動(dòng)量因子設(shè)為0.9,最大迭代次數(shù)設(shè)為5000,最大迭代誤差為0.0001。
(4)網(wǎng)絡(luò)的測(cè)試。
訓(xùn)練完成后,調(diào)用sim函數(shù)對(duì)預(yù)測(cè)集數(shù)據(jù)進(jìn)行仿真預(yù)測(cè),得到預(yù)測(cè)結(jié)果與實(shí)驗(yàn)值的誤差情況,考察網(wǎng)絡(luò)的精度。進(jìn)行多次訓(xùn)練,根據(jù)測(cè)試集結(jié)果的相關(guān)系數(shù)和均方差選擇一個(gè)最優(yōu)的網(wǎng)絡(luò)保存并作為預(yù)測(cè)模型使用。部分測(cè)試結(jié)果如下表3所示:

表3 BP網(wǎng)絡(luò)模型測(cè)試結(jié)果Table3 Test results from BP net model
經(jīng)過訓(xùn)練,選擇最優(yōu)的BP網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),測(cè)試結(jié)果如圖3所示。

圖3 BP網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果Fig3 The results of BP net model prediction
人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型能夠充分逼近復(fù)雜的非線性關(guān)系,快速進(jìn)行大量運(yùn)算,預(yù)測(cè)的精度也較高,適合作為奧運(yùn)獎(jiǎng)牌預(yù)測(cè)的模型。從預(yù)測(cè)結(jié)果來看,和多元非線性回歸模型獲得的信息基本一致。
為了實(shí)現(xiàn)對(duì)2020年奧運(yùn)會(huì)獎(jiǎng)牌的預(yù)測(cè),現(xiàn)從世界銀行數(shù)據(jù)庫(kù)獲得2013-2015年的人口增長(zhǎng)率和人均GDP增長(zhǎng)率,計(jì)算平均值作為從2015-2020間的平均增長(zhǎng)率,最終獲得2020年的總?cè)丝凇⑷司鵊DP等數(shù)據(jù),加上里約奧運(yùn)獎(jiǎng)牌數(shù)據(jù),代入到式2中,并將結(jié)果轉(zhuǎn)化成2020年獎(jiǎng)牌的預(yù)測(cè)值,匯總后如表4所示:

表4 多元非線性回歸模型預(yù)測(cè)奧運(yùn)獎(jiǎng)牌榜Table4 Olympic Medal standings from multivariate nonlinear regression model
以BP網(wǎng)絡(luò)模型對(duì)2020年奧運(yùn)會(huì)各國(guó)獲獎(jiǎng)牌能力進(jìn)行預(yù)測(cè),再將結(jié)果轉(zhuǎn)化為2020年各國(guó)的獎(jiǎng)牌數(shù)據(jù),并進(jìn)行排名,結(jié)果如表5所示。

表5 BP網(wǎng)絡(luò)模型預(yù)測(cè)奧運(yùn)獎(jiǎng)牌榜Table5 Olympic Medal standings from BP net model
利用多元非線性回歸模型和人工神經(jīng)網(wǎng)絡(luò)模型對(duì)2020年?yáng)|京奧運(yùn)會(huì)的獎(jiǎng)牌榜前十名進(jìn)行預(yù)測(cè)。
從模型的評(píng)價(jià)來看,多元非線性回歸模型和人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型都適合作為奧運(yùn)獎(jiǎng)牌預(yù)測(cè)的模型,其中前者在預(yù)測(cè)精度方面表現(xiàn)更好,后者在建模時(shí)間和運(yùn)算效率上占優(yōu),兩者均有不錯(cuò)的提升空間和拓展能力。
從2020年?yáng)|京奧運(yùn)會(huì)獎(jiǎng)牌榜的前十位的情況來看,日本由于是東道主,奧運(yùn)會(huì)成績(jī)會(huì)有顯著的提升,美國(guó)、中國(guó)和英國(guó)依舊是三甲的有力競(jìng)爭(zhēng)者,俄羅斯由于此次的禁賽事件的影響,預(yù)期成績(jī)有所下降,韓國(guó)由于在跆拳道和射箭項(xiàng)目上的強(qiáng)勢(shì)表現(xiàn),成績(jī)穩(wěn)定前十。
[1]Bernard A B,Busse M R.Who Wins the Olympic Games:Economic Resources and Medal Totals[J].Review of Economics&Statistics,2006,86(1).
[2]董琦,高峰.利用支持向量機(jī)方法預(yù)測(cè)2016年里約奧運(yùn)會(huì)中國(guó)獎(jiǎng)牌數(shù)目[J].運(yùn)動(dòng),2016(3).
[3]張玉華.基于線性回歸動(dòng)態(tài)模型的中國(guó)第31屆奧運(yùn)會(huì)獎(jiǎng)牌數(shù)預(yù)測(cè)[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,(02).
[4]郭愛民,趙明發(fā).基于灰色理論預(yù)測(cè)2016年夏季奧運(yùn)會(huì)金牌榜次序[J].中國(guó)科技信息,2013(9).
[5]毛健,趙紅東,姚婧婧.人工神經(jīng)網(wǎng)絡(luò)的發(fā)展及應(yīng)用[J].電子設(shè)計(jì)工程,2011,(24).
G80
A
1006-8902-(2017)-12-ZL