999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)算法的足球世界杯冠軍預(yù)測(cè)模型研究

2019-01-06 02:19:22鄒燕飛劉淑英錢紅琳
中國科技縱橫 2019年22期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

鄒燕飛 劉淑英 錢紅琳

摘 要:本文將機(jī)器學(xué)習(xí)的思想應(yīng)用到足球世界杯冠軍預(yù)測(cè)領(lǐng)域,選用近年來的足球世界杯小組賽數(shù)據(jù)作為實(shí)驗(yàn)樣本,對(duì)樣本進(jìn)行預(yù)處理后分為訓(xùn)練樣本和測(cè)試樣本,采用機(jī)器學(xué)習(xí)的監(jiān)督學(xué)習(xí)算法,先對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí),然后利用學(xué)習(xí)到的分類器對(duì)測(cè)試樣本進(jìn)行分類。

關(guān)鍵詞:機(jī)器學(xué)習(xí);特征分類;logistic算法;足球世界杯

中圖分類號(hào):TP391.9 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2019)22-0024-02

0 引言

本文主要是構(gòu)建2018年足球世界杯比賽預(yù)測(cè)的模型,預(yù)測(cè)關(guān)于整個(gè)世界杯比賽的小組賽結(jié)果,分別為模擬四分之一決賽、半決賽以及決賽。該模型的建立主要可分為四步,即數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型測(cè)試。

本模型使用的樣本數(shù)據(jù)截取自1930年第一屆以來入圍2018俄羅斯世界杯小組賽的球隊(duì)信息,將近40000行。該模型采用百分之八十的訓(xùn)練集,百分之二十的測(cè)試機(jī)來進(jìn)行模型訓(xùn)練。模型具體實(shí)現(xiàn)分為五個(gè)步驟,分別是獲取數(shù)據(jù)、預(yù)處理、獲取模型、模型訓(xùn)練及測(cè)試。下面來詳細(xì)介紹每個(gè)步驟的實(shí)現(xiàn)。

1 模型實(shí)現(xiàn)

1.1 獲取數(shù)據(jù)

我們通過pandas.read_csv函數(shù)實(shí)現(xiàn)我們所需數(shù)據(jù)的讀入,讀取方式見以下代碼,其中'C:/Users/Administrator/Desktop/FIFA/datasets/World Cup 2018 Dataset.csv'表示文件所在路徑,world_cup表示參加世界杯球隊(duì)的信息,results表示1872年到2018年足球比賽的結(jié)果通過pandas的read_csv()函數(shù)來加載數(shù)據(jù)集,返回DataFrame,它是二位標(biāo)記數(shù)據(jù)結(jié)構(gòu),列可以是不同的數(shù)據(jù)類型,是最常用的pandas對(duì)象。

1.2 數(shù)據(jù)預(yù)處理

為了使預(yù)測(cè)的結(jié)果盡可能的準(zhǔn)確,我們對(duì)加載的數(shù)據(jù)進(jìn)行處理,通過主場(chǎng)和客場(chǎng)的勝球數(shù)相減得到目標(biāo)差異和贏的隊(duì)伍。所以我們?cè)诮Y(jié)果數(shù)據(jù)集中添加兩個(gè)特征:平局和勝利、凈勝球數(shù)(目標(biāo)差異)。

1.3 特征提取

數(shù)據(jù)非常龐大,我們做一個(gè)數(shù)據(jù)子集,僅包含尼日利亞的比賽,先注目在一個(gè)球隊(duì)上發(fā)現(xiàn)哪些特征對(duì)一個(gè)國家有效,然后推廣到所有參與世界杯的所有國家。我們可以利用seaborn來畫圖,seaborn是對(duì)matplotlib更高級(jí)的封裝。代碼如下:

import matplotlib.pyplot as plt

import seaborn as sns

fig, ax = plt.subplots(1)

fig.set_size_inches(10.7, 6.27)

sns.set(style='darkgrid')

sns.countplot(x='Nigeria_Results', data=winsdf)

1.4 獲取模型及訓(xùn)練

經(jīng)過特征提取,發(fā)現(xiàn)比賽發(fā)生在哪個(gè)場(chǎng)館,并沒有對(duì)結(jié)構(gòu)有重大影響。所以縮小數(shù)據(jù)集,僅保留參賽隊(duì)。

df_teams_home = results[results['home_team'].isin(worldcup_teams)]

df_teams_away = results[results['away_team'].isin(worldcup_teams)]

df_teams = pd.concat((df_teams_home, df_teams_ away))

df_teams.drop_duplicates()

year = []

for row in df_teams['date']:

year.append(int(row[:4]))

df_teams['match_year'] = year

df_teams_1930 = df_teams[df_teams.match_year >= 1930]

df_teams_1930 = df_teams.drop(['date', 'home_score','away_score','tournament','city', 'country','goal_difference','match_year',axis=1)

用isin函數(shù)判斷這個(gè)隊(duì)伍是否是參加世界杯的隊(duì)伍。鎖定參加世界杯的隊(duì)伍,用concat重新整合我們的結(jié)果集表格,整合之后可能含有重復(fù)的隊(duì)伍,我們需要用drop_ duplicates()函數(shù)去掉重復(fù)的隊(duì)伍。用int(row[:4])把字符串前四個(gè)轉(zhuǎn)化成int型,和1930比較,篩選出1930年之后的隊(duì)伍。屬性特征過多,會(huì)造成維數(shù)災(zāi)難問題,所以就需要去掉這些不相關(guān)特征,降低學(xué)習(xí)任務(wù)的難度。通過drop函數(shù)去掉1930年之前的比賽和不會(huì)影響到比賽結(jié)果的數(shù)據(jù)列,例如日期、主場(chǎng)進(jìn)球數(shù)、客場(chǎng)進(jìn)球數(shù)、錦標(biāo)賽、城市、國家、目標(biāo)差異和比賽年份。

為了簡化模型的處理,我們修改一下預(yù)測(cè)標(biāo)簽。代碼如下所示。

df_teams_1930 = df_teams_1930.reset_index(drop= True)

df_teams_1930.loc[df_teams_1930.winning_ team==df_teams_1930.home_team,'winning_t-eam']=2

df_teams_1930.loc[df_teams_1930.winning_team == 'Draw','winning_team']=1

df_teams_1930.loc[df_teams_1930.winning_team= =df_teams_1930.away_team,'winning_t-eam']=0

用drop_index(drop=True)來改變index下標(biāo),因?yàn)槲覀僿inning_team這列都是字符,我們要把字符轉(zhuǎn)化成數(shù)字。如果主場(chǎng)隊(duì)伍獲勝,那么獲勝隊(duì)伍則顯示“2”,如果平局則顯示“1”,如果是客場(chǎng)隊(duì)伍獲勝則顯示“0”。

通過設(shè)置啞變量,將主場(chǎng)隊(duì)伍和客場(chǎng)隊(duì)伍從分類變量轉(zhuǎn)換成連續(xù)變量。這時(shí)就要運(yùn)用get_dummies()函數(shù),這個(gè)函數(shù)它可以實(shí)現(xiàn)一種獨(dú)特的pandas編碼方式,它會(huì)將擁有不同值的變量轉(zhuǎn)換成一位有效值,以便將它們加載到Scikit-learn模型中。將使用邏輯回歸,因?yàn)檫壿嫽貧w可以針對(duì)一組可以影響到結(jié)果的既定數(shù)據(jù)集嘗試預(yù)測(cè)結(jié)果輸贏。一次輸入一場(chǎng)比賽到算法中。然后模型就會(huì)學(xué)習(xí)輸入的每條數(shù)據(jù)對(duì)比賽結(jié)果產(chǎn)生了積極的效果還是消極的效果,以及影響的程度。經(jīng)過充分的(好)數(shù)據(jù)的訓(xùn)練后,就可以得到能夠預(yù)測(cè)未來結(jié)果的模型。第一步導(dǎo)入模型,調(diào)用邏輯回歸LogisticRegression()函數(shù)。第二步Fit()訓(xùn)練,調(diào)用fit(x,y)的方法來訓(xùn)練模型,其中x為數(shù)據(jù)的屬性,y為所屬類型接下來,我們將數(shù)據(jù)按照80%的訓(xùn)練數(shù)據(jù)集和20%的測(cè)試數(shù)據(jù)集分成X集和Y集進(jìn)行學(xué)習(xí)和交叉驗(yàn)證,第三步predict()預(yù)測(cè)。利用訓(xùn)練得到的模型對(duì)數(shù)據(jù)集進(jìn)行預(yù)測(cè),返回預(yù)測(cè)結(jié)果。

利用訓(xùn)練得到的模型對(duì)數(shù)據(jù)集進(jìn)行預(yù)測(cè),返回預(yù)測(cè)結(jié)果。具體實(shí)現(xiàn)代碼如下。

final=pd.get_dummies(df_teams_1930,prefix=['home_team','way_team'],columns=['home_team', 'away_team'])

X = final.drop(['winning_team'], axis=1)

y = final["winning_team"]

y = y.astype('int')

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.80, random_state=42)

logreg = LogisticRegression()

logreg.fit(X_train, y_train)

score = logreg.score(X_train, y_train)

score2 = logreg.score(X_test, y_test)

print("訓(xùn)練集結(jié)果: ", '%.3f'%(score))

print("測(cè)試集結(jié)果: ", '%.3f'%(score2))

我們將這些數(shù)據(jù)傳遞到算法中,我們的訓(xùn)練集結(jié)果是55.4%,測(cè)試集結(jié)果是53.8%,說明我們這個(gè)模型可行。

1.5 模型測(cè)試

這里我們獲取2018的國際足球聯(lián)盟排名數(shù)據(jù)fifa_ rankings.csv,和2018世界杯參賽隊(duì)伍信息fixtures.csv。在此數(shù)據(jù)上應(yīng)用我們的訓(xùn)練模型。

2 比賽結(jié)果及分析

根據(jù)所構(gòu)建的模型,應(yīng)用到小組賽檢測(cè)中,檢測(cè)每一場(chǎng)比賽的輸贏概率。通過選擇贏的隊(duì)伍作為比賽勝利一方對(duì)小組賽出現(xiàn)隊(duì)伍進(jìn)行預(yù)測(cè)。預(yù)測(cè)小組出線16支隊(duì)伍為:烏拉圭、葡萄牙、法國、克羅地亞、巴西、墨西哥、英格蘭、哥倫比亞、西班牙、俄羅斯、阿根廷、秘魯、德國、瑞士、波蘭、比利時(shí),其中13支隊(duì)伍出線進(jìn)入16強(qiáng)。預(yù)測(cè)的準(zhǔn)確率是81.2%。這樣看來16強(qiáng)預(yù)測(cè)效果還是很不錯(cuò)的。

3 結(jié)語

算法還有些待改進(jìn)優(yōu)化的地方。一是因?yàn)樽闱虿淮_定因素太多,如果僅根據(jù)往年輸贏來判斷的話,結(jié)果可能有些差異,所以可以通過國際足球聯(lián)盟比賽的數(shù)據(jù)來評(píng)估出關(guān)于每一個(gè)球員的水平,根據(jù)球員的水平作為參考。二是利用混淆矩陣,混淆矩陣是分析模型好壞的,它可以幫我們分析出模型預(yù)測(cè)中哪些有誤。三是為了提高模型預(yù)測(cè)的準(zhǔn)確度,可以將多個(gè)模型組合在一起。

參考文獻(xiàn)

[1] 戴維.邏輯回歸解決文本分類問題[J].通訊世界,2018,25(08):266-267.

[2] 吳曉杰.基于多情境數(shù)據(jù)和半監(jiān)督代價(jià)敏感模型的場(chǎng)所個(gè)性化語義識(shí)別[D].杭州:浙江大學(xué),2017.

[3] 黃輝.基于ReliefF的多標(biāo)簽特征選擇算法研究[D].廣州:廣東工業(yè)大學(xué),2018.

[4] 趙琰.第31屆奧運(yùn)會(huì)女子足球比賽攻守轉(zhuǎn)換特征分析[D].新鄉(xiāng):河南師范大學(xué),2018.

Soccer World Cup Champion Prediction Based on Machine Learning Algorithm Model research

ZOU Yan-fei,LIU Shu-ying,QIAN Hong-lin

(Computer College of Xianyang Normal University,Xianyang ?Shaanxi ?712000)

Abstract:In this paper,the idea of machine learning is applied to the prediction field of football World Cup champions. The data of recent football World Cup group matches are selected as experimental samples. After preprocessing, the samples are divided into training samples and test samples. The supervised learning algorithm of machine learning is used to learn the training samples first,and then the test samples are classified by the learned classifier.

Key words:Machine learning; Feature classification; Logistic algorithm; Football World Cup

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 五月婷婷综合网| 91久久大香线蕉| 中国国语毛片免费观看视频| 国产精品久久久久久久久kt| 22sihu国产精品视频影视资讯| 色国产视频| 日韩一区精品视频一区二区| 日韩欧美中文字幕在线韩免费| 又粗又硬又大又爽免费视频播放| 99国产精品国产| 欧美色综合网站| 国产免费福利网站| 欧美h在线观看| 亚洲成A人V欧美综合天堂| 九九精品在线观看| 日韩毛片在线播放| 波多野结衣无码AV在线| 深夜福利视频一区二区| 色播五月婷婷| 国产真实乱子伦视频播放| 亚洲无码日韩一区| 熟妇无码人妻| 操操操综合网| 精品国产aⅴ一区二区三区| 亚洲精品777| 77777亚洲午夜久久多人| 萌白酱国产一区二区| 欧美成人精品一级在线观看| 青草精品视频| 波多野结衣爽到高潮漏水大喷| 好紧太爽了视频免费无码| 亚洲制服丝袜第一页| 精品無碼一區在線觀看 | 国内黄色精品| 婷婷六月综合| 国产亚洲男人的天堂在线观看| 中文字幕无码av专区久久| 97国产在线视频| 国产欧美日韩专区发布| 国产99在线| 欧美色伊人| 欧美中出一区二区| 无码'专区第一页| 国产主播在线观看| 亚洲日韩图片专区第1页| 欧美精品三级在线| 99国产精品国产高清一区二区| 伊人久久大香线蕉影院| 欧美日韩成人在线观看| 亚洲免费福利视频| 不卡的在线视频免费观看| 欧美三级视频网站| 国产区精品高清在线观看| 国产女人喷水视频| 久久精品国产电影| 久久精品视频亚洲| 久久久无码人妻精品无码| 国产福利小视频在线播放观看| 亚洲第一页在线观看| 国产在线一二三区| 国产v精品成人免费视频71pao| 欧美伦理一区| 国产杨幂丝袜av在线播放| 精品视频免费在线| 午夜限制老子影院888| 亚洲三级色| 五月天久久婷婷| 日本在线欧美在线| 国产精品天干天干在线观看 | 国产一区二区三区精品欧美日韩| 欧美精品啪啪| 热这里只有精品国产热门精品| 色男人的天堂久久综合| 国产区成人精品视频| 日本中文字幕久久网站| 91色国产在线| 国产成人午夜福利免费无码r| 欧美另类精品一区二区三区| 呦系列视频一区二区三区| 欧美日韩国产高清一区二区三区| 色有码无码视频| 日韩视频福利|